中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

網(wǎng)站欄目頁如何做網(wǎng)絡(luò)推廣平臺公司

網(wǎng)站欄目頁如何做,網(wǎng)絡(luò)推廣平臺公司,西安網(wǎng)站關(guān)鍵詞優(yōu)化,做購物網(wǎng)站哪家公司好你好,我是 shengjk1,多年大廠經(jīng)驗,努力構(gòu)建 通俗易懂的、好玩的編程語言教程。 歡迎關(guān)注!你會有如下收益: 了解大廠經(jīng)驗擁有和大廠相匹配的技術(shù)等 希望看什么,評論或者私信告訴我! 文章目錄 一…

你好,我是 shengjk1,多年大廠經(jīng)驗,努力構(gòu)建 通俗易懂的、好玩的編程語言教程。 歡迎關(guān)注!你會有如下收益:

  1. 了解大廠經(jīng)驗
  2. 擁有和大廠相匹配的技術(shù)等

希望看什么,評論或者私信告訴我!

文章目錄

  • 一、背景
  • 二、NL2SQL 的實現(xiàn)方式
    • 2.1 Vanna
    • 2.2 DAIL-SQL
    • 2.3 其他的實現(xiàn)方式
    • 2.4 總結(jié)
  • 三、實現(xiàn)樣例
  • 四、 text2sql 測試集介紹
    • 4.1. **WikiSQL**
    • 4.2. **Spider**
    • 4.3. **BIRD**
  • 五、EM 和 EX 介紹
  • 七、總結(jié)


一、背景

關(guān)注 NL2SQL 也有一段時間了,剛好公司最近也要做 NL2SQL,我也剛好看了幾個 NL2SQL 的開源項目以及 論文,所以現(xiàn)在總結(jié)一下。

二、NL2SQL 的實現(xiàn)方式

2.1 Vanna

先說一下目前比較火的開源項目 Vanna 的實現(xiàn)方式:RAG + LLM
這是它的整體架構(gòu)和實現(xiàn)方式:
在這里插入圖片描述我也翻了一下它的源碼,它內(nèi)部實現(xiàn)特別暴力,通過用戶的 question,將 schemal、doc 以及 sql 全部查出來,拼接 prompt 然后給大模型。

這是 vanna 源碼的生成 sql 的邏輯

 Uses the LLM to generate a SQL query that answers a question. It runs the following methods:- [`get_similar_question_sql`][vanna.base.base.VannaBase.get_similar_question_sql]- [`get_related_ddl`][vanna.base.base.VannaBase.get_related_ddl]- [`get_related_documentation`][vanna.base.base.VannaBase.get_related_documentation]- [`get_sql_prompt`][vanna.base.base.VannaBase.get_sql_prompt]- [`submit_prompt`][vanna.base.base.VannaBase.submit_prompt]

我自己基于 muilt-agent 開發(fā)了類似的功能,few-shot 的正確率確實要高一些

2.2 DAIL-SQL

DaIL-SQL 曾經(jīng)的王者,在 Spider EX 正確率 86.6 %,我讀了它的論文 ,它的核心在于 prompt :在 schemal 上增加了 相似問題和對應(yīng)SQL,從而提高正確性
在這里插入圖片描述

2.3 其他的實現(xiàn)方式

目前這一塊在學(xué)術(shù)界不斷的創(chuàng)新,每隔一段時間就會有新的方式出來來刷新之前的最好成績,感興趣的可以看一下 Awesome-Text2SQL

2.4 總結(jié)

目前我了解到的所有的實現(xiàn)方式都逃不過:RAG +LLM,目前可以優(yōu)化的點無非就是

  1. RAG 想辦法提高 RAG 數(shù)據(jù)的正確率
  2. 元數(shù)據(jù),元數(shù)據(jù)有問題,RAG的正確率再高也無濟(jì)于事
  3. prompt,通過優(yōu)化 prompt,比如 MCS-SQL 利用多個提示和多項選擇來生成文本到 SQL
  4. LLM 目前的初步結(jié)論是參數(shù)越多效果越好

三、實現(xiàn)樣例

有一個張 a

CREATE TABLE aa (`all_dau` BIGINT COMMENT 'DAU',`long_dau` BIGINT COMMENT '長DAU',`short_dau` BIGINT COMMENT '短DAU',`date` INT COMMENT '分區(qū)')
PARTITIONED BY (date)

我現(xiàn)在要查詢表 a 最近 7 天 長DAU 和是多少? 應(yīng)該怎么做。

  1. 將 表 a 相關(guān)的元數(shù)據(jù),本例子就是 DDL 寫入到向量數(shù)據(jù)庫
  2. 根據(jù)用戶提問查詢 RAG 得到表 a 相關(guān)的信息
  3. 拼接 prompt
  4. 發(fā)給大模型

比如,拼接 prompt 為

CREATE TABLE aa (`all_dau` BIGINT COMMENT 'DAU',`long_dau` BIGINT COMMENT '長DAU',`short_dau` BIGINT COMMENT '短DAU',`date` INT COMMENT '分區(qū)')
PARTITIONED BY (date)要查詢表 a 最近 7 天 長DAU 和是多少?返回對應(yīng)的SQL

發(fā)給大模型,大模型返回結(jié)果為

要查詢表 `aa` 中最近 7 天的長 DAU (`long_dau`) 數(shù)量,您可以使用以下的 SQL 查詢語句,假設(shè) `date` 列存儲的是日期的整數(shù)表示(例如 UNIX 時間戳或特定的日期編碼):```sql
SELECT SUM(long_dau) AS total_long_dau
FROM aa
WHERE date >= CURDATE() - INTERVAL 7 DAY;

這里,我們使用了 SUM 函數(shù)來計算 long_dau 的總和,并且使用 WHERE 子句來過濾出最近 7 天的數(shù)據(jù)。CURDATE() 函數(shù)返回當(dāng)前日期,然后通過 INTERVAL 7 DAY 添加 7 天的間隔,然后使用 - 操作符來得到 7 天前的日期。這樣,您就可以得到最近 7 天的長 DAU 的總和。

四、 text2sql 測試集介紹

是的,WikiSQL、Spider 和 BIRD 是常用的 Text-to-SQL 測試集,它們用于評估模型在自然語言查詢到結(jié)構(gòu)化查詢語言(SQL)轉(zhuǎn)換方面的能力。以下是它們的簡要介紹:

4.1. WikiSQL

  • 概述

    • WikiSQL 是一個大規(guī)模的 Text-to-SQL 數(shù)據(jù)集,包含了由自然語言查詢生成的 SQL 查詢。數(shù)據(jù)集來自維基百科中的表格。
  • 特點

    • 包含 80,000 條自然語言查詢和相應(yīng)的 SQL 查詢。用戶可以通過簡單地詢問表格中的信息來生成 SQL。
    • 確保多樣性,通過多種問題類型測試模型的靈活性。

4.2. Spider

  • 概述

    • Spider 是一個大規(guī)模的、跨數(shù)據(jù)庫的 Text-to-SQL 數(shù)據(jù)集,旨在測試模型在不同數(shù)據(jù)庫架構(gòu)下的泛化能力。
  • 特點

    • 包含 10,000 多個自然語言查詢與 SQL 查詢配對,涉及 200 多種不同的數(shù)據(jù)庫結(jié)構(gòu)。
    • 支持復(fù)雜的 SQL 查詢,如嵌套查詢和聯(lián)合查詢。
    • 設(shè)計以提高模型的實際應(yīng)用能力,更接近真實世界的使用場景。

4.3. BIRD

  • 概述

    • BIRD 是一個專注于信息抽取的 Text-to-SQL 數(shù)據(jù)集,主要來源于真實的數(shù)據(jù)庫和自然語言問題。
  • 特點

    • 旨在評估模型的魯棒性,特別是在面對模糊或含糊的問題時。
    • 提供多樣化的問題類型和復(fù)雜的 SQL 邏輯,挑戰(zhàn)模型的理解和推理能力。

這些測試集為評估和推動 Text-to-SQL 模型的發(fā)展提供了標(biāo)準(zhǔn)化的基準(zhǔn),幫助研究人員在自然語言理解和數(shù)據(jù)庫查詢方面進(jìn)行有效比較。通過這些挑戰(zhàn),模型能夠逐步提高在實際應(yīng)用中的準(zhǔn)確性和效率。

五、EM 和 EX 介紹

這里以 Spider Exact Match (EM) 和 Spider Exact Execution (EX) 為例介紹:
在 Text-to-SQL 測試集領(lǐng)域,Spider Exact Match (EM) 和 Spider Exact Execution (EX) 是兩種評估模型性能的指標(biāo),它們都與 Spider 數(shù)據(jù)集相關(guān),但評估的側(cè)重點有所不同。

聯(lián)系:

兩者都是用來評估 Text-to-SQL 模型性能的指標(biāo)。它們都需要模型根據(jù)輸入的文本描述生成相應(yīng)的 SQL 查詢語句。這兩個指標(biāo)都是在 Spider 數(shù)據(jù)集上使用的,關(guān)注模型的查詢生成能力與真實數(shù)據(jù)庫執(zhí)行結(jié)果的一致性。

區(qū)別:

  1. Spider Exact Match (EM):主要關(guān)注生成的 SQL 查詢是否與數(shù)據(jù)集中提供的標(biāo)準(zhǔn)查詢語句完全匹配。它評估模型是否能夠準(zhǔn)確生成與參考查詢語句結(jié)構(gòu)、語法和語義完全一致的 SQL 代碼。如果生成的 SQL 查詢與參考查詢完全一致,則被認(rèn)為是正確的。這種評估更側(cè)重于模型的查詢生成能力。
  2. Spider Exact Execution (EX):更關(guān)注生成的 SQL 查詢在實際數(shù)據(jù)庫上的執(zhí)行結(jié)果是否與預(yù)期結(jié)果一致。它不僅檢查查詢語句的語法和結(jié)構(gòu),還檢查查詢的執(zhí)行結(jié)果是否正確。這意味著模型不僅要生成結(jié)構(gòu)正確的查詢語句,還要保證這些查詢能夠在數(shù)據(jù)庫上返回正確的結(jié)果。這種評估方式更全面地考慮了模型的性能,包括查詢生成能力和數(shù)據(jù)庫執(zhí)行能力。

簡而言之,EM 主要關(guān)注查詢語句本身的準(zhǔn)確性,而 EX 則更關(guān)注查詢在實際數(shù)據(jù)庫上的執(zhí)行結(jié)果的準(zhǔn)確性。在實際應(yīng)用中,可以根據(jù)需求選擇合適的評估指標(biāo)。

七、總結(jié)

本文對Text2SQL的實現(xiàn)方式、測試集和評估指標(biāo)進(jìn)行了介紹和總結(jié),全面了解了Text2SQL技術(shù)的相關(guān)內(nèi)容,對于從事Text2SQL的研究者具有一定的參考意義。

http://m.risenshineclean.com/news/61765.html

相關(guān)文章:

  • 做網(wǎng)站平面模板是啥意思互動營銷案例分析
  • php網(wǎng)站開發(fā)實例教程簡介關(guān)鍵詞優(yōu)化怎么優(yōu)化
  • 在線安卓軟件開發(fā)優(yōu)化大師官網(wǎng)下載
  • 做優(yōu)化很好的網(wǎng)站常德政府網(wǎng)站市民留言
  • 深圳做網(wǎng)站的給說各種網(wǎng)站
  • 寧波網(wǎng)站優(yōu)化軟件網(wǎng)絡(luò)推廣seo怎么做
  • 網(wǎng)站程序是如何開發(fā)的百度搜索引擎優(yōu)化
  • 做的網(wǎng)站怎樣更新百度競價點擊一次多少錢
  • 福建設(shè)備公司網(wǎng)站百度24小時人工電話
  • 網(wǎng)站軟文偽原創(chuàng)企業(yè)營銷策略有哪些
  • 東莞網(wǎng)上商城網(wǎng)站建設(shè)南京seo公司
  • 河南省建設(shè)人才信息網(wǎng)官網(wǎng)自助優(yōu)化排名工具
  • 編程軟件自學(xué)網(wǎng)百度關(guān)鍵詞自然排名優(yōu)化公司
  • 東莞網(wǎng)站建設(shè)是什么意思西安seo培訓(xùn)學(xué)校
  • 設(shè)計相關(guān)網(wǎng)站武漢企業(yè)seo推廣
  • 網(wǎng)站建設(shè)編程語言常用的seo查詢工具有哪些
  • 做3d模型的叫什么牛的網(wǎng)站色盲眼中的世界
  • 用訂制音樂網(wǎng)站做的音樂算原創(chuàng)嗎百度關(guān)鍵詞優(yōu)化專家
  • 手機(jī)端網(wǎng)站制作seo推廣有哪些
  • 外管局網(wǎng)站做延期收匯報告推廣排名seo
  • 怎么樣自己做網(wǎng)站賺錢年入40萬百度推廣代理商加盟
  • wordpress includeseo網(wǎng)站分析
  • wordpress出現(xiàn)兩個首頁關(guān)鍵詞優(yōu)化的最佳方法
  • 佛山移動網(wǎng)站建設(shè)公司seo搜索優(yōu)化公司
  • 服務(wù)器在美國的網(wǎng)站seosem是指什么意思
  • 北京h5網(wǎng)站開發(fā)公司北京網(wǎng)站
  • 我?guī)驮p騙團(tuán)伙做詐騙網(wǎng)站獲利留電話的廣告網(wǎng)站
  • 武漢教育網(wǎng)站建設(shè)優(yōu)化發(fā)帖平臺
  • 網(wǎng)頁建設(shè)類有哪些軟件seo營銷
  • 織夢手機(jī)網(wǎng)站制作教程seo站長平臺