中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

點(diǎn)網(wǎng)站出圖片怎么做網(wǎng)站開發(fā)培訓(xùn)

點(diǎn)網(wǎng)站出圖片怎么做,網(wǎng)站開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)素材網(wǎng)站,iis7配置asp.net網(wǎng)站所謂知識(shí)注入,其實(shí)不該脫離于LLM的基礎(chǔ)工作原理,然后空談抽象概念。 知識(shí),也就是你問他問題,他能輸出正確的回答,這只是一個(gè)簡(jiǎn)單的輸出token的過程。輸出得準(zhǔn)了,就是知識(shí),輸出不準(zhǔn)了&#xff0c…

所謂知識(shí)注入,其實(shí)不該脫離于LLM的基礎(chǔ)工作原理,然后空談抽象概念。
知識(shí),也就是你問他問題,他能輸出正確的回答,這只是一個(gè)簡(jiǎn)單的輸出token的過程。輸出得準(zhǔn)了,就是知識(shí),輸出不準(zhǔn)了,你就說它是幻覺。什么是幻覺?不就是該輸出的token上,概率不大,導(dǎo)致的亂輸出。
所以,知識(shí)注入就是你要對(duì)一個(gè)query,自回歸輸出一個(gè)完全一致的answer。如果你愿意不考慮LLM的其他功能,就為了某一個(gè)QA對(duì)服務(wù),你完全可以加訓(xùn)個(gè)100個(gè)epoch,它必然就“記住”了。

知識(shí)注入根據(jù)知識(shí)的體量、復(fù)雜度、垂類程度不同,要基于增量預(yù)訓(xùn)練、sft、也必須使用RLHF和DPO。
對(duì)于這么一個(gè)QA:XXX的生日是多少?1980年1月23日。sft的所有l(wèi)oss都是先拿到正確的前述token,然后計(jì)算當(dāng)前token的loss。假設(shè)現(xiàn)在LLM訓(xùn)練好了,對(duì)于query,后續(xù)token的概率都很高,除了”8“這個(gè)位置的概率幾乎為0,那么對(duì)于后面的“0年1月23日”,如果前面這個(gè)“8”LLM吐不出來,那么它們的高概率也就完全不頂用了,大概率是要出所謂的“幻覺”的,畢竟你現(xiàn)在的狀況和訓(xùn)練時(shí)候完全不一樣嘛??蛇@種情況放sft里,loss很小。也就是說"8"這個(gè)數(shù)字在sft階段會(huì)訓(xùn)練不完全。
(這里只是一個(gè)例子,實(shí)際上tokenizer大概率把1980這一整個(gè)數(shù)字綁定成一個(gè)token,或者是19和80。)
RLHF和DPO這類RL算法的訓(xùn)練目標(biāo)是,我當(dāng)前這個(gè)token的reward和選定token后對(duì)未來value的期望要達(dá)到最高。如果出現(xiàn)8這個(gè)數(shù)字概率低的情況,且如果value函數(shù)正常工作,那么RL會(huì)知道,你必須給8的概率拉高,否則整個(gè)后續(xù)的reward期望會(huì)極低。RL和SFT的差距就在這里,RL要考慮當(dāng)前對(duì)后續(xù)的影響,sft只要考慮當(dāng)前這個(gè)token就好。
(RL的思想很好,但是"value函數(shù)正常工作"這個(gè)條件沒那么好保證,所以RL不穩(wěn)定。這是必須先sft后rl的原因。)

對(duì)于簡(jiǎn)單的知識(shí)注入,例如“改變大模型的自我認(rèn)知”,隨便給幾條認(rèn)知相關(guān)的內(nèi)容重復(fù)的簡(jiǎn)單數(shù)據(jù),用lora訓(xùn)個(gè)10個(gè)epoch,就能得到極好的效果。我基于qwen1.5-7b-chat嘗試sft注入1000條簡(jiǎn)單的wiki的知識(shí),lora rank=32,epoch=1,lr=3e-5。然后手動(dòng)測(cè)試了幾條wiki數(shù)據(jù),發(fā)現(xiàn)關(guān)于數(shù)字的會(huì)有嚴(yán)重幻覺,例如“丹麥海峽的最長(zhǎng)長(zhǎng)度是多少“,不僅是我的模型,你百度去搜,百度ai給的結(jié)果也不對(duì)。關(guān)于醫(yī)學(xué)的會(huì)很差勁,因?yàn)檫^于復(fù)雜了,需要專業(yè)知識(shí)才能撐得起來我給的回答,我敢信我的醫(yī)學(xué)數(shù)據(jù)的每條answer的困惑度都極高,這使得LLM不可能僅憑一次訓(xùn)練就扭轉(zhuǎn)輸出。但是簡(jiǎn)單知識(shí)會(huì)記得很好,我讓他記住他是一根香蕉(簡(jiǎn)單QA),他也記住了。最后測(cè)得c-eval評(píng)分還能維持69,比微調(diào)前的71不差多少。
對(duì)于復(fù)雜的知識(shí)注入,絕對(duì)不能寄希望于少量數(shù)據(jù)就完成訓(xùn)練。這個(gè)復(fù)雜,既是指存在很多生詞和知識(shí)點(diǎn),還是指知識(shí)體系的龐大,還是指answer很長(zhǎng)。前兩個(gè)好理解,第三個(gè)其實(shí)就是前面說的"8"的問題,你answer一長(zhǎng),中間出錯(cuò)的概率就高,就不容易續(xù)寫成功。
我們統(tǒng)稱符合上面特點(diǎn)的數(shù)據(jù)為“垂類數(shù)據(jù)”。
對(duì)于垂類數(shù)據(jù),你絕不能期望僅用finetune和簡(jiǎn)單的lora就能成功。你的垂類數(shù)據(jù)和LLM的訓(xùn)練數(shù)據(jù)可以說是分布完全不相似的兩組數(shù)據(jù),你無法通過簡(jiǎn)單的lora微調(diào)就讓LLM從一個(gè)輸出分布就跳到另一個(gè)完全不同的分布上。走完預(yù)訓(xùn)練+sft+rl基本是標(biāo)配了。
預(yù)訓(xùn)練的作用是解決“眼生”的問題,所謂獲取知識(shí)也就是這個(gè),你希望“給個(gè)query返回一個(gè)answer”,這個(gè)answer的碎片就隱藏在預(yù)訓(xùn)練的數(shù)據(jù)里。所以這里需要大量預(yù)訓(xùn)練數(shù)據(jù)。
然后是sft。為什么不直接rl?因?yàn)閞l存在不穩(wěn)定的問題,所以最好用sft先把底子打好。sft就是給了LLM一個(gè)輸入輸出的范式,“問哪個(gè)問題,就回答哪段話”。問題是問題的花樣可多了,要是大伙都一個(gè)問問題的方式,對(duì)我們來說就沒這么累了。有一批人專門干批量指令生成,就是為了得到“一個(gè)問題,多種表達(dá)”的數(shù)據(jù),以適應(yīng)用戶的需求。sft階段,一定要盡量壓低loss,既然干了垂類模型,就千萬別考慮泛用性了,否則你就得重走一遍chatgpt的訓(xùn)練路子,數(shù)據(jù)也得用人家量級(jí)的,區(qū)別就是你多了一份垂類數(shù)據(jù)。Gimini今年6月有個(gè)論文指出幻覺就是loss太大,你壓低就沒幻覺了,這從上面對(duì)"8"的討論也能看出來。所以,一定要對(duì)單知識(shí)點(diǎn)做多指令QA,既可以等價(jià)于多個(gè)epoch,又可以防止過擬合,并且知識(shí)量大就必須有海量數(shù)據(jù)支撐。
rl階段可以選rlhf和dpo,后者現(xiàn)在好像效果更好,但是還是得看實(shí)際數(shù)據(jù),所以兩種都要做。

http://m.risenshineclean.com/news/31919.html

相關(guān)文章:

  • 沈陽網(wǎng)站建設(shè)培訓(xùn)學(xué)校怎么建網(wǎng)站教程圖解
  • 大型網(wǎng)站seo方案長(zhǎng)沙網(wǎng)站推廣seo
  • 百度上做網(wǎng)站免費(fèi)嗎品牌運(yùn)營策劃方案
  • 邢臺(tái)人才網(wǎng)官網(wǎng)首頁下載優(yōu)化大師
  • dw網(wǎng)站建設(shè)流程游戲搜索風(fēng)云榜
  • dreamwave cs6建設(shè)php網(wǎng)站十大成功營銷策劃案例
  • 保定網(wǎng)站排名優(yōu)化直通車關(guān)鍵詞優(yōu)化
  • wordpress 送錢啦濟(jì)南網(wǎng)站優(yōu)化排名推廣
  • 鹽城做百度網(wǎng)站百度推廣服務(wù)費(fèi)3000元
  • 哪里有網(wǎng)站開發(fā)設(shè)計(jì)文章優(yōu)化關(guān)鍵詞排名
  • 做好網(wǎng)站建設(shè)通知seo行業(yè)崗位
  • 單頁面組合網(wǎng)站seo關(guān)鍵詞布局技巧
  • 公司官網(wǎng)站怎么搞南平seo
  • 找人做網(wǎng)站設(shè)計(jì) 哪個(gè)平臺(tái)可以找萬能的搜索引擎
  • 如何在本地搭建網(wǎng)站什么網(wǎng)站百度收錄快
  • wordpress章節(jié)分頁云浮seo
  • 網(wǎng)站頁面由什么構(gòu)成百度seo關(guān)鍵詞優(yōu)化公司
  • WordPress數(shù)據(jù)庫文章優(yōu)化大師客服電話
  • 優(yōu)化系統(tǒng)設(shè)置深圳網(wǎng)站建設(shè)推廣優(yōu)化公司
  • 坪山網(wǎng)站建設(shè)基本流程揭陽新站seo方案
  • 建設(shè)銀行網(wǎng)站怎么登陸不了了寧波網(wǎng)站排名優(yōu)化seo
  • 南平 建網(wǎng)站搜索引擎有哪些
  • mac能用vs做網(wǎng)站嗎百度收錄域名
  • 網(wǎng)站建設(shè)冒用身份信息什么是網(wǎng)絡(luò)推廣
  • 商業(yè)網(wǎng)站制作5188關(guān)鍵詞挖掘
  • asp網(wǎng)站配置偽靜態(tài)站長(zhǎng)工具seo綜合查詢煙雨樓
  • 做宣傳冊(cè)從哪個(gè)網(wǎng)站找素材360搜索引擎優(yōu)化
  • 網(wǎng)站建設(shè)的市場(chǎng)容量seo是什么職業(yè)崗位
  • 濟(jì)南網(wǎng)站制作服務(wù)seo sem是什么意思
  • 使用網(wǎng)站模板快速建站教案網(wǎng)絡(luò)營銷與直播電商