中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

寧波營(yíng)銷型網(wǎng)站建設(shè)可以發(fā)廣告的100個(gè)網(wǎng)站

寧波營(yíng)銷型網(wǎng)站建設(shè),可以發(fā)廣告的100個(gè)網(wǎng)站,寧遠(yuǎn)做網(wǎng)站,常州營(yíng)銷型網(wǎng)站建設(shè)前言 這是我的github上的一個(gè)介紹,關(guān)于如何訓(xùn)練中文版本的gpt2的。鏈接為: https://github.com/yuanzhoulvpi2017/zero_nlp 介紹 本文,將介紹如何使用中文語料,訓(xùn)練一個(gè)gpt2可以使用你自己的數(shù)據(jù)訓(xùn)練,用來:寫新聞、…

前言

  1. 這是我的github上的一個(gè)介紹,關(guān)于如何訓(xùn)練中文版本的gpt2的。
  2. 鏈接為: https://github.com/yuanzhoulvpi2017/zero_nlp

介紹

  1. 本文,將介紹如何使用中文語料,訓(xùn)練一個(gè)gpt2
  2. 可以使用你自己的數(shù)據(jù)訓(xùn)練,用來:寫新聞、寫古詩、寫對(duì)聯(lián)等
  3. 我這里也訓(xùn)練了一個(gè)中文gpt2模型,使用了612萬個(gè)樣本,每個(gè)樣本有512個(gè)tokens,總共相當(dāng)于大約31億個(gè)tokens

??安裝包

需要準(zhǔn)備好環(huán)境,也就是安裝需要的包

pip install -r requirements.txt

像是pytorch這種基礎(chǔ)的包肯定也是要安裝的,就不提了。

數(shù)據(jù)

數(shù)據(jù)來源

  1. 獲得數(shù)據(jù):數(shù)據(jù)鏈接,關(guān)注公眾號(hào)【統(tǒng)計(jì)學(xué)人】,然后回復(fù)【gpt2】即可獲得。
  2. 獲得我訓(xùn)練好的模型(使用了15GB的數(shù)據(jù)(31億個(gè)tokens),在一張3090上,訓(xùn)練了60多小時(shí))

數(shù)據(jù)格式

  1. 數(shù)據(jù)其實(shí)就是一系列文件夾📁,然后每一個(gè)文件夾里面有大量的文件,每一個(gè)文件都是.csv格式的文件。其中有一列數(shù)據(jù)是content
  2. 每一行的content就代表一句話,截圖如下
  3. 雖然數(shù)據(jù)有15GB那么大,但是處理起來一點(diǎn)也不復(fù)雜,使用 datasets
    包,可以很輕松的處理大數(shù)據(jù),而我只需要傳遞所有的文件路徑即可,這個(gè)使用 glob 包就能完成。

代碼

??訓(xùn)練代碼train_chinese_gpt2.ipynb

??注意

  1. 現(xiàn)在訓(xùn)練一個(gè)gpt2代碼,其實(shí)很簡(jiǎn)單的。拋開處理數(shù)據(jù)問題,技術(shù)上就三點(diǎn):tokenizergpt2_model、Trainer
  2. tokenizer使用的是bert-base-chinese
    ,然后再添加一下bos_tokeneos_token、pad_token。
  3. gpt2_model使用的是gpt2,這里的gpt2我是從0開始訓(xùn)練的。而不是使用別人的預(yù)訓(xùn)練的gpt2模型。
  4. Trainer訓(xùn)練器使用的就是transformersTrainer模塊。(支撐多卡并行,tensorboard等,都寫好的,直接調(diào)用就行了,非常好用)

📤推理代碼infer.ipynb

??注意

這個(gè)是chinese-gpt2的推理代碼

  1. 將代碼中的model_name_or_path = "checkpoint-36000"里面的"checkpoint-36000",修改為模型所在的路徑。
  2. 然后運(yùn)行下面一個(gè)代碼塊,即可輸出文本生成結(jié)果
  3. 可以參考這個(gè)代碼,制作一個(gè)api,或者打包成一個(gè)函數(shù)或者類。

🤖交互機(jī)器人界面chatbot.py

??注意

  1. 修改代碼里面的第4行,這一行值為模型所在的位置,修改為我分享的模型文件路徑。
model_name_or_path = "checkpoint-36000"
  1. 運(yùn)行
python chatbot.py
  1. 點(diǎn)擊鏈接,即可在瀏覽器中打開機(jī)器人對(duì)話界面

更多

  1. 這個(gè)完整的項(xiàng)目下來,其實(shí)我都是全靠huggingface文檔、教程度過來的.
  2. 我做的東西,也就是把Tokenizer改成中文的了,然后也整理了數(shù)據(jù),別的大部分東西,都不是我做的了.
  3. 原文鏈接為https://huggingface.co/course/zh-CN/chapter7/6?fw=pt.

一起學(xué)習(xí)

其實(shí),我更喜歡做應(yīng)用,但是也要理解相關(guān)的背后原理,目前還在研究相關(guān)的gpt2原理還有相關(guān)的推理細(xì)節(jié),這是我整理的鏈接,希望可以共同進(jìn)步

  1. https://huggingface.co/blog/how-to-generate
  2. https://huggingface.co/gpt2
  3. https://huggingface.co/gpt2-large
http://m.risenshineclean.com/news/58745.html

相關(guān)文章:

  • 做二手車廣告推廣哪家網(wǎng)站好突發(fā)大事震驚全國(guó)
  • 歐陽網(wǎng)站建設(shè)平臺(tái)推廣文案
  • 網(wǎng)站建設(shè) 預(yù)算谷歌瀏覽器下載官方正版
  • 大網(wǎng)站服務(wù)器維護(hù)費(fèi)用技能培訓(xùn)班
  • 廣州網(wǎng)站建設(shè)優(yōu)化中國(guó)輿情觀察網(wǎng)
  • 外貿(mào)網(wǎng)站模板 外貿(mào)網(wǎng)站制作游戲掛機(jī)賺錢一小時(shí)20
  • 建個(gè)網(wǎng)站多少費(fèi)用游戲代理推廣渠道
  • 網(wǎng)站的建設(shè)模式專業(yè)推廣引流團(tuán)隊(duì)
  • 做網(wǎng)站好平臺(tái)化百度網(wǎng)頁版主頁
  • 網(wǎng)頁動(dòng)畫制作軟件網(wǎng)站seo專員
  • 網(wǎng)站建設(shè)找金手指排名網(wǎng)站站點(diǎn)
  • 網(wǎng)頁設(shè)計(jì)與網(wǎng)站建設(shè)完全教程代做百度首頁排名價(jià)格
  • 四合一小說網(wǎng)站搭建教程seo網(wǎng)站seo
  • 什么是網(wǎng)絡(luò)設(shè)計(jì)制作360搜索引擎優(yōu)化
  • 網(wǎng)站建設(shè)的7個(gè)基本流程新網(wǎng)站seo
  • 什么網(wǎng)站可以自己做房子設(shè)計(jì)圖搜索關(guān)鍵詞排名
  • 網(wǎng)站怎么做的黑客入侵網(wǎng)課
  • web網(wǎng)站開發(fā)實(shí)訓(xùn)總結(jié)seo服務(wù)合同
  • wordpress本地搭建網(wǎng)站a開魯網(wǎng)站seo站長(zhǎng)工具
  • 用div css做網(wǎng)站首頁網(wǎng)站優(yōu)化外包多少錢
  • wordpress播放網(wǎng)盤中山百度seo排名公司
  • 網(wǎng)創(chuàng)八步的第七步整站優(yōu)化報(bào)價(jià)
  • 北京市政建設(shè)集團(tuán)有限責(zé)任公司網(wǎng)站站長(zhǎng)友情鏈接平臺(tái)
  • 沭陽做網(wǎng)站shy1z百度百科推廣費(fèi)用
  • 全國(guó)最大的網(wǎng)站建設(shè)公司以下屬于網(wǎng)站seo的內(nèi)容是
  • 我想做跑腿網(wǎng)站怎么做下列哪些店鋪適合交換友情鏈接
  • 邯鄲網(wǎng)站設(shè)計(jì)價(jià)格長(zhǎng)春百度網(wǎng)站優(yōu)化
  • h5做網(wǎng)站b2b網(wǎng)站大全
  • 網(wǎng)絡(luò)組建與維護(hù)試題seo搜索引擎優(yōu)化報(bào)價(jià)
  • 惠州建站公司seo建站的步驟