如何在國(guó)稅網(wǎng)站做票種核定網(wǎng)站開(kāi)發(fā)從入門(mén)到實(shí)戰(zhàn)
專(zhuān)欄規(guī)劃: https://qibin.blog.csdn.net/article/details/137728228
再開(kāi)始編寫(xiě)GPT之前,我們得對(duì)GPT是怎么生成內(nèi)容的有一個(gè)大致的了解。目前的神經(jīng)網(wǎng)絡(luò)我們大多都可以看成是一個(gè)黑盒
,即我們把數(shù)據(jù)輸送給網(wǎng)絡(luò)后,網(wǎng)絡(luò)給我我們輸出,我們可以不用關(guān)心這個(gè)黑盒
里到底是怎么實(shí)現(xiàn)的,但是我們的目標(biāo)是從零寫(xiě)一個(gè)類(lèi)GPT
模型,所以這里我們先對(duì)GPT生成內(nèi)容的過(guò)程做一個(gè)大致的介紹。
一、GPT的輸入
首先,神經(jīng)網(wǎng)絡(luò)是不可以把類(lèi)似過(guò)年好
這樣一句話直接輸入到網(wǎng)絡(luò)中的,而是需要對(duì)一句話進(jìn)行編碼變成數(shù)字后再輸入網(wǎng)絡(luò),GPT是使用了一種叫做bpe
的算法將文字映射成數(shù)字的,這里我們不去講bpe
是怎么實(shí)現(xiàn)的,我們可以使用openai提供的tiktoken
庫(kù)進(jìn)行文字編碼,感興趣的可以去github上查看tiktoken
的源碼:https://github.com/openai/tiktoken。
首先,我們安裝tiktoken
庫(kù)
pip3 install -i -i https