犀牛云 做網(wǎng)站優(yōu)化關(guān)鍵詞排名優(yōu)化公司
本文我將使用 Google 的 Gemma-2b 模型來微調(diào)一個(gè)基于IT科技新聞?wù)膩砩蓪?yīng)標(biāo)題的模型。并且我將介紹如何使用高度集成的訓(xùn)練框架來進(jìn)行快速微調(diào)。
開始前
為了盡可能簡化整個(gè)流程,我將使用 linux-cn 數(shù)據(jù)集[1]作為本次訓(xùn)練任務(wù)的訓(xùn)練數(shù)據(jù)。
模型選擇使用 Gemma-2b[2],在目前這個(gè)任務(wù)中 2b 級(jí)別的參數(shù)模型已經(jīng)完全能滿足當(dāng)前的需求,當(dāng)然你也可以嘗試使用 7b 的模型。
我們在這里將直接使用 LLaMA-Factory[3] 訓(xùn)練框架來直接完成監(jiān)督微調(diào)部分工作。當(dāng)然該框架不僅支持監(jiān)督微調(diào)(SFT)也支持預(yù)訓(xùn)練(PT)、獎(jiǎng)勵(lì)模型(RM)以及 PPO/DPO 的訓(xùn)練。
數(shù)據(jù)整理
linux-cn 數(shù)據(jù)集本身已經(jīng)進(jìn)行了數(shù)據(jù)的清洗和格式化,這一步我們只需要把我們需要的字段提取出后來后根據(jù)一定格式轉(zhuǎn)換為 LLaMA-Factory 監(jiān)督微調(diào)格式即可。
在本任務(wù)中,我們只需要數(shù)據(jù)集中的“title”和“content”兩個(gè)字段即可。而 LLaMA-Factory 監(jiān)督微調(diào)格式是如下格式的json文件。
[ { "instruction": "What are the three primary colors?", "input": "", "output": "The three primary colors are red, blue, and yellow. These colors are called primary because they cannot be created by mixing other colors and all other colors can be mad