個人可以做外貿(mào)網(wǎng)站嗎成都百度seo優(yōu)化公司
注1:本文系“概念解析”系列之一,致力于簡潔清晰地解釋、辨析復(fù)雜而專業(yè)的概念。本次辨析的概念是:基于低秩矩陣分解的神經(jīng)網(wǎng)絡(luò)微調(diào)方法LoRA
LoRA: Low-Rank Adaptation of Large Language Models
LoRA由如下論文提出,詳細(xì)信息請參見論文原文
https://arxiv.org/abs/2106.09685
@inproceedings{
hu2022lora,
title={Lo{RA}: Low-Rank Adaptation of Large Language Models},
author={Edward J Hu and Yelong Shen and Phillip Wallis and Zeyuan Allen-Zhu and Yuanzhi Li and Shean Wang and Lu Wang and Weizhu Chen},
booktitle={International Conference on Learning Representations},
year={2022},
url={https://openreview.net/forum?id=nZeVKeeFYf9}
}
背景介紹
在自然語言處理中,預(yù)訓(xùn)練語言模型通常需要在大規(guī)模通用域數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后再在特定的下游任務(wù)上進(jìn)行微調(diào)。隨著預(yù)訓(xùn)練模型規(guī)模的不斷擴(kuò)大,對全模型進(jìn)行微調(diào)變得越來越困難。例如GPT-3擁有1750億個參數(shù),獨立部署多個針對不同任務(wù)微調(diào)的模型成本過高且效率低下。