table做的電腦端網站改成手機板純注冊app拉新掙錢
文章目錄
- 簡介
- 摘要
- 引言
- 多模態(tài)思維鏈推理的挑戰(zhàn)
- 多模態(tài)CoT框架
- 多模態(tài)CoT模型架構細節(jié)
- 編碼模塊
- 融合模塊
- 解碼模塊
- 實驗結果
- 總結
簡介
本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內容進行介紹。
摘要
大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復雜推理方面表現出了令人印象深刻的性能。然而,現有的CoT研究主要集中在語言模態(tài)上。這篇文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結合到一個分為兩個階段的框架中,該框架將基本原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。使用多模CoT,模型在10億個參數下的性能比以前最先進的LLM(GPT-3.5)高出16個百分點(75.17%→91.68%的準確率),甚至超過了ScienceQA基準的人類表現。
引言
閱讀一本沒有數字或表格的教科書。通過聯合建模不同的數據模式,如視覺、語言和音頻,我們的知識獲取能力大大增強。大型語言模型(LLM)通過在推斷答案之前生成中間推理步驟,在復雜推理中表現出了令人印象深刻的性能。這種有趣的技術被稱為思維鏈推理(CoT)。
然而,現有的與CoT推理相關的研究在很大程度上是孤立在語言模態(tài)中的,很少考慮多模態(tài)場景。為了在多模態(tài)中引出CoT推理,文章提倡多模態(tài)CoT范式。
給定不同模態(tài)的輸入,多模態(tài)CoT將多步驟問題分解為中間推理步驟(基本原理),然后推斷答案。由于視覺和語言是最流行的模式,我們在這項工作中重點關注這兩種模式。
一個示例如圖1所示。
通常,有兩種方法可以引發(fā)多模式CoT推理:
(i)提示LLM
(ii)微調小模型
執(zhí)行多模式CoT的最直接方法是將不同模態(tài)的輸入轉換為一個模態(tài),并提示LLM執(zhí)行CoT。例如,可以通過字幕模型提取圖像的字幕,然后將字幕與要輸入LLM的原始語言連接起來。然而,在字幕制作過程中存在嚴重的信息丟失;因此,使用字幕(與視覺特征相反)可能會在不同模態(tài)的表示空間中缺乏相互協同作用。
為了促進模態(tài)之間的交互,另一個潛在的解決方案是通過融合多模態(tài)特征來微調較小的語言模型。
由于這種方法允許靈活地調整模型架構以包含多模式特征,在這項工作中研究了微調模型,而不是提示LLM。
我們都知道1000億參數(100B)下的語言模型往往會產生幻覺推理,誤導答案推理。
為了減輕幻覺的挑戰(zhàn),文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結合到一個分為兩個階段的框架中,該框架將原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。我們的實驗是在ScienceQA基準上進行的,這是最新的帶有注釋推理鏈的多模式推理基準。實驗結果表明,我們的方法比以前的GPT-3.5模型提高了+16%(75.17%→91.68%)。文章的貢獻總結如下:
(i) 這項工作是第一次以不同的方式研究CoT推理。
(ii)提出了一個兩階段框架,通過微調語言模型來融合視覺和語言表示,以執(zhí)行多模式CoT。該模型能夠生成信息理性,以便于推斷最終答案。
(iii)文章的方法在ScienceQA基準上實現了最先進的新性能,比GPT-3.5的精度高出16%,甚至超過了人類的性能。
多模態(tài)思維鏈推理的挑戰(zhàn)
現有研究表明,CoT推理能力可能在一定規(guī)模的語言模型中出現,例如超過100B參數的大模型。然而在1B模型中激發(fā)這種推理能力仍然是一個懸而未決的挑戰(zhàn),更不用說在多模式場景中了。
這篇文章的重點是在1B左右模型,因為這樣可以與常規(guī)消費級GPU(例如,32G內存)一起進行微調和部署。接下來將闡述1B模型在CoT推理中失敗的原因,并研究如何設計一種有效的方法來克服這一挑戰(zhàn)。
下面有個有趣的現象:
在ScienceQA基準上微調了CoT推理的純文本基準模型。采用UnifiedQA-Base作為主干語言模型。任務為文本生成問題,其中模型將文本信息作為輸入,并生成由基本原理和答案組成的輸出序列。如圖1所示的示例,該模型將問題文本(Q)、上下文文本(C)和多個選項(M)的標記串聯作為輸入。
為了研究CoT的影響,我們將其與三種變體的性能進行了比較:
(i) 直接預測答案,無CoT(QCM→A)
(ii) 推理,其中答案推理以基本原理為條件(QCM→RA);
(iii) 使用基本原理解釋答案推理的解釋(QCM→AR)。
令人驚訝的是,我們觀察到準確性下降12.54%(80.40%→67.86%),如果模型在回答之前預測理性(QCM→RA)。結果表明,這些理由可能不一定有助于預測正確的答案。
其中的原因可能是模型在獲得所需答案之前超過了最大token限制,或者提前停止生成預測。
然而,文章發(fā)現生成的輸出(RA)的最大長度總是小于400個token,這低于語言模型的長度限制。因此,對理性危害答案推理的原因進行更深入的探討是值得的。
為了進一步探究上述情況形成的原因,并深入研究原理如何影響答案預測,本文將CoT問題分為兩個階段,即原理生成和答案推理?;驹砩墒褂肦ougeL分數來評估和答案推理使用準確性評估。表3顯示了基于兩階段框架的結果。盡管兩階段基線模型在基本原理生成方面獲得了91.76的RougeL分數,但答案推理的準確率僅為70.53%。
與表2中的QCM→A(80.40%)相比,結果表明,在兩階段框架中生成的基本原理并不能提高答案的準確性。
接著隨機抽樣50個錯誤案例,發(fā)現模型傾向于產生幻覺推理,誤導答案推理。如圖2所示的例子,由于缺乏對視覺內容的參考,模型(左部分Baseline)產生了“一個磁體的南極最接近另一磁體的南極”的幻覺。在錯誤案例中,此類錯誤的發(fā)生率為64%。
文章推測,這種幻覺現象是由于缺乏執(zhí)行有效的多模CoT所需的視覺上下文。為了注入視覺信息,一種簡單的方法是將配對的圖像轉換為字幕,然后將字幕附加在兩個階段的輸入中。然而,如表3所示,使用字幕只會產生邊際性能增益(增加0.59%). 然后,通過將視覺特征納入語言模型來探索一種先進的技術。具體而言,將配對圖像輸入到DETR模型中,以提取視覺特征。然后在提供給解碼器之前融合視覺特征,使用編碼的語言表示。有了視覺特征,基本原理生成的RougeL分數提高到了96.97%(QCM→R) ,這相應地有助于提高84.91%的回答準確率(QCMR→A.有了這些有效的理由,幻覺現象得到了緩解——其中62.5%的幻覺錯誤已經得到糾正(圖3(b))。這表明,視覺特征確實有利于生成有效的理由并有助于準確的答案推斷。作為兩階段方法(QCMR→A) 表3中的方法比表2中的所有一階段方法都獲得了更好的性能,在多模態(tài)CoT框架中選擇了兩階段方法。
多模態(tài)CoT框架
基于之前的分析,多模式CoT將語言(文本)和視覺(圖像)模式合并到一個兩階段的框架中,以減少幻覺輸出,提升模型的效果。
多模式CoT由兩個訓練階段組成:
(i) 基本原理生成
(ii) 答案推理
兩個階段共享相同的模型體系結構,但輸入X和輸出Y不同。
整個過程如圖4所示。
在基本原理生成階段,模型的輸入為X,其中X如下:
其中括號中的前者表示第一階段中的語言輸入,后者表示視覺輸入,即圖像。
X可以看做實例化為多選推理問題的問題、上下文和選項的拼接,如圖4所示。目標是學習一個基本原理生成模型R=F(X),其中R是基本原理。
在答案推理階段,將基本原理R融入到到原始語言輸入,因此繼續(xù)構建第二階段的語言輸入:
其中? 表示拼接。然后,我們將更新后的輸入
饋送到答案推理模型,以推斷最終答案
。
現在回過頭來看圖4,應該就比較清晰明了了。
多模態(tài)CoT模型架構細節(jié)
上面我們已經知道了文章的多模態(tài)CoT流程是怎么樣的了,接下來將分析其中關鍵的模型架構細節(jié)也就是上文提到的F( ),以便我們能夠對多模態(tài)CoT有更深入的理解。
F( )可以分為三個模塊:編碼模塊、融合模塊、解碼模塊
編碼模塊
其中
LanguageEncoder(·)指的就是transformer的encoder部分,輸出的就是Transformer編碼器中最后一層的隱藏狀態(tài)。
VisionExtractor(·) 用于將輸入圖像矢量化為視覺特征,使用的應該是現成的視覺提取模型(DETR),其實應該也是類似transformer的encoder,因為計算機視覺中,也有vision transformer。
融合模塊
在編碼模塊獲得到文本和圖片的表示后,先進行注意力計算,將文本和圖像信息聯系起來:
其中Q、K、V分別為
然后使用門控融合機制進行特征融合:
其中都是可訓練的參數。
解碼模塊
這里就比較簡單,使用的就是transformer的decoder作為輸入,輸出為我們需要的Y
至此,我們對多模態(tài)CoT應該有一個比較深入的了解了,關鍵內容其實就是使用encoder將文本信息和圖像信息表示出來,使用門控融合機制進行特征融合,然后預測出我們需要的結果這個過程就是F( )。
所以多模態(tài)CoT完整的流程就是先將初始的文本和圖像輸入F( )得到圖片和原始文本融合之后的CoT,然后再使用CoT的結果增強原始文本信息后得到的結果,再和圖片信息輸入F( )得到我們最終需要的預測結果。此時再去看圖4,應該就一目了然了。
實驗結果
表4顯示了主要結果。Mutimodal CoTLarge比GPT-3.5高16.51%(75.17%→91.68%),并超過人類表現。具體而言,在8個問題類別中,Mutimodal CoT Large的得分為21.37%(67.43%→88.80%)的性能增益。與現有的UnifiedQA和GPT-3.5方法相比,這些方法利用上下文中的圖像字幕來提供視覺語義,結果表明使用圖像特征更有效。此外,根據表5中的消融研究結果,我們的兩階段框架有助于獲得優(yōu)異的結果。總體而言,結果驗證了多模態(tài)的有效性以及通過兩階段框架使用1B模型實現CoT推理的潛力。
總結
使用圖像信息增強文本CoT,減少模型幻覺,提升模型效果,蠻有意思的