中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當前位置: 首頁 > news >正文

table做的電腦端網站改成手機板純注冊app拉新掙錢

table做的電腦端網站改成手機板,純注冊app拉新掙錢,南寧網站設計推薦,怎么安裝網站代碼文章目錄 簡介摘要引言多模態(tài)思維鏈推理的挑戰(zhàn)多模態(tài)CoT框架多模態(tài)CoT模型架構細節(jié)編碼模塊融合模塊解碼模塊 實驗結果總結 簡介 本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內容進行介紹。 摘要 大型語言模型(LLM…

文章目錄

  • 簡介
  • 摘要
  • 引言
  • 多模態(tài)思維鏈推理的挑戰(zhàn)
  • 多模態(tài)CoT框架
  • 多模態(tài)CoT模型架構細節(jié)
    • 編碼模塊
    • 融合模塊
    • 解碼模塊
  • 實驗結果
  • 總結

簡介

本文主要對2023一篇論文《Multimodal Chain-of-Thought Reasoning in Language Models》主要內容進行介紹。

摘要

大型語言模型(LLM)通過利用思想鏈(CoT)提示生成中間推理鏈作為推斷答案的基本原理,在復雜推理方面表現出了令人印象深刻的性能。然而,現有的CoT研究主要集中在語言模態(tài)上。這篇文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結合到一個分為兩個階段的框架中,該框架將基本原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。使用多模CoT,模型在10億個參數下的性能比以前最先進的LLM(GPT-3.5)高出16個百分點(75.17%→91.68%的準確率),甚至超過了ScienceQA基準的人類表現。

引言

閱讀一本沒有數字或表格的教科書。通過聯合建模不同的數據模式,如視覺、語言和音頻,我們的知識獲取能力大大增強。大型語言模型(LLM)通過在推斷答案之前生成中間推理步驟,在復雜推理中表現出了令人印象深刻的性能。這種有趣的技術被稱為思維鏈推理(CoT)。

然而,現有的與CoT推理相關的研究在很大程度上是孤立在語言模態(tài)中的,很少考慮多模態(tài)場景。為了在多模態(tài)中引出CoT推理,文章提倡多模態(tài)CoT范式。

給定不同模態(tài)的輸入,多模態(tài)CoT將多步驟問題分解為中間推理步驟(基本原理),然后推斷答案。由于視覺和語言是最流行的模式,我們在這項工作中重點關注這兩種模式。
Description
一個示例如圖1所示。
通常,有兩種方法可以引發(fā)多模式CoT推理:
(i)提示LLM
(ii)微調小模型

執(zhí)行多模式CoT的最直接方法是將不同模態(tài)的輸入轉換為一個模態(tài),并提示LLM執(zhí)行CoT。例如,可以通過字幕模型提取圖像的字幕,然后將字幕與要輸入LLM的原始語言連接起來。然而,在字幕制作過程中存在嚴重的信息丟失;因此,使用字幕(與視覺特征相反)可能會在不同模態(tài)的表示空間中缺乏相互協同作用。

為了促進模態(tài)之間的交互,另一個潛在的解決方案是通過融合多模態(tài)特征來微調較小的語言模型。

由于這種方法允許靈活地調整模型架構以包含多模式特征,在這項工作中研究了微調模型,而不是提示LLM。

我們都知道1000億參數(100B)下的語言模型往往會產生幻覺推理,誤導答案推理。

為了減輕幻覺的挑戰(zhàn),文章提出了多模態(tài)CoT,將語言(文本)和視覺(圖像)模式結合到一個分為兩個階段的框架中,該框架將原理生成和答案推理分開。通過這種方式,答案推理可以利用基于多模式信息的更好生成的理由。我們的實驗是在ScienceQA基準上進行的,這是最新的帶有注釋推理鏈的多模式推理基準。實驗結果表明,我們的方法比以前的GPT-3.5模型提高了+16%(75.17%→91.68%)。文章的貢獻總結如下:
(i) 這項工作是第一次以不同的方式研究CoT推理。

(ii)提出了一個兩階段框架,通過微調語言模型來融合視覺和語言表示,以執(zhí)行多模式CoT。該模型能夠生成信息理性,以便于推斷最終答案。

(iii)文章的方法在ScienceQA基準上實現了最先進的新性能,比GPT-3.5的精度高出16%,甚至超過了人類的性能。

多模態(tài)思維鏈推理的挑戰(zhàn)

現有研究表明,CoT推理能力可能在一定規(guī)模的語言模型中出現,例如超過100B參數的大模型。然而在1B模型中激發(fā)這種推理能力仍然是一個懸而未決的挑戰(zhàn),更不用說在多模式場景中了。

這篇文章的重點是在1B左右模型,因為這樣可以與常規(guī)消費級GPU(例如,32G內存)一起進行微調和部署。接下來將闡述1B模型在CoT推理中失敗的原因,并研究如何設計一種有效的方法來克服這一挑戰(zhàn)。

下面有個有趣的現象:

在ScienceQA基準上微調了CoT推理的純文本基準模型。采用UnifiedQA-Base作為主干語言模型。任務為文本生成問題,其中模型將文本信息作為輸入,并生成由基本原理和答案組成的輸出序列。如圖1所示的示例,該模型將問題文本(Q)、上下文文本(C)和多個選項(M)的標記串聯作為輸入。
為了研究CoT的影響,我們將其與三種變體的性能進行了比較:
(i) 直接預測答案,無CoT(QCM→A)
(ii) 推理,其中答案推理以基本原理為條件(QCM→RA);
(iii) 使用基本原理解釋答案推理的解釋(QCM→AR)。
Description
令人驚訝的是,我們觀察到準確性下降12.54%(80.40%→67.86%),如果模型在回答之前預測理性(QCM→RA)。結果表明,這些理由可能不一定有助于預測正確的答案。

其中的原因可能是模型在獲得所需答案之前超過了最大token限制,或者提前停止生成預測。

然而,文章發(fā)現生成的輸出(RA)的最大長度總是小于400個token,這低于語言模型的長度限制。因此,對理性危害答案推理的原因進行更深入的探討是值得的。

為了進一步探究上述情況形成的原因,并深入研究原理如何影響答案預測,本文將CoT問題分為兩個階段,即原理生成和答案推理?;驹砩墒褂肦ougeL分數來評估和答案推理使用準確性評估。表3顯示了基于兩階段框架的結果。盡管兩階段基線模型在基本原理生成方面獲得了91.76的RougeL分數,但答案推理的準確率僅為70.53%。

Description

與表2中的QCM→A(80.40%)相比,結果表明,在兩階段框架中生成的基本原理并不能提高答案的準確性。

Description

接著隨機抽樣50個錯誤案例,發(fā)現模型傾向于產生幻覺推理,誤導答案推理。如圖2所示的例子,由于缺乏對視覺內容的參考,模型(左部分Baseline)產生了“一個磁體的南極最接近另一磁體的南極”的幻覺。在錯誤案例中,此類錯誤的發(fā)生率為64%。

文章推測,這種幻覺現象是由于缺乏執(zhí)行有效的多模CoT所需的視覺上下文。為了注入視覺信息,一種簡單的方法是將配對的圖像轉換為字幕,然后將字幕附加在兩個階段的輸入中。然而,如表3所示,使用字幕只會產生邊際性能增益(增加0.59%). 然后,通過將視覺特征納入語言模型來探索一種先進的技術。具體而言,將配對圖像輸入到DETR模型中,以提取視覺特征。然后在提供給解碼器之前融合視覺特征,使用編碼的語言表示。有了視覺特征,基本原理生成的RougeL分數提高到了96.97%(QCM→R) ,這相應地有助于提高84.91%的回答準確率(QCMR→A.有了這些有效的理由,幻覺現象得到了緩解——其中62.5%的幻覺錯誤已經得到糾正(圖3(b))。這表明,視覺特征確實有利于生成有效的理由并有助于準確的答案推斷。作為兩階段方法(QCMR→A) 表3中的方法比表2中的所有一階段方法都獲得了更好的性能,在多模態(tài)CoT框架中選擇了兩階段方法。
Description

多模態(tài)CoT框架

基于之前的分析,多模式CoT將語言(文本)和視覺(圖像)模式合并到一個兩階段的框架中,以減少幻覺輸出,提升模型的效果。

多模式CoT由兩個訓練階段組成:
(i) 基本原理生成
(ii) 答案推理

兩個階段共享相同的模型體系結構,但輸入X和輸出Y不同。
整個過程如圖4所示。
Description

在基本原理生成階段,模型的輸入為X,其中X如下:
Description
其中括號中的前者表示第一階段中的語言輸入,后者表示視覺輸入,即圖像。

X可以看做實例化為多選推理問題的問題、上下文和選項的拼接,如圖4所示。目標是學習一個基本原理生成模型R=F(X),其中R是基本原理。

在答案推理階段,將基本原理R融入到到原始語言輸入Description,因此繼續(xù)構建第二階段的語言輸入:Description其中? 表示拼接。然后,我們將更新后的輸入Description饋送到答案推理模型,以推斷最終答案Description。

現在回過頭來看圖4,應該就比較清晰明了了。

多模態(tài)CoT模型架構細節(jié)

上面我們已經知道了文章的多模態(tài)CoT流程是怎么樣的了,接下來將分析其中關鍵的模型架構細節(jié)也就是上文提到的F( ),以便我們能夠對多模態(tài)CoT有更深入的理解。

F( )可以分為三個模塊:編碼模塊、融合模塊、解碼模塊

編碼模塊

Description
其中
LanguageEncoder(·)指的就是transformer的encoder部分,輸出的就是Transformer編碼器中最后一層的隱藏狀態(tài)。

VisionExtractor(·) 用于將輸入圖像矢量化為視覺特征,使用的應該是現成的視覺提取模型(DETR),其實應該也是類似transformer的encoder,因為計算機視覺中,也有vision transformer。

融合模塊

在編碼模塊獲得到文本和圖片的表示后,先進行注意力計算,將文本和圖像信息聯系起來:
Description
其中Q、K、V分別為Description
然后使用門控融合機制進行特征融合:
Description

其中Description都是可訓練的參數。

解碼模塊

這里就比較簡單,使用的就是transformer的decoderDescription作為輸入,輸出為我們需要的Y

至此,我們對多模態(tài)CoT應該有一個比較深入的了解了,關鍵內容其實就是使用encoder將文本信息和圖像信息表示出來,使用門控融合機制進行特征融合,然后預測出我們需要的結果這個過程就是F( )。

所以多模態(tài)CoT完整的流程就是先將初始的文本和圖像輸入F( )得到圖片和原始文本融合之后的CoT,然后再使用CoT的結果增強原始文本信息后得到的結果,再和圖片信息輸入F( )得到我們最終需要的預測結果。此時再去看圖4,應該就一目了然了。

實驗結果

Description
表4顯示了主要結果。Mutimodal CoTLarge比GPT-3.5高16.51%(75.17%→91.68%),并超過人類表現。具體而言,在8個問題類別中,Mutimodal CoT Large的得分為21.37%(67.43%→88.80%)的性能增益。與現有的UnifiedQA和GPT-3.5方法相比,這些方法利用上下文中的圖像字幕來提供視覺語義,結果表明使用圖像特征更有效。此外,根據表5中的消融研究結果,我們的兩階段框架有助于獲得優(yōu)異的結果。總體而言,結果驗證了多模態(tài)的有效性以及通過兩階段框架使用1B模型實現CoT推理的潛力。

總結

使用圖像信息增強文本CoT,減少模型幻覺,提升模型效果,蠻有意思的

http://m.risenshineclean.com/news/62010.html

相關文章:

  • 國內一家做國外酒店團購的網站域名是什么
  • 靜態(tài)網站模板源碼下載免費男女打撲克的軟件
  • 做網站和網站頁面設計公司網站建設開發(fā)
  • 北京網站制作公司清遠semen是什么意思
  • 營銷型企業(yè)、公司網站案例深圳網站設計專家樂云seo
  • 上饒做網站多少錢廣州網站排名優(yōu)化公司
  • 阿里云服務器上做淘寶客網站濟南網站建設方案
  • 杭州做網站 做小程序網站seo優(yōu)化案例
  • 演示網站怎么做在線網頁制作網站
  • 自己可以做裝修效果圖的網站互聯網推廣工作好做嗎
  • java開發(fā)的手機網站建設站長工具日本
  • 福建八大員建設廳延續(xù)的網站seo索引擎優(yōu)化
  • 做網站需要云數據庫嗎企業(yè)網站建設需要多少錢
  • 開公司 專做網站北京軟件開發(fā)公司
  • 網站怎么做視頻教程百度關鍵詞快速優(yōu)化
  • 做門的網站建設百度競價排名技巧
  • 網站制作 深圳百度賬號安全中心官網
  • 國外有什么做網站的軟件嗎濟寧seo公司
  • dw網站根目錄怎么做百度一下你就知道了官網
  • qq手機版排名優(yōu)化是怎么做的
  • 鄭州建網站多少新聞營銷發(fā)稿平臺
  • 福永附近做網站公司市場營銷手段13種手段
  • html5單頁網站天津關鍵詞優(yōu)化網站
  • 網站建設客戶需求分析調研表seo在線教學
  • 網絡規(guī)劃設計師論文背別人的行么山東seo首頁關鍵詞優(yōu)化
  • 自學做網站多久關鍵字查找
  • 蕪湖做網站哪個公司好快速收錄網
  • 寧波網站建設公司費用價格百度競價推廣有哪些優(yōu)勢
  • 軟件b2c網站建設網頁開發(fā)
  • 網站開發(fā)最好用什么軟件公司網頁設計