石家莊長(zhǎng)安區(qū)網(wǎng)站建設(shè)公司新浪nba最新消息
文章目錄
- 題目
- 摘要
- 簡(jiǎn)介
- 準(zhǔn)備工作
- 數(shù)據(jù)集生成
- 方法
- 實(shí)驗(yàn)
- 結(jié)論
題目
探索大型語(yǔ)言模型中的可廢止推理:思路鏈
論文地址:http://collegepublications.co.uk/downloads/LNGAI00004.pdf#page=136
摘要
????許多大型語(yǔ)言模型 (LLM) 經(jīng)過(guò)大量高質(zhì)量數(shù)據(jù)語(yǔ)料庫(kù)的訓(xùn)練,在各種任務(wù)中都表現(xiàn)出強(qiáng)大的推理能力,即使是零樣本推理也是如此?,F(xiàn)有研究表明,LLM 可以在形式邏輯(例如一階邏輯)中執(zhí)行推理步驟。然而,在處理不一致和不完整的知識(shí)時(shí),LLM 是否具有可推廣的可廢止推理能力仍不清楚。在本研究中,我們旨在研究大型語(yǔ)言模型的可廢止推理能力,特別是在形式可廢止邏輯框架內(nèi)。具體來(lái)說(shuō),我們選擇流行的可廢止邏輯框架 DeLP 作為評(píng)估 LLM 可廢止邏輯推理能力的基礎(chǔ)。我們最初創(chuàng)建一個(gè)合成數(shù)據(jù)集,其中包含涵蓋各種具有不同推理深度的程序的邏輯程序。為了解決推理過(guò)程中遇到的挑戰(zhàn),我們引入了一個(gè)思路鏈 (CoT) 框架,促使 LLM 進(jìn)行多步驟可廢止推理,從而提高解決問(wèn)題的性能。采用這種論證解決方法,我們觀察到 LLM 難以有效地管理可廢止信息。這些令人驚訝的發(fā)現(xiàn)引發(fā)了人們對(duì)當(dāng)代 LLM 是否具有與人類智能相當(dāng)?shù)耐评砟芰Φ馁|(zhì)疑。
關(guān)鍵詞:可廢止推理,大型語(yǔ)言模型
簡(jiǎn)介
????大型語(yǔ)言模型 (LLM) 的最新進(jìn)展顯著提高了它們處理復(fù)雜推理挑戰(zhàn)的能力,凸顯了它們?cè)诒姸囝I(lǐng)域的多功能性?,F(xiàn)有模型已在各種推理任務(wù)中展現(xiàn)出新興能力。值得注意的是,這些能力通常以零樣本方式展示,而無(wú)需對(duì)特定任務(wù)進(jìn)行進(jìn)一步訓(xùn)練,這可以通過(guò)高級(jí)提示技術(shù)引出。提示工程旨在很好地表述問(wèn)題并指導(dǎo) LLM 將復(fù)雜任務(wù)分解為簡(jiǎn)單步驟并逐步進(jìn)行推理。常識(shí)推理任務(wù)通常以軟推理的形式來(lái)表述:在某些上下文中什么是可能或合理的,而不是什么必然為真。這種推理模式被稱為可廢止推理,其中 LLM 不會(huì)被完全揭示和評(píng)估。例如,“如果大樓發(fā)生火災(zāi),警報(bào)就會(huì)響起”這一蘊(yùn)含會(huì)被新的信息削弱,即“警報(bào)響起是因?yàn)橛腥嗽趶N房里烤焦了面包”??蓮U止推理是構(gòu)建通用智能系統(tǒng)的重要組成部分,并受到了業(yè)界越來(lái)越多的關(guān)注。在常見且復(fù)雜的可廢止推理任務(wù)中,底層推理過(guò)程相當(dāng)復(fù)雜,通常用形式邏輯系統(tǒng)來(lái)描述,LLM 相對(duì)難以捕捉?,F(xiàn)有研究表明,LLM 能夠基于一小組上下文示例進(jìn)行演繹步驟,但在形式推理方面的表現(xiàn)相對(duì)較差。此外,以前的大多數(shù)研究都集中在命題邏輯或一階邏輯的推理上,在需要處理矛盾信息的非單調(diào)推理中,預(yù)測(cè)性能會(huì)變得更差。雖然以前人們忽視了形式可廢止推理能力,但我們認(rèn)為應(yīng)該對(duì)其進(jìn)行充分和獨(dú)立的評(píng)估。
????在本文中,我們旨在開發(fā)一個(gè)思路鏈(CoT)框架,以增強(qiáng)LLM在可廢止邏輯推理方面的能力,并對(duì)形式語(yǔ)言進(jìn)行全面的評(píng)估。具體來(lái)說(shuō),我們選擇流行的可廢止邏輯編程(DeLP)作為評(píng)估和分析的基礎(chǔ),因?yàn)樗哂泻芨叩拇硇?。DeLP提供了一個(gè)計(jì)算推理框架,它使用一個(gè)論證引擎從由可廢止規(guī)則擴(kuò)展的邏輯編程語(yǔ)言描述的知識(shí)庫(kù)中得出答案。我們首先創(chuàng)建一個(gè)由合成程序數(shù)據(jù)和隨機(jī)查詢組成的基準(zhǔn)。這個(gè)基準(zhǔn)包括不同的推理深度,以涵蓋不同的難度級(jí)別。然后,我們提出了一種多步驟推理方法,該方法可以捕捉解決授權(quán)的過(guò)程,其中包括信息提取和復(fù)雜的論證推理過(guò)程。使用標(biāo)準(zhǔn) DeLP 求解器來(lái)促進(jìn)推理過(guò)程的繼續(xù)。
????該框架指導(dǎo)并指示 LLM 進(jìn)行論證和可廢止推理,其中 DeLP 求解器可以提供可能的外部幫助。在評(píng)估中,我們報(bào)告了不同模型在此基準(zhǔn)上的表現(xiàn)。我們觀察到大多數(shù)模型都難以處理可廢止信息,這對(duì)當(dāng)代 LLM 的可廢止推理能力提出了質(zhì)疑。借助形式語(yǔ)言,我們可以準(zhǔn)確地追溯可能的錯(cuò)誤并識(shí)別性能差距。
準(zhǔn)備工作
????形式上,DeLP 語(yǔ)言由三個(gè)獨(dú)立的組組成:一組事實(shí)、一組嚴(yán)格規(guī)則和一組可廢止規(guī)則。事實(shí)(文字)是基本原子 A 或否定基本原子 ~A,其中“~”代表強(qiáng)否定。嚴(yán)格規(guī)則表示牢固的知識(shí),表示為 Head ← Body,其中 Head 是文字,Body 是有限的非空文字集,就像在一階邏輯中一樣。從實(shí)用角度來(lái)說(shuō),可廢止規(guī)則用于表示可廢止的知識(shí),即暫定信息,如果沒(méi)有任何東西可以反對(duì)它,則可以使用它。例如,“一只鳥通常會(huì)飛”表示為“飛 –< 鳥”。形式上,“ –< ”替換“←”是可廢止規(guī)則與嚴(yán)格規(guī)則的唯一區(qū)別。
????定義 2.1 [可廢止邏輯程序] 可廢止邏輯程序 P 是一個(gè)可能無(wú)限的事實(shí)、嚴(yán)格規(guī)則和可廢止規(guī)則的集合。在程序 P 中,Π 表示由所有事實(shí)和嚴(yán)格規(guī)則組成的子集,? 表示可廢止規(guī)則集。我們將 P 表示為一個(gè)元組 (Π, ?)。
在本文中,我們使用 DeLP 中的以下 tweety 示例(表示為 P1)來(lái)說(shuō)明我們的方法。
程序 1:Tweety 示例
% Facts
bird ( opus ).
penguin ( tweety ) .
wings ( tweety ).
% Strict Rules
bird (X) <- penguin (X ).
% Defeasible Rules
fly (X) -< bird (X ).
~ fly (X ) -< penguin (X ).
????一個(gè)文字 L 的推導(dǎo)是導(dǎo)致 L 的有限基本文字序列。在 DeLP 中,我們通過(guò)推導(dǎo)中是否使用可廢止規(guī)則來(lái)區(qū)分嚴(yán)格和可廢止推導(dǎo)。在 P1 中,是通過(guò)嚴(yán)格規(guī)則 bird(X) ← penguin(X) 進(jìn)行的嚴(yán)格推導(dǎo),而
是一個(gè)使用可廢止規(guī)則 ~fly(X) –< penguin(X) 的可廢止推導(dǎo)。
????定義 2.2 [論證結(jié)構(gòu)] 假設(shè) h 為文字,P = (Π, ?) 為 DeLP 程序。如果 A 是 ? 的可廢止規(guī)則集,并且滿足以下條件,則我們稱 ?A, h? 為 h 的論證結(jié)構(gòu): - 存在從 Π ∪ A 到 h 的可廢止推導(dǎo) - 集合 Π ∪ A 不矛盾,并且 - A 是最小的:不存在 A 的適當(dāng)子集 A′ 使得 A′ 滿足先前的條件。
????定義 2.3 [反駁] 假設(shè) P = (Π, ?) 為 DeLP 程序。我們說(shuō) ?A1, h1? 反駁 ?A2, h2?,當(dāng)且僅當(dāng)存在 ?A2, h2? 的子論證 ?A, h? 使得 Π ∪ {h, h1} 是矛盾的。
????直觀地說(shuō),論證是用于得出結(jié)論的一組最小規(guī)則。在 P1 中,文字 fly(tweety) 由以下論證結(jié)構(gòu)支持:而 ~fly(tweety) 有以下參數(shù)支持它:
由于 fly(tweety) 和 ~fly(tweety) 相互矛盾,論據(jù) 1 和論據(jù) 2 互為反論據(jù)。
????給定一個(gè)論據(jù)結(jié)構(gòu) ?A1, h1? 和一個(gè)針對(duì) ?A1, h1? 的反論據(jù) ?A2, h2?,可以通過(guò)特異性比較這兩個(gè)論據(jù)以決定哪一個(gè)更好。[7] 中定義的特異性有利于論據(jù)中的兩個(gè)方面:它傾向于 (1) 信息內(nèi)容更多的論據(jù)或 (2) 使用規(guī)則較少的論據(jù)。換句話說(shuō),如果一個(gè)論據(jù)更精確或更簡(jiǎn)潔,則它比另一個(gè)論據(jù)更可取。在 tweety 示例中,論據(jù) 2 比論據(jù) 1 更好,因?yàn)樗爸苯印薄T?DeLP 中,當(dāng) q 有一個(gè)合理的論據(jù) Aq 時(shí),查詢 q 將會(huì)成功。對(duì)一個(gè)論證是否成立的判斷是通過(guò)一個(gè)論證方案獲得的,這在某種程度上是復(fù)雜的,并且涉及對(duì)辯證樹的分析。
????定義2.4 [查詢答案] 查詢h有四個(gè)可能的答案:
- YES,如果h是成立的;
- NO,如果h的補(bǔ)集是成立的;
- UNDECIDED,如果h和~h都是不成立的;
- UNKNOWN,如果h不是程序的語(yǔ)言。
????在P1中,查詢fly(tweety)的答案是NO。為了便于展示,我們?cè)诒静糠种惺÷粤艘恍┰敿?xì)介紹。有關(guān)DeLP求解過(guò)程的更多定義和詳細(xì)信息,請(qǐng)參閱[7]。
數(shù)據(jù)集生成
????為了研究LLM模擬基于規(guī)則的推理的能力,我們采用與[5]類似的策略來(lái)生成具有不同實(shí)體數(shù)量和規(guī)則數(shù)量的數(shù)據(jù)集,代表不同的難度級(jí)別。數(shù)據(jù)集中的每個(gè)示例都是一個(gè)三元組 (P, Q, A),其中 P 是有效的 DeLP 程序,Q 是查詢語(yǔ)句,A 是標(biāo)準(zhǔn)答案。在這項(xiàng)工作中,為簡(jiǎn)單起見,在我們的數(shù)據(jù)集中,查詢只有一個(gè)可能的派生,因此辯證樹的根是相關(guān)的參數(shù)。出于這種簡(jiǎn)單性,如果沒(méi)有擊敗者或其所有擊敗者都被其他參數(shù)擊敗,則參數(shù) ?A, h? 是合理的。程序生成為了生成每個(gè)示例,我們首先在 DeLP 中生成一個(gè)小理論(事實(shí) + 規(guī)則),使用求解器解決程序中的每個(gè)文字,然后從這些文字中選擇查詢語(yǔ)句。此外,答案未知的問(wèn)題是隨機(jī)從程序外部選擇的。有四個(gè)基本元素構(gòu)建一個(gè)DeLP程序:實(shí)體、變量、屬性和謂詞。數(shù)據(jù)樣本如圖1所示。
????在這項(xiàng)工作中,變量集包含一個(gè)唯一的符號(hào)X。所有謂詞都是一元的,可以解釋為“ei is aj”,其中ei是一個(gè)實(shí)體或X,aj是一個(gè)屬性,例如“Charlie is kind”是圖1中的第一個(gè)事實(shí)。事實(shí)是通過(guò)從預(yù)定義集合中抽取屬性和實(shí)體隨機(jī)生成的,該集合總共包含3個(gè)實(shí)體和8個(gè)屬性。規(guī)則在該變量上隱式地被普遍量化。例如,圖1中第一條規(guī)則的形式形式表示“如果某人善良而冷漠,那么他們就不是紅色的”。每個(gè)理論包含1-16個(gè)事實(shí)、1-5條嚴(yán)格規(guī)則和1-10條隨機(jī)生成的可廢止規(guī)則。在數(shù)據(jù)生成過(guò)程中,求解器還會(huì)檢查程序的有效性(Π不矛盾)。為了進(jìn)行綜合評(píng)估,平衡了不同的深度和不同的答案。
????程序求解 我們采用 Tweety 項(xiàng)目中引入的改進(jìn)的 DeLP 求解器作為解決問(wèn)題的標(biāo)準(zhǔn)求解器。給定一個(gè)隨機(jī)生成的程序,我們枚舉程序中所有可能的文字作為查詢,記錄它們的最終答案。由于域是有限的,程序中的文字?jǐn)?shù)量也是有限的。在求解之前,我們確保規(guī)則庫(kù)是無(wú)歧義和非循環(huán)的。在推理過(guò)程中,為目標(biāo)數(shù)據(jù)集注釋辯證樹的深度,例如,對(duì)于 D = 2 的數(shù)據(jù)集,辯證樹的深度為 2。
????數(shù)據(jù)集統(tǒng)計(jì) 我們生成四個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集分別受辯證樹深度約束:D = 0、D = 1、D = 2、D ≥ 3。深度 D = 0 表示問(wèn)題是簡(jiǎn)單的一階邏輯子問(wèn)題,即證明時(shí)不需要可廢止規(guī)則。數(shù)據(jù)集D1表明推理使用了可廢止規(guī)則,但沒(méi)有發(fā)現(xiàn)矛盾。這兩個(gè)數(shù)據(jù)集相對(duì)容易,只需要一階邏輯推理能力即可解決。為了解決數(shù)據(jù)集D2中的問(wèn)題,LLM必須按照說(shuō)明進(jìn)行可廢止推理。D≥3中的問(wèn)題更為復(fù)雜,涉及遞歸和情境判斷。生成的問(wèn)題數(shù)量列于表1中。我們將Di表示為四個(gè)子數(shù)據(jù)集,下標(biāo)i表示深度。
DeLP 問(wèn)題樣本。
方法
????在本節(jié)中,我們主要介紹我們的思路鏈框架來(lái)解決DeLP問(wèn)題。整個(gè)流程如圖2所示,主要包括兩個(gè)階段。在第一階段,LLM從原始問(wèn)題中提取一些關(guān)鍵結(jié)果,其中包含解決問(wèn)題的充分和必要信息。第二階段是論證過(guò)程,遞歸地尋找特定論證的反駁者。為了了解LLM是否能遵循每個(gè)推理步驟中的指令,我們使用標(biāo)準(zhǔn)邏輯求解器進(jìn)行評(píng)估,以自動(dòng)評(píng)分。由于形式語(yǔ)言的性質(zhì)要求推理步驟具體而嚴(yán)謹(jǐn),因此我們要求LLM在求解過(guò)程中返回一個(gè)json對(duì)象。json對(duì)象中的術(shù)語(yǔ)是預(yù)定義的,顯示每個(gè)步驟的關(guān)鍵線索,以指導(dǎo)LLM進(jìn)行推理。我們還在提示中提供了預(yù)期的json格式的示例,以促進(jìn)上下文學(xué)習(xí)。
????提取信息對(duì)于每個(gè)數(shù)據(jù)樣本,第一步是收集解決問(wèn)題所需的所有信息。如第3節(jié)所述,生成的DeLP程序僅包含一個(gè)變量。因此,我們可以將規(guī)則與查詢實(shí)體聯(lián)系起來(lái),并丟棄所有其他不相關(guān)的實(shí)體。在此步驟中,我們要求LLM找到查詢實(shí)體及其補(bǔ)集,提取嚴(yán)格的規(guī)則和可廢止的規(guī)則。解決閉包邏輯推理問(wèn)題需要利用可用信息來(lái)推斷解決查詢所必需的新知識(shí)。為了識(shí)別不一致的DeLP程序,我們首先需要收集一些必要的信息,以幫助我們理解問(wèn)題。
提出了解決 DeLP 問(wèn)題的 CoT 框架。
????為了找出可廢止結(jié)論之間的相似性,我們讓LLM解決程序的閉包。這個(gè)閉包由兩個(gè)部分組成:嚴(yán)格事實(shí)和可廢止事實(shí)。事實(shí)類型取決于它的推導(dǎo)是否涉及可廢止規(guī)則,即可廢止事實(shí)表明其對(duì)應(yīng)的推導(dǎo)是可廢止的。我們?yōu)長(zhǎng)LM提供指令,以辨別這兩類事實(shí)并推導(dǎo)它們。提示模板類似于用于提取信息的模板。在獲得閉包之后,如果查詢(或其補(bǔ)集)存在于嚴(yán)格事實(shí)集合中,或者不存在于任何集合中,我們可以用YES/NO或UNKNOWN來(lái)結(jié)束問(wèn)題。如果問(wèn)題尚未解決,所有得到的結(jié)果將被存儲(chǔ)在內(nèi)存中以供后續(xù)的論證過(guò)程使用。
????論證過(guò)程 在以json格式收集問(wèn)題信息后,我們的重點(diǎn)轉(zhuǎn)移到尋找查詢參數(shù)(或其補(bǔ)集)的可能依據(jù),這是DeLP計(jì)算算法的核心。最復(fù)雜的方面涉及分析辯證樹,這需要遞歸地檢測(cè)論證的反駁。采用分而治之的策略,我們將整個(gè)過(guò)程分為三個(gè)部分:進(jìn)行推導(dǎo)、檢測(cè)反駁和標(biāo)記節(jié)點(diǎn),如圖 2 所示。這些較小的子任務(wù)對(duì)于 LLM 來(lái)說(shuō)更易于管理,有助于使推理過(guò)程更適用于復(fù)雜問(wèn)題。在每個(gè)論證步驟之后,我們通過(guò)將查詢論證指定為反駁來(lái)遞歸地啟動(dòng)此過(guò)程。在每個(gè)推理步驟中,LLM 僅根據(jù)提取的信息執(zhí)行當(dāng)前任務(wù),而無(wú)需訪問(wèn)原始程序。這種方法確保了因果推理并減少了模型幻覺。此外,它還增強(qiáng)了響應(yīng)的可解釋性,便于輕松識(shí)別和糾正潛在錯(cuò)誤。最后,在遞歸終止后,對(duì)辯證樹進(jìn)行標(biāo)簽標(biāo)記以獲得答案。
實(shí)驗(yàn)
????在本節(jié)中,我們報(bào)告了 LLM 在各種 DeLP 問(wèn)題上的性能并分析了性能差距。此外,我們還對(duì)具體的失敗實(shí)例進(jìn)行了詳細(xì)的案例研究。實(shí)驗(yàn)設(shè)置實(shí)施細(xì)節(jié)。我們采用了幾種高級(jí)語(yǔ)言模型,即 GPT-3.5-Turbo API 模型、GPT-4-Turbo API 模型和兩個(gè)開源 Llama-3 模型(8B-Instruct 和 70B-Instruct),進(jìn)行了一系列實(shí)驗(yàn)。選擇這些模型是因?yàn)樗鼈冊(cè)谔幚韽?fù)雜語(yǔ)言任務(wù)方面具有強(qiáng)大的性能特征和多功能性。
每個(gè)子數(shù)據(jù)集上解決的問(wèn)題數(shù)量。
????為了嚴(yán)格測(cè)試這些 LLM 進(jìn)行多步推理的能力,我們使用了一個(gè)特定的系統(tǒng)消息提示:“讓我們一步一步解決一個(gè)由 JSON 對(duì)象描述的 DeLP 問(wèn)題?!边@個(gè)提示旨在模擬一種需要模型進(jìn)行順序決策和解決問(wèn)題的場(chǎng)景,反映了現(xiàn)實(shí)世界的應(yīng)用。對(duì)于響應(yīng)的格式,JSON 格式可以確保輸出統(tǒng)一組織且易于解釋,從而有助于后續(xù)分析模型的推理過(guò)程。問(wèn)題評(píng)分。對(duì)于評(píng)估指標(biāo),僅僅檢查最終答案是不夠的。在這個(gè)可廢止推理任務(wù)中,我們對(duì)每個(gè)推理步驟獲得的每個(gè)結(jié)果進(jìn)行估值,包括信息提取、解決閉包、進(jìn)行推導(dǎo)和檢測(cè)廢止者。在這種設(shè)置中,LLM 可以在評(píng)分評(píng)估期間訪問(wèn)前面步驟的真實(shí)結(jié)果。具體來(lái)說(shuō),我們的方法采用了分?jǐn)?shù)累積策略,計(jì)算這些步驟的分?jǐn)?shù)。在每個(gè)步驟之后,求解器將結(jié)果與標(biāo)準(zhǔn)答案進(jìn)行比較,并為正確性分配 1 分,否則分配 0 分。因此,一個(gè)問(wèn)題的總分會(huì)根據(jù)其難度而有所不同,推理越深入和步驟越多,總分就越高。這種評(píng)分方法是合理的,因?yàn)楦鼜?fù)雜的問(wèn)題自然應(yīng)該得到更高的分?jǐn)?shù)。
????由于大型語(yǔ)言模型的序列生成具有固有的隨機(jī)性,我們進(jìn)行了三次實(shí)驗(yàn)并報(bào)告了平均分?jǐn)?shù)。在每次運(yùn)行中,LLM 都可以得到中間答案是否正確的反饋,如果答案錯(cuò)誤,LLM 可以重試回答。請(qǐng)注意,這里求解器只告訴模型答案是否正確。沒(méi)有提供進(jìn)一步的基本事實(shí)信息。默認(rèn)情況下,我們將嘗試次數(shù)設(shè)置為 3。此外,我們跟蹤第一次運(yùn)行中成功解決的問(wèn)題數(shù)量,以顯示 LLM 是否能夠一致且準(zhǔn)確地解決 DeLP 問(wèn)題。
????主要結(jié)果,解決問(wèn)題的數(shù)量。我們?cè)诒?2 中列舉了每個(gè)子集中解決的問(wèn)題數(shù)量。需要注意的是,每個(gè)子集包含 30 個(gè)問(wèn)題,如第 3 節(jié)所述。鑒于我們的任務(wù)涉及多步驟推理,任何錯(cuò)誤都可能導(dǎo)致問(wèn)題解決失敗。問(wèn)題的難度嚴(yán)重影響性能。該表清楚地表明,隨著難度等級(jí)的提高,解決的問(wèn)題數(shù)量顯著下降。所有模型在最簡(jiǎn)單的子集 D0 上都表現(xiàn)良好,表明它們一階邏輯推理能力。然而,對(duì)于更復(fù)雜的子集(D1、D2、D≥3),性能明顯下降,在 Llama 模型中尤為明顯。在最復(fù)雜的任務(wù)中,所有模型都失敗了,這表明 LLM 在形式可廢止推理任務(wù)中遇到了很大困難,這表明這些模型遠(yuǎn)不適用于這樣的情況。
????GPT-4-Turbo 模型在所有類別中的表現(xiàn)都優(yōu)于其他模型,在 D1 和 D2 子集中解決了比同類模型多得多的問(wèn)題。這種表現(xiàn)表明它在管理復(fù)雜推理任務(wù)方面具有卓越的能力。相反,Llama-3-8B 模型在解決任何超出最簡(jiǎn)單問(wèn)題的問(wèn)題時(shí)都表現(xiàn)出困難,這突顯了其推理能力的潛在局限性或其訓(xùn)練數(shù)據(jù)的缺陷。分?jǐn)?shù)。所采用的評(píng)分機(jī)制通過(guò)評(píng)估解決問(wèn)題過(guò)程的每個(gè)步驟提供了更具信息量的指標(biāo)。該方法減輕了多步推理中累積錯(cuò)誤的影響,從而將評(píng)估重點(diǎn)放在單個(gè)推理步驟的有效性上,而不是整體的解決問(wèn)題的能力上。這種方法也可以看作是一種消融研究,其中在每個(gè)推理步驟中系統(tǒng)地消除累積錯(cuò)誤的影響。
對(duì)每個(gè)子數(shù)據(jù)集進(jìn)行評(píng)分。
????表 3 列出了 LLM 獲得的分?jǐn)?shù),其中列出了平均分?jǐn)?shù)和獲得的分?jǐn)?shù)占總分?jǐn)?shù)的百分比。首先,我們可以得到一個(gè)類似的結(jié)論,即在所有模型中,都有一個(gè)明顯的趨勢(shì),即隨著任務(wù)復(fù)雜性的增加,性能會(huì)下降。GPT-4Turbo 模型的表現(xiàn)始終優(yōu)于其他模型,且優(yōu)勢(shì)顯著。然而,雖然借助了邏輯解算器,但在數(shù)據(jù)集 D3 中的得分百分比僅達(dá)到 70.83%,表明其在形式可廢止推理中的表現(xiàn)不佳,尤其是在論證過(guò)程中。即使在邏輯解算器的支持下,數(shù)據(jù)集 D≥3 中的較低性能也凸顯了形式可廢止推理的固有復(fù)雜性??蓮U止推理不僅涉及理解基本前提,還涉及有效處理現(xiàn)實(shí)世界中常見的不一致、反駁和壓倒性原則。
????復(fù)雜數(shù)據(jù)集中的表現(xiàn)下降表明,當(dāng)前的 LLM 雖然在一階邏輯方面很強(qiáng)大,但仍可能難以處理可廢止推理所需的論證的細(xì)微結(jié)構(gòu)。這包括難以優(yōu)先考慮沖突信息和根據(jù)事實(shí)動(dòng)態(tài)調(diào)整結(jié)論新證據(jù)。此外,較大的模型通常在任務(wù)上表現(xiàn)更好,這表明較大的模型尺寸可能更適合復(fù)雜的推理任務(wù),這可能是因?yàn)樗鼈兡軌蛘虾吞幚砀罅康男畔⒑透?xì)微的模式。對(duì)于以下研究和分析,我們以GPT-4-Turbo模型為代表,分析了示例和相應(yīng)的性能,以證明其性能更好。
幻覺和推導(dǎo)錯(cuò)誤的錯(cuò)誤例子。
????案例研究和錯(cuò)誤追蹤前兩個(gè)數(shù)據(jù)集的表2表明提取信息和解決閉包步驟相對(duì)準(zhǔn)確。容易出錯(cuò)的復(fù)雜可廢止推理步驟主要是得到推導(dǎo)和不一致性判斷,對(duì)應(yīng)于論證過(guò)程中的進(jìn)行推導(dǎo)和檢測(cè)廢止者。為了追蹤推理階段可能出現(xiàn)的錯(cuò)誤,我們讓求解器指出任務(wù)中具體的錯(cuò)誤步驟和錯(cuò)誤。通過(guò)檢查錯(cuò)誤,我們總結(jié)出以下原因?;糜X。LLM經(jīng)常生成或利用不存在的事實(shí)和規(guī)則,這種現(xiàn)象通常被稱為“幻覺”。例如,如圖 3 所示,第一個(gè)錯(cuò)誤的推導(dǎo)包括一虛構(gòu)的事實(shí) white(Bob),它似乎受到實(shí)際事實(shí) white(Anne) 的錯(cuò)誤影響。這種類型的錯(cuò)誤表明模型可能難以區(qū)分相似的實(shí)體并正確應(yīng)用事實(shí)。
????此外,有跡象表明模型有時(shí)無(wú)法掌握基本操作,例如字符串替換和邏輯中的否定應(yīng)用。繼續(xù)使用圖 3 中的示例,LLM 可能生成一個(gè)有根據(jù)的文字,如 blue(Bob) –< nice(Anne), cold(Bob) 或否定 ~ blue(Bob) –< nice(Bob), cold(Bob)。這些錯(cuò)誤表明對(duì)邏輯構(gòu)造的處理和邏輯否定的動(dòng)態(tài)存在誤解,而這些對(duì)于在邏輯框架內(nèi)進(jìn)行準(zhǔn)確的推理和解釋至關(guān)重要。這種幻覺不僅破壞了模型輸出的可靠性,而且在事實(shí)準(zhǔn)確性至關(guān)重要的應(yīng)用中也帶來(lái)了重大挑戰(zhàn)。
????推導(dǎo)錯(cuò)誤。該模型在生成推導(dǎo)序列時(shí)也會(huì)出錯(cuò),尤其是較長(zhǎng)的序列。我們觀察到,在超過(guò)五步的推導(dǎo)中,錯(cuò)誤變得更加普遍,這種現(xiàn)象類似于 [8] 中討論的 FOL 中遇到的問(wèn)題。盡管指示使用形式語(yǔ)言將推導(dǎo)構(gòu)建為連貫的鏈,但該模型有時(shí)會(huì)犯一些基本錯(cuò)誤,例如解析錯(cuò)誤和忽略規(guī)則的前提。圖 3 顯示了另一個(gè)值得注意的例子,其中 LLM 試圖通過(guò)反證法來(lái)證明,這是 DeLP 框架中不允許的方法。這種推理策略的錯(cuò)誤應(yīng)用凸顯了模型對(duì)其所運(yùn)行的邏輯系統(tǒng)所特有的規(guī)則和約束的理解存在一個(gè)更深層次的問(wèn)題。
????錯(cuò)誤跟蹤不一致。盡管提示中明確指出可廢止事實(shí)可能會(huì)發(fā)生沖突,但模型通常會(huì)選擇兩個(gè)互補(bǔ)文字中的一個(gè)作為可廢止事實(shí)。這種行為表明 LLM 在可廢止推理方面存在困難,這需要管理不一致和不完整的信息。處理這種復(fù)雜性的能力對(duì)于從事涉及細(xì)微邏輯推理任務(wù)的模型至關(guān)重要,因?yàn)樵谶@些任務(wù)中,事實(shí)可能會(huì)被更有說(shuō)服力的證據(jù)推翻或反駁。此外,另一個(gè)重要的觀察結(jié)果是,LLM 有時(shí)無(wú)法識(shí)別所有相關(guān)的論據(jù)和反論據(jù)對(duì)。這一限制表明模型完全理解 DeLP 問(wèn)題中的所有論據(jù)的能力存在一個(gè)基本問(wèn)題。
結(jié)論
????在本文中,我們使用 DeLP 框架研究了大型語(yǔ)言模型的形式可廢止推理能力。我們的方法包括創(chuàng)建一個(gè)具有不同推理深度的合成數(shù)據(jù)集來(lái)挑戰(zhàn) LLM,并且我們引入了一種思路鏈方法來(lái)增強(qiáng)它們的多步驟推理過(guò)程。盡管做出了這些努力,但我們的實(shí)驗(yàn)表明,LLM 在管理可廢止信息方面仍舉步維艱,凸顯了它們?cè)谟行幚聿灰恢潞筒煌暾R(shí)方面的能力存在重大限制。這凸顯了當(dāng)前 LLM 的推理能力與人類水平的智能相比存在差距,表明需要進(jìn)一步研究和開發(fā)這一領(lǐng)域。實(shí)驗(yàn)分析加深了對(duì) LLM 在形式邏輯推理方面的能力的理解,并為人工智能研究這一關(guān)鍵領(lǐng)域的進(jìn)一步發(fā)展奠定了基礎(chǔ)。