當(dāng)前位置：首頁 > news >正文

企業(yè)申請網(wǎng)站建設(shè)請示站長素材免費下載

news 2025/7/13 12:20:18

企業(yè)申請網(wǎng)站建設(shè)請示,站長素材免費下載,搜索引擎關(guān)鍵字排名優(yōu)化,怎么優(yōu)化網(wǎng)站程序目錄什么是大模型 Agent ？ 大模型Agent 有哪些部分組成? 規(guī)劃（Planning） Planning類型不依賴反饋的計劃基于反饋的計劃拆解子目標和任務(wù)分解方法 COT TOT GOT LLMP 反思和完善 ReAct(融合推理與執(zhí)行的能力) Reflexion(動態(tài)…

什么是大模型 Agent ？

大模型Agent 有哪些部分組成?

規(guī)劃（Planning）

Planning類型

不依賴反饋的計劃

基于反饋的計劃

拆解子目標和任務(wù)分解方法

COT

TOT

GOT

LLM+P

反思和完善

ReAct(融合推理與執(zhí)行的能力)

Reflexion(動態(tài)記憶和自我反思)

記憶（Memory）

結(jié)構(gòu)劃分

格式劃分

操作劃分

工具（Tools）?

Tools use

1. 函數(shù)描述【工具聲明】

2. 調(diào)用 LLM 獲得函數(shù)的請求參數(shù)【工具（集合）初始化】

3. 調(diào)用函數(shù)【執(zhí)行工具】

行動（Action）

Agent的挑戰(zhàn)

角色適應(yīng)性問題

上下文長度限制

提示的魯棒性

知識邊界的控制

效率和成本問題

參考

什么是大模型 Agent ？

大模型 Agent，作為一種人工智能體，是具備環(huán)境感知能力、自主理解、決策制定及執(zhí)行行動能力的智能實體。智能體是一種通用問題解決器。從軟件工程的角度看來，智能體是一種基于大語言模型的，具備規(guī)劃思考能力、記憶能力、自主調(diào)用函數(shù)的能力，能自主完成給定任務(wù)的計算機程序。

大模型Agent 有哪些部分組成?

在基于 LLM 的智能體中，LLM 的充當(dāng)著智能體的“大腦”的角色，同時還有 4?個關(guān)鍵部分：如下圖所示，Agent 共由4個關(guān)鍵部分組成：規(guī)劃（Planning）、記憶（Memory）、工具（Tools）、行動（Action），下面詳細剖析。

規(guī)劃（Planning）

智能體會把大型任務(wù)分解為子任務(wù)，并規(guī)劃執(zhí)行任務(wù)的流程。智能體會對任務(wù)執(zhí)行的過程進行思考和反思，決定是繼續(xù)執(zhí)行任務(wù)，或判斷任務(wù)完結(jié)并終止運行。

Planning類型

大致分為兩種類型，一種是不依賴反饋的計劃，另一種則是基于反饋的計劃。

不依賴反饋的計劃

特點：

不參考執(zhí)行反饋：在計劃制定和執(zhí)行過程中，不依賴于任務(wù)執(zhí)行后的即時反饋。
預(yù)先確定：計劃在執(zhí)行前就已經(jīng)完全確定，不隨執(zhí)行過程中的變化而調(diào)整。

常用策略：

單路徑推理：
- 類似于決策樹中的單路徑探索，每一步都基于當(dāng)前狀態(tài)和預(yù)定規(guī)則或策略選擇下一步行動，直到達到目標狀態(tài)。
- 優(yōu)點：簡單直接，計算量相對較小。
- 缺點：對不確定性和動態(tài)變化的環(huán)境適應(yīng)性差。
多路徑推理：
- 生成多個可能的計劃路徑，并考慮不同路徑之間的轉(zhuǎn)換可能性。
- 優(yōu)點：靈活性高，能應(yīng)對一定的不確定性。
- 缺點：計算復(fù)雜度高，需要更多的計算資源。
使用外部規(guī)劃器：
- 利用專門的規(guī)劃算法（如A*、Dijkstra算法等）或規(guī)劃系統(tǒng)（如HTN規(guī)劃器）來搜索最優(yōu)或可行的計劃。
- 優(yōu)點：能夠找到高質(zhì)量的解決方案，適用于復(fù)雜問題。
- 缺點：依賴于外部系統(tǒng)和算法的性能，可能需要大量的預(yù)處理和計算。

基于反饋的計劃

特點：

動態(tài)調(diào)整：根據(jù)任務(wù)執(zhí)行過程中的實時反饋來動態(tài)調(diào)整計劃。
適應(yīng)性強：能夠很好地應(yīng)對不確定性和動態(tài)變化的環(huán)境。

反饋來源：

任務(wù)執(zhí)行結(jié)果的客觀反饋：如傳感器數(shù)據(jù)、任務(wù)完成狀態(tài)等。
人的主觀判斷：在人類參與的任務(wù)中，根據(jù)人類的評價和指示來調(diào)整計劃。
輔助模型提供的反饋：通過模擬、預(yù)測或分析等手段生成的反饋，用于優(yōu)化計劃。

優(yōu)勢：

提高系統(tǒng)在不確定性和復(fù)雜環(huán)境中的適應(yīng)性和魯棒性。
能夠更好地應(yīng)對突發(fā)情況和意外事件。

挑戰(zhàn)：

需要實時處理和分析反饋數(shù)據(jù)，對系統(tǒng)的實時性要求較高。
在高度動態(tài)和復(fù)雜的環(huán)境中，反饋可能不完全準確或存在延遲，增加了規(guī)劃的難度。

我們希望智能體也擁有類似人類規(guī)劃能力的思維模式，因此可以通過 LLM 提示工程，為智能體賦予這樣的思維模式。

在智能體中，最重要的是讓 LLM 具備這以下兩個能力：

子任務(wù)分解；
反思和完善。

拆解子目標和任務(wù)分解方法

通過大模型提示工程，比如：ReAct、CoT 推理模式，可賦予智能體類似思維模式，精準拆解復(fù)雜任務(wù)，分步解決。

COT

原論文：https://arxiv.org/pdf/2201.11903.pdf

關(guān)于使用COT：在現(xiàn)在應(yīng)該是大模型本身就應(yīng)該具備的能力，只需要在Prompt 中添加了一句 “Let's Step by Step” ，將艱難的任務(wù)分解成更小，更簡單的步驟。CoT將大型任務(wù)轉(zhuǎn)化為多個可管理的任務(wù)，并對模型的思維過程進行了闡釋。

Self-consistency with CoT（CoT的自我一致性）

原論文：https://arxiv.org/pdf/2203.11171.pdf

一種CoT在實際應(yīng)用中的方案是：Self-consistency with CoT（CoT的自我一致性）。簡單地要求模型對同一提示進行多次回答，并將多數(shù)結(jié)果作為最終答案。它是CoT（Chain of Thought）的后續(xù)方法。

TOT

原論文：https://arxiv.org/pdf/2305.10601.pdf

具體結(jié)構(gòu)圖如下：虛線左邊為基本Prompt、CoT以及CoT Self Consisitency，虛線右邊為ToT。

從原始輸入開始，在思維鏈的每一步，采樣多個分支。逐漸形成樹狀結(jié)構(gòu)，對每一個分支進行評估，然后在合適的分支上進行搜索。這就是ToT思維樹的基本過程，進一步擴展CoT，在每一步都探索多種推理的可能性。它首先將問題分解為多個思考步驟，并在每個步驟中生成多個思考，從而創(chuàng)造一個樹形結(jié)構(gòu)。搜索過程可以是BFS(廣度優(yōu)先搜索)或DFS(深度優(yōu)先搜索)，每個狀態(tài)由分類器(通過一個prompt)或少數(shù)服從多數(shù)的投票原則來決定。

任務(wù)分解可通過以下幾種方式實現(xiàn)：

a. 給LLM一個簡單的提示詞“Steps for XYZ.\n1.”，“What are the subgoals for achieving XYZ?”;

b. 使用針對具體任務(wù)的指令，例如對一個寫小說的任務(wù)先給出“Write a story outline.”指令;

c. 使用者直接輸入;

GOT

原論文：https://arxiv.org/pdf/2308.09687

Graph of Thoughts：同時支持多鏈、樹形以及任意圖形結(jié)構(gòu)的Prompt方案，支持各種基于圖形的思考轉(zhuǎn)換，如聚合、回溯、循環(huán)等，這在CoT和ToT中是不可表達的。將復(fù)雜問題建模為操作圖 (Graph of Operations，GoO)，以LLM作為引擎自動執(zhí)行，從而提供解決復(fù)雜問題的能力。某種程度上，GoT囊括了單線條的CoT和多分枝的ToT。

無論是CoT還是ToT，本質(zhì)上是通過Prompt的精心設(shè)計，激發(fā)出模型原有的Metacognition，只是如何通過某條神經(jīng)元的線索能更加精準的調(diào)動出大腦中最擅長Planning的部分

LLM+P

原論文：https://arxiv.org/pdf/2304.11477

通過借助一個外部的經(jīng)典Planner來進行一個更加長序列的整體規(guī)劃。這種方法利用規(guī)劃域定義語言(Planning Domain Definition Language, PDDL)作為中間接口來描述規(guī)劃問題。這是第一個將經(jīng)典規(guī)劃器的優(yōu)點納入 LLM 的框架。LLM+P 接收一個規(guī)劃問題的自然語言描述，然后用自然語言返回一個解決該問題的正確（或最優(yōu)）計劃。LLM+P的做法是，首先將語言描述轉(zhuǎn)換為用規(guī)劃域定義語言（Planning Domain Definition Language）編寫的文件，然后利用經(jīng)典規(guī)劃器快速找到一個解決方案，再將找到的解決方案翻譯成自然語言。根本上講， Planning Step是外包給外部工具的，當(dāng)然也有一個前提：需要有特定領(lǐng)域的PDDL和合適的 Planner。

作者還定義了一組不同的基準問題，這些問題取自常見的規(guī)劃場景。通過對這些基準問題的全面實驗，作者發(fā)現(xiàn)LLM+P能夠為大多數(shù)問題提供最優(yōu)的解決方案，而 LLM 甚至不能為大多數(shù)問題提供可行的計劃。

LLM的強項：大語言模型（如GPT、BERT等）在處理自然語言理解、生成以及處理非結(jié)構(gòu)化問題上表現(xiàn)突出。它們可以推理、生成文本，并根據(jù)已有的上下文生成合理的方案，特別適合處理靈活且復(fù)雜的任務(wù)。

但是，LLM在面對長序列規(guī)劃問題時（需要多步驟的復(fù)雜推理和任務(wù)執(zhí)行）存在一定的局限性。由于LLM是概率模型，隨著推理步驟的增加，預(yù)測錯誤的累積會導(dǎo)致模型在長序列任務(wù)中的性能下降。

Planner的強項：經(jīng)典規(guī)劃器（如A*算法、基于圖的規(guī)劃器等）在處理結(jié)構(gòu)化問題和長序列任務(wù)上具有優(yōu)勢。它們可以精確地規(guī)劃和推理，確保在給定條件下找到最優(yōu)的執(zhí)行步驟，但它們往往需要明確的規(guī)則和約束來進行規(guī)劃，對非結(jié)構(gòu)化問題的處理能力較弱。

LLM+P 的協(xié)作：

LLM作為任務(wù)的高層次決策器，用于理解自然語言描述的復(fù)雜任務(wù)，識別任務(wù)的核心要素，并生成一個初步的任務(wù)框架或序列。這一過程涉及到從任務(wù)描述中推斷出目標、子目標和可能的策略。
Planner則接管具體的規(guī)劃細節(jié)部分，借助經(jīng)典規(guī)劃算法，完成復(fù)雜任務(wù)的長序列規(guī)劃。在這個階段，Planner會優(yōu)化由LLM生成的高層次策略，確保每一步的合理性，并對長序列任務(wù)進行整體優(yōu)化。

經(jīng)典的Planner算法種類繁多，每種算法都有其特定的應(yīng)用場景和優(yōu)勢：

A*、Dijkstra和Bellman-Ford等算法適用于圖搜索和路徑規(guī)劃問題。
RRT和PRM在處理復(fù)雜、高維空間中的機器人運動規(guī)劃方面表現(xiàn)出色。
HSP、STRIPS、SAT規(guī)劃器以及PDDL等用于處理更加復(fù)雜、基于任務(wù)執(zhí)行的自動規(guī)劃問題。

反思和完善

上述規(guī)劃模塊不涉及任何反饋，這使得實現(xiàn)解決復(fù)雜任務(wù)的長期規(guī)劃變得具有挑戰(zhàn)性。為了解決這一挑戰(zhàn)，可以利用一種機制，使模型能夠根據(jù)過去的行動和觀察反復(fù)思考和細化執(zhí)行計劃。目標是糾正并改進過去的錯誤，這有助于提高最終結(jié)果的質(zhì)量。同時反思任務(wù)是否已經(jīng)完成，并終止任務(wù)。這在復(fù)雜的現(xiàn)實世界環(huán)境和任務(wù)中尤其重要，其中試錯是完成任務(wù)的關(guān)鍵。這種反思或批評機制的兩種流行方法包括?ReAct?和?Reflexion。

ReAct(融合推理與執(zhí)行的能力)

個人理解一下：CoT、ToT 都是作用在大模型本身的內(nèi)在推理（Reason）過程上，而 ReAct 則是統(tǒng)籌整個系統(tǒng)，從推理過程，結(jié)合外部工具共同實現(xiàn)最終的目標（Reason + Action），通過結(jié)合推理（Reasoning）和行動（Acting）來增強推理和決策的效果。

推理（Reasoning）：?LLM 基于「已有的知識」或「行動（Acting）后獲取的知識」，推導(dǎo)出結(jié)論的過程。
行動（Acting）：?LLM 根據(jù)實際情況，使用工具獲取知識，或完成子任務(wù)得到階段性的信息。

原論文：https://arxiv.org/pdf/2210.03629

以ReAct論文中那張圖來看，可以更清晰的理解ReAct與CoT、ToT的區(qū)別：

對于ReAct這個框架可以理解為是一種結(jié)合了推理和行動的新型人工智能框架，主要用于增強AI系統(tǒng)在復(fù)雜環(huán)境中的決策能力和執(zhí)行效率。ReAct框架的核心思想是通過實時檢索相關(guān)信息和執(zhí)行基于這些信息的行動，來輔助AI系統(tǒng)進行更準確的推理和決策。

為什么結(jié)合推理和行動，就會有效增強 LLM 完成任務(wù)的能力？

僅推理（Reasoning Only）：LLM 僅僅基于已有的知識進行推理，生成答案回答這個問題。很顯然，如果 LLM 本身不具備這些知識，可能會出現(xiàn)幻覺，胡亂回答一通。
僅行動（Acting Only）：大模型不加以推理，僅使用工具（比如搜索引擎）搜索這個問題，得出來的將會是海量的資料，不能直接回到這個問題。
推理+行動（Reasoning and Acting）： LLM 首先會基于已有的知識，并審視擁有的工具。當(dāng)發(fā)現(xiàn)已有的知識不足以回答這個問題，則會調(diào)用工具，比如：搜索工具、生成報告等，然后得到新的信息，基于新的信息重復(fù)進行推理和行動，直到完成這個任務(wù)。其推理和行動的步驟會是如下這樣：

在ReAct框架中，AI系統(tǒng)不僅依賴于其預(yù)訓(xùn)練的知識，還會在遇到新情況時，主動檢索外部信息（如數(shù)據(jù)庫、網(wǎng)絡(luò)資源等），并將這些信息整合到其決策過程中。這一過程可以看作是AI系統(tǒng)在“思考”（Reasoning）和“行動”（Acting）之間的循環(huán)，其中：

思考（Reasoning）：AI系統(tǒng)基于當(dāng)前狀態(tài)和目標，進行推理和規(guī)劃，確定下一步需要采取的行動或需要檢索的信息。
行動（Acting）：根據(jù)推理結(jié)果，AI系統(tǒng)執(zhí)行相應(yīng)的行動，如檢索信息、執(zhí)行任務(wù)等。
反饋：AI系統(tǒng)根據(jù)行動的結(jié)果，更新其狀態(tài)和知識，然后再次進入思考階段，形成一個閉環(huán)。

ReAct框架的優(yōu)勢在于，它使AI系統(tǒng)能夠適應(yīng)不斷變化的環(huán)境，處理之前未見過的情況，而不僅僅是依賴于預(yù)訓(xùn)練數(shù)據(jù)。通過實時檢索和整合新信息，AI系統(tǒng)可以做出更準確、更靈活的決策，提高其在復(fù)雜任務(wù)中的表現(xiàn)。

Reflexion(動態(tài)記憶和自我反思)

Reflexion是一個框架，旨在通過賦予智能體動態(tài)記憶和自我反思能力來提升其推理技巧。該方法采用標準的強化學(xué)習(xí)（RL）設(shè)置，其中獎勵模型提供簡單的二元獎勵，行動空間遵循ReAct中的設(shè)置，即通過語言增強特定任務(wù)的行動空間，以實現(xiàn)復(fù)雜的推理步驟。每執(zhí)行一次行動后，智能體會計算一個啟發(fā)式評估，并根據(jù)自我反思的結(jié)果，可選擇性地重置環(huán)境，以開始新的嘗試。啟發(fā)式函數(shù)用于確定軌跡何時效率低下或包含幻覺應(yīng)當(dāng)停止。效率低下的規(guī)劃指的是長時間未成功完成的軌跡?；糜X定義為遭遇一系列連續(xù)相同的行動，這些行動導(dǎo)致在環(huán)境中觀察到相同的結(jié)果。詳細可以參考【Reflextion論文總結(jié)】-CSDN博客

原論文：https://arxiv.org/pdf/2303.11366

記憶（Memory）

Memory在Agent系統(tǒng)中扮演重要角色，它存儲和組織從環(huán)境中獲取的信息，以指導(dǎo)未來行動。

結(jié)構(gòu)劃分

結(jié)構(gòu)上，內(nèi)存模塊通常包含短期記憶和長期記憶兩個部分。短期記憶暫存最近的感知，長期記憶存儲重要信息供隨時檢索。

短期記憶：指在執(zhí)行任務(wù)的過程中的上下文，會在子任務(wù)的執(zhí)行過程產(chǎn)生和暫存，在任務(wù)完結(jié)后被清空；例如，記住一個電話號碼直到撥打完畢。
長期記憶：指長時間保留的信息（為Agent提供保留和召回長期信息的能力），一般是指外部知識庫，通常用向量數(shù)據(jù)庫來存儲和檢索?！鹃L期記憶可以進一步分為顯性記憶和隱性記憶。顯性記憶，可以有意識地回憶和表達的信息，顯性記憶又可以分為
情景記憶（個人經(jīng)歷的具體事件）和語義記憶（一般知識和概念）。隱性記憶，這種記憶通常是無意識的，涉及技能和習(xí)慣，如騎自行車或打字?！?/li>

短期記憶和長期記憶的對比

特性	短期記憶	長期記憶
生命周期	對話或任務(wù)期間，短期有效	跨對話和任務(wù)，長期有效
存儲位置	內(nèi)存、緩存、內(nèi)存數(shù)據(jù)庫、對話管理器上下文存儲	關(guān)系型數(shù)據(jù)庫、NoSQL、向量存儲、知識圖譜、對象存儲
訪問速度	快速訪問（通常在內(nèi)存中）	稍慢（通常持久化存儲在數(shù)據(jù)庫）
數(shù)據(jù)類型	當(dāng)前上下文、臨時信息	用戶偏好、歷史記錄、關(guān)系信息等
典型應(yīng)用場景	多輪對話中的上下文追蹤	跨會話的個性化服務(wù)、個性偏好、長期用戶信息
示例技術(shù)	Redis、內(nèi)存數(shù)據(jù)庫、對話管理上下文	MySQL、MongoDB、FAISS、Neo4j、ES

格式劃分

格式上，內(nèi)存信息可以用自然語言表達，也可以編碼為向量嵌入提高檢索效率，還可以利用數(shù)據(jù)庫存儲，或組織為結(jié)構(gòu)化列表表示內(nèi)存語義。

自然語言：內(nèi)存信息有時可以用自然語言表達，這種方式對于人類易于理解和解釋，但在機器處理時可能效率較低。
向量嵌入：為了提高檢索效率，內(nèi)存信息常被編碼為向量嵌入（Vector Embeddings）。向量嵌入能夠將信息映射到高維空間中的點，通過計算點之間的距離來評估信息的相似度，從而實現(xiàn)高效的檢索和匹配。
數(shù)據(jù)庫和結(jié)構(gòu)化列表：對于需要精確管理和高效查詢的信息，可以使用數(shù)據(jù)庫或結(jié)構(gòu)化列表來組織內(nèi)存。這種方式不僅便于信息的存儲和檢索，還能夠清晰地表達內(nèi)存信息的語義關(guān)系。

操作劃分

操作上，主要通過記憶讀取、寫入和反射三種機制與環(huán)境交互。讀取提取相關(guān)信息指導(dǎo)行動，寫入存儲重要信息，反射總結(jié)見解提升抽象水平。

記憶讀取（Read）：Agent通過讀取內(nèi)存中的信息來提取相關(guān)知識，以指導(dǎo)其行動。以確保Agent能夠獲取到最相關(guān)和最有用的信息。
記憶寫入（Write）：當(dāng)Agent從環(huán)境中獲取到新信息或?qū)W習(xí)到新知識時，它需要將這些信息寫入到內(nèi)存中。寫入操作可以是對短期記憶的更新，也可以是將重要信息存儲到長期記憶中，以便將來使用。
記憶反射（Reflection）：記憶反射是Agent對內(nèi)存信息進行總結(jié)和抽象的過程。通過反思過去的經(jīng)驗和知識，Agent可以提煉出更高層次的見解和規(guī)律，從而提升其決策能力和適應(yīng)性。這種過程類似于人類的反思和學(xué)習(xí)過程，是Agent實現(xiàn)智能的關(guān)鍵環(huán)節(jié)之一。

工具（Tools）?

LLM 是數(shù)字世界中的程序，想要與現(xiàn)實世界互動、獲取未知的知識，或是計算某個復(fù)雜的公式等，都離不開不工具。所以我們需要為智能體配備各種工具以及賦予它使用工具的能力。

為智能體配備工具 API，比如：計算器、搜索工具、日歷、數(shù)據(jù)庫查詢工具、調(diào)用外部API獲取額外信息、?也可以是函數(shù)（function）、軟件開發(fā)工具包（sdk）、ChatPDF 解析文檔插件、Midjourey 文生圖多模態(tài)等。有了這些工具 API，智能體就可以是物理世界交互，解決實際的問題。

在智能體中，工具就是函數(shù)（Function），工具使用就是調(diào)用函數(shù)（Call Function）。在 LLM 中實現(xiàn)函數(shù)調(diào)用，使用到 LLM 的Function Calling能力。

Tools use

Function Calling 是一種實現(xiàn)大型語言模型連接外部工具的機制。通過 API 調(diào)用 LLM 時，調(diào)用方可以描述函數(shù)，包括函數(shù)的功能描述、請求參數(shù)說明、響應(yīng)參數(shù)說明，讓 LLM 根據(jù)用戶的輸入，合適地選擇調(diào)用哪個函數(shù)，同時理解用戶的自然語言，并轉(zhuǎn)換為調(diào)用函數(shù)的請求參數(shù)（通過 JSON 格式返回）。調(diào)用方使用 LLM 返回的函數(shù)名稱和參數(shù)，調(diào)用函數(shù)并得到響應(yīng)。最后，如果需求，把函數(shù)的響應(yīng)傳給 LLM，讓 LLM 組織成自然語言回復(fù)用戶。

function calling 具體工作流程如下圖所示：

不同 LLM 的 API 接口協(xié)議會有所不同，一文帶你了解大模型——智能體（Agent）中詳細展示了如何以OpenAI 的 API 協(xié)議為例，實現(xiàn) Function Calling。下面簡單的概述一下使用Function Calling需要的步驟：

1. 函數(shù)描述【工具聲明】

假設(shè)你的函數(shù)（可以自行編碼實現(xiàn)，也可以通過調(diào)用外部 API 實現(xiàn)）已經(jīng)被實現(xiàn)，我們需要向 LLM 描述這個函數(shù)，函數(shù)描述的必備要素：

函數(shù)名
函數(shù)的功能描述
函數(shù)的請求參數(shù)說明
函數(shù)的響應(yīng)參數(shù)說明（可選）

2. 調(diào)用 LLM 獲得函數(shù)的請求參數(shù)【工具（集合）初始化】

Function Calling 是通過請求 LLM 的 chat API 實現(xiàn)的，在支持 Function Calling 模型的 chat API 參數(shù)中，會有一個 functions 參數(shù) (或 tools，不同 LLM 的參數(shù)會有所不同) ，通過傳入這個參數(shù)，大模型則會知道擁有哪些參數(shù)可供使用。并且會根據(jù)用戶的輸入，推理出應(yīng)該調(diào)用哪些函數(shù)，并將自然語言轉(zhuǎn)成函數(shù)的請求參數(shù)，返回給請求方。

3. 調(diào)用函數(shù)【執(zhí)行工具】

調(diào)用方獲得 LLM 返回的函數(shù)調(diào)用信息（函數(shù)名稱和調(diào)用參數(shù)）后，自行調(diào)用函數(shù)，并得到函數(shù)執(zhí)行的響應(yīng)。如果有需要，還可以把函數(shù)執(zhí)行的響應(yīng)追加到 chat API 的對話中傳給 LLM，讓 LLM 組織成自然語言回復(fù)用戶。

除了使用Function calling，還有MRKL、Toolformer、HuggingGPT等方法，詳細可以參考——“AI”科普丨一文帶你了解基于大模型的Agent。

行動（Action）

職責(zé)是依規(guī)劃與記憶，使用工具執(zhí)行具體行動。包括與外部互動或工具調(diào)用，實現(xiàn)輸入至輸出的轉(zhuǎn)化。比如：智能客服回復(fù)、查詢天氣預(yù)報、預(yù)約會議等。

將抽象的決策轉(zhuǎn)化為具體的行動，它就像是一個橋梁，連接了Agent的內(nèi)部世界與外部環(huán)境。在執(zhí)行任務(wù)時，需要考慮行動的目標、生成方式、應(yīng)用范圍以及可能產(chǎn)生的影響。

理想的行動應(yīng)當(dāng)是有目的，例如完成特定任務(wù)、與其他代理進行交流或者探索環(huán)境。行動的產(chǎn)生可以依賴于查詢過去的記憶經(jīng)驗，或者遵循預(yù)設(shè)的計劃。而行動的范圍，不僅可以通過利用如API和知識庫等外部工具來擴展，還需要發(fā)揮大型語言模型（LLM）的內(nèi)在能力，例如規(guī)劃、對話及理解常識等。架構(gòu)就像PC的硬件，但僅依賴架構(gòu)設(shè)計是不夠的，我們還需要賦予Agent完成不同任務(wù)的能力，這些被視為“軟件”資源。

在https://browse.arxiv.org/pdf/2308.11432論文中提出了幾種方法，包括模型微調(diào)、提示工程和機械工程。其中提示工程應(yīng)該是最為常見的一種形式了，我們常聽說的提示詞工程師就是在這個語境下的角色。

模型微調(diào)。使用特定任務(wù)數(shù)據(jù)對模型進行微調(diào)，提升相關(guān)能力。數(shù)據(jù)可以來自人類注釋、LLM生成或?qū)嶋H應(yīng)用中收集。這可以使Agent行為更符合人類價值觀。
提示工程。通過自然語言描述向LLM灌輸所需的能力，然后將描述作為提示指導(dǎo)Agent操作。這可以讓Agent快速獲得指定的軟件能力。
機械工程。主要涵蓋：

眾包法：整合多個Agent的見解，形成更新的集體響應(yīng)。
試錯法：Agent先執(zhí)行操作，根據(jù)效果調(diào)整行動，逐步優(yōu)化。
經(jīng)驗積累法：Agent通過不斷探索積累經(jīng)驗，逐步提升軟件能力。
自我驅(qū)動法：Agent自主設(shè)置目標并在環(huán)境中不斷探索，最終獲得軟件能力。

Agent的挑戰(zhàn)

構(gòu)建基于大型語言模型（LLM）的智能體是一個新興領(lǐng)域，面臨著眾多挑戰(zhàn)和限制。以下是幾個主要的挑戰(zhàn)及可能的解決方案：

角色適應(yīng)性問題

智能體需要在特定領(lǐng)域內(nèi)有效工作，對難以表征或遷移的角色，可以通過針對性地微調(diào)LLM來提高性能。這包括代表非常見角色或心理特征的能力提升。

上下文長度限制

有限的上下文長度限制了LLM的能力，盡管向量存儲和檢索提供了訪問更大知識庫的可能性。系統(tǒng)設(shè)計需要創(chuàng)新，以在有限的通信帶寬內(nèi)有效運作。

提示的魯棒性

智能體的提示設(shè)計需要足夠魯棒，以防微小的變化導(dǎo)致可靠性問題?？赡艿慕鉀Q方案包括自動優(yōu)化調(diào)整提示或使用LLM自動生成提示。

知識邊界的控制

控制LLM的內(nèi)部知識，避免引入偏見或使用用戶不知道的知識，是一個挑戰(zhàn)。這要求智能體在處理信息時更加透明和可控。

效率和成本問題

LLM處理大量請求時的效率和成本是重要考量因素。優(yōu)化?推理速度?和?成本效率?是提升多智能體系統(tǒng)性能的關(guān)鍵。

總的來說，基于LLM的智能體構(gòu)建是一個復(fù)雜且多面的挑戰(zhàn)，需要在多個方面進行創(chuàng)新和優(yōu)化。持續(xù)的研究和技術(shù)發(fā)展對于克服這些挑戰(zhàn)至關(guān)重要。

參考

https://www.51cto.com/article/766462.html

https://zhuanlan.zhihu.com/p/656683532

“AI”科普丨一文帶你了解基于大模型的Agent

https://zhuanlan.zhihu.com/p/697706325

一文徹底理解大模型 Agent 智能體原理和案例_大模型agent-CSDN博客

Al Agent：大模型時代重要落地方向 - 大模型知識庫|大模型訓(xùn)練|開箱即用的企業(yè)大模型應(yīng)用平臺|智能體開發(fā)|53AI

Agent : 一文讀懂LLM Agent架構(gòu)，詳解Profile，Memory，Planning，Action模塊作用-CSDN博客

“AI”科普丨一文帶你了解基于大模型的Agent

LLM+P：賦予大語言模型最佳機器人規(guī)劃能力-CSDN博客

Agent : 一文讀懂LLM Agent架構(gòu)，詳解Profile，Memory，Planning，Action模塊作用-CSDN博客

https://zhuanlan.zhihu.com/p/642360366

【Reflextion論文總結(jié)】-CSDN博客

查看全文

http://m.risenshineclean.com/news/61182.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

企業(yè)申請網(wǎng)站建設(shè)請示站長素材免費下載

什么是大模型 Agent ？

大模型Agent 有哪些部分組成?

規(guī)劃（Planning）

Planning類型

不依賴反饋的計劃

基于反饋的計劃

拆解子目標和任務(wù)分解方法

COT

Self-consistency with CoT（CoT的自我一致性）

TOT

GOT

LLM+P

反思和完善

ReAct(融合推理與執(zhí)行的能力)

Reflexion(動態(tài)記憶和自我反思)

記憶（Memory）

結(jié)構(gòu)劃分

短期記憶和長期記憶的對比

格式劃分

操作劃分

工具（Tools）?

Tools use

1. 函數(shù)描述【工具聲明】

2. 調(diào)用 LLM 獲得函數(shù)的請求參數(shù)【工具（集合）初始化】

3. 調(diào)用函數(shù)【執(zhí)行工具】

行動（Action）

Agent的挑戰(zhàn)

角色適應(yīng)性問題

上下文長度限制

提示的魯棒性

知識邊界的控制

效率和成本問題

參考

相關(guān)文章：