一币厕、Agent 四大要素
規(guī)劃(Planning)
記憶(Memory)
工具(Tools)
執(zhí)行(Action)
規(guī)劃: Agent需要具備規(guī)劃(同時(shí)也包含決策)能力列另,以有效地執(zhí)行復(fù)雜任務(wù)。這涉及子目標(biāo)的分解(Subgoal Decomposition)旦装、連續(xù)的思考(即思維鏈)页衙、自我反思和批評(píng)(Self-critics),以及對(duì)過去行動(dòng)的反思(Reflection)阴绢。
記憶:包含短期記憶和長(zhǎng)期記憶兩部分店乐。短期記憶與上下文學(xué)習(xí)有關(guān),屬于提示工程的一部分呻袭,而長(zhǎng)期記憶涉及信息的長(zhǎng)時(shí)間保留和檢索眨八,通常利用外部向量存儲(chǔ)和快速檢索。
工具:包括 Agent 可能調(diào)用的各種工具左电,如日歷踪古、計(jì)算器、代碼解釋器和搜索功能等券腔。由于大模型一旦完成預(yù)訓(xùn)練伏穆,其內(nèi)部能力和知識(shí)邊界就基本固定下來,而且難以拓展纷纫,因此這些工具顯得尤其重要枕扫。這些工具可以擴(kuò)展Agent的能力,使其能夠執(zhí)行更復(fù)雜的任務(wù)辱魁。
執(zhí)行(或稱行動(dòng)): Agent基于規(guī)劃和記憶來執(zhí)行具體的行動(dòng)烟瞧。這可能包括與外部世界互動(dòng)诗鸭,或者通過調(diào)用工具來完成一個(gè)動(dòng)作(任務(wù))。
二参滴、Agent 是怎樣“動(dòng)”起來的
1强岸、任務(wù)分解
任務(wù)分解包括下述技術(shù)。
思維鏈:這是一種提示技術(shù)砾赔,通過讓模型“一步一步地思考”蝌箍,幫助它將大任務(wù)分解成小任務(wù),并清楚地解釋自己的思考過程暴心。
思維樹(Tree of Thoughts妓盲,ToT):通過在每個(gè)步驟探索多種推理可能性,進(jìn)而形成一種樹狀結(jié)構(gòu)专普。思維樹可以用不同的搜索方法悯衬,例如廣度優(yōu)先搜索(Breadth-FirstSearch,BFS)或深度優(yōu)先搜索(Depth-FirstSearch檀夹,DFS)筋粗,并通過提示或投票來評(píng)估每個(gè)步驟。
還可以通過簡(jiǎn)單提示炸渡、特定任務(wù)的指令或手動(dòng)(人工)進(jìn)行任務(wù)分解等娜亿,結(jié)合外部規(guī)劃器的代表是“大模型 +P”方法:它使用PDDL(Planning DomainDefinition Language,一種規(guī)劃問題描述語言)來描述問題偶摔,首先由大模型將問題轉(zhuǎn)化為 Problem PDDL,然后請(qǐng)求外部規(guī)劃器生成計(jì)劃促脉,最后將這個(gè)計(jì)劃轉(zhuǎn)換回自然語言辰斋。本質(zhì)上,規(guī)劃步驟被外包給外部工具來完成瘸味。這種方法在某些機(jī)器人設(shè)置中很常見宫仗。
2、自我反思
ReAct: 這個(gè)框架通過結(jié)合特定任務(wù)的動(dòng)作和語言空間旁仿,讓模型能夠與環(huán)境交互藕夫,并生成推理軌跡。這是一種大模型推理和行動(dòng)的一種認(rèn)知框架枯冈,是ShunyuYao等人在ICLR 2023的論文“ReAct:SynergizingReasoning and Actingin Language Models”中提出的毅贮。
該循環(huán)過程主要涉及如下 3個(gè)步驟。
思考(Thought):涉及對(duì)下一個(gè)行動(dòng)進(jìn)行推理尘奏。在這一步驟中需要評(píng)估當(dāng)前情況并考慮可能的行動(dòng)方案滩褥。
行動(dòng)(Action):基于思考的結(jié)果,決定采取什么行動(dòng)炫加。這一步驟是行動(dòng)計(jì)劃的選擇過程瑰煎。
觀察(Observation):執(zhí)行行動(dòng)后铺然,需要觀察并收集反饋。這一步驟將對(duì)行動(dòng)結(jié)果進(jìn)行評(píng)估酒甸。它可能影響或改變下一輪次思考的方向魄健。
Reflexion:這是一個(gè)使 Agent 具備動(dòng)態(tài)記憶和自我反思能力的框架。它通過幫助 Agent 回顧過去的行動(dòng)來提高推理能力插勤。
CoH(Chain of Hindsight ):這個(gè)方法通過向大模型展示一系列帶有反饋的過去輸出來鼓勵(lì)大模型改進(jìn)自己的輸出沽瘦。
3、調(diào)用工具
研究人員提出了一些策略來提升 Agent調(diào)用工具的能力饮六。工具封裝通過封裝將工具的復(fù)雜性隱藏起來其垄,為Agent提供簡(jiǎn)單、統(tǒng)一的接口卤橄,降低 Ageni工具調(diào)用的難度绿满。利用機(jī)器學(xué)習(xí)和其他自適應(yīng)技術(shù),Agent能夠?qū)W習(xí)如何更有效地使用工具窟扑。通過不斷實(shí)踐和反饋喇颁,Agent 可以提升對(duì)工具的理解和操作能力。通過開發(fā)上下文感知的決策算法嚎货,Agent能夠根據(jù)當(dāng)前的任務(wù)和環(huán)境條件選擇最合適的工具橘霎。這包括分析任務(wù)的需求、評(píng)估可用工具的性能殖属,以及預(yù)測(cè)工具使用的潛在結(jié)果姐叁。