智能體是什么
????????智能體是指基于大語(yǔ)言模型(LLMs)構(gòu)建的智能體摹察,具有強(qiáng)大的語(yǔ)言理解和處理能力捌朴,可以自動(dòng)化地完成各種復(fù)雜的任務(wù)。大模型智能體的構(gòu)建需要使用大量的數(shù)據(jù)和計(jì)算資源桥帆,并進(jìn)行精細(xì)的模型訓(xùn)練和優(yōu)化赖淤,以實(shí)現(xiàn)高性能的智能體蜀漆,展現(xiàn)出類似人類的歸納和思考能力。
智能體的應(yīng)用場(chǎng)景
大模型智能體在多個(gè)領(lǐng)域有廣泛的應(yīng)用:
- 自然語(yǔ)言處理:處理文本分類漫蛔、情感分析嗜愈、命名實(shí)體識(shí)別等功能。
- 問(wèn)答系統(tǒng):自動(dòng)回答用戶問(wèn)題莽龟,提供準(zhǔn)確的信息和服務(wù)蠕嫁。
- 文本生成:生成新聞報(bào)道、小說(shuō)毯盈、廣告語(yǔ)等剃毒。
- 語(yǔ)音識(shí)別和生成:實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)文字、文字轉(zhuǎn)語(yǔ)音等功能搂赋。
- 機(jī)器翻譯:將一種語(yǔ)言的文本翻譯成另一種語(yǔ)言赘阀。
智能體的組成
智能體四個(gè)組成部分:大模型+工具+記憶+規(guī)劃
規(guī)劃(Planning)
把大型任務(wù)分解為子任務(wù),以便高效的處理復(fù)雜任務(wù)脑奠,并規(guī)劃執(zhí)行任務(wù)的流程基公;
對(duì)任務(wù)執(zhí)行的過(guò)程進(jìn)行思考和反思,從而決定是繼續(xù)執(zhí)行任務(wù)宋欺,或判斷任務(wù)完結(jié)并終止運(yùn)行轰豆。
規(guī)劃,可以理解為觀察和思考齿诞。如果用人類來(lái)類比酸休,當(dāng)我們接到一個(gè)任務(wù),我們的思維模式可能會(huì)像下面這樣:
- 我們首先會(huì)思考怎么完成這個(gè)任務(wù)祷杈。
- 然后我們會(huì)審視手頭上所擁有的工具斑司,以及如何使用這些工具高效地達(dá)成目的。
- 我們會(huì)把任務(wù)拆分成子任務(wù)但汞。
- 在執(zhí)行任務(wù)的時(shí)候宿刮,我們會(huì)對(duì)執(zhí)行過(guò)程進(jìn)行反思和完善互站,吸取教訓(xùn)以完善未來(lái)的步驟
- 執(zhí)行過(guò)程中思考任務(wù)何時(shí)可以終止
這是人類的規(guī)劃能力,我們希望智能體也擁有這樣的思維模式糙置,因此可以通過(guò) LLM 提示工程云茸,為智能體賦予這樣的思維模式。在智能體中谤饭,最重要的是讓 LLM 具備這以下能力:
子任務(wù)分解(Subgoal decomposition)
通過(guò) LLM 使得智能體可以把大型任務(wù)分解為更小的标捺、更可控的子任務(wù),從而能夠有效完成復(fù)雜的任務(wù)揉抵。
思維鏈(Chain of Thoughts, CoT)
思維鏈已經(jīng)是一種比較標(biāo)準(zhǔn)的提示技術(shù)亡容,能顯著提升 LLM 完成復(fù)雜任務(wù)的效果。當(dāng)我們對(duì) LLM 這樣要求「think step by step」冤今,會(huì)發(fā)現(xiàn) LLM 會(huì)把問(wèn)題分解成多個(gè)步驟闺兢,一步一步思考和解決,能使得輸出的結(jié)果更加準(zhǔn)確戏罢。這是一種線性的思維方式屋谭。
思維鏈的 prompt 可以像是如下這樣(這里只是一個(gè)極簡(jiǎn)的 prompt,實(shí)際會(huì)按需進(jìn)行 prompt 調(diào)優(yōu)):
template="Answer the question: Q: {question}? Let's think step by step:"
反思和完善(self-critics)
智能體在執(zhí)行任務(wù)過(guò)程中龟糕,通過(guò) LLM 對(duì)完成的子任務(wù)進(jìn)行反思桐磁,從錯(cuò)誤中吸取教訓(xùn),并完善未來(lái)的步驟讲岁,提高任務(wù)完成的質(zhì)量我擂。同時(shí)反思任務(wù)是否已經(jīng)完成,并終止任務(wù)缓艳。這種反思和完善可以幫助 Agent 提高自身的智能和適應(yīng)性校摩。
Reflection
通過(guò)結(jié)合推理(Reasoning)和行動(dòng)(Acting)來(lái)增強(qiáng)推理和決策的效果
- 推理(Reasoning): LLM 基于已有的知識(shí)或行動(dòng)(Acting)后獲取的知識(shí),推導(dǎo)出結(jié)論的過(guò)程阶淘。
- 行動(dòng)(Acting): LLM 根據(jù)實(shí)際情況衙吩,使用工具獲取知識(shí),或完成子任務(wù)得到階段性的信息溪窒。
為什么結(jié)合推理和行動(dòng)坤塞?
- 僅推理(Reasoning Only):LLM 僅僅基于已有的知識(shí)進(jìn)行推理,生成答案來(lái)回答這個(gè)問(wèn)題霉猛。很顯然,如果 LLM 本身不具備這些知識(shí)珠闰,可能會(huì)出現(xiàn)幻覺(jué)惜浅,胡亂回答一通。
- 僅行動(dòng)(Acting Only):大模型不加以推理伏嗜,僅使用工具(比如搜索引擎)搜索這個(gè)問(wèn)題坛悉,得出來(lái)的將會(huì)是海量的資料伐厌,不能直接回答這個(gè)問(wèn)題。
- 推理+行動(dòng)(Reasoning and Acting):LLM 首先會(huì)基于已有的知識(shí)裸影,并審視擁有的工具挣轨。當(dāng)發(fā)現(xiàn)已有的知識(shí)不足以回答這個(gè)問(wèn)題,則會(huì)調(diào)用工具轩猩,比如:搜索工具卷扮、生成報(bào)告等,然后得到新的信息均践,基于新的信息重復(fù)進(jìn)行推理和行動(dòng)晤锹,直到完成這個(gè)任務(wù)。
Reasoning+Acting 的 prompt 模版的大致思路為:
Thought(思考): ...
Action(行動(dòng)): ...
Observation(觀察): ...Thought(思考): ...
Action(行動(dòng)): ...
Observation(觀察): ......(Repeated many times(重復(fù)多次))
Final Answer: ...
使用LangChain實(shí)現(xiàn)零樣本智能體彤委,零樣本智能體是指在不給大模型任何樣本提示信息的情況鞭铆,由大模型去實(shí)現(xiàn)工具調(diào)用來(lái)得到問(wèn)題的答案,代碼實(shí)現(xiàn)如下:
from langchain.agents import tool
from langchain.agents import initialize_agent
from langchain.agents import AgentType
from langchain.llms import OpenAI
from datetime import date
llm = OpenAI(
api_key="sk-esjT0arInWjjUXbfCcF228498d99433...........",
base_url="https://api.aigc369.com/v1"
)
@tool
def time() -> str:
"""
Return the date of Today
"""
return str(date.today())
agent = initialize_agent([time], llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)
agent.run("今天是什么日期")
智能體執(zhí)行過(guò)程如下:
> Entering new AgentExecutor chain...
I should use the tool "time" to find the date
Action: time
Action Input: Today
Observation: 2024-11-06
Thought: I now know the final answer
Final Answer: Today's date is November 6th, 2024.
> Finished chain.
記憶(Memory)
短期記憶是指在執(zhí)行任務(wù)的過(guò)程中的上下文焦影,會(huì)在子任務(wù)的執(zhí)行過(guò)程產(chǎn)生和暫存车遂,在任務(wù)完結(jié)后被清空,短期記憶受到有限上下文窗口長(zhǎng)度的限制斯辰,不同的模型的上下文窗口限制不同舶担。
長(zhǎng)期記憶是長(zhǎng)時(shí)間保留的信息,一般是指外部知識(shí)庫(kù)椒涯,通常用向量數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)和檢索柄沮,向量數(shù)據(jù)庫(kù)通過(guò)將數(shù)據(jù)轉(zhuǎn)化為向量存儲(chǔ)。
工具(Tool)
LLM 是數(shù)字世界中的程序废岂,想要與現(xiàn)實(shí)世界互動(dòng)祖搓、獲取未知的知識(shí),或是計(jì)算某個(gè)復(fù)雜的公式等湖苞,都離不開(kāi)工具拯欧。有了這些工具 API,智能體就可以與物理世界交互财骨,解決實(shí)際的問(wèn)題镐作。因此需要為智能體配備各種工具以及賦予它使用工具的能力。
Function Calling 是一種實(shí)現(xiàn)大型語(yǔ)言模型連接外部工具的機(jī)制隆箩。通過(guò) API 調(diào)用 LLM 時(shí)该贾,調(diào)用方可以提供一系列描述函數(shù)(包括函數(shù)的功能描述、請(qǐng)求參數(shù)說(shuō)明捌臊、響應(yīng)參數(shù)說(shuō)明)杨蛋,讓 LLM 根據(jù)用戶的輸入,合適地選擇調(diào)用哪個(gè)函數(shù),同時(shí)理解用戶的自然語(yǔ)言逞力,并轉(zhuǎn)換為調(diào)用函數(shù)的請(qǐng)求參數(shù)(通過(guò) JSON 格式返回)曙寡。調(diào)用方使用 LLM 返回的函數(shù)名稱和參數(shù),調(diào)用本地函數(shù)并得到響應(yīng)寇荧。最后举庶,如果有進(jìn)一步需求,把本地函數(shù)的響應(yīng)傳給 LLM揩抡,讓 LLM 組織成自然語(yǔ)言再給出最終答案户侥。
function calling 具體工作流程如下圖所示:
詳細(xì)介紹可以參考文章大模型 Function Call介紹
本文是對(duì)大模型Agent入門級(jí)學(xué)習(xí),參考了以下文章:
https://cloud.tencent.com/developer/article/2422923捅膘,后續(xù)有新的收獲再進(jìn)行更新添祸。。寻仗。