2023年贷痪,對(duì)于所有的人工智能領(lǐng)域只有一個(gè)共同的主題——大模型幻妓。大模型的受關(guān)注程度與發(fā)展速度可謂前所未有。其中劫拢,基于大模型的Agent又是最近幾個(gè)月大模型領(lǐng)域的熱點(diǎn)肉津。這不開(kāi)始研究沒(méi)有幾個(gè)月,綜述文章都出來(lái)了舱沧,你說(shuō)快不快妹沙,你說(shuō)嚇不嚇人。讓我們這些小角色疲于奔命也趕不上技術(shù)發(fā)展的步伐啊熟吏。
大模型距糖,全稱是大規(guī)模語(yǔ)言模型。隨著訓(xùn)練數(shù)據(jù)量和模型參數(shù)的增加牵寺,大模型開(kāi)始涌現(xiàn)超強(qiáng)的文本生成能力和分析推理能力『芬現(xiàn)在的大模型完全具備一個(gè)普通人的推理分析能力,只要你能夠設(shè)計(jì)出合理的提示語(yǔ)(Prompt)帽氓。也就是說(shuō)趣斤,只要你更夠把任務(wù)交代清楚,大模型就能夠給一個(gè)滿意的答復(fù)杏节。
可是人類還是不滿足于現(xiàn)狀唬渗,他們連布置任務(wù)也懶得去做了典阵,直接告訴大模型一個(gè)最終目標(biāo),讓它自己去理解任務(wù)镊逝、分解任務(wù)壮啊、再去執(zhí)行任務(wù)。因此基于大模型的Agent被提出撑蒜,它充分發(fā)揮了大模型強(qiáng)大的推理能力歹啼。下面給出基于大模型的Agent通用框架。
基于大模型的Agent架包括三個(gè)組成部分:大腦座菠、感知和行動(dòng)狸眼。作為控制器,大腦(Brain)模塊承擔(dān)著諸如記憶浴滴、思考和決策等基本任務(wù)拓萌。感知(Perception)模塊負(fù)責(zé)從外部環(huán)境中感知和處理多模態(tài)信息,而行動(dòng)(Action)模塊則使用工具執(zhí)行任務(wù)并反饋到周圍環(huán)境升略。
大腦(brain),是上述框架的核心微王,主要由大模型去做。借助大模型強(qiáng)大的自然語(yǔ)言交互能力品嚣,大腦可以很好的與外界通過(guò)自然語(yǔ)言進(jìn)行交互炕倘,即準(zhǔn)確理解感知模塊輸入的信息和生成準(zhǔn)確的輸出文本反饋。除了與外界交互翰撑,更重要的是其強(qiáng)大的推理罩旋、分析和決策能力。這些能力是通過(guò)大模型的訓(xùn)練自動(dòng)涌現(xiàn)的眶诈。目前也沒(méi)有一個(gè)特別合理的解釋涨醋,說(shuō)明為什么簡(jiǎn)單的語(yǔ)言模型,當(dāng)數(shù)據(jù)量和模型參數(shù)到達(dá)一定規(guī)模册养,就會(huì)涌現(xiàn)出之前沒(méi)有預(yù)料到的能力东帅。當(dāng)然,想要進(jìn)行準(zhǔn)確的推理球拦、分析和決策靠闭,還需要一定的知識(shí)作為支撐,這些知識(shí)包括常識(shí)知識(shí)和領(lǐng)域知識(shí)等坎炼。大模型掌握了非常豐富全面的通用領(lǐng)域的嘗試知識(shí)愧膀,但是對(duì)于特定領(lǐng)域知識(shí)還是有限。
感知(Perception)谣光,指對(duì)大腦的輸入控制檩淋。大腦當(dāng)前最成熟的感知手段還是自然語(yǔ)言輸入。但是人類真是的感知場(chǎng)景的多模態(tài)的,即我們感知一個(gè)事物主要是通過(guò)眼睛去看蟀悦,通過(guò)耳朵去聽(tīng)媚朦,通過(guò)文字去理解等。因此日戈,大模型的感知部分未來(lái)的發(fā)展趨勢(shì)一定是多模態(tài)融合的询张,尤其是文本+圖片(視頻)+音頻。當(dāng)然浙炼,在特定問(wèn)題上也需要對(duì)其他感知形式進(jìn)行處理份氧,最典型的就是傳感器產(chǎn)生的數(shù)據(jù)的感知。
行動(dòng)(Action)弯屈,當(dāng)大腦對(duì)感知的多模態(tài)信息進(jìn)行整合與分析之后蜗帜,就需要根據(jù)決策內(nèi)容進(jìn)行對(duì)應(yīng)行動(dòng)。最簡(jiǎn)單的行動(dòng)就是返回一段文本资厉,把答案或者執(zhí)行計(jì)劃用文本形式返回厅缺。稍微復(fù)雜一些的話,就是讓大模型直接調(diào)用一些工具去執(zhí)行操作酌住。這個(gè)就需要大模型知道都有哪些工具店归,每個(gè)工具的用途是什么,這些工具的調(diào)用方法等酪我。對(duì)于不同的需求,大模型會(huì)找到適合的工具去調(diào)用且叁,并返回結(jié)果都哭。這些工具可以是任意能夠通過(guò)API調(diào)用的服務(wù),當(dāng)前用的最多的是搜索引擎服務(wù)逞带。當(dāng)然欺矫,對(duì)于嵌入到機(jī)器人上,執(zhí)行的行為可以更復(fù)雜展氓,例如具體的機(jī)械臂的操作等穆趴。
基于大模型的Agent應(yīng)用場(chǎng)景非常廣泛,通過(guò)設(shè)計(jì)大量的Agent遇汞,還可以模擬社會(huì)環(huán)境去研究社會(huì)學(xué)問(wèn)題未妹。
參考:The Rise and Potential of Large Language Model Based Agents: A Survey