1 Agent/Function Call 的定義
Overview of a LLM-powered autonomous agent system:
Agent學會調(diào)用外部應(yīng)用程序接口,以獲取模型權(quán)重中缺失的額外信息(預訓練后通常難以更改),包括當前信息、代碼執(zhí)行能力妆偏、專有信息源訪問權(quán)限等刨肃。
2 從去年到現(xiàn)在有什么進展?
Not a research seminar but good to know...
一些Datasets:
- 基礎(chǔ) Knowledge-intensive/Decision-making tasks: HotpotQA, AlfWorld Enve
- 行生 In-the-wild: Glaive-Function-Calling, InternLM/Agent-FLAN, THUDM/AgentTuning
一些Eval(NoTool/Retrieval-based/Action-based)
- Berkeley Gorilla Function Call Leaderboard, THUDM/AgentBench, CMU/WebArena
一些框架/產(chǎn)品/Demo:
- GPTs, Camel-Al, Modelscope-agent, Agent Hospital
優(yōu)秀的工作很多古拴,只是不完整的列舉一部分
Agent 需要和現(xiàn)實世界的信息進行收集和交互。其核心本質(zhì)嚴重依賴于LLM自身的Instruction Following, Complex Reasoning, Long Term Planning能力之景。
3 普惠智能體
- 從技術(shù)角度看斤富,agent 是幫助人類做事的裝置,提供便利锻狗、提高效率满力、節(jié)約成本、增加樂趣等
- 從經(jīng)濟角度看轻纪,agent 需要給人類提供明顯的經(jīng)濟價值油额,需要可靠地執(zhí)行繁瑣的任務(wù),結(jié)果精確可靠刻帚、充實潦嘶、無害,并簡單易用
滿足普惠的 Agent 應(yīng)當滿足的要求:
1.能執(zhí)行繁瑣崇众、繁重的任務(wù)(太輕松的任務(wù)不需要agent)掂僵。
2.能給出可靠、充實顷歌、無害的結(jié)果(錯誤率容忍度較低)锰蓬。
3.易學易用,不需要使用說明(zero shot眯漩,不依賴于用戶的prompt水平)
4.鏈路完整芹扭,使用場景不需要經(jīng)常跳出(不能破碎)。
5.可以與外部工具和功能的交互赦抖,在沒有人為干預的情況下完成多步驟的工作流程舱卡。
6.會學習與自我糾正,越用越聰明队萤。
但現(xiàn)狀是
智能體名詞被濫用 Over promise,Under deliver:
- 簡單的工具調(diào)用轮锥,本質(zhì)上只是一個Instruction Following的問題
- 復雜推理 GPT4 還是爸爸(但 WebArena 依然只有不到3成的準確率)
- 給出指令并觀察其執(zhí)行。依然是 RPA 路線
- 簡單的 demo nb要尔,沒有穩(wěn)定的使用交胚。嚴重依賴人工經(jīng)驗判斷簡單的
- 缺乏多模態(tài)理解,still LLM grounding (OSU Mind2Web)
- 面對缺少context和語言歧義的情況盈电,依然會'硬答’
- 一些設(shè)計繁瑣的agent產(chǎn)品,節(jié)約了做事的時間成本杯活,卻增加了學習成本匆帚,違背了初衷
- 甚至部分產(chǎn)品'圖一樂’,嚴格意義上只能算 prompt engineering
簡單易用旁钧,符合普惠對AI的想象即使名字里不帶Agent吸重,也可以是一個好產(chǎn)品互拾。
4 收窄:RAG是一種信息Agent
初步認知:大模型作為信息容器
- 通過預訓練注入:中高頻、持久化信息(事實)
- 通過 Post Train注入:能力/套路,而不是事實
- 通過 context 注入:長尾嚎幸、易變颜矿、符號化、數(shù)字化嫉晶、和業(yè)務(wù)相關(guān)的數(shù)據(jù)
早期的初步認知:大模型之上
打造agent技術(shù)中骑疆,大模型并非處于最頂層苦始,它上面還需要有針對agent的業(yè)務(wù)邏輯苍凛,稱為SOP。只有SOP才能保證涉及多個步驟的agent的可靠性蜜唾。SOP會生成指導大模型工作的計劃planner椎镣。
RAG能增強模型context诈火,在推理過程中增加輔助生成答案的材料(RAG),使答案更加準確状答、充實冷守、貼合場景。這種素材通常通過檢索實現(xiàn)(廣義講是一些信息agent)惊科,應(yīng)滿足:
- 提供LLM缺失的拍摇,和用戶意圖相關(guān)的素材
- 滿足時間、空間等限定性要求
- 高精度的數(shù)據(jù)译断,精度需要高于搜索引擎提供的還需要用戶篩選的內(nèi)容
- 結(jié)構(gòu)化的授翻,能提供可靠的關(guān)系推演能力
- 專業(yè)的,滿足產(chǎn)品創(chuàng)新需求
綜上孙咪,為能打造agent堪唐,需要以大模型為中心,以數(shù)據(jù)結(jié)構(gòu)化RAG為支撐(尤其是精確的結(jié)構(gòu)化數(shù)據(jù))翎蹈,SOP為頂層抽象一個平臺淮菠。
基于這個認知的架構(gòu)
初步的技術(shù)實現(xiàn)
服務(wù)側(cè)實現(xiàn)
- 分析用戶的 prompt 和 context ,獲取用戶意圖,表達為實體荤堪、關(guān)鍵詞合陵、向量
- 利用用戶意圖從搜索引擎/關(guān)系數(shù)據(jù)庫召回相關(guān)素材
- 對素材進行相關(guān)性排序
- 對排序后的素材進行摘要(摳詞)
- 將摘要作為 context 送入大模型,并生成結(jié)果
設(shè)計的算法和模型
- 用戶意圖分析模型
- 實體提取模型
- 句子分析和關(guān)鍵詞提取模型
- 素材-意圖相關(guān)性模型
- 高速摘要模型
數(shù)據(jù)側(cè)實現(xiàn)
- 篩選優(yōu)質(zhì)語料澄阳,能提供事實拥知、情節(jié)、數(shù)據(jù)等信息碎赢,精度較高
- 對語料進行預處理低剔,切成片段
- 對片段進行結(jié)構(gòu)化,提取實體、關(guān)鍵詞襟齿、向量
- 對結(jié)構(gòu)化內(nèi)容進行改寫姻锁,面向用戶需求提取標簽
需要抓取的數(shù)據(jù)
- 一般知識性數(shù)據(jù),如百科 wiki 類
- 社區(qū)重要數(shù)據(jù)猜欺,如 twitter位隶、知乎上的大V數(shù)據(jù)、機構(gòu)數(shù)據(jù)
- 新聞源:質(zhì)量和權(quán)威性很重要
- 學術(shù)文獻开皿,學術(shù)文獻索引
- 產(chǎn)品和業(yè)務(wù)需要的數(shù)據(jù)涧黄,如ppt、ppt素材副瀑、故事情節(jié)弓熏、橋段
- 網(wǎng)絡(luò)眾投數(shù)據(jù),如針對重點 query 的谷歌排序結(jié)果
5 好用的生產(chǎn)力工具
遠不只一個 LLM + 搜索 API糠睡。平時搜集信息時挽鞠,每人都有自己的習慣和一些相似點:
- 找政務(wù)/官宣/時效性 ->微信公眾號
- 找生活攻略 ->小紅書
- 看LLM相關(guān)研究->知乎/小紅書/twitter
他能不能做到速度快?
他的知識深度與準確性狈孔,是否能夠代替搜索引擎信认?
海量的優(yōu)質(zhì)知識文本(新聞,論文...)
分鐘級索引更新均抽,sub秒級查詢相應(yīng)
有效的把context控制在16k內(nèi)
盡量接近大眾對于AGI的想象嫁赏,而不是嘗試向用戶解釋幻覺/不擅長數(shù)學等。這聽起來似乎是個 搜索推薦問題的Pro Max版本油挥!
于是潦蝇,架構(gòu)又變成:
常見的用戶問題類型
6 生產(chǎn)力場景,6種意圖識別
Default:直接用 Yi 模型回答深寥,不帶RAG
知識RAG:通用知識/專業(yè)知識攘乒,百科/學術(shù)研究類數(shù)據(jù),
新聞時事RAG:國內(nèi)惋鹅,國際则酝,時政,財經(jīng)闰集,娛樂沽讹,體育,民生武鲁。并提供reference爽雄。
搜索引擎RAG:從搜索引擎獲取摘要內(nèi)容和網(wǎng)頁內(nèi)容,并提供reference沐鼠。
Code/Math:CoT/PoT + Code Interpreter.
PPT模式:創(chuàng)作PPT大綱,….
得到大致架構(gòu)(簡易示意):
7 一些誤解
Q:大模型擁有很強的能力理解用戶的意圖盲链。
這點對GPT-4成立;對其他大模型,較困難刽沾!
Q:檢索內(nèi)容不相關(guān)時,大模型生成的內(nèi)容質(zhì)量也不應(yīng)該變差排拷。
大模型能分辨出內(nèi)容是否相關(guān)的能力也是一個需要重點訓練的能力侧漓。沒有針對增強的LLM遇到不相關(guān)的檢索內(nèi)容,RAG結(jié)果會顯著變差监氢。
Q:高質(zhì)量內(nèi)容多布蔗,就能做好RAG。
內(nèi)容質(zhì)量不僅要高浪腐,要多纵揍,還得是用戶需求的新鮮、準確议街、完整的內(nèi)容泽谨。
Q:有了RAG就能消滅生成幻覺。
RAG確實能消除一部分幻覺特漩,更重要的是讓模型了解到它沒有學過的內(nèi)容吧雹,從而把無法回答的問題變得能夠回答,而不是能夠回答的問題回答變得更好涂身。
8 一些彎路
通過小模型實現(xiàn)一個復雜的意圖路由雄卷,結(jié)果將非常不準確。拆解出的用戶意圖通過不同技術(shù)路線實現(xiàn)蛤售,最后匯總成統(tǒng)一的聊天體驗丁鹉,也存在巨大挑戰(zhàn)。
通過prompt調(diào)整通用大模型悴能,讓它能適應(yīng)RAG的任務(wù)揣钦。無論生成內(nèi)容的格式、內(nèi)容相關(guān)性搜骡、篇幅都存在著巨大的不確定性拂盯,效果相當不穩(wěn)定。
試圖通過post-train對模型已有的能力進行增強记靡,很不容易谈竿。
試圖從0到1造一個搜索,直接滿足RAG的需求摸吠,門檻非常高空凸,光是索引有價值的內(nèi)容一點就很難做。
結(jié)果要準寸痢,響應(yīng)要快呀洲,成本要低 ->需要一個新鮮、完整的索引。但Google>Bing>自建庫道逗。
單個的信息點檢索已經(jīng)有不錯的效果兵罢。但是回答綜合性問題(比如胖貓事件始末),需要整理多方面的信息,并形成回答草稿滓窍,以供RAG回答好綜合性問題卖词。
9 多模態(tài)理解/檢索/生成(以PPT為例)
利用多模態(tài)理解,對于目標文檔生成完整的文字描述吏夯,理解PPT中的概念和關(guān)系此蜈。如果僅對PPT進行OCR來提取文本信息,可能丟失大量的上下文和視覺信息噪生,導致檢索結(jié)果不夠準確或者缺乏深度裆赵。能夠?qū)⑽谋竞鸵曈X信息結(jié)合起來,構(gòu)建更加完整的內(nèi)容表示跺嗽。識別PPT之間的邏輯關(guān)系和內(nèi)容流程战授,有助于構(gòu)建知識圖譜或上下文模型。
利用多模態(tài)生成抛蚁,能夠有效的規(guī)避版權(quán)侵權(quán)陈醒,召回圖片不準,風格不統(tǒng)一瞧甩。生成的內(nèi)容與PPT的設(shè)計和布局相匹配钉跷,保持視覺一致性。
10 有了1M長文本能力肚逸,還要RAG嗎爷辙?
有了大的context,就不用在檢索相關(guān)性朦促、摘要的精簡準確方面做工作了膝晾。?
1M 的context length技術(shù)上并不難達到,但需要:
- 更多的卡和推理成本
- 更慢的推理速度
- 更難從一大塊文本內(nèi)容中找到所需要的有效內(nèi)容
所以長文本能力的提升务冕,和RAG技術(shù)并不沖突血当,甚至可以互相促進。重要的是RAG提供什么內(nèi)容能提升 LLM 的結(jié)果禀忆,而不是因為上下文長度不足臊旭,才不得已用RAG來截斷篩選長文本信息。實驗證明箩退,不是提供的上下文越多离熏,回答越好。更多的上下文中一定會有被遺漏的信息戴涝。所以怎樣從中找到更重要的信息滋戳,壓縮提供給LLM的prompt的長度钻蔑,永遠是值得被研究的技術(shù),無論上下文窗口有多大奸鸯。
11 FAQ
有Google搜索引擎咪笑,咋還自己搭建RAG搜索服務(wù)?
專用搜索引擎和通用搜索引擎的差異
通用搜索引擎為了保證能搜到一切娄涩,不得不容忍很多長尾的低效信息蒲肋,同時在用戶的特定場景中,Google并不知道場景信息钝满。如若LLM主要針對學生或科研人員的場景中,搜索Transformer時申窘,專用搜索引擎給出的都是學術(shù)科研相關(guān)的transformer算法或Huggingface的transformer庫弯蚜。但google給出的更可能是普通人更加熟悉的變形金剛相關(guān)/變壓器的信息(這個例子只是示意通用搜索和專用搜索的差別,不是在討論哪個結(jié)果是更加正確的)剃法。
網(wǎng)頁搜索和知識搜索的差異
真實的搜索引擎:搜索->打開鏈接->發(fā)現(xiàn)不是想要的內(nèi)容->返回到搜索頁面->打開新的鏈接->..->修改query重新搜索->.
理想的知識搜索:“我詢問一個問題終于可以直接告訴我答案了碎捺。”既提供贷洲,將"google搜索+查看對應(yīng)的網(wǎng)頁內(nèi)容+判斷內(nèi)容與問題的相關(guān)程度+自動修正query檢索詞”的工作打包合并后的信息收厨。
難點:諸如幻覺、不準確优构、信息沒有實時性等等問題诵叁,交互體驗提升了,但真實使用體驗依然沒有辦法跟有長期積累的傳統(tǒng)搜索引擎想媲美钦椭。
更加先進的檢索技術(shù)
知識搜索相比傳統(tǒng)搜索的技術(shù)提升:
- 用戶的Query改寫
- 對引擎索引的內(nèi)容拧额,利用LLM生成補足更多的相關(guān)信息,包括不限于:實體提取彪腔、摘要生成生成用戶可能的問題等等侥锦。這些信息都可以非常有效的提升用戶搜索的精確度
- 對搜索召回的結(jié)果進行判別和加工,正常召回的是引擎中保存的原文信息德挣,但是往往跟用戶query相關(guān)的只是其中一部分的信息恭垦,甚至可能是意外召回的無關(guān)信息。有了LLM可以根據(jù)用戶的query定向的對召回結(jié)果進行簡單處理格嗅,提升召回結(jié)果的相關(guān)程度
和大模型Post train沒關(guān)系了吧番挺?
RAG需要SFT配合。傳統(tǒng)LLM的SFT都是沒有RAG信息的情況下吗浩,與人類進行校準建芙。當模型可以獲得RAG提供的信息后,如何更好的利用RAG的信息回答用戶的問題懂扼,是需要進一步SFT的禁荸。包括RAG的流程中也還有很多需要利用LLM能力的地方右蒲,這些地方都是需要通過SFT將模型能力調(diào)整到更專業(yè)的程度,才能獲得更好的效果赶熟。
但針對RAG和意圖識別等進行針對性的調(diào)優(yōu)瑰妄,會損傷型的原有能力。
避免 cherry-pick映砖,而是退一步優(yōu)化整個大類別间坐,否則容易按下葫蘆起了瓢。
沒提到向量檢索 Vector-Search 啊?
Vector-Search只是在簡單的本地化的RAG應(yīng)用中(如針對特定文檔的問答)邑退,能更便捷提供RAG能力竹宋,從而成為當下較火熱的技術(shù)。Vector-Search只是一種先進的文本相似度算法地技,但相比一套完整搜索引擎蜈七,計算相關(guān)性僅是其中的一個子問題,甚至很多時候都不是最關(guān)鍵問題莫矗。
搜索引擎的完整架構(gòu)至少包括:索引(索引結(jié)構(gòu)飒硅、全量更新、增量更新)作谚、QP(query理解三娩、意圖判別/類目判別、query改寫)妹懒、召回雀监、粗排、精排(rank model,靜態(tài)質(zhì)量分)彬伦、打散(相似的內(nèi)容不需要重復出)等等滔悉。而Vector-Search只為搜索引擎的架構(gòu)中提供了精排中的文本相關(guān)性信息,是不足以撐起整個引擎架構(gòu)的单绑。早期的Google搜索回官,對結(jié)果影響更為重要的是PageRank,這個其實就是個靜態(tài)質(zhì)量分。一個引擎哪怕只利用關(guān)鍵詞召回+PageRank,其結(jié)果也往往遠好于Vector-Search搂橙。
12 成功的Al-native產(chǎn)品需三者兼顧
模型能力
Yi-Large 模型能力優(yōu)秀歉提。100B+的稠密模型,成本較低区转。Yi-Large 在國際公認的榜單上取得第一梯隊的良好成績苔巨。
? 模型 + Infra(模基共建)
模型的訓練/服務(wù)/推理設(shè)計废离,與底層 Infra 架構(gòu)和模型結(jié)構(gòu)必須高度適配
多方面優(yōu)化后侄泽,實現(xiàn)先進的 FP8 訓練框架,模型訓練成本同比降幅達一倍之多
自研性能/召回率最佳的向量數(shù)據(jù)庫笛卡爾Descartes*蜻韭,成本只需第三方18%
零一萬物與 Google悼尾、Inflection Al一起入選24年3月 NVIDIA GTC 大會 FP8 最新成功案例柿扣;
自研全導航圖向量數(shù)據(jù)庫,權(quán)威榜單評測 6項第一闺魏。
3 模型 + 應(yīng)用(模應(yīng)一體)
去年在海外驗證 TC-PMF未状,以真實用戶體驗,和模型迭代形成正循環(huán)
多模態(tài)理解與生成析桥,結(jié)合真實場景司草,解鎖2C應(yīng)用的創(chuàng)新
單一產(chǎn)品上線9月,用戶近干萬泡仗,收入1億埋虹,ROI接近1
使用量較大的2C類AI應(yīng)用聚集在歐美Saas profitability
多模態(tài) Vision 模型:結(jié)合LLM的讀文檔“截圖提問”創(chuàng)新
大模型賽道從狂奔到長跑,取決于有效實現(xiàn) TC-PMF
當前任何產(chǎn)品要實現(xiàn)大規(guī)模應(yīng)用娩怎,需兼顧技術(shù)路徑和推理成本
基于 Scaling Law吨岭,大模型能力快速增長,超過任何技術(shù)
大模型訓練和推理的成本持續(xù)大幅下降(GPT價格年內(nèi)多次下調(diào))
需要頂級模型推理能力峦树,才能實踐最佳 Al-First 應(yīng)用
但有些應(yīng)用會先爆發(fā),同時要考慮推理成本和商業(yè)模式的平衡
尋找 TC-PMF 難度遠遠大于 PMF,是大模型行業(yè)集體的挑戰(zhàn)與機運
持續(xù)演進的技術(shù)所創(chuàng)造的商用價值和推理成本均是“移動目標”
與其坐等風來旦事,不如成為造風者魁巩。需建立基建到應(yīng)用的良性 ROI
雙軌模型策略
閉源探索商業(yè)化及 AI-First + 開源賦能生態(tài)
搭建 AI 應(yīng)用場景:
- 國內(nèi) platform.lingyiwanwu.com / 阿里云百煉
- 國際:platform.01.ai / Nvidia NlM / Fireworks.ai
關(guān)注我,緊跟本系列專欄文章姐浮,咱們下篇再續(xù)谷遂!
作者簡介:魔都架構(gòu)師,多家大廠后端一線研發(fā)經(jīng)驗卖鲤,在分布式系統(tǒng)設(shè)計肾扰、數(shù)據(jù)平臺架構(gòu)和AI應(yīng)用開發(fā)等領(lǐng)域都有豐富實踐經(jīng)驗。
各大技術(shù)社區(qū)頭部專家博主蛋逾。具有豐富的引領(lǐng)團隊經(jīng)驗集晚,深厚業(yè)務(wù)架構(gòu)和解決方案的積累。
負責:
- 中央/分銷預訂系統(tǒng)性能優(yōu)化
- 活動&券等營銷中臺建設(shè)
- 交易平臺及數(shù)據(jù)中臺等架構(gòu)和開發(fā)設(shè)計
- 車聯(lián)網(wǎng)核心平臺-物聯(lián)網(wǎng)連接平臺区匣、大數(shù)據(jù)平臺架構(gòu)設(shè)計及優(yōu)化
- LLM Agent應(yīng)用開發(fā)
- 區(qū)塊鏈應(yīng)用開發(fā)
- 大數(shù)據(jù)開發(fā)挖掘經(jīng)驗
- 推薦系統(tǒng)項目
目前主攻市級軟件項目設(shè)計偷拔、構(gòu)建服務(wù)全社會的應(yīng)用系統(tǒng)。
參考:
本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布亏钩!