LLM火了膳殷,但通用大模型最終只可能像操作系統(tǒng)一樣操骡,只有少數(shù)幾個玩家能活下來九火。于是垂直大模型又火了,但垂直大模型可能壓根是個偽命題册招。
為什么你覺得需要垂直大模型呢岔激?因?yàn)橥ㄓ么竽P驮谀硞€具體的領(lǐng)域,知識沒有深度對吧是掰?那么其實(shí)有三個思路可以解決虑鼎,成本從低到高依次是:
1、RAG键痛,外掛一個本地知識庫炫彩。RAG其實(shí)是沒有推理能力的,只有檢索能力絮短。然后通過LLM把檢索出來的本地知識庫片斷以說人話的方式說給用戶江兢。成本低。
2丁频、訓(xùn)練一個小模型杉允,然后用tools的方式,被LLM調(diào)用席里。小模型不用那么多參數(shù)叔磷,甚至不用預(yù)訓(xùn)練,直接用打標(biāo)數(shù)據(jù)訓(xùn)練一個專項(xiàng)的模型奖磁。比如IBM的沃森改基,就算今天有了大模型,它仍然只需要做個小模型就好咖为,參數(shù)頂天了上萬個夠不夠秕狰?小模型有垂直領(lǐng)域知識,有推理能力案疲,成本也不算高封恰,而且可維護(hù)性可擴(kuò)展性上都和LLM解耦了。是最佳實(shí)踐了吧褐啡。
3诺舔、基于LLM基座,加入垂直領(lǐng)域的預(yù)訓(xùn)練备畦、微調(diào)和增強(qiáng)訓(xùn)練低飒,得到一個垂直大模型。成本很大啊懂盐,訓(xùn)練成本很大褥赊,哪怕是Lora,而且有可能讓LLM基座造成災(zāi)難性遺忘莉恼,更讓人頭大的是拌喉,如果LLM基座升級了怎么辦速那?要基于新基座再重新訓(xùn)練垂直大模型嗎?調(diào)岀來的結(jié)果是好是壞未知尿背,畢竟基座那么多參數(shù)是黑盒端仰,調(diào)參就是摸彩票啊。另一個值得高度重視的問題是田藐,fine tuning和傳統(tǒng)的打標(biāo)數(shù)據(jù)小模型完全不是一回事荔烧,fine tuning的作用更多的是sample打樣,引導(dǎo)LLM從pre-train積攢的信息汽久,以更可控的方式輸出鹤竭。fine tuning是重質(zhì)不重量的,不需要太多樣本景醇。LLM本質(zhì)上還是文字接龍臀稚,對于嚴(yán)肅的場景,它是完全不如傳統(tǒng)的打標(biāo)數(shù)據(jù)小模型可靠的三痰,比如醫(yī)療烁涌、無人駕駛,你敢拿命來玩嗎酒觅?
反思一下出發(fā)點(diǎn):我們?yōu)槭裁葱枰狶LM基座呢?只是因?yàn)長LM的交互方式更加接近自然語言交流對吧微峰?我們要的是它的NLP舷丹、多模交互、情感識別等等基礎(chǔ)能力對吧蜓肆?那么1颜凯、2完全可以達(dá)到目的啊,成本低還沒有任何負(fù)作用仗扬。所以症概,垂直大模型會不會壓根就是偽命題?
AI的未來在哪里早芭?或者說彼城,如何避開和chatgpt為首的基座大模型正面競爭?
RAG不是退个。RAG是最容易上手的方向募壕,本地知識庫沒什么門檻,應(yīng)用場景也很淺语盈。RAG的地位類似于web1.0的cms一樣舱馅,是個LLM工程師就得會的基本功。
AI agent是刀荒。function call是個好東西代嗤,多模交互是個好東西棘钞,ReAct更是個好東西。有了它們就有了賈維思的條件干毅,連上硬件更可以得到幻視宜猜!問題的關(guān)鍵是,如果chatgpt這種基座大模型公司自己下場做agent呢溶锭?注意宝恶,chatgpt有最聰明的LLM,通過gpts它還有最全的tools趴捅,gpt4-o證明它還有最強(qiáng)的多模交互垫毙。做通用型的agent就像做通用大模型一樣,一定干不過chatgpt這種公司拱绑。只能往這幾個方向深入下去综芥,才能立住腳:
1、軟硬結(jié)合猎拨,通過豐富多樣的硬件傳感器拉開和通用agent能力的差距膀藐,無論是對真實(shí)世界的感知力,還是action能力红省,都是硬件的強(qiáng)項(xiàng)额各。LLM再怎么發(fā)展,觸手也僅限在缸中之腦上吧恃,chatgpt的優(yōu)勢無法延伸過來虾啦。關(guān)鍵點(diǎn)在硬件傳感器上。
馬斯克的人形機(jī)器人就符合這個方向痕寓。從賈維思到幻視傲醉,次元壁就這么突破了。
2呻率、垂直領(lǐng)域私人助理硬毕。在長期memery、RAG和定制action的聯(lián)合作用下礼仗,讓agent既具備垂直領(lǐng)域能力吐咳,同時還知道用戶的長期個人檔案,不僅是行業(yè)專家元践,還特別了解你懂你挪丢。而且2和1不沖突,疊加起來威力更驚人卢厂。
下一代的windows和iphone都在朝這個方向推進(jìn)乾蓬,讓我們設(shè)想一下:在本地記錄用戶的行為并保存下來,最強(qiáng)memory慎恒!讓用戶和操作系統(tǒng)之間的交互不再是stateless任内;而且ReAct思想之下撵渡,所有的software都可以api接口化,可以是本地api死嗦,也可以是網(wǎng)絡(luò)api趋距,直接在操作系統(tǒng)級別運(yùn)行tools。微軟越除、蘋果节腐、google這種公司可以直接在操作系統(tǒng)層面截胡agent,比gpts還可怕摘盆,所以chatgpt自己成為系統(tǒng)級入口肯定是勢在必行的翼雀,gpt4-o的多模交互和實(shí)時性響應(yīng)也證明它們確實(shí)有成為系統(tǒng)級入口的資本。
我們普通公司肯定是擠不進(jìn)系統(tǒng)級入口這個賽道的孩擂。但包括chatgpt在內(nèi)的操作系統(tǒng)狼渊、準(zhǔn)操作系統(tǒng)們都沒法在垂直方向上深挖。我們只需在應(yīng)用層做垂直agent即可类垦。通過樹莓派之類的做個獨(dú)立于操作系統(tǒng)的小而美硬件也是個方向狈邑。
3、多agent合作蚤认,集團(tuán)作戰(zhàn)米苹。多個垂直agent如果合作起來,會發(fā)生什么化學(xué)反應(yīng)砰琢?道生一驱入,一生二,二生三氯析,三生萬物,眾妙之門莺褒。
這是最讓人興奮的方向掩缓,因?yàn)橄胂罅Σ攀俏ㄒ惶旎ò濉O胂肟醋裱遥愕膃rp你辣、oa直接變成了虛擬員工,采購啊尘执、hr啊都可以裁了舍哄。photoshop、eclipse誊锭、axure表悬、jira變成設(shè)計師、程序員丧靡、產(chǎn)品經(jīng)理和項(xiàng)目經(jīng)理蟆沫,it外包都省了籽暇。以前編程是面向?qū)ο缶幊蹋院笫敲嫦騛gent編程饭庞。
福特說的“我需要的是一雙手戒悠,結(jié)果得到了一個人”問題就可以解決了。比流水線還流水線舟山。
多agent可以是虛擬的一套系統(tǒng)绸狐,只服務(wù)于電子世界,也可以連上硬件服務(wù)于現(xiàn)實(shí)世界累盗。多agent的關(guān)鍵是對業(yè)務(wù)的深度理解寒矿,既是挑戰(zhàn)也是壁壘。
上面提到的123并不沖突幅骄,可以組合劫窒。LLM的發(fā)展很快,垂直大模型方向不對拆座,屬于不動腦子地蹭熱點(diǎn)主巍。而RAG只是個hello world,真正的精彩是見證下一代操作系統(tǒng)(LLM作為用戶入口挪凑,和應(yīng)用層基座)孕索,以及下一代應(yīng)用(上文提到的123)。我很期待躏碳,也很想恭身入局搞旭,問題是,總被挑戰(zhàn)廉頗老矣尚能飯否菇绵。能肄渗。