ChatGPT 與 AIGC 簡(jiǎn)問亂答
** 僅代表個(gè)人觀點(diǎn)笙蒙。 **
-
[Q1] ChatGPT 最近非成龅担火爆咨跌,2 個(gè)月突破 1 億月活沪么,從產(chǎn)品形態(tài)來看,我們知道的微軟锌半、谷歌的搜索引擎都會(huì)嵌入禽车。那么我們?nèi)绾慰创挠脩粽承裕娴臅?huì)有那么多人持續(xù)使用嗎還是說只是一陣熱潮刊殉?
-
[A1] 首先殉摔,工業(yè)界長(zhǎng)久以來對(duì)搜索引擎的最終產(chǎn)品形態(tài)的定義是:信息問答助理。目前的信息檢索黃頁的產(chǎn)品形態(tài)個(gè)人認(rèn)為其實(shí)是在技術(shù)發(fā)展未能滿足最終產(chǎn)品形態(tài)目標(biāo)的情況下的一種中間產(chǎn)物记焊。近幾年來逸月,隨著AI的發(fā)展,大家其實(shí)已經(jīng)開始拾起初心遍膜,重新開始探索自然問答產(chǎn)品形態(tài)在新的技術(shù)進(jìn)展下的可能性碗硬。如果大家留意觀察的話,可以看到百度捌归、Bing肛响、Google在用戶輸入自然語言問題時(shí)岭粤,已經(jīng)開始在第一欄展示自然語言的回答惜索,而不僅僅是相關(guān)鏈接。
-
[A1] 首先殉摔,工業(yè)界長(zhǎng)久以來對(duì)搜索引擎的最終產(chǎn)品形態(tài)的定義是:信息問答助理。目前的信息檢索黃頁的產(chǎn)品形態(tài)個(gè)人認(rèn)為其實(shí)是在技術(shù)發(fā)展未能滿足最終產(chǎn)品形態(tài)目標(biāo)的情況下的一種中間產(chǎn)物记焊。近幾年來逸月,隨著AI的發(fā)展,大家其實(shí)已經(jīng)開始拾起初心遍膜,重新開始探索自然問答產(chǎn)品形態(tài)在新的技術(shù)進(jìn)展下的可能性碗硬。如果大家留意觀察的話,可以看到百度捌归、Bing肛响、Google在用戶輸入自然語言問題時(shí)岭粤,已經(jīng)開始在第一欄展示自然語言的回答惜索,而不僅僅是相關(guān)鏈接。
但之前的技術(shù)雖然使用了AI但還不完善剃浇,沒有達(dá)到顛覆性用戶體驗(yàn)的閾值巾兆。而 ChatGPT 的出現(xiàn)讓大家看到了達(dá)到這個(gè)閾值的希望。因此虎囚,個(gè)人覺得角塑,ChatGPT 本身提供了貼合搜索引擎最終產(chǎn)品形態(tài)理想的一個(gè)現(xiàn)在看上去很有前途的技術(shù)方案。如果它能在后續(xù)語料和反饋不斷增加的情況下不斷提高coverage淘讥、準(zhǔn)確度圃伶、以及價(jià)值觀的擬人性,它就能過夠幫助搜索引擎達(dá)到其理想的產(chǎn)品形態(tài)蒲列,成為搜索引擎和各類人機(jī)交互引擎的主要或默認(rèn)接口形態(tài)窒朋。
因此,從方向上來看是正確的方向蝗岖,最終能不能成為主要接口取決于真實(shí)大規(guī)模實(shí)際使用的bad case的處理的演進(jìn)速度侥猩。
-
[Q2] 我們現(xiàn)在可以看到ChatGPT作為一個(gè)AIGC率先火爆起來,那么其他AIGC比如圖片和音頻上可能會(huì)有什么應(yīng)用場(chǎng)景出現(xiàn)嗎抵赢,我們看好哪些探索欺劳,商業(yè)化更看好哪些實(shí)現(xiàn)方式唧取,未來可以替代哪些工作?
-
[A2] 最近一段時(shí)間以來划提,Creative AI 或者 Generative AI 領(lǐng)域取得了比較多的進(jìn)展枫弟。在 ChatGPT 之前,文生圖的 Stable Diffusion 也震動(dòng)了科技圈一段時(shí)間鹏往,你可以輸給模型一段話用于描述你想生成什么樣內(nèi)容和風(fēng)格的圖像媒区,模型會(huì)根據(jù)你的描述創(chuàng)作一幅圖。其他的掸犬,我們也看到Google公開了文本生成音樂的 MusicLM 模型等袜漩。因?yàn)槠渲猩勺匀徽Z言文本是最難也是大眾最常用的(不是每個(gè)人都作畫、作曲湾碎,但每個(gè)人都有語言輸出)宙攻,因此在這方面的進(jìn)展對(duì)大眾造成的用戶體驗(yàn)沖擊最大,在大眾中的影響力也最大介褥。
我們之前對(duì) AI 的認(rèn)知是 AI 主要擅長(zhǎng)理解座掘, 我們主要用它來進(jìn)行識(shí)別、分類柔滔、預(yù)測(cè)這些任務(wù)溢陪,輔助我們理解世界、作出決策睛廊。Generative AI 最近的進(jìn)展表明形真,AI開始在生成這個(gè)領(lǐng)域開始越過奇點(diǎn),朝著可用的方向邁進(jìn)超全。這種變化具有潛在的革命性咆霜。從理解到生成,類別于從分析到綜合嘶朱,從能力上來講是從人工智能到擬人智能的進(jìn)步蛾坯,這里面的技術(shù)進(jìn)步是非線性的,產(chǎn)生了代差疏遏。
我覺得 Generative AI 技術(shù)在內(nèi)容生成領(lǐng)域有潛力造成革命性的影響脉课,而內(nèi)容生成其實(shí)無處不在,比如說畫家作畫财异、作曲家譜曲倘零、作詞人寫詞、作家寫文章宝当、建筑設(shè)計(jì)師出設(shè)計(jì)圖视事、軟件工程師寫代碼、硬件工程師畫板圖其實(shí)都是內(nèi)容生成...... 因此庆揩,有比較大的想像空間俐东〉耄可以想像一下,如果進(jìn)展比較順利的話虏辫,初級(jí) 蚌吸、中級(jí)的“內(nèi)容生成者”會(huì)先被革命掉,這個(gè) 24x7 快速無休砌庄、不抱怨出活的模型帶來了很大的誘惑羹唠。整個(gè)內(nèi)容生產(chǎn)的閉環(huán)有可能從現(xiàn)在的“中級(jí)內(nèi)容生產(chǎn)者生成初始內(nèi)容 中高級(jí)內(nèi)容審核者審閱、潤(rùn)色 打回打磨” 變成 “ AIGC 生成初始內(nèi)容 中高級(jí)審核者審閱娄昆、潤(rùn)色 打回打磨”佩微。而在這個(gè)過程中其實(shí)又暗合了ChatGPT 或 生成式AI 基于人類反饋的增強(qiáng)學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)的過程萌焰,因此同時(shí)也為reward model的演進(jìn)提供了訓(xùn)練樣本哺眯,因此促進(jìn) AIGC 的進(jìn)一步演化和發(fā)展,從而形成有機(jī)的正向閉環(huán)扒俯。
-
[A2] 最近一段時(shí)間以來划提,Creative AI 或者 Generative AI 領(lǐng)域取得了比較多的進(jìn)展枫弟。在 ChatGPT 之前,文生圖的 Stable Diffusion 也震動(dòng)了科技圈一段時(shí)間鹏往,你可以輸給模型一段話用于描述你想生成什么樣內(nèi)容和風(fēng)格的圖像媒区,模型會(huì)根據(jù)你的描述創(chuàng)作一幅圖。其他的掸犬,我們也看到Google公開了文本生成音樂的 MusicLM 模型等袜漩。因?yàn)槠渲猩勺匀徽Z言文本是最難也是大眾最常用的(不是每個(gè)人都作畫、作曲湾碎,但每個(gè)人都有語言輸出)宙攻,因此在這方面的進(jìn)展對(duì)大眾造成的用戶體驗(yàn)沖擊最大,在大眾中的影響力也最大介褥。
-
[Q3] 在游戲的工業(yè)化方面會(huì)有什么進(jìn)展嗎奶卓?
- [A3] 首先游戲產(chǎn)業(yè)也是內(nèi)容生產(chǎn)產(chǎn)業(yè)。其次撼玄,游戲大多不屬于嚴(yán)肅文化的范疇夺姑,而屬于商業(yè)文化(或流行文化)的范疇,因此它更希望能揣摩流行偏好掌猛、用戶偏好從而最大化商業(yè)利潤(rùn)盏浙,而這正是統(tǒng)計(jì)學(xué)或者基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)擅長(zhǎng)的。從這兩個(gè)角度留潦,AIGC 在其中命中兩點(diǎn)只盹,因此會(huì)有比較大的潛力辣往。我們也能看到國(guó)外已經(jīng)在進(jìn)行一系列的探索:如有些游戲已經(jīng)開始試驗(yàn)在 NPC對(duì)話中引入 AIGC兔院,從而使得游戲體驗(yàn)更逼真、個(gè)性化和更有實(shí)境感站削,從試驗(yàn)的結(jié)果看還是很有前景的坊萝。此外,大家還在試驗(yàn) AIGC 用于初稿的游戲腳本生成许起,AIGC用于游戲場(chǎng)景圖像的生成或者多分辨率化等十偶。
-
[Q4] 我們知道大模型訓(xùn)練的算力要求比較高,那么這樣一個(gè)模型的花費(fèi)多少园细,每次計(jì)算的成本如何劃分惦积,整個(gè)鏈條上成本如何分配?
-
[A4] 模型的成本分為兩個(gè)部分:
- 訓(xùn)練成本:公開資料顯示猛频,預(yù)訓(xùn)練一個(gè) 175B 的 GPT3 模型大約需要 1024 個(gè) A100 訓(xùn)練34天狮崩,使用了 300B 個(gè)詞的語料庫(kù)蛛勉。所以成本包括:設(shè)備費(fèi)用(包括機(jī)箱、GPU睦柴、互聯(lián)設(shè)備)诽凌、訓(xùn)練電費(fèi)、語料收集和清洗費(fèi)用坦敌、工程師費(fèi)用等侣诵。其中光電費(fèi)可能就有幾百萬美金。這部分成本需要分?jǐn)偂?/li>
- 推理成本:模型生成后用于推理時(shí)狱窘,每次推理也會(huì)產(chǎn)生成本杜顺。因?yàn)槟P捅容^大,對(duì)計(jì)算設(shè)備的算力和內(nèi)存容量要求比較高蘸炸,因此需要相對(duì)高端的計(jì)算設(shè)備哑舒、以及多個(gè)計(jì)算設(shè)備(如 GPU 等)一起工作才能達(dá)到一定的周轉(zhuǎn)延遲(turn-around latency)。
因?yàn)槟壳斑€在技術(shù)期幻馁,并未完全展開商業(yè)化探索洗鸵,因此目前的成本還是由投資機(jī)構(gòu)和公司來承擔(dān)。隨著 Bing 接入仗嗦,意味著開始商業(yè)化探索膘滨,最終的成本如何分配如何還要看探索的結(jié)果。在搜索引擎這種2C產(chǎn)品形態(tài)而言稀拐,可能最終還是以廣告的形式把成本轉(zhuǎn)接給廣告主火邓。其他2B/2C的專業(yè)內(nèi)容生產(chǎn)產(chǎn)品形態(tài)可能會(huì)出現(xiàn)跟用戶分?jǐn)偟姆绞健?/p>
-
-
[Q5] 目前國(guó)內(nèi)大模型各家的比較和看法?
-
[A5] 國(guó)內(nèi)科技行業(yè)在當(dāng)前這一階段的現(xiàn)狀一般可以理解為: 一開源就自主德撬,其實(shí)也就跟generative AI 之前的AI現(xiàn)狀差不多铲咨,理解能力強(qiáng),創(chuàng)造能力相對(duì)需要提高蜓洪。目前 ChatGPT 尚未開源或有相應(yīng)的開源平替纤勒,也沒有相應(yīng)的最新論文,只有一個(gè)平替論文 InstructGPT 以及一個(gè)blog隆檀。所以摇天,這塊還需要觀察。
有恐仑,應(yīng)該肯定是會(huì)有泉坐。能不能用,這個(gè)要觀察裳仆,Google Bard也是一個(gè)前車之鑒腕让。
從數(shù)據(jù)和技術(shù)積累而言,百度應(yīng)該是最有可能積累得最多的歧斟,因?yàn)橹鳡I(yíng)業(yè)務(wù)是搜索引擎纯丸,因此有條件擁有大量且質(zhì)量較高的 NLP 數(shù)據(jù)司训、搜索引擎本身也是 NLP 場(chǎng)景因此有對(duì)應(yīng)的技術(shù)語境。而其他如阿里液南,因?yàn)樗闹鳂I(yè)還是購(gòu)物網(wǎng)站壳猜,其主營(yíng)業(yè)務(wù)數(shù)據(jù)模態(tài)還是購(gòu)物的行為數(shù)據(jù)和品類數(shù)據(jù),雖然有NLP類數(shù)據(jù)如品類描述等滑凉,但從知識(shí)型统扳、性等角度來說還是欠缺,所以在數(shù)據(jù)和業(yè)務(wù)上并沒有什么太大的優(yōu)勢(shì)畅姊。華為更甚咒钟。騰訊雖然有較多的社交文本數(shù)據(jù),但社交文本數(shù)據(jù)本身具有私域性若未,且信息和知識(shí)密度低于搜索引擎或知乎之類網(wǎng)站朱嘴,因此其實(shí)語料量大但質(zhì)未必高。
從技術(shù)積累上來看粗合,百度因?yàn)橹鳂I(yè)是搜索引擎萍嬉,因此在NLP技術(shù)的積累上來看應(yīng)該是最多的。但涉及到與國(guó)際相應(yīng)水平的對(duì)標(biāo)上隙疚,要看近十幾年來中國(guó)的科學(xué)和工程教育和工程師培養(yǎng)壤追,我理解挑戰(zhàn)還是頗大的。有時(shí)候供屉,中國(guó)人“太”聰明了行冰,抄近道的想法銘刻于骨血,這種表面上是急事伶丐,其實(shí)要看之前的久久之功的事情悼做,還是要看積累。
-
[A5] 國(guó)內(nèi)科技行業(yè)在當(dāng)前這一階段的現(xiàn)狀一般可以理解為: 一開源就自主德撬,其實(shí)也就跟generative AI 之前的AI現(xiàn)狀差不多铲咨,理解能力強(qiáng),創(chuàng)造能力相對(duì)需要提高蜓洪。目前 ChatGPT 尚未開源或有相應(yīng)的開源平替纤勒,也沒有相應(yīng)的最新論文,只有一個(gè)平替論文 InstructGPT 以及一個(gè)blog隆檀。所以摇天,這塊還需要觀察。
-
[Q7] 我們知道目前ChatGPT本質(zhì)上是一個(gè)概率模型哗魂,給你的答案是根據(jù)上下文語境概率最高的但不一定正確的答案肛走。對(duì)于實(shí)時(shí)信息的生成是否也會(huì)受到當(dāng)前訓(xùn)練數(shù)據(jù)的影響?
-
[A7] 是的啡彬,ChatGPT本質(zhì)上是一個(gè)概率模型羹与,但我理解這不構(gòu)成一個(gè)主要問題,因?yàn)槿说谋磉_(dá)其本質(zhì)上也是一個(gè)概率模型庶灿,其本質(zhì)上是基于人以往的經(jīng)驗(yàn)所做的最大似然或是最大后驗(yàn)表達(dá)。所以從原理上來講兩者是一樣的吃衅,并不存在固有缺陷往踢。
這個(gè)問題可能更多的在說:對(duì)于事實(shí)性信息,因?yàn)橐呀?jīng)是確定的徘层,所以應(yīng)該怎么避免概率化表達(dá)帶來的事實(shí)的似是而非或是信息缺失峻呕。這個(gè)目前已經(jīng)有一些比較好的研究思路和實(shí)踐利职,方法就是在生成模塊之前加一個(gè)事實(shí)庫(kù),對(duì)輸入的問題先通過事實(shí)庫(kù)檢索事實(shí)瘦癌,再將檢索到的事實(shí)和問題一起輸給語言模型最終生成回答猪贪,即檢索增強(qiáng)的生成(Retrieval Augmented Generation, RAG)。通過讯私,該技術(shù)同時(shí)也有望解決實(shí)時(shí)信息的更新問題热押,只要把實(shí)時(shí)信息及時(shí)更新到檢索庫(kù)就好了。
-
[A7] 是的啡彬,ChatGPT本質(zhì)上是一個(gè)概率模型羹与,但我理解這不構(gòu)成一個(gè)主要問題,因?yàn)槿说谋磉_(dá)其本質(zhì)上也是一個(gè)概率模型庶灿,其本質(zhì)上是基于人以往的經(jīng)驗(yàn)所做的最大似然或是最大后驗(yàn)表達(dá)。所以從原理上來講兩者是一樣的吃衅,并不存在固有缺陷往踢。
-
[Q8] 目前有哪些主要的缺陷斤寇,是模型角度造成的缺陷桶癣,還是通過訓(xùn)練可以彌補(bǔ)的缺陷?
- [A8] 我覺得目前的主要工作還是對(duì)生成內(nèi)容的質(zhì)量娘锁、安全性和真實(shí)性的增強(qiáng)牙寞,這需要在LLM的核心上繼續(xù)研究其配套技術(shù)及進(jìn)行訓(xùn)練數(shù)據(jù)增強(qiáng)。目前沒有看到LLM基石的變動(dòng)的必要性莫秆,主要還是配套技術(shù)和數(shù)據(jù)集上间雀。也許到一定時(shí)間會(huì)發(fā)現(xiàn)LLM基石出現(xiàn)限制,需要解決镊屎,這個(gè)可能要在數(shù)據(jù)和配套技術(shù)發(fā)展到一定程度會(huì)發(fā)現(xiàn)雷蹂,現(xiàn)在還沒有見到。
-
[Q9] 從硬件角度看杯道,您當(dāng)前大模型隨著參數(shù)量的提升是否給芯片算力和設(shè)計(jì)帶來壓力匪煌,軟硬件是否存在代差(硬件跟不上軟件,還是當(dāng)前芯片算力有富余)
- [A9] 目前沒有看到軟硬件存在禁止性的代差党巾,因?yàn)槟P鸵呀?jīng)可以訓(xùn)練和推理萎庭。但可實(shí)現(xiàn)和可商用是有區(qū)別的。下一步應(yīng)該是怎么使得這個(gè)技術(shù)的成本達(dá)到大規(guī)模普及和可盈利的程度齿拂。工程師會(huì)進(jìn)場(chǎng)對(duì)硬件驳规、軟件進(jìn)行一輪優(yōu)化,目標(biāo)是成本降低到可普及和可盈利使用的水平署海。對(duì)硬件而言吗购,除了算力的需求外,可能比算力增加更加緊迫的內(nèi)存墻和互聯(lián)墻砸狞,最近NV在H100上已經(jīng)做了一些工作捻勉,大大增加了 NVLink 的帶寬其實(shí)就是對(duì)此的一個(gè)回應(yīng), 因此應(yīng)用和硬件其實(shí)在這個(gè)方面是有共識(shí)的刀森,也已經(jīng)開始在行動(dòng)踱启。目前更當(dāng)務(wù)之急的應(yīng)該還是怎么通過技術(shù)上的軟硬件創(chuàng)新降低訓(xùn)練和推理成本, 解決“與大型語言模型等人工智能交換信息的成本可能是完成標(biāo)準(zhǔn)關(guān)鍵字搜索功能的10倍以上”的問題。
-
[Q10] 國(guó)內(nèi)企業(yè)如百度等要做國(guó)內(nèi)版ChatGPT埠偿,這個(gè)實(shí)現(xiàn)起來要多久透罢,或者需要多久才能趕上現(xiàn)在版 ChatGPT,后面會(huì)不會(huì)變成我們進(jìn)步了冠蒋,他們也在進(jìn)步羽圃,最后被遠(yuǎn)遠(yuǎn)甩在后面?
- [A10] 這個(gè)問題其本質(zhì)上就是原創(chuàng)的創(chuàng)新力的問題抖剿。只要沒有原創(chuàng)創(chuàng)新力朽寞,就需要一直追趕,抄作業(yè)的人作業(yè)抄得再快總是要等別人作業(yè)做完才能抄的牙躺。這個(gè)要回歸到我們的教育和社會(huì)體系中去解決愁憔。
總結(jié)
硅基智能的擬人化是融合模擬世界和數(shù)字世界的必要前提。從這個(gè)角度來看孽拷,這可被視作普遍的剛性需求吨掌。之前很熱的元宇宙,要真正實(shí)現(xiàn)的話脓恕,其必要條件之一也在于此膜宋。之前 AI 在很多時(shí)候被詬病,主要還是2個(gè)問題:1) 對(duì)訓(xùn)練數(shù)據(jù)過擬合炼幔,外推能力不達(dá)預(yù)期秋茫;2) 自然語言生成能力弱,計(jì)算能力強(qiáng)而表達(dá)能力弱乃秀。這 2 點(diǎn)導(dǎo)致我們始終覺得AI 屬于啞巴式 “聰明” 肛著,“人” 的部分偏弱。而 ChatGPT 的意義在于憑借著 LLM 的突現(xiàn)能力(emergent ability)和 RLHF 帶來的價(jià)值觀引導(dǎo)跺讯,使我們看到了好像有一個(gè)東西已經(jīng)能夠越過用戶體驗(yàn)的閾值枢贿,之前遙不可及的夢(mèng)想似乎有一條隱約可見的路指向它了!業(yè)界開始走上這條路刀脏,隨著我們的前進(jìn)局荚,路上肯定會(huì)有其他的問題,但至少有一條路愈污,那就有希望耀态。