一文帶你了解爆火的Chat GPT

導(dǎo)讀

OpenAI近期發(fā)布聊天機(jī)器人模型ChatGPT,迅速出圈全網(wǎng)波俄。它以對話方式進(jìn)行交互。以更貼近人的對話方式與使用者互動蛾默,可以回答問題懦铺、承認(rèn)錯誤、挑戰(zhàn)不正確的前提支鸡、拒絕不適當(dāng)?shù)恼埱蠖睢8哔|(zhì)量的回答、上癮式的交互體驗牧挣,圈內(nèi)外都紛紛驚呼刘急。


為什么有如此高的評價?理論支撐是什么浸踩?背后的技術(shù)原理是什么?待解決的問題和方案有哪些统求?資本怎么看待這件事检碗?本文的目標(biāo)是將這些問題詳細(xì)的給大家講清楚据块。


1 ChatGPT是什么?

ChatGPT本質(zhì)是一個應(yīng)用在對話場景的語言模型折剃,基于GPT3.5通過人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來另假,能夠回答后續(xù)問題、承認(rèn)錯誤怕犁、質(zhì)疑不正確的前提以及拒絕不適當(dāng)?shù)恼埱蟊呃骸J紫茸屛覀兘裉斓闹鹘荂hatGPT來親自介紹自己。


1.1讓ChatGPT介紹自己

ChatGPT是什么奏甫?既然ChatGPT是語言模型戈轿,語言模型是什么?通過強(qiáng)化學(xué)習(xí)訓(xùn)練阵子,強(qiáng)化學(xué)習(xí)又是什么思杯?








1.2全球范圍的興起和爆發(fā)

OpenAI 11月30號發(fā)布,首先在北美挠进、歐洲等已經(jīng)引發(fā)了熱烈的討論色乾。隨后在國內(nèi)開始火起來。全球用戶爭相曬出自己極具創(chuàng)意的與ChatGPT交流的成果领突。ChatGPT在大量網(wǎng)友的瘋狂測試中表現(xiàn)出各種驚人的能力暖璧,如流暢對答、寫代碼君旦、寫劇本澎办、糾錯等,甚至讓記者編輯于宙、程序員等從業(yè)者都感受到了威脅浮驳,更不乏其將取代谷歌搜索引擎之說。繼AlphaGo擊敗李世石捞魁、AI繪畫大火之后至会,ChatGPT成為又一新晉網(wǎng)紅。下面是谷歌全球指數(shù)谱俭,我們可以看到火爆的程度奉件。




國內(nèi)對比各大平臺,最先火起來是在微信上昆著,通過微信指數(shù)我們可以看到县貌,97.48%來自于公眾號,開始于科技圈凑懂,迅速拓展到投資圈等煤痕。我最先了解到ChatGPT相關(guān)信息的也是在關(guān)注的科技公眾號上,隨后看到各大公眾號出現(xiàn)關(guān)于介紹ChatGPT各種震驚體關(guān)鍵詞地震、殺瘋了摆碉、毀滅人類等塘匣。隨后各行各業(yè)都參與進(jìn)來有趣的整活,問數(shù)學(xué)題巷帝,問歷史忌卤,還有寫小說,寫日報楞泼,寫代碼找BUG......




1.3背后的金主OpenAI

OpenAI是一個人工智能研究實驗室驰徊,目的是促進(jìn)和發(fā)展友好的人工智能,使人類整體受益堕阔。OpenAI原是非營利機(jī)構(gòu)棍厂,但為了更好地實現(xiàn)產(chǎn)研結(jié)合,2019年3月成立OpenAI LP子公司印蔬,目的為營利所用勋桶。


2019年7月微軟投資雙方將攜手合作,2020年6月宣布了GPT-3語言模型侥猬,刷新了人們對AI的認(rèn)知例驹。GPT系列語言模型讓我們不斷對通用人工智能(AGI)充滿了期待。


OpenAI目標(biāo)之初就很遠(yuǎn)大退唠,解決通用人工智能問題鹃锈,主要涉及強(qiáng)化學(xué)習(xí)和生成模型。


強(qiáng)化學(xué)習(xí)最早被認(rèn)為是實現(xiàn)人類通用智能重要手段瞧预,2016年DeepMind開發(fā)的AlphaGo Zero 使用強(qiáng)化學(xué)習(xí)訓(xùn)練屎债,讓人類圍棋的歷史經(jīng)驗成為了「Zero」,標(biāo)志著人類向通用型的人工智能邁出了重要一步垢油。2019年OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍盆驹。OpenAI在強(qiáng)化學(xué)習(xí)有很多深入的研究,Dactyl也是一款OpenAI通過強(qiáng)化強(qiáng)化學(xué)習(xí)訓(xùn)練能夠高精度操縱物體的機(jī)器人手滩愁,OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包躯喇,所以ChatGPT中使用強(qiáng)化學(xué)習(xí)也是順理成章。


生成模型方面硝枉,為我們熟知的是GPT-3廉丽,這是一個強(qiáng)大的語言模型能夠生成人類一樣流暢的語言。DellE 2是最近很火的AI繪畫根據(jù)文本描述生成圖片妻味。Codex是和微軟合作通過github代碼訓(xùn)練而來正压,可以生成代碼和Debug,已經(jīng)商業(yè)化责球。


作為OpenAI曾經(jīng)的創(chuàng)始人伊隆·馬斯克也發(fā)表了對ChatGPT的評價焦履!




看看ChatGPT是怎么介紹自家公司的拓劝?




2 ChatGPT一些有趣的體驗

作為一個聊天機(jī)器人,我們體驗發(fā)現(xiàn)相比傳統(tǒng)的機(jī)器人在連貫性問答中更加流暢自然裁良。微信上已經(jīng)有很多的小程序可以體驗凿将,或者直接講ChatGPT接入了微信中,下面體驗一下已經(jīng)接入到企業(yè)微信的ChatGPT价脾。


1)公司一向注重價值觀,第一道題回答對一半笛匙,公司規(guī)定應(yīng)第一時間退回侨把,特殊情況無法退回,無論價值多少都需要進(jìn)行申報妹孙,所以ChatGPT應(yīng)該入職不了我司秋柄。第二道經(jīng)典問題的回答還蠻符合公司正直的價值觀的,哈哈蠢正。


2)公司協(xié)會活動總又人放鴿子骇笔,我來問問ChatGPT這些人啥心態(tài)∠福看到幫忙想的理由和放鴿子的人說的一樣笨触,我有點懷疑他們的心態(tài)了。


3)職場工具人看看能不能通過ChatGPT代勞雹舀,可以看到文案寫作還是不錯的芦劣。回答的這個提綱有一點小問題但不影響大局说榆。講故事編劇本也是不錯的虚吟,先幫中國足球?qū)懞脜⒓邮澜绫奈陌福褪遣恢滥懿荒苡玫纳狭恕?/p>



4)身邊同事很重視娃的教育签财,那么從娃娃抓起先看看ChatGPT能不能帶娃學(xué)習(xí)串慰。文化常識題回答正確,數(shù)學(xué)題這推理能力唱蒸,我擔(dān)心娃考不上初中邦鲫,可以用但是家長給把把關(guān)啊油宜!同時也考察了一下他腦筋急轉(zhuǎn)彎怎么樣掂碱,這個傻瓜沒答對。



5)號稱編程神器可寫代碼慎冤、修bug疼燥,考察一下Leetcode中等難度的都沒問題。雖然它自謙不會編程蚁堤,但根據(jù)測試和網(wǎng)友的驗證能力確實強(qiáng)醉者。



6)考察一下互聯(lián)網(wǎng)知識儲備但狭,挑戰(zhàn)失敗撬即!如ChatGPT自己所述立磁,他還有很多局限性比如給出看起來沒問題其實挺離譜的答案,例如回答自己公司的成果還夾雜私人感情剥槐,把競爭對手DeepMind的AlphaGo功勞都據(jù)為己有唱歧。



做一個小節(jié),其實網(wǎng)上有特別多有趣的案例粒竖,這里篇幅有限只是簡單了列舉幾個颅崩。通過體驗結(jié)合網(wǎng)友的反饋,ChatGPT的確掌握了一些知識體系和回答技巧蕊苗。我們看到相比傳統(tǒng)的聊天機(jī)器人沿后,ChatGPT在連貫性問答中更加流暢自然,什么話都能接住朽砰。除了好玩的聊天神器外還有很多實用的價值尖滚,比如解答專業(yè)概念、編程類問題瞧柔、從日常郵件漆弄、寫請假條、廣告文案等等非剃,都可以通過ChatGPT代勞置逻。看完這些有趣的案例备绽,那么ChatGPT究竟如何實現(xiàn)的券坞,我們接下來將講解關(guān)于ChatGPT的哪些技術(shù)原理。


3 ChatGPT之前技術(shù)沿襲

ChatGPT是基于GPT3.5語言模型肺素,人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來恨锚。本節(jié)將對涉及語言模型和強(qiáng)化學(xué)習(xí)兩個重要技術(shù)做一個科普,已經(jīng)熟悉的可直接跳過本節(jié)倍靡。


3.1語言模型的技術(shù)演進(jìn)

語言模型通俗講是判斷這句話是否通順猴伶、正確。數(shù)學(xué)函數(shù)表達(dá)為給定前N個詞塌西,預(yù)測第N+1 個詞概率他挎,將概率序列分解成條件概率乘積的形式,這個函數(shù)就可以實現(xiàn)語言模型去生成句子捡需。那么是什么樣的語言模型如此強(qiáng)大办桨,本小節(jié)梳理了深度學(xué)習(xí)開始的語言模型演技過程,如下圖所示:




第一次開始用神經(jīng)網(wǎng)絡(luò)做語言模型是2003年Bengio提出的NNLM的網(wǎng)絡(luò)結(jié)構(gòu)站辉,隨著圖像領(lǐng)域預(yù)訓(xùn)練的取得的突破迅速遷移到NLP領(lǐng)域呢撞,有了我們熟知的word2vec损姜,通常做NLP任務(wù)句子中每個單詞Onehot形式輸入,使用預(yù)訓(xùn)練好的word embedding初始化網(wǎng)絡(luò)的第一層殊霞,進(jìn)行下游任務(wù)摧阅。word2vec的弊端是word embedding靜態(tài)的,后續(xù)代表性工作中ELMo通過采用雙層雙向LSTM實現(xiàn)了根據(jù)當(dāng)前上下文對Word Embedding動態(tài)調(diào)整绷蹲。


ELMo非常明顯的缺點在特征抽取器LSTM結(jié)構(gòu)帶來的棒卷,17年Google在機(jī)器翻譯Transformer取得了效果的突破,NLP各種任務(wù)開始驗證Transformer特征提取的能力比LSTM強(qiáng)很多祝钢。自此NLP開啟了Transformer時代娇跟。


2018年OpenAI采用Transformer Decoder結(jié)構(gòu)在大規(guī)模語料上訓(xùn)練 GPT1模型橫掃了各項NLP任務(wù),自此邁入大規(guī)模預(yù)訓(xùn)練時代NLP任務(wù)標(biāo)準(zhǔn)的預(yù)訓(xùn)練+微調(diào)范式太颤。由于GPT采用Decoder的單向結(jié)構(gòu)天然缺陷是無法感知上下文,Google很快提出了Encoder結(jié)構(gòu)的Bert模型可以感知上下文效果上也明顯有提升盹沈。隨后2019年OpenAI提出了GPT2龄章,GPT2擁有和GPT1一樣的模型結(jié)構(gòu),但得益于更高的數(shù)據(jù)質(zhì)量和更大的數(shù)據(jù)規(guī)模有了驚人的生成能力乞封。同年Google采用了Encoder-Decoder結(jié)構(gòu)做裙,提出了T5模型。從此大規(guī)模預(yù)訓(xùn)練語言模型兵分三路肃晚,開始了一系列延續(xù)的工作锚贱。


2020年OpenAI提出GPT3將GPT模型提升到全新的高度,其訓(xùn)練參數(shù)達(dá)到了1750億关串,自此超大模型時代開啟拧廊。技術(shù)路線上摒棄了之前預(yù)訓(xùn)練+微調(diào)的范式,通過輸入自然語言當(dāng)作指示生成答案晋修,開始了NLP任務(wù)新的范式預(yù)訓(xùn)練+提示學(xué)習(xí)吧碾。由于GPT3可以產(chǎn)生通順的句子但是準(zhǔn)確性等問題一直存在,出現(xiàn)WebGPT墓卦、InstructGPT倦春、ChatGPT等后續(xù)優(yōu)化的工作,實現(xiàn)了模型可以理解人類指令的含義落剪,會甄別高水準(zhǔn)答案睁本,質(zhì)疑錯誤問題和拒絕不適當(dāng)?shù)恼埱蟆?/p>


3.2深度強(qiáng)化學(xué)習(xí)技術(shù)演進(jìn)

深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)是強(qiáng)化學(xué)習(xí)一個分支忠怖,基于深度學(xué)習(xí)強(qiáng)大的感知能力來處理復(fù)雜的呢堰、高維的環(huán)境特征,并結(jié)合強(qiáng)化學(xué)習(xí)的思想與環(huán)境進(jìn)行交互脑又,完成決策過程暮胧。DRL在游戲場景這種封閉锐借、靜態(tài)和確定性環(huán)境可以達(dá)到甚至超越人類的決策水平。比較著名的事件是2017年DeepMind 根據(jù)深度學(xué)習(xí)和策略搜索的 AlphaGo 擊敗了圍棋世界冠軍李世石往衷。2018 年OpenAI 團(tuán)隊基于多智能體 DRL推出的OpenAI Five 在Dota2游戲中擊敗了人類玩家钞翔。DRL算法主要分為以下兩類:


值函數(shù)算法:值函數(shù)算法通過迭代更新值函數(shù)來間接得到智能體的策略,智能體的最優(yōu)策略通過最優(yōu)值函數(shù)得到席舍〔冀危基于值函數(shù)的DRL算法采用深度神經(jīng)網(wǎng)絡(luò)對值函數(shù)或者動作值函數(shù)進(jìn)行近似,通過時間差分學(xué)習(xí)或者 Q 學(xué)習(xí)的方式分別對值函數(shù)或者動作值函數(shù)進(jìn)行更新来颤。代表性的是2015 年 DeepMind 團(tuán)隊提出深度Q網(wǎng)絡(luò)(DQN)汰扭,及其后的各種變種DDQN、Dueling DQN福铅、分布式DQN等萝毛。


策略梯度算法:策略梯度算法直接采用函數(shù)近似的方法建立策略網(wǎng)絡(luò),通過策略網(wǎng)絡(luò)選取動作得到獎勵值滑黔,并沿梯度方向?qū)Σ呗跃W(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化笆包,得到優(yōu)化的策略最大化獎勵值÷缘矗可以用來處理連續(xù)動作庵佣。在實際應(yīng)用中流行的做法是將值函數(shù)算法和策略梯度算法結(jié)合得到的執(zhí)行器?評價器(AC)結(jié)構(gòu)。代表性工作有策略梯度算法汛兜、AC 算法以及各種變種DDPG巴粪、A3C、PPO等粥谬。ChatGPT使用的就是策略梯度算法PPO肛根。


4 ChatGPT背后的技術(shù)原理

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語言模型通過人工反饋強(qiáng)化學(xué)習(xí)來微調(diào)模型,讓模型一方面學(xué)習(xí)人的指令帝嗡,另一方面學(xué)習(xí)回答的好不好晶通。


本節(jié)首先闡述ChatGPT提升的效果及背后對應(yīng)的技術(shù),然后介紹ChatGPT的整體訓(xùn)練流程哟玷,其次介紹提升涉及幾個技術(shù)細(xì)節(jié)狮辽。


4.1核心提升了什么?

ChatGPT在對話場景核心提升了以下三方面:


1)更好的理解用戶的提問巢寡,提升模型和人類意圖的一致性喉脖,同時具備連續(xù)多輪對話能力。


2)大幅提升結(jié)果的準(zhǔn)確性抑月,主要表現(xiàn)在回答的更加的全面树叽,同時可以承認(rèn)錯誤、發(fā)現(xiàn)無法回答的問題谦絮。


3)具備識別非法和偏見的機(jī)制题诵,針對不合理提問提示并拒絕回答洁仗。


ChatGPT的提升主要涉及以下三方面技術(shù):


1)性能強(qiáng)大的預(yù)訓(xùn)練語言模型GPT3.5,使得模型具備了博學(xué)的基礎(chǔ)性锭。


2)webGPT等工作驗證了監(jiān)督學(xué)習(xí)信號可大幅提升模型準(zhǔn)確性赠潦。


3)InstructGPT等工作引入強(qiáng)化學(xué)習(xí)驗證了對齊模型和用戶意圖的能力。


4.1整體技術(shù)流程

ChatGPT的訓(xùn)練過程分為微調(diào)GPT3.5模型草冈、訓(xùn)練回報模型她奥、強(qiáng)化學(xué)習(xí)來增強(qiáng)微調(diào)模型三步:




第一步:微調(diào)GPT3.5模型。讓GPT 3.5在對話場景初步具備理解人類的的意圖怎棱,從用戶的prompt集合中采樣哩俭,人工標(biāo)注prompt對應(yīng)的答案,然后將標(biāo)注好的prompt和對應(yīng)的答案去Fine-tune GPT3.5拳恋,經(jīng)過微調(diào)的模型具備了一定理解人類意圖的能力凡资。


第二步:訓(xùn)練回報模型。第一步微調(diào)的模型顯然不夠好谬运,至少他不知道自己答的好不好讳苦,這一步通過人工標(biāo)注數(shù)據(jù)訓(xùn)練一個回報模型,讓回報模型來幫助評估回答的好不好吩谦。具體做法是采樣用戶提交的prompt,先通過第一步微調(diào)的模型生成n個不同的答案膝藕,比如A式廷、B、C芭挽、D滑废。接下來人工對A、B袜爪、C蠕趁、D按照相關(guān)性、有害性等標(biāo)準(zhǔn)標(biāo)準(zhǔn)并進(jìn)行綜合打分辛馆。有了這個人工標(biāo)準(zhǔn)數(shù)據(jù)俺陋,采取pair-wise 損失函數(shù)來訓(xùn)練回報模型RM。這一步實現(xiàn)了模型判別答案的好壞昙篙。


第三步:強(qiáng)化學(xué)習(xí)來增強(qiáng)微調(diào)模型腊状。使用第一步微調(diào)GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合苔可,使用PPO模型生成答案缴挖,使用第二步回報模型對答案打分。通過產(chǎn)生的策略梯度去更新PPO模型焚辅。這一步利用強(qiáng)化學(xué)習(xí)來鼓勵PPO模型生成更符合RM模型判別高質(zhì)量的答案映屋。


通過第二和第三步的迭代訓(xùn)練并相互促進(jìn)苟鸯,使得PPO模型能力越來越強(qiáng)。


4.3主要涉及的技術(shù)細(xì)節(jié)

4.3.1 GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進(jìn)行微調(diào)的棚点,這里對GPT-3.5在GPT3基礎(chǔ)上做的工作進(jìn)行梳理早处,官方列舉了以下GPT-3.5系列幾個型號:


code-davinci-002是一個基礎(chǔ)模型,對于純代碼補(bǔ)全任務(wù)。這也是ChatGPT具備超強(qiáng)代碼生成能力的原因乙濒。


text-davinci-002是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型陕赃,訓(xùn)練策略是instructGPT+FeedRM。


text-davinci-003是基于text-davinci-002模型的增強(qiáng)版本颁股,訓(xùn)練策略是instructGPT+PPO么库。


根據(jù)如下圖官方發(fā)布的模型時間線和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來甘有,這也是ChatGPT模型性能如此強(qiáng)大的核心要素诉儒。因為GPT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練,所以我們體驗ChatGPT時候同樣無法回答訓(xùn)練樣本日期之后的問題亏掀。




4.3.2監(jiān)督信號提升效果顯著

GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標(biāo)準(zhǔn)范式忱反,GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布,用戶不具備微調(diào)的能力滤愕,官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力温算。Prompt方法本質(zhì)是挖掘語言模型本身具備的知識,恰當(dāng)?shù)奶崾救ゼぐl(fā)語言模型的補(bǔ)全能力间影。監(jiān)督信號微調(diào)可以理解為改變了語言模型的理解能力注竿,InstructGPT的工作可以理解為對GPT3-SFT做了數(shù)據(jù)增強(qiáng)提升,使得模型在理解人類指令方面更出色魂贬。但這并不影響監(jiān)督信號對最終效果的價值巩割。


在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性付燥、幻覺宣谈、理解客戶能力上,監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強(qiáng)化學(xué)習(xí)對比有很大的競爭力键科,甚至在幻覺角度比基于強(qiáng)化學(xué)習(xí)的InstructGPT提升很明顯闻丑。




4.3.3人類反饋強(qiáng)化微調(diào)效果

ChatGPT通過人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來讓模型理解人類的指令。人類反饋強(qiáng)化學(xué)習(xí)(RLHF)是DeepMind早期提出的勋颖,使用少量的人類反饋來解決現(xiàn)代RL任務(wù)梆掸。RLHF的思想在很多工作中都有體現(xiàn),例如OpenAI的webGPT牙言、DeepMind中Sparrow等都通過人類的反饋進(jìn)一步提升大模型的效果酸钦。


RLHF整個訓(xùn)練過程如下圖所示:




目標(biāo)是實現(xiàn)后空翻的任務(wù),智能體Agent在環(huán)境中隨機(jī)行動,每隔一段時間卑硫,兩個行為的視頻片段給一個人徒恋,人判斷兩個視頻哪個更接近目標(biāo)。通過人的反饋數(shù)據(jù)欢伏,學(xué)習(xí)一個最能解釋人類判斷的獎勵模型Reward Model入挣,然后使用RL來學(xué)習(xí)如何實現(xiàn)目標(biāo)。隨著人類繼續(xù)提供模型無法判斷時候的反饋硝拧,實現(xiàn)了進(jìn)一步完善它對目標(biāo)的理解径筏。智能體Agent從人類反饋中學(xué)習(xí)最終在許多環(huán)境中有時甚至是超過人類的表現(xiàn)。


4.4行動驅(qū)動的大語言模型

盡管學(xué)術(shù)界一直無法真正定義AGI障陶,今年大型語言模型(LLM)的表現(xiàn)讓我們對通用人工智能有了期待滋恬,通過OpenAI的ChatGPT、Google的PaLM抱究、DeepMind的Sparrow取得的成功恢氯,人工智能的未來應(yīng)該是行動驅(qū)動的,一個行動驅(qū)動的LLM看起來很像AGI鼓寺,如下圖所示:




模型的行為就像一個智能體Agent選擇行動勋拟。在中間,我們有開箱即用的基礎(chǔ)模型LLM妈候。用戶通過Prompt詢問模型結(jié)果敢靡。


左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù)苦银,包括搜索醋安、數(shù)據(jù)庫、代碼解釋器和與人聊天等墓毒,它可以增強(qiáng)模型的能力。


右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練亲怠,如instruction tuning所计、RLHF等。instruction tuning相對好實現(xiàn)团秽,RLHF需要調(diào)整PPO算法相對較難主胧。整體上RL利用使用日志等專有數(shù)據(jù),通過創(chuàng)建強(qiáng)大的反饋回路习勤,訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化踪栋。


5總結(jié)與展望

5.1技術(shù)創(chuàng)新:待解決問題和改進(jìn)

ChatGPT一個問題是只能回答2021年前的問題。模型無法獲取近期的知識图毕,將ChatGPT+webGPT結(jié)合是一個可以想到的方案夷都。DeepMind提出的Sparrow就是一個參考,Sparrow model針對對話內(nèi)容模型生成結(jié)果并判斷是否搜索互聯(lián)網(wǎng),以提供更多的正確參考答案予颤,用強(qiáng)化學(xué)習(xí)算法去優(yōu)化Sparrow的輸出結(jié)果囤官。整體流程如下圖所示:




5.2技術(shù)應(yīng)用:能否取代搜索引擎

應(yīng)該不會取代冬阳,根據(jù)目前體驗的效果,距離搜索引擎還有很長的路要走党饮,主要基于幾個方面肝陪。


首先ChatGPT本質(zhì)是語言模型,當(dāng)前的訓(xùn)練技術(shù)模型不具備或者說很弱的推理能力刑顺,一些推理問題比如小學(xué)生問題完敗氯窍。根據(jù)當(dāng)前體驗看擅長創(chuàng)作類文案,其他問題經(jīng)常出現(xiàn)一些事實錯誤情況蹲堂。而搜索引擎技術(shù)的核心索引狼讨、檢索和排序是給到用戶Top相關(guān)性內(nèi)容,用戶自主多了一層推理贯城、對比篩選熊楼、總結(jié)。


其次目前的ChatGPT不能夠回答21年之后的問題能犯,新知識的獲取是通過增加標(biāo)注數(shù)據(jù)實現(xiàn)鲫骗。如果要支持獲取社會熱點新聞等,就需要改變底層技術(shù)方案踩晶。盡管這個問題WebGPT执泰、Sparrow通過搜索引擎解決拄氯,能否替代自己就有了答案笋熬。


最后就是成本問題,ChatGPT火的原因之一就是免費體驗罩引,之前超大模型GPT3收費模式根本沒有產(chǎn)生這么大的反響茸苇。商業(yè)化一直是大模型的痛排苍,模型效果和模型參數(shù)成正比。搜索引擎索引学密、檢索淘衙、排序的成本和ChatGPT這種模型計算成本不在一個量級上。


5.3未來預(yù)期:資本市場怎么看

和負(fù)責(zé)投資和戰(zhàn)略的同學(xué)聊腻暮,近期都在討論AI彤守。AI賽道無疑是投資界“今年最大的熱點之一”。ChatGPT和今年大火的AI繪畫都屬于泛AIGC領(lǐng)域哭靖,AIGC 是繼 PGC具垫、UGC 后的新內(nèi)容生產(chǎn)形態(tài)。AI投資人看來试幽,從語音筝蚕、文字、圖像的內(nèi)容生成都將出現(xiàn)增長,而對話可能是其中最重要的殺手級應(yīng)用饰及。根據(jù) Gartner 預(yù)計蔗坯,到 2025 年,生成式人工智能將占所有生成數(shù)據(jù)的 10%燎含,而當(dāng)前占比小于 1%宾濒。


回顧一下OpenAI,作為AIGC頂級技術(shù)公司已經(jīng)做了不少商業(yè)化的嘗試屏箍,通過API方式來推動GPT-3的技術(shù)商業(yè)化绘梦,將GPT3作為一項付費服務(wù)來推廣。Codex也是已經(jīng)商業(yè)化的產(chǎn)品赴魁。GPT-3歷經(jīng)兩年商業(yè)化嘗試卸奉,如今并未取代記者編輯或碼農(nóng)的職業(yè)生涯,OpenAI也從中發(fā)現(xiàn)颖御,將GPT系列作為輔助生產(chǎn)力工具對商業(yè)化更為合適榄棵。此次ChatGPT采取免費試用可能是OpenAI準(zhǔn)備繼續(xù)打磨這款產(chǎn)品,根據(jù)用戶的反饋幫助模型改進(jìn)從而作出更恰當(dāng)?shù)姆磻?yīng)潘拱。等產(chǎn)品打磨好可能為GPT-4商業(yè)化鋪路疹鳄。


回顧國內(nèi)行業(yè)巨頭和高校科研機(jī)構(gòu)大規(guī)模預(yù)訓(xùn)練模型軍備競賽一直持續(xù)芦岂。百度發(fā)布了產(chǎn)業(yè)級知識增強(qiáng)大模型“文心”(參數(shù)規(guī)模達(dá)2600億)瘪弓,并基于“文心”模型形成了產(chǎn)業(yè)全景圖。華為聯(lián)合鵬程實驗室發(fā)布“盤古”大模型禽最,阿里巴巴達(dá)摩院發(fā)布的中文語言模型 PLUG腺怯。智源人工智能研究院的超大規(guī)模預(yù)訓(xùn)練模型“悟道”(悟道2.0參數(shù)規(guī)模達(dá)1.75萬億)〈ㄎ蓿回顧國內(nèi)創(chuàng)業(yè)公司呛占,根據(jù)睿獸分析顯示2022年以來大規(guī)模預(yù)訓(xùn)練模型賽道出現(xiàn)多筆融資,其中不乏聯(lián)想創(chuàng)投懦趋、君聯(lián)資本晾虑、啟明創(chuàng)投、創(chuàng)新工場等知名投資機(jī)構(gòu)愕够。瀾舟科技、聆心智能佛猛、小冰等這些企業(yè)均將商業(yè)落地作為融資后的發(fā)力重點惑芭。


2022年以來 AIGC 應(yīng)用多點開花,伴隨著深度學(xué)習(xí)模型不斷完善继找、開源模式的推動遂跟、大模型探索商業(yè)化的可能,AIGC 有望加速發(fā)展,讓人們對通用人工智能有了更多的期待幻锁。


6參考材料

ChatGPT: Optimizing Language Models for Dialogue


Aligning Language Models to Follow Instructions


WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing


Aligning Language Models to Follow Instructions


Learning from Human Preferences


Proximal Policy Optimization


https://gpt.Chatapi.art/?


Building safer dialogue agents


https://jmcdonnell.substack.com/p/the-near-future-of-ai-is-action-driven


火爆全網(wǎng)的ChatGPT凯亮,早被資本盯上了,國內(nèi)有人剛?cè)诹?0億


關(guān)于引爆全球的ChatGPT哄尔,AI算法工程師和分析師們的看法并不相通|數(shù)智前瞻-36氪


一文看懂什么是強(qiáng)化學(xué)習(xí)假消?(基本概念+應(yīng)用場景+主流算法)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市岭接,隨后出現(xiàn)的幾起案子富拗,更是在濱河造成了極大的恐慌,老刑警劉巖鸣戴,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件啃沪,死亡現(xiàn)場離奇詭異,居然都是意外死亡窄锅,警方通過查閱死者的電腦和手機(jī)创千,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來入偷,“玉大人追驴,你說我怎么就攤上這事《⒋” “怎么了氯檐?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長体捏。 經(jīng)常有香客問我冠摄,道長,這世上最難降的妖魔是什么几缭? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任河泳,我火速辦了婚禮,結(jié)果婚禮上年栓,老公的妹妹穿的比我還像新娘拆挥。我一直安慰自己,他們只是感情好某抓,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布纸兔。 她就那樣靜靜地躺著,像睡著了一般否副。 火紅的嫁衣襯著肌膚如雪汉矿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天备禀,我揣著相機(jī)與錄音洲拇,去河邊找鬼奈揍。 笑死,一個胖子當(dāng)著我的面吹牛赋续,可吹牛的內(nèi)容都是我干的男翰。 我是一名探鬼主播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼纽乱,長吁一口氣:“原來是場噩夢啊……” “哼蛾绎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起迫淹,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤秘通,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后敛熬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肺稀,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年应民,在試婚紗的時候發(fā)現(xiàn)自己被綠了话原。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡诲锹,死狀恐怖繁仁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情归园,我是刑警寧澤黄虱,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站庸诱,受9級特大地震影響捻浦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜桥爽,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一朱灿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧钠四,春花似錦盗扒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至缕碎,卻和暖如春褥影,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背阎曹。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工伪阶, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人处嫌。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓栅贴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親熏迹。 傳聞我的和親對象是個殘疾皇子檐薯,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內(nèi)容