自美國(guó)時(shí)間12月2日上線以來(lái)烹吵,美國(guó)硅谷的初創(chuàng)公司OpenAI推出的ChatGPT,已經(jīng)擁有超過一百萬(wàn)的用戶涡真,受到熱烈的討論夕凝。它既能完成包括寫代碼,修bug(代碼改錯(cuò)),翻譯文獻(xiàn),寫小說(shuō),寫商業(yè)文案淫痰,創(chuàng)作菜譜,做作業(yè)整份,評(píng)價(jià)作業(yè)等一系列常見文字輸出型任務(wù)待错,而且在和用戶對(duì)話時(shí),能記住對(duì)話的上下文烈评,反應(yīng)非常逼真火俄。
盡管業(yè)內(nèi)人士認(rèn)為,ChatGPT仍存在數(shù)據(jù)訓(xùn)練集不夠新础倍、全等問題烛占,但在人類制造人工智能,終點(diǎn)將在哪里結(jié)束沟启?人類與會(huì)思考的機(jī)器之間的關(guān)系忆家,將會(huì)如何發(fā)展?這些問題德迹,我們無(wú)法停止思考芽卿。
過去的十年,仿佛是人工智能技術(shù)領(lǐng)域的“寒武紀(jì)大爆發(fā)時(shí)代”胳搞,大量新名詞在短時(shí)間內(nèi)迅速產(chǎn)生卸例、并且迅速流行起來(lái)。這些新名詞及其縮寫肌毅,許多都沒有統(tǒng)一的中文譯名筷转,而行業(yè)內(nèi)人士間也普遍直接用英文縮寫進(jìn)行交流。這為想要全面理解這些技術(shù)的外行人制造了認(rèn)知上的障礙悬而。
想要理解ChatGPT這款對(duì)話機(jī)器人呜舒,需要倒敘理解InstructGPT,GPT-3笨奠,GPT-2袭蝗,GPT唤殴,Transformer,以及在此之前的自然語(yǔ)言處理領(lǐng)域常用的RNN模型到腥。
2017年朵逝,谷歌大腦團(tuán)隊(duì)(Google Brain)在神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS,該會(huì)議為機(jī)器學(xué)習(xí)與人工智能領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議)發(fā)表了一篇名為“Attention is all you need”(自我注意力是你所需要的全部)的論文[1]乡范。作者在文中首次提出了基于自我注意力機(jī)制(self-attention)的變換器(transformer)模型配名,并首次將其用于理解人類的語(yǔ)言,即自然語(yǔ)言處理篓足。
在這篇文章面世之前段誊,自然語(yǔ)言處理領(lǐng)域的主流模型是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN闰蚕,recurrent neural network)栈拖。循環(huán)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn)是,能更好地處理有先后順序的數(shù)據(jù)没陡,比如語(yǔ)言涩哟,但也因?yàn)槿绱耍@種模型在處理較長(zhǎng)序列盼玄,例如長(zhǎng)文章贴彼、書籍時(shí),存在模型不穩(wěn)定或者模型過早停止有效訓(xùn)練的問題(這是由于模型訓(xùn)練時(shí)的梯度消失或梯度爆炸現(xiàn)象而導(dǎo)致埃儿,在此不具體展開)器仗,以及訓(xùn)練模型時(shí)間過長(zhǎng)(因必須順序處理數(shù)據(jù),無(wú)法同時(shí)并行訓(xùn)練)的問題童番。
在這么多跟進(jìn)精钮、研究Transformer模型團(tuán)隊(duì)中,OpenAI公司是少數(shù)一直在專注尋找它的極限的一支剃斧。
2015年12月轨香,OpenAI公司美國(guó)舊金山成立。特斯拉的創(chuàng)始人馬斯克也是該公司創(chuàng)始人之一幼东,為公司早期提供了資金支持(后來(lái)他從該公司退出臂容,但保留了金主身份,并未撤資)根蟹。成立早期脓杉,OpenAI是一家非營(yíng)利組織,以研發(fā)對(duì)人類社會(huì)有益简逮、友好的人工智能技術(shù)為使命球散。2019年,OpenAI改變了其性質(zhì)买决,宣布成為營(yíng)利機(jī)構(gòu)沛婴,這個(gè)改變與Transformer模型不無(wú)相關(guān)吼畏。
2018年,在Transformer模型誕生還不到一年的時(shí)候嘁灯,OpenAI公司發(fā)表了論文“Improving Language Understanding by Generative Pre-training”(用創(chuàng)造型預(yù)訓(xùn)練提高模型的語(yǔ)言理解力)(Generative一般譯為“生成型”泻蚊,但我認(rèn)為譯為“創(chuàng)造型”更合適)[2],推出了具有1.17億個(gè)參數(shù)的GPT-1(Generative Pre-training Transformers, 創(chuàng)造型預(yù)訓(xùn)練變換器)模型丑婿。這是一個(gè)用大量數(shù)據(jù)訓(xùn)練好的基于Transformer結(jié)構(gòu)的模型性雄。他們使用了經(jīng)典的大型書籍文本數(shù)據(jù)集(BookCorpus)進(jìn)行模型預(yù)訓(xùn)練。該數(shù)據(jù)集包含超過7000本從未出版的書羹奉,類型涵蓋了冒險(xiǎn)秒旋、奇幻、言情等類別诀拭。在預(yù)訓(xùn)練之后迁筛,作者針對(duì)四種不同的語(yǔ)言場(chǎng)景、使用不同的特定數(shù)據(jù)集對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練(又稱為微調(diào)耕挨,fine-tuning)细卧。最終訓(xùn)練所得的模型在問答、文本相似性評(píng)估筒占、語(yǔ)義蘊(yùn)含判定贪庙、以及文本分類這四種語(yǔ)言場(chǎng)景,都取得了比基礎(chǔ)Transformer模型更優(yōu)的結(jié)果翰苫,成為了新的業(yè)內(nèi)第一止邮。
2019年,該公司公布了一個(gè)具有15億個(gè)參數(shù)的模型:GPT-2奏窑。該模型架構(gòu)與GPT-1原理相同导披,主要區(qū)別是GPT-2的規(guī)模更大(10倍)。同時(shí)良哲,他們發(fā)表了介紹這個(gè)模型的論文“Language Models are Unsupervised Multitask Learners” (語(yǔ)言模型是無(wú)監(jiān)督的多任務(wù)學(xué)習(xí)者)[3]盛卡。在這項(xiàng)工作中,他們使用了自己收集的以網(wǎng)頁(yè)文字信息為主的新的數(shù)據(jù)集筑凫。不出意料滑沧,GPT-2模型刷新了大型語(yǔ)言模型在多項(xiàng)語(yǔ)言場(chǎng)景的評(píng)分記錄。在文中巍实,他們提供了GPT-2模型回答新問題(模型訓(xùn)練數(shù)據(jù)中未出現(xiàn)過的問題及其答案)的結(jié)果滓技。
2020年,這個(gè)創(chuàng)業(yè)團(tuán)隊(duì)再次戰(zhàn)勝自己棚潦,發(fā)表論文“Language Models are Few-Shot Learner”(語(yǔ)言模型是小樣本學(xué)習(xí)者)[4]令漂,并推出了最新的GPT-3模型——它有1750億個(gè)參數(shù)。GPT-3模型架構(gòu)與GPT-2沒有本質(zhì)區(qū)別,除了規(guī)模大了整整兩個(gè)數(shù)量級(jí)以外叠必。GPT-3的訓(xùn)練集也比前兩款GPT模型要大得多:經(jīng)過基礎(chǔ)過濾的全網(wǎng)頁(yè)爬蟲數(shù)據(jù)集(4290億個(gè)詞符)荚孵、維基百科文章(30億詞符)、兩個(gè)不同的書籍?dāng)?shù)據(jù)集(一共670億詞符)纬朝。
由于巨大的參數(shù)數(shù)目以及訓(xùn)練所需數(shù)據(jù)集規(guī)模收叶,訓(xùn)練一個(gè)GPT-3模型保守估計(jì)需要五百萬(wàn)美元至兩千萬(wàn)美元不等——如果用于訓(xùn)練的GPU越多,成本越高共苛,時(shí)間越短判没;反之亦然∮缇ィ可以說(shuō)澄峰,這個(gè)數(shù)量級(jí)的大型語(yǔ)言模型已經(jīng)不是普通學(xué)者、一般個(gè)人能負(fù)擔(dān)得起研究項(xiàng)目了辟犀。面對(duì)如此龐大的GPT-3模型俏竞,用戶可以僅提供小樣本的提示語(yǔ)、或者完全不提供提示而直接詢問踪蹬,就能獲得符合要求的高質(zhì)量答案胞此。小樣本提示是指用戶在提問時(shí)先給模型提供幾個(gè)例子,然后再提出自己的語(yǔ)言任務(wù)(翻譯跃捣、創(chuàng)作文本、回答問題等)夺蛇。
GPT-3可以根據(jù)用戶給的提示語(yǔ)(類似于例子)而更好的回答問題(圖片來(lái)源:[4])
GPT-3模型面世時(shí)疚漆,未提供廣泛的用戶交互界面,并且要求用戶提交申請(qǐng)刁赦、申請(qǐng)批準(zhǔn)后才能注冊(cè)娶聘,所以直接體驗(yàn)過GPT-3模型的人數(shù)并不多。根據(jù)體驗(yàn)過的人們?cè)诰W(wǎng)上分享的體驗(yàn)甚脉,我們可以知道GPT-3可以根據(jù)簡(jiǎn)單的提示自動(dòng)生成完整的丸升、文從字順的長(zhǎng)文章,讓人幾乎不能相信這是機(jī)器的作品牺氨。GPT-3還會(huì)寫程序代碼狡耻、創(chuàng)作菜譜等幾乎所有的文本創(chuàng)作類的任務(wù)。早期測(cè)試結(jié)束后猴凹,OpenAI公司對(duì)GPT-3模型進(jìn)行了商業(yè)化:付費(fèi)用戶可以通過應(yīng)用程序接口(API)連上GPT-3夷狰,使用該模型完成所需語(yǔ)言任務(wù)。2020年9月郊霎,微軟公司獲得了GPT-3模型的獨(dú)占許可沼头,意味著微軟公司可以獨(dú)家接觸到GPT-3的源代碼。該獨(dú)占許可不影響付費(fèi)用戶通過API繼續(xù)使用GPT-3模型。
2022年3月进倍,OpenAI再次發(fā)表論文“Training language models to follow instructions with human feedback”(結(jié)合人類反饋信息來(lái)訓(xùn)練語(yǔ)言模型使其能理解指令)土至,并推出了他們基于GPT-3模型并進(jìn)行了進(jìn)一步的微調(diào)的InstructGPT模型。InstructGPT的模型訓(xùn)練中加入了人類的評(píng)價(jià)和反饋數(shù)據(jù)猾昆,而不僅僅是事先準(zhǔn)備好的數(shù)據(jù)集毙籽。
GPT-3公測(cè)期間用戶提供了大量的對(duì)話和提示語(yǔ)數(shù)據(jù),而OpenAI公司內(nèi)部的數(shù)據(jù)標(biāo)記團(tuán)隊(duì)也生成了不少人工標(biāo)記數(shù)據(jù)集毡庆。這些標(biāo)注過的數(shù)據(jù)(labelled data)坑赡,可以幫助模型在直接學(xué)習(xí)數(shù)據(jù)的同時(shí)學(xué)習(xí)人類對(duì)這些數(shù)據(jù)的標(biāo)記(例如某些句子、詞組是不好的么抗,應(yīng)盡量少使用)毅否。
OpenAI公司第一步先用這些數(shù)據(jù)對(duì)GPT-3用監(jiān)督式訓(xùn)練(supervised learning)進(jìn)行了微調(diào)。
第二步蝇刀,他們收集了微調(diào)過的模型生成的答案樣本螟加。一般來(lái)說(shuō),對(duì)于每一條提示語(yǔ)吞琐,模型可以給出無(wú)數(shù)個(gè)答案捆探,而用戶一般只想看到一個(gè)答案(這也是符合人類交流的習(xí)慣),模型需要對(duì)這些答案排序站粟,選出最優(yōu)黍图。所以,數(shù)據(jù)標(biāo)記團(tuán)隊(duì)在這一步對(duì)所有可能的答案進(jìn)行人工打分排序奴烙,選出最符合人類思考交流習(xí)慣的答案助被。這些人工打分的結(jié)果可以進(jìn)一步建立獎(jiǎng)勵(lì)模型——獎(jiǎng)勵(lì)模型可以自動(dòng)給語(yǔ)言模型獎(jiǎng)勵(lì)反饋,達(dá)到鼓勵(lì)語(yǔ)言模型給出好的答案切诀、抑制不好的答案的目的揩环,幫助模型自動(dòng)尋出最優(yōu)答案。
第三步幅虑,該團(tuán)隊(duì)使用獎(jiǎng)勵(lì)模型和更多的標(biāo)注過的數(shù)據(jù)繼續(xù)優(yōu)化微調(diào)過的語(yǔ)言模型丰滑,并且進(jìn)行迭代。最終得到的模型被稱為InstructGPT倒庵。
從2017年的Transformer到今天的ChatGPT褒墨,大型語(yǔ)言模型經(jīng)歷了如此多的迭代,一代比一代性能更強(qiáng)哄芜。未來(lái)貌亭,OpenAI會(huì)繼續(xù)給我們帶來(lái)GPT-4、GPT-5认臊,甚至GPT-100圃庭。而我們此時(shí)與ChatGPT火熱的、奇葩的、腦洞大開的聊天記錄剧腻,也會(huì)全部變成下一代模型的訓(xùn)練數(shù)據(jù)拘央。
2016年,OpenAI公司創(chuàng)立時(shí)初衷是要開發(fā)對(duì)人類有益的人工智能技術(shù)书在。在過去的六年里灰伟,沒有任何線索顯示他們違背了初衷——相反,ChatGPT及其背后的大型語(yǔ)言模型看起來(lái)就是一項(xiàng)面向未來(lái)的先進(jìn)生產(chǎn)力儒旬。我們有理由相信栏账,以大型語(yǔ)言模型為例子的人工智能技術(shù)能幫助我們更好的完成學(xué)習(xí)與工作,過上更美好的生活栈源;我們也有理由相信挡爵,我們應(yīng)該繼續(xù)支持、開發(fā)甚垦、推廣人工智能茶鹃,使其能惠及大眾。但是艰亮,我們已經(jīng)無(wú)法忽視人工智能技術(shù)進(jìn)化闭翩、迭代的速度遠(yuǎn)高于人類、生物體的進(jìn)化速度迄埃。
OpenAI聯(lián)合創(chuàng)始人馬斯克在意識(shí)到人工智能的巨大潛能時(shí)疗韵,曾經(jīng)就OpenAI的創(chuàng)始初衷談到:“我們要怎樣做才能保證人工智能帶給我們的未來(lái)是友好的?在嘗試開發(fā)友好的人工智能技術(shù)的過程中會(huì)一直存在一種風(fēng)險(xiǎn)调俘,那就是我們可能會(huì)創(chuàng)造出讓我們擔(dān)憂的事物來(lái)伶棒。不過,最好的壁壘可能是讓更多的人盡可能多的接觸并且擁有人工智能技術(shù)彩库。如果每個(gè)人都能利用人工智能技術(shù),那么由于不會(huì)存在某一小部分人由于獨(dú)自擁有過于強(qiáng)大的人工智能技術(shù)而導(dǎo)致危險(xiǎn)后果的可能性先蒋『眨”
但馬斯克沒有談到的是,就算人人都能擁有使用人工智能技術(shù)的機(jī)會(huì)與能力竞漾,若人工智能技術(shù)本身發(fā)展到了人類不可控制的地步眯搭,我們要如何建立自己的堡壘。像《沙丘》故事里所影射的人類與會(huì)思考的機(jī)器的世界大戰(zhàn)业岁,要如何避免鳞仙?ChatGPT的存在,還遠(yuǎn)遠(yuǎn)未到人們需要擔(dān)心的那步笔时,但人工智能進(jìn)化的終點(diǎn)棍好,將在哪里結(jié)束?
在創(chuàng)造人工智能的途中,人類很難停止發(fā)問——高速發(fā)展的人工智能技術(shù)借笙,有一天會(huì)逼迫我們?nèi)ゲ坏貌贿x擇沙丘一樣原始的未來(lái)嗎扒怖?
ChatGPT也不知道。