模型:
有趣的是墩剖,當(dāng)參數(shù)規(guī)模超過一定水平時,這個更大的語言模型實現(xiàn)了顯著的性能提升岭皂,并出現(xiàn)了小模型中不存在的能力沼头,比如上下文學(xué)習(xí)爷绘。為了區(qū)別于 PLM(預(yù)訓(xùn)練語言模型)进倍,這類模型被稱為大型語言模型(LLMs)。
LLM 的涌現(xiàn)能力被正式定義為「在小型模型中不存在但在大型模型中出現(xiàn)的能力」陶因,這是 LLM 與以前的 PLM 區(qū)分開來的最顯著特征之一。當(dāng)出現(xiàn)這種新的能力時楷扬,它還引入了一個顯著的特征:當(dāng)規(guī)模達到一定水平時贴见,性能顯著高于隨機的狀態(tài)毅否。以此類推蝇刀,這種新模式與物理學(xué)中的相變現(xiàn)象密切相關(guān)徘溢。原則上,這種能力也可以與一些復(fù)雜的任務(wù)有關(guān)然爆,而人們更關(guān)心可以應(yīng)用于解決多個任務(wù)的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現(xiàn)能力:
上下文學(xué)習(xí)曾雕。GPT-3 正式引入了上下文學(xué)習(xí)能力:假設(shè)語言模型已經(jīng)提供了自然語言指令和多個任務(wù)描述,它可以通過完成輸入文本的詞序列來生成測試實例的預(yù)期輸出剖张,而無需額外的訓(xùn)練或梯度更新。
指令遵循搔弄。通過對自然語言描述(即指令)格式化的多任務(wù)數(shù)據(jù)集的混合進行微調(diào),LLM 在微小的任務(wù)上表現(xiàn)良好倒庵,這些任務(wù)也以指令的形式所描述褒墨。這種能力下擎宝,指令調(diào)優(yōu)使 LLM 能夠在不使用顯式樣本的情況下通過理解任務(wù)指令來執(zhí)行新任務(wù),這可以大大提高泛化能力绍申。
循序漸進的推理。對于小語言模型失晴,通常很難解決涉及多個推理步驟的復(fù)雜任務(wù),例如數(shù)學(xué)學(xué)科單詞問題书在。同時,通過思維鏈推理策略儒旬,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務(wù)得出最終答案帖族。據(jù)推測栈源,這種能力可能是通過代碼訓(xùn)練獲得的竖般。
數(shù)據(jù)
算力
美國市場研究機構(gòu)TrendForce在3月1日的報告中測算稱,處理1800億個參數(shù)的GPT-3.5大模型艰亮,需要的GPU芯片數(shù)量高達2萬枚挣郭,未來GPT大模型商業(yè)化所需的GPU 芯片數(shù)量甚至超過3萬枚迄埃。
自然語言處理發(fā)展到大型語言模型的歷程分為五個階段:規(guī)則兑障、統(tǒng)計機器學(xué)習(xí)、深度學(xué)習(xí)流译、預(yù)訓(xùn)練、大型語言模型先蒋。
機器翻譯是NLP中難度最高、綜合性最強的任務(wù)竞漾。因此張俊林以機器翻譯任務(wù)為例來對比不同階段的特點以及技術(shù)棧窥翩、數(shù)據(jù)的變化鳞仙,以此展示NLP如何一步步演進。
規(guī)則階段大致從1956年到1992年棍好,基于規(guī)則的機器翻譯系統(tǒng)是在內(nèi)部把各種功能的模塊串到一起,由人先從數(shù)據(jù)中獲取知識借笙,歸納出規(guī)則,寫出來教給機器业稼,然后機器來執(zhí)行這套規(guī)則,從而完成特定任務(wù)俯邓。
統(tǒng)計機器學(xué)習(xí)階段大致從1993年到2012年,機器翻譯系統(tǒng)可拆成語言模型和翻譯模型稽鞭,這里的語言模型與現(xiàn)在的GPT-3/3.5的技術(shù)手段一模一樣。該階段相比上一階段突變性較高朦蕴,由人轉(zhuǎn)述知識變成機器自動從數(shù)據(jù)中學(xué)習(xí)知識弟头,主流技術(shù)包括SVM梦重、HMM亮瓷、MaxEnt降瞳、CRF、LM等挣饥,當(dāng)時人工標(biāo)注數(shù)據(jù)量在百萬級左右。
預(yù)訓(xùn)練階段是從2018年到2022年扔枫,相比之前的最大變化是加入自監(jiān)督學(xué)習(xí),張俊林認(rèn)為這是NLP領(lǐng)域最杰出的貢獻短荐,將可利用數(shù)據(jù)從標(biāo)注數(shù)據(jù)拓展到了非標(biāo)注數(shù)據(jù)叹哭。該階段系統(tǒng)可分為預(yù)訓(xùn)練和微調(diào)兩個階段痕貌,將預(yù)訓(xùn)練數(shù)據(jù)量擴大3到5倍,典型技術(shù)棧包括Encoder-Decoder舵稠、Transformer、Attention等哺徊。
大型語言模型階段從2023年起,目的是讓機器能聽懂人的命令落追、遵循人的價值觀。其特性是在第一個階段把過去的兩個階段縮成一個預(yù)訓(xùn)練階段淋硝,第二階段轉(zhuǎn)換成與人的價值觀對齊,而不是向領(lǐng)域遷移竿报。這個階段的突變性是很高的,已經(jīng)從專用任務(wù)轉(zhuǎn)向通用任務(wù)烈菌,或是以自然語言人機接口的方式呈現(xiàn)。