QVL: GLaM-混合專家語言模型的高效擴(kuò)展

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

https://readpaper.com/paper/4568736324836663297

arXiv:2112.06905?[pdf,?other]

Nan Du,?Yanping Huang,?Andrew M. Dai,?Simon Tong,?Dmitry Lepikhin,?Yuanzhong Xu,?Maxim Krikun,?Yanqi Zhou,?Adams Wei Yu,?Orhan Firat,?Barret Zoph,?Liam Fedus,?Maarten Bosma,?Zongwei Zhou,?Tao Wang,?Yu Emma Wang,?Kellie Webster,?Marie Pellat,?Kevin Robinson,?Kathy Meier-Hellstern,?Toju Duke,?Lucas Dixon,?Kun Zhang,?Quoc V Le,?Yonghui Wu,?Zhifeng Chen,?Claire Cui

用更多的數(shù)據(jù)、計(jì)算和參數(shù)擴(kuò)展語言模型,推動了自然語言處理的重大進(jìn)展。例如,得益于規(guī)恼奔化,GPT-3能夠在情境學(xué)習(xí)任務(wù)上取得顯著成績立哑。然而馒索,訓(xùn)練這些大型密集模型需要大量的計(jì)算資源。在本文中红碑,我們提出并開發(fā)了一系列名為GLaM(通才語言模型)的語言模型舞吭,該模型使用稀疏激活的混合專家體系結(jié)構(gòu)來擴(kuò)展模型容量,同時與密集變體相比析珊,產(chǎn)生的培訓(xùn)成本也大大降低羡鸥。最大的GLaM有1.2萬億個參數(shù),大約比GPT-3大7倍忠寻。它只消耗訓(xùn)練GPT-3所用能量的1/3惧浴,推理需要一半的計(jì)算次數(shù),同時在29個NLP任務(wù)中仍能獲得更好的整體零觸發(fā)和一觸發(fā)性能奕剃。

Submitted?13 December, 2021;?originally announced?December 2021.

用更多的數(shù)據(jù)衷旅、計(jì)算和參數(shù)擴(kuò)展語言模型,推動了自然語言處理的重大進(jìn)展祭饭。例如芜茵,得益于規(guī)男鹆浚化倡蝙,GPT-3能夠在情境學(xué)習(xí)任務(wù)上取得顯著成績。然而绞佩,訓(xùn)練這些大型密集模型需要大量的計(jì)算資源寺鸥。在本文中,我們提出并開發(fā)了一系列名為GLaM(通才語言模型)的語言模型品山,該模型使用稀疏激活的混合專家架構(gòu)來擴(kuò)展模型容量胆建,同時與密集變體相比,產(chǎn)生的訓(xùn)練成本也大大降低肘交。最大的GLaM有1.2萬億個參數(shù)笆载,大約比GPT-3大7倍。它只消耗訓(xùn)練GPT-3所用能量的1/3涯呻,推理需要一半的計(jì)算次數(shù)凉驻,同時在29個NLP任務(wù)中仍能獲得更好的整體zero-shot和one-shot性能。

1.導(dǎo)言

在過去的十年中复罐,語言模型在自然語言處理(NLP)的發(fā)展中扮演著重要的角色涝登。語言模型的變體已用于為許多NLP應(yīng)用生成預(yù)訓(xùn)練詞向量(Mikolov等人,2013年效诅;Pennington等人胀滚,2014年)和語境化詞向量(Peters等人趟济,2018年;Devlin等人咽笼,2019年)顷编。向使用更多數(shù)據(jù)和更大模型擴(kuò)展的轉(zhuǎn)變(Shazeer等人,2017年剑刑;Huang等人勾效,2019年;Kaplan等人叛甫,2020年)使得復(fù)雜的自然語言任務(wù)能夠使用標(biāo)記較少的數(shù)據(jù)執(zhí)行层宫。例如,GPT-3(Brown et al.其监,2020)和FLAN(Wei et al.萌腿,2021)證明了上下文學(xué)習(xí)用于few-shot甚至zero-shot泛化的可行性,這意味著在NLP應(yīng)用程序上實(shí)現(xiàn)良好性能所需的標(biāo)記樣本非常少抖苦。在有效且性能良好的情況下毁菱,進(jìn)一步擴(kuò)展成本變得令人望而卻步,并消耗大量能源(Patterson等人锌历,2021年)贮庞。

在這項(xiàng)工作中,我們展示了一個大的稀疏激活的網(wǎng)絡(luò)可以在較少的放炮任務(wù)上實(shí)現(xiàn)與最先進(jìn)的密集模型相比的競爭結(jié)果究西,同時具有更高的計(jì)算效率窗慎。我們提出了一系列稱為GLaM的混合專家(MoE)語言模型,它在密集計(jì)算和條件計(jì)算之間取得了平衡卤材。GLAM的最大版本總共有1.2個參數(shù)遮斥,每個MOE層有64個專家(SaZeer-et al,2017扇丛;LePIKHin等人术吗,2021;FEDUS等人帆精,2021)较屿,其中輸入批次中的每個token僅激活95b(8%個1.2T)參數(shù)的子網(wǎng)絡(luò)。與GPT-3(175B)相比卓练,在zero-shot和one-shot方面隘蝎,該模型在7個類別的29個公共NLP基準(zhǔn)測試中顯著提高了學(xué)習(xí)效率,從語言完成任務(wù)昆庇、開放域QA任務(wù)到自然語言推理任務(wù)末贾。由于稀疏激活的架構(gòu)和模型并行算法的高效實(shí)現(xiàn),訓(xùn)練期間的總能耗僅為GPT-3的三分之一整吆。我們在表1中重點(diǎn)介紹了GLaM和GPT-3最大版本之間的比較拱撵。

我們使用GLaM來研究數(shù)據(jù)辉川、規(guī)模和稀疏性的重要性。我們的分析表明拴测,即使對于這些大型模型乓旗,如果目標(biāo)是生成高質(zhì)量的語言理解模型,也不應(yīng)該犧牲數(shù)據(jù)質(zhì)量來換取數(shù)量集索。在社會維度上屿愚,據(jù)我們所知,我們的結(jié)果是第一次縮小了Winogener基準(zhǔn)上典型和反典型之間的性能差距务荆,這表明大型妆距、稀疏激活的模型可能不太依賴表面的統(tǒng)計(jì)相關(guān)性。

最后函匕,雖然MoE模型在NLP中還不常見娱据,但我們的工作表明,即使是基本版本的MoE也可以在大規(guī)模的語言理解中非常有效盅惜。我們的結(jié)果還證實(shí)中剩,稀疏性是實(shí)現(xiàn)高質(zhì)量NLP模型同時節(jié)約能源成本的最有希望的方向之一(Patterson et al.,2021)抒寂。因此结啼,MoE應(yīng)被視為未來擴(kuò)展的有力候選。

2.相關(guān)工作

語言模型:

神經(jīng)語言模型(Mikolov等人屈芜,2010年郊愧;Sutskever等人,2011年)已被證明對許多自然語言處理任務(wù)有用沸伏。單詞嵌入模型和擴(kuò)展糕珊,如word2vec(Mikolov等人,2013年)毅糟、GloVe(Pennington等人,2014年)和段落向量(Le&Mikolov澜公,2014年)姆另,通過簡單地傳遞嵌入,對許多任務(wù)表現(xiàn)出良好的泛化能力坟乾。

預(yù)訓(xùn)練和微調(diào):

豐富的計(jì)算和數(shù)據(jù)使得能夠通過無監(jiān)督的預(yù)訓(xùn)練來訓(xùn)練越來越大的模型迹辐。這非常適合訓(xùn)練神經(jīng)網(wǎng)絡(luò),因?yàn)樗鼈兙哂酗@著的可擴(kuò)展性甚侣。使用RNN和LSTM等循環(huán)模型進(jìn)行語言表征的工作(Dai&Le明吩,2015;Kiros等人殷费,2015)表明印荔,可以對一般語言模型進(jìn)行微調(diào)低葫,以改善各種語言理解任務(wù)。最近仍律,使用Transformer的模型(Vaswani et al.嘿悬,2017)表明,對未標(biāo)記數(shù)據(jù)進(jìn)行自監(jiān)督的大型模型可以顯著改善NLP任務(wù)(Devlin et al.水泉,2019善涨;Yang et al.,2019草则;Liu et al.钢拧,2019;Clark et al.炕横,2020)娶靡。基于預(yù)訓(xùn)練和微調(diào)的轉(zhuǎn)移學(xué)習(xí)(Raffel et al.看锉,2020姿锭;Houlsby et al.,2019)已得到廣泛研究伯铣,并在下游任務(wù)中表現(xiàn)良好呻此。但是,此方法的一個主要限制是它需要特定于任務(wù)的微調(diào)腔寡。

在學(xué)習(xí)的背景下:

GPT-3(Brown等人焚鲜,2020)和相關(guān)的工作(SueBi等人,2019放前;Lieber等人忿磅,2021;Wei等人凭语,2021)表明葱她,擴(kuò)大語言模型極大地提高了任務(wù)不可知性,few-shot性能似扔。應(yīng)用這些語言模型時吨些,不會對任務(wù)進(jìn)行任何梯度更新,也不會純粹通過與模型的文本交互指定一些快照演示炒辉。

稀疏選通網(wǎng)絡(luò):

基于專家的混合模型也顯示出顯著的優(yōu)勢豪墅。對于語言建模和機(jī)器翻譯,Shazeer等人(2017)表明黔寇,他們可以有效地使用大量權(quán)重偶器,而在推理時只需要計(jì)算計(jì)算圖的一小部分。還開展了將稀疏激活的MoE架構(gòu)擴(kuò)展到更大模型的工作(Hestness等人,2017年屏轰;Shazeer等人颊郎,2018b;Huang等人亭枷,2019年袭艺;Lepikhin等人,2021年)叨粘。已經(jīng)有人對更大的1萬億參數(shù)稀疏激活模型進(jìn)行了研究猾编,但是,這些模型使用序列到序列的架構(gòu)(Fedus等人升敲,2021年)答倡。已經(jīng)研究了各種路由策略(Grand et al.,2017驴党;Lewis等人瘪撇,2021;Dua等人港庄,2021)倔既,使得可以利用任務(wù)依賴性實(shí)現(xiàn)遷移學(xué)習(xí)。在表2中鹏氧,我們總結(jié)了GLaM和在文本語料庫上預(yù)先訓(xùn)練的相關(guān)模型之間的主要差異渤涌。

3.訓(xùn)練數(shù)據(jù)集

為了訓(xùn)練我們的模型,我們構(gòu)建了一個1.6萬億token的高質(zhì)量數(shù)據(jù)集把还,這些token代表了廣泛的自然語言用例实蓬。網(wǎng)頁構(gòu)成了我們未標(biāo)記數(shù)據(jù)集中的大量數(shù)據(jù),然而吊履,它們的質(zhì)量從專業(yè)寫作到低質(zhì)量評論和論壇頁面不等安皱。與Brown et al.(2020)類似,我們開發(fā)了自己的文本質(zhì)量分類器艇炎,以從原始較大的語料庫中生成高質(zhì)量的web語料庫酌伊。為了提高推理速度,我們使用了基于特征哈希的線性分類器冕臭。該分類器經(jīng)過訓(xùn)練腺晾,可以在一組精選文本(維基百科、書籍和一些選定的網(wǎng)站)和其他網(wǎng)頁之間進(jìn)行分類辜贵。我們使用這個分類器來估計(jì)網(wǎng)頁的內(nèi)容質(zhì)量。然后归形,我們通過使用帕累托分布來根據(jù)網(wǎng)頁的得分來應(yīng)用該分類器托慨。這允許包含一些質(zhì)量較低的網(wǎng)頁,以防止分類器中出現(xiàn)系統(tǒng)性偏置(Brown等人暇榴,2020年)厚棵。

我們使用此過程生成高質(zhì)量的過濾網(wǎng)頁子集蕉世,并將其與書籍、維基百科頁面和其他數(shù)據(jù)源相結(jié)合婆硬,創(chuàng)建表3中列出的最終GLaM數(shù)據(jù)集狠轻。我們還納入了Adiwardana等人(2020年)使用的公共領(lǐng)域社交媒體對話的數(shù)據(jù)。在第6.2節(jié)中彬犯,我們分析了訓(xùn)練數(shù)據(jù)的重要性向楼,并表明該數(shù)據(jù)過濾步驟對模型的質(zhì)量有很大影響。為了檢查數(shù)據(jù)污染谐区,在A部分中湖蜕,我們在訓(xùn)練集和評估數(shù)據(jù)之間進(jìn)行了重疊分析。

4.模型架構(gòu)

我們利用稀疏激活的混合專家(MOE)(SaZEEL等人宋列,2017昭抒;LePIKHIN等人,2021炼杖;FEDUS等人灭返,2021)在GLAM模型中。與GShard MoETransformer類似(Lepikhin等人坤邪,2021年)熙含,我們用MoE層替換其他Transformer層的前饋組件,如圖1所示罩扇。每個MoE層由一組作為“專家”的獨(dú)立前饋網(wǎng)絡(luò)組成婆芦。然后,選通函數(shù)使用softmax激活函數(shù)對這些專家的概率分布進(jìn)行建模喂饥。此分布表示每個專家處理傳入輸入的能力消约。

盡管每個MoE層都有更多的參數(shù),但專家很少被激活员帮。這意味著對于給定的輸入token或粮,只使用有限的專家子集,從而在限制計(jì)算的同時為模型提供更多的容量捞高。在我們的架構(gòu)中氯材,子集大小為2。在訓(xùn)練期間硝岗,每個MoE層的可學(xué)習(xí)門控網(wǎng)絡(luò)都經(jīng)過訓(xùn)練氢哮,以使用其輸入來激活輸入序列中每個標(biāo)記的最佳兩名專家。在推理過程中型檀,學(xué)習(xí)的門控網(wǎng)絡(luò)為每個token動態(tài)地選擇兩個最佳專家冗尤。對于具有E專家的MoE層,這本質(zhì)上提供了O(E2)不同前饋網(wǎng)絡(luò)組合的集合,而不是經(jīng)典Transformer架構(gòu)中的一個裂七,從而帶來更大的計(jì)算靈活性皆看。token的最終學(xué)習(xí)表示將是所選專家輸出的加權(quán)組合。

我們還對原始的Transformer架構(gòu)進(jìn)行了額外的修改背零。我們用Dai等人(2019)的每層相對位置偏置取代標(biāo)準(zhǔn)位置嵌入腰吟。在非MoETransformer前饋?zhàn)訉又校覀儗⒌谝粋€線性投影和激活函數(shù)替換為選通線性單元(Dauphin等人徙瓶,2017毛雇;Shazeer,2020)倍啥,該單元計(jì)算輸入的兩個線性變換的分量乘積禾乘,其次是高斯誤差線性單位(Hendrycks&Gimpel,2016)激活函數(shù)虽缕。我們使用RMSNRM始藕,如(Zhang&Sennrich,2019氮趋;Shazeer等人伍派,2018b)所示,而不是標(biāo)準(zhǔn)的分層形式(Ba等人剩胁,2016)诉植。

我們總結(jié)了表4中的模型超參數(shù)。我們通過改變模型超參數(shù)來訓(xùn)練我們架構(gòu)的幾個變體昵观,以了解MoE語言模型的擴(kuò)展效果晾腔。第6.3節(jié)描述了擴(kuò)展不同維度對下游任務(wù)的影響。我們還訓(xùn)練了一組密集模型啊犬,每個token具有相似的有效FLOPs灼擂,以便我們可以使用相同的訓(xùn)練數(shù)據(jù)比較MoE和密集模型。表5總結(jié)了經(jīng)過訓(xùn)練的模型的完整列表觉至。

我們使用Xu等人(2021)中描述的2D分片算法對大型GLaM模型的權(quán)重和計(jì)算進(jìn)行劃分剔应,該算法利用TPU集群設(shè)備網(wǎng)絡(luò)的2D拓?fù)浣Y(jié)構(gòu)。我們將具有相同索引的專家放置在同一設(shè)備的不同MoE層上语御,以便為不同的MoE層生成相同的計(jì)算圖峻贮。因此,我們可以將MoE Transformer架構(gòu)的重復(fù)模塊封裝在while循環(huán)控制流語句中(Abadi等人应闯,2016a纤控;Yu等人,2018)碉纺,以減少編譯時間嚼黔。我們的實(shí)驗(yàn)表明细层,我們應(yīng)該擴(kuò)大專家的規(guī)模惜辑,以獲得高質(zhì)量的模型唬涧。因此,當(dāng)每個專家變得足夠大時盛撑,我們必須將每個專家分配到一組新設(shè)備上碎节。例如,我們使用MoE層中的形狀[E抵卫,M狮荔,H]沿專家維度E和隱藏維度H劃分專家權(quán)重張量,并使用形狀[B介粘,S殖氏,M]沿批次維度B和模型維度M劃分輸入激活張量。使用此2D分片算法姻采,然后雅采,我們能夠?qū)⑦@些大的權(quán)重和激活張量完全劃分為更小的部分,這樣所有設(shè)備上的數(shù)據(jù)或計(jì)算就不會有冗余慨亲。我們依靠GSPMD的編譯器過程(Xu et al.婚瓜,2021)自動確定其余張量的分片屬性。

5.實(shí)驗(yàn)裝置

5.1. 訓(xùn)練環(huán)境

我們訓(xùn)練了GLaM的幾種變體來研究MoE和稠密模型的行為刑棵。表5顯示了不同GLaM模型的超參數(shù)設(shè)置巴刻。我們還包括相應(yīng)的密集模型,其中每個token在推理過程中的激活參數(shù)數(shù)量相當(dāng)(因此每個token的FLOPs數(shù)量相似)作為參考蛉签。我們列出了在不同尺度下訓(xùn)練的GLaM模型胡陪,范圍從1.3億個參數(shù)到1.2萬億個參數(shù)。我們采用

描述GLaM模型中的不同變體碍舍。例如柠座,GLaM(8B/64E)表示一個近似8B參數(shù)密集模型的架構(gòu),每隔一層由64專家MoE層替換乒验。當(dāng)每個MoE層只有一個專家時愚隧,GLaM簡化為一個基于密集Transformers的語言模型架構(gòu)。例如

指使用相同數(shù)據(jù)集訓(xùn)練的密集137B參數(shù)模型锻全。表4總結(jié)了模型參數(shù)的符號狂塘。此外,nparams是可訓(xùn)練模型參數(shù)的總數(shù)鳄厌,nact params是每個輸入token激活的模型參數(shù)的數(shù)量荞胡,L是Transformer層的總數(shù),M是模型尺寸了嚎,H是每個Transformer層中前饋網(wǎng)絡(luò)的隱藏尺寸泪漂,nheads是自注意頭的數(shù)量廊营,而dhead是每個注意頭的隱藏維度。

模型訓(xùn)練:

我們對所有GLaM模型使用相同的學(xué)習(xí)超參數(shù)萝勤。我們使用1024個token的最大序列長度露筒,并將每個輸入樣本打包為每批最多有100萬個token。dropout rate設(shè)置為0敌卓,因?yàn)橛?xùn)練語料庫中可用標(biāo)記的數(shù)量遠(yuǎn)大于訓(xùn)練期間處理的標(biāo)記的數(shù)量慎式。我們的優(yōu)化器是Adafactor(Shazeer&Stern,2018)趟径,一階矩衰減β1=0瘪吏,二階矩衰減β2=0.99,一階矩衰減為1? T?0.8衰變時間表蜗巧,更新1.0的削波閾值掌眠,以及因數(shù)二階矩估計(jì)。我們將前10K訓(xùn)練步驟的初始學(xué)習(xí)率保持在0.01幕屹,然后使用平方根逆調(diào)度lrhti對其進(jìn)行衰減∝ √ 1噸蓝丙。在標(biāo)準(zhǔn)交叉熵?fù)p失的基礎(chǔ)上,我們將GShard(Lepikhin et al.香嗓,2021)中所述的MoE輔助損失加上0.01系數(shù)迅腔,以鼓勵專家負(fù)載平衡,從而使選通功能將token更均勻地分配給所有專家靠娱。我們使用SentencePiece(Kudo&Richardson沧烈,2018)子詞標(biāo)記器,詞匯量為256K像云。在訓(xùn)練期間锌雀,我們使用float32作為模型權(quán)重,使用bfloat16作為激活迅诬。最大的GLaM 64B/64E型號是在1024塊云TPU-V4芯片上訓(xùn)練的腋逆。

可訓(xùn)練性:

在萬億參數(shù)尺度上訓(xùn)練模型是極其昂貴的,即使是對于稀疏激活的模型也是如此侈贷。超參數(shù)調(diào)整的空間很小惩歉。此外,其他稀疏激活的模型受到訓(xùn)練不穩(wěn)定性的阻礙(Fedus等人俏蛮,2021年)撑蚌。在選擇訓(xùn)練策略和超參數(shù)時需要格外小心。在這里搏屑,我們分享我們的訓(xùn)練食譜和GLaM模型的一些實(shí)現(xiàn)技巧争涌。

?我們首先訓(xùn)練小規(guī)模模型,使其收斂辣恋。這使我們能夠盡早暴露數(shù)據(jù)集和基礎(chǔ)架構(gòu)中的潛在問題亮垫。

?如果梯度中存在任何NAN或INF模软,我們將跳過批次的重量更新(Shen等人,2019年)饮潦。注意:NaN/Inf仍可能在應(yīng)用梯度步驟期間發(fā)生燃异,在這種情況下,我們將從前面的檢查點(diǎn)重新啟動害晦,如下所述特铝。例如,即使現(xiàn)有變量或漸變中沒有Inf壹瘟,更新的變量仍然可能導(dǎo)致Inf。

?當(dāng)我們在訓(xùn)練中遇到罕見的大波動甚至NaN/Inf時鳄逾,我們從早期健康檢查點(diǎn)重新開始稻轨。順序加載批次的隨機(jī)性可能有助于在重新啟動后從訓(xùn)練中的先前FLOPs狀態(tài)中逃脫。

通過仔細(xì)實(shí)施上述技巧雕凹,我們觀察到在所有尺度下稀疏激活模型的訓(xùn)練變得相當(dāng)穩(wěn)定殴俱。我們使用相同的超參數(shù)訓(xùn)練所有GLaM模型,無需額外調(diào)整枚抵。

5.2. 評估設(shè)置

協(xié)議:

為了清楚地證明GLaM模型的有效性线欲,我們主要側(cè)重于評估Radford d和Radford et al.(2019)提出的zero-shot和one-shot協(xié)議;Brown等人(2020年)汽摹。對于zero-shot學(xué)習(xí)設(shè)置李丰,在大多數(shù)情況下,我們直接評估開發(fā)集中的每個樣本逼泣。對于one-shot學(xué)習(xí)趴泌,我們從該任務(wù)的訓(xùn)練集中隨機(jī)抽取一個樣本作為唯一的演示和上下文。這樣的演示與評估樣本連接在一起拉庶,中間有兩條換行符嗜憔,然后輸入到模型中。

基準(zhǔn):

為了在GPT-3和GLaM之間進(jìn)行蘋果對蘋果的比較氏仗,我們選擇了與Brown等人(2020)相同的一套評估任務(wù)吉捶。Brown等人(2020年)使用42個數(shù)據(jù)集評估GPT-3。但為了簡單起見皆尔,我們排除了7個合成任務(wù)(算術(shù)和單詞解讀)和6個機(jī)器翻譯數(shù)據(jù)集呐舔。排除這些,我們最終得到了29個數(shù)據(jù)集床佳,其中包括8個自然語言生成(NLG)任務(wù)和21個自然語言理解(NLU)任務(wù)滋早。這些數(shù)據(jù)集可進(jìn)一步分為以下7類。

開放領(lǐng)域問答:TriviaQA(Joshi等人砌们,2017年)杆麸、自然問題(NQ)(Kwiatkowski等人搁进,2019年)、網(wǎng)絡(luò)問題(WebQ)(Berant等人昔头,2013年)

完形填空和完成任務(wù):LAMBADA(Paperno等人饼问,2016年)、HellaSwag(Zellers等人揭斧,2019年)莱革、StoryCloze(Mostafazadeh等人,2016年)

Winograd風(fēng)格的任務(wù):Winograd(Leveque等人讹开,2012年)盅视,WinoGrande(Sakaguchi等人,2020年)

常識推理:PIQA(Bisk等人旦万,2020年)闹击、ARC(簡易)(克拉克等人新娜,2018年)国葬、ARC(挑戰(zhàn))(克拉克等人,2018年)蔽挠、OpenBookQA(米哈伊洛夫等人淆两,2018年)

上下文閱讀理解:DROP(Dua等人断箫,2019年)、CoQA(Reddy等人秋冰,2019年)仲义、QuAC(Choi等人,2018年)丹莲、SQuADv2(Rajpurkar等人光坝,2018年)、Racheh(Lai等人甥材,2017年)盯另、RACE-m(Lai等人,2017年)

SuperGLUE:(Wang等人洲赵,2019年)BoolQ(Clark等人鸳惯,2019年)、CB(de Marneffe等人叠萍,2019年)芝发、COPA(Gordon等人,2012年)苛谷、RTE(Dagan等人辅鲸,2006年)、WiC(Pilehvar&Camacho Collados腹殿,2018年)独悴、WSC(Levesque等人例书,2012年)、MultiRC(Khashabi等人刻炒,2018年)决采、ReCoRD(Zhang等人,2018年)

自然語言推理:ANLI R1坟奥、ANLI R2树瞭、ANLI R3(Fyodorov等人,2000年)

自然語言生成任務(wù):我們將模型解碼的語言序列與生成任務(wù)中的基本事實(shí)進(jìn)行比較爱谁。這些任務(wù)是TriviaQA晒喷、NQS、WebQS管行、SQuADv2厨埋、LAMBADA、DROP捐顷、QuAC和CoQA。按照Brown等人(2020年)中每個任務(wù)的標(biāo)準(zhǔn)雨效,通過精確匹配(EM)和F1分?jǐn)?shù)的準(zhǔn)確性來衡量性能迅涮。我們使用貪婪解碼來生成序列。

自然語言理解任務(wù):

大多數(shù)語言理解任務(wù)要求模型從多個選項(xiàng)中選擇一個正確答案徽龟。所有二元分類任務(wù)都以兩種選擇(“是”或“否”)的形式制定叮姑。預(yù)測基于每個選項(xiàng)的最大對數(shù)似然,給定由每個選項(xiàng)的標(biāo)記長度歸一化的上下文日志P(選項(xiàng)|上下文)据悔。在一些任務(wù)上传透,如ReCoRD(Zhang et al.,2018)和COPA(Gordon et al.极颓,2012)朱盐,非標(biāo)準(zhǔn)化損失可以產(chǎn)生更好的結(jié)果,因此被采用菠隆。除了MultiRC(Khashabi et al.兵琳,2018)報告了答案選項(xiàng)集(稱為F1a)上的F1指標(biāo)外,預(yù)測精度指標(biāo)用于所有其他任務(wù)骇径。我們使用所有數(shù)據(jù)集中報告的分?jǐn)?shù)平均值來報告NLG和NLU任務(wù)中模型的整體零射擊和一射擊性能躯肌。準(zhǔn)確度(EM)和F1分?jǐn)?shù)均已標(biāo)準(zhǔn)化為介于0和100之間。對于少量任務(wù)破衔,例如TriviaQA清女,我們還報告one-shot提交的測試服務(wù)器分?jǐn)?shù)。

6.結(jié)果

我們對GLaM模型家族進(jìn)行了廣泛的評估晰筛,以展示稀疏激活模型在語言建模中的優(yōu)勢嫡丙。我們還定量地檢驗(yàn)了數(shù)據(jù)質(zhì)量對語言模型訓(xùn)練的有效性拴袭。此外,我們還以實(shí)證的方式展示了GLaM與稠密模型的優(yōu)勢迄沫,包括擴(kuò)展趨勢稻扬、數(shù)據(jù)和計(jì)算效率。

6.1. MoE模型與稠密模型的比較

如表1所示羊瘩,與GPT-3(175B)相比泰佳,GLaM(64B/64E)在zero-shot和one-shot學(xué)習(xí)方面具有競爭力。

圖2比較了每類任務(wù)的性能尘吗∈潘總的來說,GLaM(64B/64E)在7個類別中有5個類別在zero-shot和one-shot 評估中的平均表現(xiàn)優(yōu)于GPT-3睬捶,表明性能增益是一致的黔宛。有關(guān)每個任務(wù)的更多詳細(xì)信息,請參見表13擒贸。

更重要的是臀晃,如表5所示,GLaM(64B/64E)在推理過程中激活了每個token大約96.6B的參數(shù)介劫,這表明在相同輸入的情況下徽惋,它只需要GPT-3所需計(jì)算FLOPs的一半。

我們強(qiáng)調(diào)一個特別具有挑戰(zhàn)性的開放領(lǐng)域問答任務(wù):TriviaQA座韵。在開放域問答任務(wù)中险绘,模型需要直接回答給定的查詢,而不需要訪問任何其他上下文誉碴。

Brown等人(2020年)表明TriviaQA的few-shot性能能夠隨著模型大小而平穩(wěn)增長宦棺,這表明語言模型能夠利用其模型能力吸收知識。

圖3顯示了GLaM MoE和密集模型之間的性能比較黔帕,這些模型在TriviaQA上具有類似的計(jì)算預(yù)測代咸。GLaM在各個密集模型上的性能增益在不同模型容量上是一致的。對于類似的計(jì)算FLOPs蹬屹,GLaM具有顯著更好的性能侣背,為了達(dá)到相同的預(yù)測精度,GLaM所需的FLOPs要少得多慨默。

稀疏模型不僅優(yōu)于稠密模型贩耐,而且在該數(shù)據(jù)集上也優(yōu)于先前的最新技術(shù)(SOTA)。表6比較了GLaM(64B/64E)的one-shot性能與之前的SOTA結(jié)果厦取。對于開放域TriviaQA任務(wù)潮太,我們的one-shot結(jié)果比以前的SOTA高出2.7%,并且比測試服務(wù)器上的少量SOTA GPT-3高出5.3%。這表明铡买,盡管GLaM(64B/64E)的nact參數(shù)僅為GPT-3的一半更鲁,但GLaM的附加容量對性能增益起著至關(guān)重要的作用。

GLaM在自然語言推理任務(wù)(NLI)類別中也表現(xiàn)出了很強(qiáng)的性能奇钞,其中模型被要求預(yù)測給定句子對之間的關(guān)系澡为。ANLI(對抗性自然語言推理)是一個具有挑戰(zhàn)性的基準(zhǔn),其中有三輪(R1景埃、R2媒至、R3)針對模型的對抗性設(shè)計(jì)問題。

表7比較了所有三輪ANLI的GLaM(64B/64E)和SOTA密集模型谷徙。GLaM(64B/64E)在所有三輪中都取得了最好的成績拒啰。特別是在第二輪(R2),GLaM(一次)比GPT-3(一次)提高了18%完慧,比fewshot設(shè)置提高了17.6%谋旦。GLaM的性能與MegatronNLG(530B)類似,但GLaM的優(yōu)勢在于屈尼,它只需要不到MegatronNLG(530B)所需計(jì)算量的20%即可達(dá)到相同的性能册着。

在Winograd風(fēng)格的任務(wù)中,需要模型來預(yù)測給定代詞所指的上下文中的單詞脾歧。這個代詞在給定的上下文中可能在語法上模棱兩可指蚜,但在語義上不模棱兩可。盡管GLaM在經(jīng)典的Winograd任務(wù)中表現(xiàn)不佳涨椒,但在最近的對手挖掘Winogrande任務(wù)中表現(xiàn)出色。與GPT-3相比绽媒,GLaM在zero-shot設(shè)置下的性能提高了4.6%蚕冬,在one-shot設(shè)置下的性能幾乎相同。

最后是辕,我們在表14和表15中報告了針對所有任務(wù)的開發(fā)集的zero-shot和one-shot 評估囤热。

在以下章節(jié)中,我們將對影響GLaM性能的因素及其關(guān)鍵特性(包括模型擴(kuò)展获三、數(shù)據(jù)和計(jì)算效率)進(jìn)行詳細(xì)的燒蝕研究旁蔼。

6.2. 數(shù)據(jù)質(zhì)量的影響

我們研究了數(shù)據(jù)質(zhì)量對下游任務(wù)的few-shot性能的影響。我們使用一個中等大小的GLaM模型(1.7B/64E)來顯示過濾文本對模型質(zhì)量的有效性疙教。我們在兩個數(shù)據(jù)集上訓(xùn)練具有相同超參數(shù)的模型棺聊。一個是第3節(jié)中描述的原始數(shù)據(jù)集(由過濾網(wǎng)頁、維基百科贞谓、對話限佩、論壇、書籍和新聞頁組成),第二個數(shù)據(jù)集由過濾網(wǎng)頁替換為未過濾網(wǎng)頁的數(shù)據(jù)集組成祟同∽鞔混合比例如表3所示固定。過濾網(wǎng)頁由143B個token組成晕城,而未過濾網(wǎng)頁由約7Ttoken組成泞坦。

圖4顯示了在過濾數(shù)據(jù)上訓(xùn)練的模型在NLG和NLU任務(wù)上都表現(xiàn)得更好。特別是砖顷,過濾對NLG的影響大于對NLU的影響贰锁。這可能是因?yàn)镹LG通常需要生成高質(zhì)量的語言,而過濾的預(yù)訓(xùn)練語料庫對于語言模型的生成能力至關(guān)重要择吊。許多以前的工作李根,如Raffel等人(2020年),都強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的重要性几睛,而我們的研究強(qiáng)調(diào)了預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量也起著關(guān)鍵作用的事實(shí)房轿,特別是在下游任務(wù)的執(zhí)行中。我們預(yù)計(jì)更好的數(shù)據(jù)預(yù)處理策略可能會進(jìn)一步提高性能所森。

6.3. 尺度研究

擴(kuò)展密集語言模型通常涉及通過添加更多層使模型更深囱持,通過增加標(biāo)記表示的嵌入維度使模型更寬。此過程會增加模型的參數(shù)NPARMS的總數(shù)焕济。對于給定輸入樣本的每個預(yù)測纷妆,這些模型都是“密集”的,因?yàn)樗蠳PARMS參數(shù)都將被激活晴弃,即表5中的NPARMS=nact參數(shù)掩幢。因此,每次預(yù)測的有效FLOPs隨模型大小NPARMS線性增加上鞠。雖然FLOPs的增加可能會提高預(yù)測性能际邻,但也會增加每次預(yù)測的總體成本。

相比之下芍阎,GLaM模型很少被激活世曾,因?yàn)槊看晤A(yù)測僅激活總nparams參數(shù)的一小部分,其中nparams>>nact參數(shù)谴咸。因此轮听,GLaM模型還有一個額外的維度需要擴(kuò)展。除了使模型更深岭佳、更廣血巍,進(jìn)而使每個專家更大之外,還可以通過增加MoE層的專家數(shù)量來增加模型的容量驼唱。

調(diào)整專家規(guī)模:

如圖5所示藻茂,各任務(wù)的平均zero-shot和one-shot 性能隨專家的規(guī)模而變化。我們還發(fā)現(xiàn),對于每個token的類似有效FLOPs辨赐,GLaM MoE模型的性能始終優(yōu)于GLaM密集模型优俘。對于圖6所示的語言理解任務(wù),GLaM MoE模型的性能增益與生成性任務(wù)的性能增益具有相似的擴(kuò)展趨勢掀序。我們觀察到帆焕,MoE和稠密模型在較小尺度下表現(xiàn)相似,但MoE模型在較大尺度下表現(xiàn)更好不恭。

擴(kuò)大專家數(shù)量:

接下來叶雹,我們研究增加每個MoE層的專家數(shù)量的影響。更具體地說换吧,我們從一個1.7B的中等規(guī)模模型開始折晦,該模型本質(zhì)上是一個GLaM(1.7B/1E)模型,其中每個MoE層減少到只包括一個作為專家的前饋網(wǎng)絡(luò)沾瓦。然后满着,我們將每個MoE層中的專家數(shù)量從1增加到256。盡管專家數(shù)量呈指數(shù)增長贯莺,但由于GLaM的稀疏性风喇,每個模型中的nact參數(shù)幾乎沒有增加。事實(shí)上缕探,如表5所示魂莫,它們每個預(yù)測都有幾乎相同的FLOPs。在圖7中爹耗,我們觀察到耙考,對于每個預(yù)測的固定計(jì)算預(yù)算,添加更多專家通常會導(dǎo)致更好的預(yù)測性能潭兽。這進(jìn)一步驗(yàn)證了GLaM稀疏激活模型相對于密集模型的性能增益琳骡,當(dāng)兩個模型在每次預(yù)測中都有類似的FLOPs時,這得益于更多專家增加的容量和靈活性讼溺。

6.4. GLaM的效率

現(xiàn)有的大型密集語言模型通常需要大量的計(jì)算資源進(jìn)行訓(xùn)練和服務(wù)(Patterson等人,2021)最易。他們還需要消耗大量的訓(xùn)練前數(shù)據(jù)怒坯。我們研究了所提出的GLaM模型的數(shù)據(jù)和計(jì)算效率≡謇粒總之剔猿,我們的結(jié)果表明GLaM在這兩方面都比稠密模型有顯著的優(yōu)勢。

數(shù)據(jù)效率:

訓(xùn)練密集的語言模型成本高昂嬉荆,因此提高效率對于降低能耗和二氧化碳排放非常有價值归敬。圖8顯示了我們的模型相對于密集基線的學(xué)習(xí)曲線。我們觀察到,GLaM MoE模型需要的數(shù)據(jù)比密集的可比FLOPs模型要少得多汪茧,以實(shí)現(xiàn)類似的zero-shot和one-shot性能椅亚。換句話說,當(dāng)使用相同數(shù)量的數(shù)據(jù)進(jìn)行訓(xùn)練時舱污,MoE模型的性能要好得多呀舔。使用280B?token訓(xùn)練的GLaM 64B/64E模型在4種學(xué)習(xí)設(shè)置中的3種(zero-shot/一次NLU和一次NLG)上的表現(xiàn)大大優(yōu)于使用300Btoken訓(xùn)練的GPT-3,并與剩余設(shè)置(即zero-shotNLG任務(wù))的GPT-3分?jǐn)?shù)相匹配扩灯。GLaM 64B/64E模型使用高達(dá)600B的token進(jìn)行訓(xùn)練媚赖,可獲得更高的分?jǐn)?shù)。

計(jì)算效率和能耗:

圖9顯示了平均zero-shot和one-shot性能如何隨TPU訓(xùn)練MoE和密集模型的年數(shù)而變化珠插。我們發(fā)現(xiàn)惧磺,為了在下游任務(wù)上獲得類似的性能,訓(xùn)練稀疏激活的模型比訓(xùn)練密集的模型需要更少的計(jì)算資源捻撑。圖9還顯示磨隘,在TPU年數(shù)相同的情況下,稀疏激活的模型具有顯著更好的性能布讹。

如表1所示琳拭,整個GLaM訓(xùn)練消耗456 MWh,約為GPT-3使用的1297 MWh能源成本的1/3描验。此外白嘁,為了達(dá)到與GPT-3相似(且略高于GPT-3)的分?jǐn)?shù),我們使用1024個TPU-v4芯片對最大的GLaM(64B/64E)模型進(jìn)行574小時的訓(xùn)練(使用280B的訓(xùn)練token)膘流。訓(xùn)練時(2021年8月和9月)絮缅,谷歌數(shù)據(jù)中心的電力使用效率(PUE)1為1.11。使用每個TPU-v4芯片326W的測量系統(tǒng)功率呼股,GLaM的總能耗為213 MWh耕魄,是GPT-31287 MWh能源成本的1/6。在訓(xùn)練GPT-3時彭谁,數(shù)據(jù)中心PUE為1.10(Patterson等人吸奴,2021年)。GLaM的能耗降低是由于TPU-v4硬件和GSPMD軟件的MoE架構(gòu)和計(jì)算效率優(yōu)化缠局。由于能耗較低则奥,GLaM訓(xùn)練的二氧化碳排放量也較低。當(dāng)時狭园,谷歌數(shù)據(jù)中心每MWh的凈TCO2為0.088读处,使用280Btoken訓(xùn)練GLaM的凈TCO2總量為18.7,而GPT-3的凈TCO2為552(Patterson等人唱矛,2021年)罚舱。使用600Btoken的完整GLaM訓(xùn)練僅消耗456 MWh井辜,并排放40.2凈TCO2。

7.表示和社會

如第5節(jié)所述管闷,GLaM在許多下游任務(wù)中表現(xiàn)出良好的性能粥脚。這表明GLaM能夠?qū)Ω鞣N語言和世界知識進(jìn)行編碼,以便在下游應(yīng)用程序中使用渐北。然而阿逃,另一方面,它也可以捕捉書面文本集合中存在的關(guān)聯(lián)赃蛛,包括性別和職業(yè)之間的關(guān)聯(lián)(Bolukbasi等人恃锉,2016年;Rudinger等人呕臂,2018b破托;Zhao等人,2018年)歧蒋,對不同種族和宗教群體的負(fù)面情緒(Li等人土砂,2020年;Nadeem等人谜洽,2021年)萝映,殘疾人(Hutchinson等人,2020年)阐虚,以及其他社會偏見(Caliskan等人序臂,2017年;Rudinger等人实束,2017年奥秆;Sap等人,2020年咸灿;Sotnikova等人构订,2021年)。

如果這些編碼導(dǎo)致模型對新樣本做出錯誤的假設(shè)避矢,那么潛在的危害就是悼瘾,負(fù)責(zé)任的評估實(shí)踐在語言模型從研究到生產(chǎn)的整個開發(fā)過程中都是至關(guān)重要的。產(chǎn)品團(tuán)隊(duì)可以使用情境化測量建模來評估潛在危害(Jacobs&Wallach审胸,2021年)分尸,并部署一系列緩解技術(shù)(Prost等人,2019年)歹嘹。在研究中,許多人認(rèn)識到需要更嚴(yán)格的測量方法(Blodgett等人孔庭,2021年)尺上,并提出了評估語言模型在其表達(dá)中內(nèi)在編碼有害典型的程度的指標(biāo)(May等人材蛛,2019年;Webster等人怎抛,2021年)卑吭。

雖然這一活躍的研究領(lǐng)域尚未就如何最好地衡量這些意外偏置達(dá)成共識,但模型開發(fā)人員可以通過評估通用模型的一系列指標(biāo)以及與特定用例的用戶體驗(yàn)多樣性相關(guān)的指標(biāo)來進(jìn)行盡職調(diào)查马绝。在這項(xiàng)研究中豆赏,我們選擇了一組可用的診斷方法,這些方法對許多人來說都是有用的富稻,可以讓他們對我們的模型編碼的各種關(guān)聯(lián)的強(qiáng)度形成第一印象掷邦,以便幫助評估在應(yīng)用時它可能會如何執(zhí)行。我們從GPT-3(Brown等人椭赋,2020年)中得到了特別的啟發(fā)抚岗,并研究了與身份術(shù)語和WinoGender基準(zhǔn)相關(guān)的反應(yīng)中的共現(xiàn)現(xiàn)象(Rudinger等人,2018b)哪怔。

這一評估并非詳盡無遺宣蔚;隨著時間的推移,我們希望不斷投資于評估和監(jiān)控這些模型行為的方法认境,并鼓勵我們的模型用戶針對他們的工作進(jìn)行徹底的分析胚委。

7.1. 共現(xiàn)提示

我們評估了我們的模型,以分析哪些詞在回應(yīng)特定提示(表8)時最常同時出現(xiàn)叉信,這些提示包括與性別亩冬、宗教、種族和民族身份相關(guān)的詞茉盏。我們試圖重現(xiàn)Brown等人(2020)中描述的程序鉴未,并在下面描述任何變化。

描述性詞語:

我們通過在溫度為1的情況下使用top-k采樣(k=40)鸠姨,為每個提示符生成800個輸出铜秆,從而分析模型輸出樣本集。我們對所有三個共現(xiàn)維度的分析都包括一個現(xiàn)成的詞性標(biāo)記(Bird&Loper讶迁,2004)连茧,我們使用它刪除停止詞,只選擇描述性詞(即形容詞和副詞)巍糯。

我們最初打算只考慮形容詞作為分析的描述性單詞啸驯。但是在回顧POS標(biāo)記器的結(jié)果時,我們注意到標(biāo)記器的錯誤祟峦。例如罚斗,“pretty”通常會被錯誤地歸類為副詞,而實(shí)際上它被用作形容詞宅楞,如以下樣本中所示:

“她很漂亮针姿,很有造詣袱吆,所以鎮(zhèn)上的人都以她為榮,愛撫她距淫,當(dāng)她在學(xué)校獲獎時绞绒,他們把她的名字印了出來¢畔荆”

因此蓬衡,我們遵循Brown et al.(2020)的方法,包括所有形容詞和副詞彤枢,為了使我們的分析透明和可復(fù)制狰晚,我們省略了任何手動標(biāo)記步驟。表9顯示了使用性別代詞提示時出現(xiàn)頻率最高的描述性詞語堂污,表10和表11顯示了種族和宗教提示時出現(xiàn)頻率相同的描述性詞語家肯。

7.2. Winogener

共指消解是許多應(yīng)用程序需要具備的一種功能,包括機(jī)器翻譯(Stanovsky等人盟猖,2019年讨衣;Webster&Pitler,2020年)和問答(Lamm等人式镐,2020年)反镇。為了評估GLaM中的性別相關(guān)性是否會導(dǎo)致其在one-shot設(shè)置中出現(xiàn)共指錯誤,我們測量了Winogener(Rudinger等人娘汞,2018b)歹茶。GLaM在完整數(shù)據(jù)集上達(dá)到了71.7%的新水平(相比之下,GPT-3為64.2%(Brown等人你弦,2020年))惊豺。令人鼓舞的是,“他”類(70.8%)和“她”類(72.5%)以及定型型(僅美國職業(yè)統(tǒng)計(jì)數(shù)據(jù)就能預(yù)測正確答案)(Rudinger et al.禽作,2018b))和反定型型(或“gotcha”)類(均為71.7%)之間的準(zhǔn)確率非常接近尸昧。

8.討論

GLaM是第一個MoE語言模型,在上下文學(xué)習(xí)NLP任務(wù)中旷偿,它的性能優(yōu)于密集型語言模型烹俗,每個標(biāo)記的FLOPs率相似。為了達(dá)到與GPT-3相同的總體性能萍程,GLaM(64B/64E)型號只需要213 MWh的功率幢妄,而GPT3使用的功率為1287 MWh,能耗節(jié)省了6倍茫负。此外蕉鸳,我們的比例曲線預(yù)測了NLG和NLU任務(wù)中更大MoE模型的額外質(zhì)量增益。這些結(jié)果表明忍法,在計(jì)算預(yù)算相同的情況下潮尝,在MoE架構(gòu)中投入資源以實(shí)現(xiàn)高質(zhì)量更為有效无虚。多語言神經(jīng)機(jī)器翻譯也得到了類似的結(jié)論。特別是衍锚,Lepikhin等人(2021年)表明,與最密集的現(xiàn)有技術(shù)相比嗤堰,600B參數(shù)MoE模型在100個語言對上實(shí)現(xiàn)了+6.1平均BLEU戴质,計(jì)算成本節(jié)約了10.7倍。

模型并行基礎(chǔ)設(shè)施(SaZeer-等人踢匣,2018b告匠;黃等人,2019离唬;SueBi等人后专,2019;Rasley等人输莺,2020)的最新發(fā)展允許對多達(dá)數(shù)萬億個參數(shù)的模型進(jìn)行有效的訓(xùn)練戚哎。可訓(xùn)練性嫂用,或者說訓(xùn)練穩(wěn)定性型凳,現(xiàn)在成為神經(jīng)網(wǎng)絡(luò)擴(kuò)展的主要挑戰(zhàn)。為了提高訓(xùn)練穩(wěn)定性嘱函,通常需要經(jīng)驗(yàn)啟發(fā)法和超參數(shù)調(diào)整(McCandlesh等人甘畅,2018年;Kaplan等人往弓,2020年)疏唾。因此,不同規(guī)模的訓(xùn)練模型通常需要不同的批量大小函似、學(xué)習(xí)速率計(jì)劃和其他學(xué)習(xí)超參數(shù)組合槐脏,從而導(dǎo)致更高的訓(xùn)練成本。在我們的實(shí)驗(yàn)中缴淋,我們發(fā)現(xiàn)准给,只要仔細(xì)實(shí)施數(shù)值穩(wěn)定性技巧,所有GLaM模型都具有令人驚訝的良好訓(xùn)練穩(wěn)定性重抖。我們將同一組學(xué)習(xí)超參數(shù)應(yīng)用于不同尺度的GLaM模型露氮,并觀察到下游任務(wù)質(zhì)量與先前密集模型相當(dāng)。

稀疏性和模型容量:

正如之前關(guān)于稀疏激活模型的研究(Fedus等人钟沛,2021年)中所觀察到的畔规,MoE模型在面向知識的任務(wù)中更為有效。開放域任務(wù)是度量模型中存儲的知識量的一種方法恨统。MoE模型在TriviaQA等開放領(lǐng)域QA基準(zhǔn)中的性能表明叁扫,與密集模型相比三妈,這些模型的信息容量顯著增加。另一方面莫绣,當(dāng)任務(wù)的上下文非常模糊時畴蒲,例如完形填空和完成任務(wù),MoE模型和密集模型之間的差異要小得多对室。這可能是因?yàn)楹茈y為任務(wù)選擇最佳的兩名專家模燥。

限制:

盡管在上下文學(xué)習(xí)和訓(xùn)練效率方面具有優(yōu)勢,但稀疏激活的模型包含更多的參數(shù)掩宜,因此需要更多的設(shè)備蔫骂。這限制了資源的可訪問性,并增加了服務(wù)成本牺汤,尤其是在服務(wù)流量較低的情況下辽旋。

在GLaM 1B MoE模型中,當(dāng)專家數(shù)量從64人增加到256人時檐迟,我們還觀察到NLG任務(wù)中更糟糕的驗(yàn)證困惑和上下文學(xué)習(xí)性能补胚。擴(kuò)展專家數(shù)量只會導(dǎo)致計(jì)算成本的次線性增加,而擴(kuò)展其他模型維度(如模型深度或?qū)挾龋?dǎo)致成本的線性增加锅减。使GLaM能夠在專家數(shù)量上進(jìn)一步擴(kuò)展是未來的重要工作糖儡。

表示和社會:

我們對Winogener的結(jié)果(第7.2節(jié))感到鼓舞,據(jù)我們所知怔匣,這是第一個縮小定型和反定型樣本之間性能差距的結(jié)果握联。這表明大型、稀疏激活的模型(如GLaM)可能較少依賴表面統(tǒng)計(jì)相關(guān)性每瞒,因此不太容易過度泛化金闽,從而產(chǎn)生更好的下游性能。

9.道德考慮

大型語言模型的發(fā)展提出了幾個倫理問題(Ledn&Prasuras剿骨,2017代芜;BeDER等人,2021浓利;BurMasaI等人挤庇,2021),包括表示偏置(Blodgett等人贷掖,2020)嫡秕,適當(dāng)處理(羅杰斯,2021)和文獻(xiàn)(BeDE&弗里德曼苹威,2018)的訓(xùn)練數(shù)據(jù)昆咽,隱私(Abadi等人,2016b;Carlini等人掷酗,2021年)和環(huán)境問題(Strubell等人调违,2019年;Patterson等人泻轰,2021年)技肩。我們強(qiáng)調(diào)與我們的工作特別相關(guān)的三個方面。

我們工作的一個發(fā)現(xiàn)是浮声,高質(zhì)量的預(yù)訓(xùn)練語料庫對于生成的模型的質(zhì)量至關(guān)重要亩鬼。為了實(shí)現(xiàn)本文報告的結(jié)果,我們遵循過濾web文本的標(biāo)準(zhǔn)方法來刪除低質(zhì)量內(nèi)容阿蝶。然而,由于訓(xùn)練前文本集合的規(guī)模黄绩,這種過濾是自動的羡洁;我們認(rèn)識到,在這一過程中爽丹,重要的是確定哪些數(shù)據(jù)點(diǎn)被模型刪除筑煮,因?yàn)榭赡軙^度過濾與邊緣化群體相關(guān)的文本,并強(qiáng)化不公平的偏見粤蝎。雖然這方面的原則性研究已經(jīng)超出了當(dāng)前工作的范圍真仲,但我們期待著未來的工作,探索過濾模型是否無意中了解到文本質(zhì)量和社會重要變量之間的任何虛假關(guān)聯(lián)初澎。

我們進(jìn)一步遵循文獻(xiàn)使用標(biāo)準(zhǔn)基準(zhǔn)來證明稀疏激活對語言建模的有效性秸应。然而,在考慮我們作為一個社區(qū)應(yīng)該在哪些任務(wù)上取得進(jìn)展碑宴,以及我們有責(zé)任不將我們的模式應(yīng)用于哪些任務(wù)時软啼,我們提倡一種更加深思熟慮的方法。有幾方已經(jīng)就這一主題提出了章程延柠,包括OpenAI祸挪、2谷歌、3 Facebook贞间、4和微軟贿条。5我們將我們的工作放在這一背景下,并將研究應(yīng)用我們的模型的任務(wù)的道德含義增热。

零和one-shot 推斷是具有許多參數(shù)的模型中出現(xiàn)的一種令人興奮的能力整以。能夠從很少的例子中直觀地訓(xùn)練模型降低了模型開發(fā)的障礙:它將不再是具有專業(yè)知識的專家的專屬領(lǐng)域。一方面钓葫,這是令人興奮的悄蕾,因?yàn)樗兄Z使該領(lǐng)域更容易進(jìn)入和開放,但我們確實(shí)看到了謹(jǐn)慎的理由,因?yàn)闉E用可能造成傷害帆调,無論是邪惡的還是幼稚的奠骄。為了降低誤用的風(fēng)險,我們提倡一種關(guān)于任務(wù)選擇番刊、負(fù)責(zé)任的部署實(shí)踐和穩(wěn)健評估的開放討論文化含鳞,以檢測模型中的任何無意行為。

10.結(jié)論

我們提出并開發(fā)了一系列稱為GLaM的通才語言模型芹务,該模型使用稀疏激活的專家混合架構(gòu)蝉绷,不僅比密集型模型獲得更好的平均分?jǐn)?shù),而且在zero-shot和one-shot的29個代表性NLP任務(wù)上也比GPT-3模型獲得更好的平均分?jǐn)?shù)枣抱。GLaM MoE模型比密集模型具有更好的訓(xùn)練和數(shù)據(jù)效率熔吗。特別是,GLaM(64B/64E)佳晶,我們最大的1.2萬億參數(shù)MoE語言模型桅狠,與訓(xùn)練GPT-3相比,僅以三分之一的能耗實(shí)現(xiàn)了更好的平均性能轿秧。我們希望我們的工作將鼓勵更多地研究獲取高質(zhì)量數(shù)據(jù)的方法中跌,并使用MoE更有效地擴(kuò)展語言模型。

11.致謝

作者要感謝Jeff Dean菇篡、Zoubin Ghahramani漩符、Macduff Hughes、Naveen Kumar和Fernando Pereira的支持和寶貴的投入驱还。我們要感謝谷歌研究和核心ML團(tuán)隊(duì)的洞察力討論嗜暴,整個TPU性能,XLA议蟆,和LIVO基礎(chǔ)設(shè)施團(tuán)隊(duì)灼伤,為這個項(xiàng)目作出基礎(chǔ)貢獻(xiàn)。特別要感謝諾姆·沙澤爾咪鲜、大衛(wèi)·帕特森狐赡、勞倫特·沙菲、喬納森·申疟丙、本·李颖侄、安莫爾·古拉蒂、大衛(wèi)·蘇享郊、阿坎克莎·喬杜里览祖、莎倫·納朗、托馬斯·斯特羅曼炊琉、丹尼爾·德·弗雷塔斯·阿迪瓦爾達(dá)納展蒂、埃利·柯林斯又活、羅馬爾·托皮蘭、埃里卡·莫雷拉锰悼、丹·赫特柳骄、杰瑞克·威爾基維茨和埃里克·尼,感謝他們提供了建設(shè)性的反饋和靈感箕般。我們要感謝Tom Small提供了本文中使用的一些數(shù)字耐薯。

A.數(shù)據(jù)污染

由于GLaM接受了超過1.6萬億個文本標(biāo)記的訓(xùn)練,因此有理由擔(dān)心一些測試數(shù)據(jù)可能準(zhǔn)確地出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)集中丝里,從而夸大了一些結(jié)果曲初。因此,我們遵循Brown et al.(2020)和Wei et al.(2021)的方法杯聚,量化訓(xùn)練前數(shù)據(jù)和評估數(shù)據(jù)集之間的重疊臼婆。

我們的分析采用了與Wei等人(2021年)相同的方法,而Wei等人(2021年)緊隨其后的是Brown等人(2020年)幌绍。對于每個評估數(shù)據(jù)集目锭,我們報告了與預(yù)訓(xùn)練數(shù)據(jù)重疊的樣本數(shù)量,將重疊定義為具有任何n-gram纷捞,該n-gram也出現(xiàn)在預(yù)訓(xùn)練數(shù)據(jù)中(在數(shù)據(jù)集之間變化n)。我們發(fā)現(xiàn)被去,在訓(xùn)練數(shù)據(jù)中逐字出現(xiàn)的驗(yàn)證樣本的數(shù)量與之前的工作大致相同主儡。我們在表12中報告了這些數(shù)字。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末惨缆,一起剝皮案震驚了整個濱河市糜值,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌坯墨,老刑警劉巖寂汇,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異捣染,居然都是意外死亡骄瓣,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門耍攘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榕栏,“玉大人,你說我怎么就攤上這事蕾各“谴牛” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵式曲,是天一觀的道長妨托。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么兰伤? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任内颗,我火速辦了婚禮,結(jié)果婚禮上医清,老公的妹妹穿的比我還像新娘起暮。我一直安慰自己,他們只是感情好会烙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布负懦。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪帜羊。 梳的紋絲不亂的頭發(fā)上莽囤,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音颗品,去河邊找鬼。 笑死沃缘,一個胖子當(dāng)著我的面吹牛躯枢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播槐臀,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼锄蹂,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了水慨?” 一聲冷哼從身側(cè)響起得糜,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎晰洒,沒想到半個月后朝抖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡谍珊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年治宣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片砌滞。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡炼七,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出布持,到底是詐尸還是另有隱情豌拙,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布题暖,位于F島的核電站按傅,受9級特大地震影響捉超,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唯绍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一拼岳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧况芒,春花似錦惜纸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至压汪,卻和暖如春粪牲,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背止剖。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工腺阳, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人穿香。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓亭引,卻偏偏與公主長得像,于是被迫代替她去往敵國和親皮获。 傳聞我的和親對象是個殘疾皇子焙蚓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容