Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?
Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler
https://arxiv.org/abs/2207.10551
人們對Transformer模型的縮放特性非常感興趣拍屑。然而,在研究不同歸納偏置和模型架構(gòu)的縮放特性的影響方面坑傅,還沒有做太多的工作。模型架構(gòu)的縮放是否不同喷斋?如果是這樣的話唁毒,歸納偏置是如何影響縮放行為的?這對上游(預(yù)訓(xùn)練)和下游(遷移)有何影響星爪?本文對Transformer浆西、SwitchTransformer、UniversalTransformer顽腾、動態(tài)卷積近零、Performers和最近提出的MLP-Mixers等十種不同模型架構(gòu)的縮放行為進(jìn)行了系統(tǒng)研究。通過大量的實驗抄肖,我們表明:(1)在執(zhí)行縮放時久信,架構(gòu)確實是一個重要的考慮因素;(2)性能最好的模型可以在不同的尺度上波動漓摩。我們相信裙士,這項工作中概述的發(fā)現(xiàn)對當(dāng)前社區(qū)中如何評估模型架構(gòu)具有重要意義。
1簡介
最近管毙,人們對Transformer模型的縮放特性產(chǎn)生了很大的興趣(Kaplan等人腿椎,2020;Hernandez等人夭咬,2021啃炸;Bahri等人,2021年卓舵;Henighan等人南用,2020年;Tay等人,2021b训枢;Abnar等人托修,2021)。然而恒界,對于模型架構(gòu)所施加的不同歸納偏置的縮放特性睦刃,人們了解的并不多。通常假設(shè)特定縮放(計算十酣、縮放等)的改進(jìn)會遷移到不同的縮放和計算區(qū)域(So et al.涩拙,2019;Choromanski等人耸采,2020兴泥;Lan等人,2019虾宇;Dehghani等人搓彻,2018),并且新的研究通常以與縮放相關(guān)的逐點方式呈現(xiàn)嘱朽。簡言之旭贬,在非常特定或有限的計算區(qū)域(例如,基本大刑掠尽)提供數(shù)據(jù)點的新方法并不罕見稀轨。我們認(rèn)為,理解架構(gòu)和縮放定律之間的相互作用至關(guān)重要岸军,因為設(shè)計在不同縮放下表現(xiàn)良好的模型可能會產(chǎn)生重大影響奋刽。
本文試圖理解歸納偏置(架構(gòu))對語言模型的縮放律的影響。為此艰赞,我們在多個計算區(qū)域和縮放(例如佣谐,從1500萬到400億個參數(shù))上對十種不同的模型架構(gòu)進(jìn)行了預(yù)訓(xùn)練和微調(diào)〔粒總的來說台谍,我們對100多個不同架構(gòu)和大小的不同模型進(jìn)行了預(yù)訓(xùn)練和微調(diào),并在擴(kuò)展這十個不同架構(gòu)方面提出了見解和挑戰(zhàn)吁断。
我們在廣泛的實驗中考慮了廣泛的模型趁蕊。具體而言,我們考慮了幾種成熟的Transformer變體(Vaswani et al.仔役,2017)掷伙,如EvolvedTransformer(So et al.,2019)又兵、UniversalTransformer(Dehghani et al.任柜,2018)和SwitchTransformer(Fedus et al.卒废,2021)。我們還考慮了輕型模型宙地,如ALBERT(Lan et al.摔认,2019)和/或高效Transformer(Tay et al.,2020)宅粥,如Performer(Choromanski等人参袱,2020)和 FunnelTransformer(Dai等人,2020年)秽梅。在我們的比較中抹蚀,我們還感興趣的是了解對Transformer架構(gòu)的一般改進(jìn),如Softmax的混合(Yang et al.企垦,2017)和/或門控線性單元(Dauphin等人环壤,2017;Shazeer钞诡,2020)是否會影響模型的縮放行為郑现。最后,我們還評估了Transformer家族之外的模型荧降,包括輕量級卷積(Wu et al.懂酱,2019)、動態(tài)卷積(吳et al.誊抛,2017)和最近提出的MLPMixers(Tolstikhin et al.宾袜,2021)叫胖。圖1展示了我們運(yùn)行的實驗的概述。
我們還注意到锌畸,縮放這些模型并不像看上去那么簡單泌辫,即随夸,縮放的復(fù)雜細(xì)節(jié)與我們在本文中詳細(xì)研究的架構(gòu)選擇交織在一起。例如震放,UniversalTransformer(和ALBERT)的一個顯著特點是參數(shù)共享宾毒。
因此,與標(biāo)準(zhǔn)Transformer相比殿遂,這種架構(gòu)選擇不僅在性能方面诈铛,而且在FLOP、速度和參數(shù)數(shù)量等計算指標(biāo)之間墨礁,都顯著扭曲了縮放行為(Dehghani等人幢竹,2021a)。相反恩静,SwitchTransformer等模型處于頻譜的另一端焕毫,F(xiàn)LOP和參數(shù)數(shù)量之間存在不常見的關(guān)系蹲坷,即它們具有高的參數(shù)與FLOP比率。這一困難使得駕馭這片土地具有挑戰(zhàn)性邑飒。
我們的貢獻(xiàn)和見解本文的主要貢獻(xiàn)如下:
我們首次推導(dǎo)了不同歸納偏置和模型結(jié)構(gòu)的縮放律循签。我們發(fā)現(xiàn),不同模型的縮放系數(shù)差異很大疙咸。我們認(rèn)為這是模型開發(fā)中的一個重要考慮因素县匠。事實證明,在我們考慮的所有十種架構(gòu)中罕扎,vanilla Transformer具有最好的縮放性能聚唐,即使它在每個計算區(qū)域的絕對性能不是最好的。
?我們觀察到腔召,在一個計算縮放區(qū)域中運(yùn)行良好的模型在另一個計算區(qū)域中不一定是最好的杆查。此外,我們發(fā)現(xiàn)臀蛛,盡管某些模型在較低的計算區(qū)域表現(xiàn)良好(相當(dāng))亲桦,但仍難以縮放。這是有意義的浊仆,因為在某個計算區(qū)域進(jìn)行逐點比較很難全面了解模型的可縮放性。
?我們發(fā)現(xiàn)抡柿,當(dāng)涉及到縮放不同的模型架構(gòu)時舔琅,上游預(yù)訓(xùn)練的困惑可能與下游遷移沒有很好的相關(guān)性备蚓。因此郊尝,底層架構(gòu)和歸納偏置對下游遷移也至關(guān)重要。
?我們強(qiáng)調(diào)了用某些架構(gòu)進(jìn)行擴(kuò)展的困難况凉,并表明一些模型不進(jìn)行擴(kuò)展(或以負(fù)趨勢進(jìn)行擴(kuò)展)撤逢。我們還發(fā)現(xiàn)了一些令人擔(dān)憂的趨勢粮坞,其中線性時間注意力模型(如Performer)難以擴(kuò)展。
2相關(guān)工作
Kaplan等人(2020)研究了純解碼器Transformers語言模型的經(jīng)驗縮放定律初狰。他們專注于以交叉熵?fù)p失作為性能度量的標(biāo)準(zhǔn)左右語言建模目標(biāo)莫杈。主要發(fā)現(xiàn)之一是,損失是一個冪律奢入,具有模型訓(xùn)練的三個主要特征:模型大小筝闹、數(shù)據(jù)集大小和訓(xùn)練計算。另一個有點令人驚訝的發(fā)現(xiàn)是腥光,Transformer網(wǎng)絡(luò)的寬度或深度等模型形狀對大范圍尺度的交叉熵?fù)p失的影響最小关顷。隨后的工作(Henighan等人,2020武福;Hernandez等人议双,2021)分別對自回歸生成建模和遷移學(xué)習(xí)得出了類似的結(jié)論。這一發(fā)現(xiàn)也得到了(Tay et al.捉片,2021b)的普遍支持平痰,但在預(yù)訓(xùn)練和微調(diào)之間的差距上發(fā)現(xiàn)了差異,這突出表明觀察大型語言模型的下游性能確實很重要伍纫。在(Tay等人宗雇,2021b)中,深度對下游性能的影響異常明顯莹规。
Raffel等人(2019)研究了預(yù)訓(xùn)練目標(biāo)赔蒲、模型結(jié)構(gòu)(例如,僅限編碼器良漱、解碼器)嘹履、預(yù)訓(xùn)練數(shù)據(jù)集大小和訓(xùn)練策略對遷移學(xué)習(xí)的影響。他們表明债热,下游性能隨著模型縮放(從60M參數(shù)到11B參數(shù))單調(diào)增加。雖然他們研究了幾個模型結(jié)構(gòu)幼苛,但Transformer的實現(xiàn)與Vaswani等人的原始Transformer基本相同窒篱。(2017)。Conneau等人(2020)舶沿;Goyal等人(2021)在保持原始Transformer實現(xiàn)的同時墙杯,將多語言編碼器架構(gòu)擴(kuò)展到11B參數(shù)。他們發(fā)現(xiàn)括荡,縮放模型可以提高其跨語言能力高镐。Fedus等人(2021)基于專家混合模型對稀疏模型進(jìn)行了縮放,參數(shù)高達(dá)萬億畸冲。
雖然之前的研究一再表明嫉髓,縮放對密集和稀疏Transformers的語言理解任務(wù)以及跨語言能力都有好處观腊,但所有這些都在每項研究中使用了相同的Transformers實現(xiàn)。隨著文獻(xiàn)中提出的大量改進(jìn)的Transformer架構(gòu)算行,研究這些改進(jìn)的架構(gòu)中哪一個具有最佳的縮放特性是及時的梧油。本文的主要目標(biāo)是系統(tǒng)地研究這些Transformer變體施加的歸納偏置如何影響共享軟件和硬件設(shè)置中的縮放行為。這與研究架構(gòu)對性能影響的(Narang et al.州邢,2021)精神相似儡陨。我們的分析將(Narang et al.,2021)的分析擴(kuò)展到模型尺度軸量淌。
3方法
本節(jié)概述了我們的實驗設(shè)置骗村。
3.1型號
本節(jié)介紹我們在實驗中評估的模型。我們的模型在很大程度上是按照T5的慣例(Raffel等人呀枢,2019)在序列到序列的框架中實現(xiàn)的(Sutskever等人胚股,2014)。編碼器-解碼器模型是這種實驗的自然選擇硫狞,因為它們可以Universal地表達(dá)編碼和解碼任務(wù)信轿。
Transformer變體
我們考慮幾種標(biāo)準(zhǔn)Transformer變體。
?Transformer(Vaswani等人残吩,2017)-基本的vanilla Transformer架構(gòu)财忽。我們的基本設(shè)置考慮了T5風(fēng)格的Transformer(Raffel et al.,2019)泣侮,它在很大程度上遵循了vanilla Transformer即彪,只是它使用了相對關(guān)注,而不是正弦位置嵌入和層前歸一化活尊,即在每個子層之前應(yīng)用層歸一化隶校。
?EvolvedTransformer(So等人,2019)-通過AutoML學(xué)習(xí)的Transformer架構(gòu)蛹锰。該架構(gòu)包括卷積和注意力深胳。我們按照與vanilla Transformers相同的模式來縮放EvolvedTransformers。
?UniversalTransformer(UT)(Dehghani等人铜犬,2018)-一種Transformer架構(gòu)舞终,具有共享參數(shù)和類似循環(huán)計算的變換層。由于參數(shù)共享癣猾,縮放UT具有挑戰(zhàn)性敛劝。雖然我們也可以增加dF或dmodel,但參數(shù)的增加幅度比標(biāo)準(zhǔn)Transformer大N層纷宇。探索的另一個軸是縮放每個UT層的重復(fù)計算次數(shù)——這增加了計算(FLOP的數(shù)量)夸盟,但不會增加模型的參數(shù)大小。
?SwitchTransformer(Fedus等人像捶,2021)-一種稀疏激活的專家架構(gòu)混合體上陕。稀疏Transformers是另一個在參數(shù)數(shù)量和計算之間存在異常關(guān)系的模型桩砰。當(dāng)我們均勻地縮放這個模型時,參數(shù)的數(shù)量很容易達(dá)到40B左右唆垃。
高效Transformers變體這類模型主要關(guān)注降低計算成本五芝、內(nèi)存使用或模型的參數(shù)計數(shù)。
?Performers(Choromanski等人辕万,2020)-使用可推廣內(nèi)核注意力的線性時間注意力模型枢步。為了簡單起見,我們在實驗中采用了relu內(nèi)核變體渐尿。我們以類似于vanilla Transformers的方式縮放Performer(即均勻縮放)醉途。
? FunnelTransformer(FT)(Dai et al.,2020)一種Transformer架構(gòu)砖茸,可對整個層堆棧的輸入序列進(jìn)行下采樣隘擎。我們的實現(xiàn)僅在編碼器中使用FT,并在Narang等人(2021)之后在解碼器中恢復(fù)為vanilla Transformer凉夯。
?ALBERT(Lan et al.货葬,2019)-一種輕量級Transformer架構(gòu),可在所有層共享參數(shù)劲够,并將嵌入和輸出softmax層分解震桶。對于我們的seq2seq ALBERT,我們還共享編碼器和解碼器的權(quán)重征绎。
一般改進(jìn)
我們考慮的一般改進(jìn)不一定與Transformers有關(guān)蹲姐。我們選擇了在Narang等人(2021)中表現(xiàn)良好的候選人。
?Softmax的混合物(Yang et al.人柿,2017)-在Softmax層采用MoS方法的Transformer架構(gòu)柴墩。
?帶GeLU的門控線性單元(GLUTransformer)-用門控線性單元取代Transformer中的位置前饋網(wǎng)絡(luò)(Dauphin等人,2017)凫岖。
非Transformers架構(gòu)我們對基于非Transformers的架構(gòu)(如卷積和/或混頻器架構(gòu))的縮放行為感興趣江咳。
?輕量級卷積(Wu et al.,2019)-輕量級深度卷積在Transformer架構(gòu)上顯示出了前景哥放。
?動態(tài)卷積(Wu et al.歼指,2019)-輕量級卷積的擴(kuò)展,用于創(chuàng)建與時間相關(guān)的內(nèi)核婶芭。
?MLP-Mixers(Tolstikhin等人,2021)-混合器是最近提出的學(xué)習(xí)代幣輕量級混合的架構(gòu)着饥。由于混合器尚未用于自回歸解碼犀农,因此我們僅在輸入編碼器上使用令牌混合器。
3.2實驗設(shè)置
我們的設(shè)置以及所有模型都是在Mesh TensorFlow(Shazeer et al.宰掉,2018)中實現(xiàn)的呵哨,這是一個與TensorFlow接口相似的庫赁濒,但可以在多個工作線程之間實現(xiàn)分布式模型并行。為了公平比較孟害,所有模型都在英語C4語料庫上進(jìn)行了219步的預(yù)訓(xùn)練拒炎,該語料庫使用Adafactor的平方根學(xué)習(xí)率進(jìn)行了優(yōu)化(Shazeer和Stern,2018)挨务。所有模型都使用相同的句子片段標(biāo)記器(Kudo和Richardson击你,2018),包含32K個子詞谎柄。這與T5論文中的設(shè)置密切相關(guān)(Raffel等人丁侄,2019)。在GLUE(Wang等人朝巫,2018)鸿摇、SuperGLUE(王等人,2019)和SQuAD(Rajpurkar等人劈猿,2016)的混合物上進(jìn)行100K步的微調(diào)拙吉。我們評估了微調(diào)后NLU任務(wù)(GLUE+SuperGLUE+SQuAD)的上游(預(yù)訓(xùn)練)驗證困惑和下游遷移。我們使用16個具有數(shù)據(jù)并行性的TPU-v3芯片對模型進(jìn)行預(yù)訓(xùn)練和微調(diào)揪荣。所有大型模型的模型并行度為2筷黔,XL模型的模型平行度為8。
型號尺寸
我們?yōu)槊總€架構(gòu)考慮幾種不同的模型大小变逃。對于易于縮放的模型必逆,我們只需遵循Raffel等人的標(biāo)準(zhǔn)慣例。(2019)揽乱,從小型到基礎(chǔ)名眉,再到大型和XL。我們包括每個模型的一個小版本凰棉,以觀察不同模型在較低計算區(qū)域的行為损拢。對于無法直接縮放的型號(例如,UniversalTransformer撒犀、ALBERT)福压,我們試圖以類似的方式縮放它們,但面臨明顯的限制或舞,例如使ALBERT具有與T5 XL相同數(shù)量的參數(shù)荆姆,而不會在FLOP方面產(chǎn)生大量成本。對于卷積模型映凳,我們認(rèn)為dmodel是一維卷積層的隱藏大械ㄍ病(即通道深度)。然后,諸如dkv仆救、NH之類的值將變得多余抒和。每個架構(gòu)的縮放細(xì)節(jié)1的詳細(xì)信息可以在補(bǔ)充材料中找到。
3.3主要結(jié)果
我們在表1中報告了本文的主要結(jié)果彤蔽。我們報告了可訓(xùn)練參數(shù)的數(shù)量摧莽,F(xiàn)LOP(單次向前傳播)和速度(每秒步數(shù))。我們還報告了驗證困惑(上游預(yù)訓(xùn)練)和17項下游任務(wù)的結(jié)果顿痪。結(jié)果報告了GLUE镊辕、SuperGLUE和SQuAD的聚集物。雖然我們使用了Raffel等人使用的相同的基于Mesh TensorFlow的代碼庫员魏。(2019)丑蛤,因此希望我們的實驗結(jié)果與他們的結(jié)果相匹配,但我們驗證了我們的T5庫確實實現(xiàn)了與Raffel et al.(2019)中報道的結(jié)果相似的結(jié)果撕阎。
3.4所有型號的縮放是否相同受裹?
本節(jié)研究是否所有模型架構(gòu)都以相同的方式擴(kuò)展。
上游困惑
圖2報告了隨著FLOP數(shù)量的增加虏束,所有模型的縮放行為棉饶。我們觀察到,所有模型的縮放行為都非常獨特镇匀,即大多數(shù)模型與標(biāo)準(zhǔn)Transformer截然不同照藻。也許這里最大的發(fā)現(xiàn)是,大多數(shù)模型(例如汗侵,LConv幸缕、Evolved)似乎都與標(biāo)準(zhǔn)Transformers不相上下或更好,但無法以更高的計算預(yù)算進(jìn)行擴(kuò)展晰韵。另一個有趣的趨勢是发乔,“線性”Transformers(如Performer)無法按縮放縮放,如圖2i所示雪猪。從基本到大縮放栏尚,訓(xùn)練前的困惑度指標(biāo)僅下降2.7%,而普通Transformers的困惑度為8.4%只恨。
下游遷移
圖3顯示了所有模型在下游遷移時的縮放曲線译仗。與Transformers相比,大多數(shù)模型都有不同的縮放曲線官觅,這一總體發(fā)現(xiàn)在下游任務(wù)中也很明顯纵菌。同樣值得注意的是,大多數(shù)模型都有不同的上游和下游縮放曲線休涤。我們發(fā)現(xiàn)咱圆,一些模型,如 FunnelTransformer和LConvs,在上游似乎表現(xiàn)得很好闷堡,但在下游卻受到了很大的影響。至于Performer疑故,與上游相比杠览,下游的性能(差異)似乎更大。值得注意的是纵势,SuperGLUE下游任務(wù)通常需要編碼器上的偽交叉關(guān)注踱阿,而卷積等模型不具備處理能力(Tay等人,2021a)钦铁。為此软舌,我們發(fā)現(xiàn),盡管上游性能良好牛曹,但某些模型可能難以學(xué)習(xí)下游任務(wù)佛点。
3.5每個縮放的最佳模型是否不同?
圖1顯示了根據(jù)上游和下游性能繪制計算時的Pareto邊界黎比。由于繪圖的顏色代表不同的模型超营,我們可以觀察到,每個縮放和計算區(qū)域的最佳模型可能不同阅虫。此外演闭,從圖3中,我們還可以觀察到這一點颓帝。例如米碰,Evolved Transformer在從小到小的區(qū)域(下游)與標(biāo)準(zhǔn)Transformer相比似乎做得很好,但當(dāng)放大模型時购城,這種情況會很快發(fā)生變化吕座。我們在MoS Transformer中也觀察到了這一點,它在某些地區(qū)明顯優(yōu)于vanilla Transformer工猜,但在其他地區(qū)則不然米诉。
3.6每個模型的縮放定律
表2顯示了多個場景中每個模型的擬合線性線α的斜率。我們通過繪制F(FLOPs)篷帅、U(上游困惑)史侣、D(下游精度)、P(參數(shù)數(shù)量)來導(dǎo)出α魏身。通常惊橱,α的大多數(shù)值都描述了模型的縮放程度。例如箭昵,αF税朴,U繪制了FLOP與上游性能的關(guān)系圖。唯一的例外是αU,D正林,它是衡量上游與下游性能的指標(biāo)泡一。高的αU,D值意味著隨著模型的擴(kuò)展觅廓,向下游任務(wù)的遷移更好鼻忠。總體而言杈绸,α值是一個指標(biāo)帖蔓,表示模型在所有尺度上的相對表現(xiàn)
每個模型的坡度分析
通常,我們發(fā)現(xiàn)vanilla Transformer具有最高的α值瞳脓。Evolved Transformer塑娇、GLU Transformer、MoS Transformer和Funnel Transformer等模型往往具有與普通Transformer類似的縮放特性劫侧。GLU Transformer具有與vanilla Transformer相似但稍差的縮放特性埋酬,即使在某些計算機(jī)區(qū)域上觀察到它在絕對意義上做得更好。另一方面烧栋,我們還觀察到奇瘦,存在難以縮放的模型,如LConv劲弦、UT耳标、MLP Mixer和Performer。這在下游任務(wù)中更為明顯邑跪。我們還注意到次坡,隨著模型的擴(kuò)大,ALBERT的縮放(趨勢)為負(fù)2(變得更糟)画畅。另一方面砸琅,度量αU,D衡量下游性能如何與上游性能成縮放轴踱≈⒅總的來說,SwitchTransformer在這一指標(biāo)上做得最好淫僻,下游性能與上游性能的縮放很好诱篷。通常,對主Transformer架構(gòu)(GLUTransformer雳灵、MoSTransformer)進(jìn)行較少更改的模型往往會保持類似的縮放行為棕所,而更改歸納偏置也會顯著改變模型的縮放特性。
3.7縮放協(xié)議對模型架構(gòu)的影響是否相同悯辙?
我們感興趣的是不同的縮放協(xié)議如何影響模型架構(gòu)琳省。圖4顯示了四種模型架構(gòu)(MoS-Transformer迎吵、Transformer、Evolved Transformer和LConv)的縮放深度的影響针贬。圖5顯示了縮放寬度對相同四種架構(gòu)的影響击费。首先,在上游(負(fù)對數(shù)困惑)曲線上桦他,我們注意到荡灾,雖然不同的架構(gòu)在絕對排列上有明顯的差異,但縮放趨勢仍然非常相似瞬铸。在下游,深度縮放(圖4)似乎對除LConv之外的大多數(shù)架構(gòu)都起到了同樣的作用础锐。同時嗓节,對于寬度縮放,Evolved Transformers在應(yīng)用寬度縮放時的縮放效果似乎稍好皆警。值得注意的是拦宣,與寬度縮放相比,深度縮放對下游縮放的影響要大得多信姓。
3.8結(jié)語和結(jié)論
在本文中鸵隧,我們對多達(dá)100個模型進(jìn)行了廣泛的實驗、預(yù)訓(xùn)練和微調(diào)意推,這些模型包括10個成熟的Transformer和非Transformer架構(gòu)豆瘫。我們表明,不同的模型架構(gòu)可能具有不同的縮放行為菊值,并且在一個計算區(qū)域(或模型大型馇)中表現(xiàn)良好的模型在另一計算區(qū)域中可能表現(xiàn)不同。
我們還表明腻窒,模型架構(gòu)可以很好地解決上游的困惑昵宇,但不能遷移到下游的任務(wù)。因此儿子,從業(yè)者應(yīng)該謹(jǐn)慎開發(fā)不僅能很好地解決上游難題瓦哎,而且能基于下游性能的架構(gòu)。雖然我們當(dāng)然不希望研究人員總是報告所有縮放(尤其是大縮放)的模型性能柔逼,但我們相信蒋譬,最好記住,架構(gòu)在不同的計算區(qū)域可以表現(xiàn)得截然不同愉适。因此羡铲,在設(shè)計新的歸納偏置時,這可能是一個很好的考慮因素儡毕。因此也切,在某個計算區(qū)域執(zhí)行評估可能不足以捕捉全貌扑媚。考慮不同的歸納偏置是否會導(dǎo)致應(yīng)急能力的不同擴(kuò)展也是很好的(Wei等人雷恃,2022疆股;Abnar等人,2020)倒槐。
我們還表明旬痹,不同的模型架構(gòu)可能對不同的縮放協(xié)議做出不同的反應(yīng),這進(jìn)一步擴(kuò)展了比較和基準(zhǔn)測試這些模型可能非常具有挑戰(zhàn)性的說法(Dehghani等人讨越,2021b)两残。當(dāng)涉及到縮放大型模型時,本文表明把跨,新的歸納偏置確實有很大的風(fēng)險人弓,這可能解釋了為什么大多數(shù)最先進(jìn)的大型語言模型(Rae et al.,2021着逐;Chowdhery et al.崔赌,2022;Tay等人耸别,2022)都是基于相對普通的架構(gòu)健芭。我們的建議是,在Transformer架構(gòu)上投入昂貴的運(yùn)行時要謹(jǐn)慎秀姐,因為它會極大地改變注意力機(jī)制(例如慈迈,從我們的實驗結(jié)果中可以看出,混音器和Performers通常是高風(fēng)險的選項)省有。最后吩翻,我們承認(rèn),并不是每個從業(yè)者或研究人員都需要能夠擴(kuò)展到數(shù)十億個參數(shù)的模型锥咸。在這種情況下狭瞎,為小計算量或低計算量量身定制的歸納偏置就足夠了。