縮放律與模型架構(gòu)：歸納偏置如何影響縮放赞厕？

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler

https://arxiv.org/abs/2207.10551

人們對Transformer模型的縮放特性非常感興趣拍屑。然而，在研究不同歸納偏置和模型架構(gòu)的縮放特性的影響方面坑傅，還沒有做太多的工作。模型架構(gòu)的縮放是否不同喷斋？如果是這樣的話唁毒，歸納偏置是如何影響縮放行為的？這對上游（預(yù)訓(xùn)練）和下游（遷移）有何影響星爪？本文對Transformer浆西、SwitchTransformer、UniversalTransformer顽腾、動態(tài)卷積近零、Performers和最近提出的MLP-Mixers等十種不同模型架構(gòu)的縮放行為進(jìn)行了系統(tǒng)研究。通過大量的實驗抄肖，我們表明：（1）在執(zhí)行縮放時久信，架構(gòu)確實是一個重要的考慮因素；（2）性能最好的模型可以在不同的尺度上波動漓摩。我們相信裙士，這項工作中概述的發(fā)現(xiàn)對當(dāng)前社區(qū)中如何評估模型架構(gòu)具有重要意義。

1簡介

最近管毙，人們對Transformer模型的縮放特性產(chǎn)生了很大的興趣（Kaplan等人腿椎，2020；Hernandez等人夭咬，2021啃炸；Bahri等人，2021年卓舵；Henighan等人南用，2020年；Tay等人，2021b训枢；Abnar等人托修，2021）。然而恒界，對于模型架構(gòu)所施加的不同歸納偏置的縮放特性睦刃，人們了解的并不多。通常假設(shè)特定縮放（計算十酣、縮放等）的改進(jìn)會遷移到不同的縮放和計算區(qū)域（So et al.涩拙，2019；Choromanski等人耸采，2020兴泥；Lan等人，2019虾宇；Dehghani等人搓彻，2018），并且新的研究通常以與縮放相關(guān)的逐點方式呈現(xiàn)嘱朽。簡言之旭贬，在非常特定或有限的計算區(qū)域（例如，基本大刑掠尽）提供數(shù)據(jù)點的新方法并不罕見稀轨。我們認(rèn)為，理解架構(gòu)和縮放定律之間的相互作用至關(guān)重要岸军，因為設(shè)計在不同縮放下表現(xiàn)良好的模型可能會產(chǎn)生重大影響奋刽。

本文試圖理解歸納偏置（架構(gòu)）對語言模型的縮放律的影響。為此艰赞，我們在多個計算區(qū)域和縮放（例如佣谐，從1500萬到400億個參數(shù)）上對十種不同的模型架構(gòu)進(jìn)行了預(yù)訓(xùn)練和微調(diào)〔粒總的來說台谍，我們對100多個不同架構(gòu)和大小的不同模型進(jìn)行了預(yù)訓(xùn)練和微調(diào)，并在擴(kuò)展這十個不同架構(gòu)方面提出了見解和挑戰(zhàn)吁断。

我們在廣泛的實驗中考慮了廣泛的模型趁蕊。具體而言，我們考慮了幾種成熟的Transformer變體（Vaswani et al.仔役，2017）掷伙，如EvolvedTransformer（So et al.，2019）又兵、UniversalTransformer（Dehghani et al.任柜，2018）和SwitchTransformer（Fedus et al.卒废，2021）。我們還考慮了輕型模型宙地，如ALBERT（Lan et al.摔认，2019）和/或高效Transformer（Tay et al.，2020）宅粥，如Performer（Choromanski等人参袱，2020）和 FunnelTransformer（Dai等人，2020年）秽梅。在我們的比較中抹蚀，我們還感興趣的是了解對Transformer架構(gòu)的一般改進(jìn)，如Softmax的混合（Yang et al.企垦，2017）和/或門控線性單元（Dauphin等人环壤，2017；Shazeer钞诡，2020）是否會影響模型的縮放行為郑现。最后，我們還評估了Transformer家族之外的模型荧降，包括輕量級卷積（Wu et al.懂酱，2019）、動態(tài)卷積（吳et al.誊抛，2017）和最近提出的MLPMixers（Tolstikhin et al.宾袜，2021）叫胖。圖1展示了我們運(yùn)行的實驗的概述。

我們還注意到锌畸，縮放這些模型并不像看上去那么簡單泌辫，即随夸，縮放的復(fù)雜細(xì)節(jié)與我們在本文中詳細(xì)研究的架構(gòu)選擇交織在一起。例如震放，UniversalTransformer（和ALBERT）的一個顯著特點是參數(shù)共享宾毒。

因此，與標(biāo)準(zhǔn)Transformer相比殿遂，這種架構(gòu)選擇不僅在性能方面诈铛，而且在FLOP、速度和參數(shù)數(shù)量等計算指標(biāo)之間墨礁，都顯著扭曲了縮放行為（Dehghani等人幢竹，2021a）。相反恩静，SwitchTransformer等模型處于頻譜的另一端焕毫，F(xiàn)LOP和參數(shù)數(shù)量之間存在不常見的關(guān)系蹲坷，即它們具有高的參數(shù)與FLOP比率。這一困難使得駕馭這片土地具有挑戰(zhàn)性邑飒。

我們的貢獻(xiàn)和見解本文的主要貢獻(xiàn)如下：

我們首次推導(dǎo)了不同歸納偏置和模型結(jié)構(gòu)的縮放律循签。我們發(fā)現(xiàn)，不同模型的縮放系數(shù)差異很大疙咸。我們認(rèn)為這是模型開發(fā)中的一個重要考慮因素县匠。事實證明，在我們考慮的所有十種架構(gòu)中罕扎，vanilla Transformer具有最好的縮放性能聚唐，即使它在每個計算區(qū)域的絕對性能不是最好的。

?我們觀察到腔召，在一個計算縮放區(qū)域中運(yùn)行良好的模型在另一個計算區(qū)域中不一定是最好的杆查。此外，我們發(fā)現(xiàn)臀蛛，盡管某些模型在較低的計算區(qū)域表現(xiàn)良好（相當(dāng)）亲桦，但仍難以縮放。這是有意義的浊仆，因為在某個計算區(qū)域進(jìn)行逐點比較很難全面了解模型的可縮放性。

?我們發(fā)現(xiàn)抡柿，當(dāng)涉及到縮放不同的模型架構(gòu)時舔琅，上游預(yù)訓(xùn)練的困惑可能與下游遷移沒有很好的相關(guān)性备蚓。因此郊尝，底層架構(gòu)和歸納偏置對下游遷移也至關(guān)重要。

?我們強(qiáng)調(diào)了用某些架構(gòu)進(jìn)行擴(kuò)展的困難况凉，并表明一些模型不進(jìn)行擴(kuò)展（或以負(fù)趨勢進(jìn)行擴(kuò)展）撤逢。我們還發(fā)現(xiàn)了一些令人擔(dān)憂的趨勢粮坞，其中線性時間注意力模型（如Performer）難以擴(kuò)展。

2相關(guān)工作

Kaplan等人（2020）研究了純解碼器Transformers語言模型的經(jīng)驗縮放定律初狰。他們專注于以交叉熵?fù)p失作為性能度量的標(biāo)準(zhǔn)左右語言建模目標(biāo)莫杈。主要發(fā)現(xiàn)之一是，損失是一個冪律奢入，具有模型訓(xùn)練的三個主要特征：模型大小筝闹、數(shù)據(jù)集大小和訓(xùn)練計算。另一個有點令人驚訝的發(fā)現(xiàn)是腥光，Transformer網(wǎng)絡(luò)的寬度或深度等模型形狀對大范圍尺度的交叉熵?fù)p失的影響最小关顷。隨后的工作（Henighan等人，2020武福；Hernandez等人议双，2021）分別對自回歸生成建模和遷移學(xué)習(xí)得出了類似的結(jié)論。這一發(fā)現(xiàn)也得到了（Tay et al.捉片，2021b）的普遍支持平痰，但在預(yù)訓(xùn)練和微調(diào)之間的差距上發(fā)現(xiàn)了差異，這突出表明觀察大型語言模型的下游性能確實很重要伍纫。在（Tay等人宗雇，2021b）中，深度對下游性能的影響異常明顯莹规。

Raffel等人（2019）研究了預(yù)訓(xùn)練目標(biāo)赔蒲、模型結(jié)構(gòu)（例如，僅限編碼器良漱、解碼器）嘹履、預(yù)訓(xùn)練數(shù)據(jù)集大小和訓(xùn)練策略對遷移學(xué)習(xí)的影響。他們表明债热，下游性能隨著模型縮放（從60M參數(shù)到11B參數(shù)）單調(diào)增加。雖然他們研究了幾個模型結(jié)構(gòu)幼苛，但Transformer的實現(xiàn)與Vaswani等人的原始Transformer基本相同窒篱。（2017）。Conneau等人（2020）舶沿；Goyal等人（2021）在保持原始Transformer實現(xiàn)的同時墙杯，將多語言編碼器架構(gòu)擴(kuò)展到11B參數(shù)。他們發(fā)現(xiàn)括荡，縮放模型可以提高其跨語言能力高镐。Fedus等人（2021）基于專家混合模型對稀疏模型進(jìn)行了縮放，參數(shù)高達(dá)萬億畸冲。

雖然之前的研究一再表明嫉髓，縮放對密集和稀疏Transformers的語言理解任務(wù)以及跨語言能力都有好處观腊，但所有這些都在每項研究中使用了相同的Transformers實現(xiàn)。隨著文獻(xiàn)中提出的大量改進(jìn)的Transformer架構(gòu)算行，研究這些改進(jìn)的架構(gòu)中哪一個具有最佳的縮放特性是及時的梧油。本文的主要目標(biāo)是系統(tǒng)地研究這些Transformer變體施加的歸納偏置如何影響共享軟件和硬件設(shè)置中的縮放行為。這與研究架構(gòu)對性能影響的（Narang et al.州邢，2021）精神相似儡陨。我們的分析將（Narang et al.，2021）的分析擴(kuò)展到模型尺度軸量淌。

3方法

本節(jié)概述了我們的實驗設(shè)置骗村。

3.1型號

本節(jié)介紹我們在實驗中評估的模型。我們的模型在很大程度上是按照T5的慣例（Raffel等人呀枢，2019）在序列到序列的框架中實現(xiàn)的（Sutskever等人胚股，2014）。編碼器-解碼器模型是這種實驗的自然選擇硫狞，因為它們可以Universal地表達(dá)編碼和解碼任務(wù)信轿。

Transformer變體

我們考慮幾種標(biāo)準(zhǔn)Transformer變體。

?Transformer（Vaswani等人残吩，2017）-基本的vanilla Transformer架構(gòu)财忽。我們的基本設(shè)置考慮了T5風(fēng)格的Transformer（Raffel et al.，2019）泣侮，它在很大程度上遵循了vanilla Transformer即彪，只是它使用了相對關(guān)注，而不是正弦位置嵌入和層前歸一化活尊，即在每個子層之前應(yīng)用層歸一化隶校。

?EvolvedTransformer（So等人，2019）-通過AutoML學(xué)習(xí)的Transformer架構(gòu)蛹锰。該架構(gòu)包括卷積和注意力深胳。我們按照與vanilla Transformers相同的模式來縮放EvolvedTransformers。

?UniversalTransformer（UT）（Dehghani等人铜犬，2018）-一種Transformer架構(gòu)舞终，具有共享參數(shù)和類似循環(huán)計算的變換層。由于參數(shù)共享癣猾，縮放UT具有挑戰(zhàn)性敛劝。雖然我們也可以增加dF或dmodel，但參數(shù)的增加幅度比標(biāo)準(zhǔn)Transformer大N層纷宇。探索的另一個軸是縮放每個UT層的重復(fù)計算次數(shù)——這增加了計算（FLOP的數(shù)量）夸盟，但不會增加模型的參數(shù)大小。

?SwitchTransformer（Fedus等人像捶，2021）-一種稀疏激活的專家架構(gòu)混合體上陕。稀疏Transformers是另一個在參數(shù)數(shù)量和計算之間存在異常關(guān)系的模型桩砰。當(dāng)我們均勻地縮放這個模型時，參數(shù)的數(shù)量很容易達(dá)到40B左右唆垃。

高效Transformers變體這類模型主要關(guān)注降低計算成本五芝、內(nèi)存使用或模型的參數(shù)計數(shù)。

?Performers（Choromanski等人辕万，2020）-使用可推廣內(nèi)核注意力的線性時間注意力模型枢步。為了簡單起見，我們在實驗中采用了relu內(nèi)核變體渐尿。我們以類似于vanilla Transformers的方式縮放Performer（即均勻縮放）醉途。

? FunnelTransformer（FT）（Dai et al.，2020）一種Transformer架構(gòu)砖茸，可對整個層堆棧的輸入序列進(jìn)行下采樣隘擎。我們的實現(xiàn)僅在編碼器中使用FT，并在Narang等人（2021）之后在解碼器中恢復(fù)為vanilla Transformer凉夯。

?ALBERT（Lan et al.货葬，2019）-一種輕量級Transformer架構(gòu)，可在所有層共享參數(shù)劲够，并將嵌入和輸出softmax層分解震桶。對于我們的seq2seq ALBERT，我們還共享編碼器和解碼器的權(quán)重征绎。

一般改進(jìn)

我們考慮的一般改進(jìn)不一定與Transformers有關(guān)蹲姐。我們選擇了在Narang等人（2021）中表現(xiàn)良好的候選人。

?Softmax的混合物（Yang et al.人柿，2017）-在Softmax層采用MoS方法的Transformer架構(gòu)柴墩。

?帶GeLU的門控線性單元（GLUTransformer）-用門控線性單元取代Transformer中的位置前饋網(wǎng)絡(luò)（Dauphin等人，2017）凫岖。

非Transformers架構(gòu)我們對基于非Transformers的架構(gòu)（如卷積和/或混頻器架構(gòu)）的縮放行為感興趣江咳。

?輕量級卷積（Wu et al.，2019）-輕量級深度卷積在Transformer架構(gòu)上顯示出了前景哥放。

?動態(tài)卷積（Wu et al.歼指，2019）-輕量級卷積的擴(kuò)展，用于創(chuàng)建與時間相關(guān)的內(nèi)核婶芭。

?MLP-Mixers（Tolstikhin等人，2021）-混合器是最近提出的學(xué)習(xí)代幣輕量級混合的架構(gòu)着饥。由于混合器尚未用于自回歸解碼犀农，因此我們僅在輸入編碼器上使用令牌混合器。

3.2實驗設(shè)置

我們的設(shè)置以及所有模型都是在Mesh TensorFlow（Shazeer et al.宰掉，2018）中實現(xiàn)的呵哨，這是一個與TensorFlow接口相似的庫赁濒，但可以在多個工作線程之間實現(xiàn)分布式模型并行。為了公平比較孟害，所有模型都在英語C4語料庫上進(jìn)行了219步的預(yù)訓(xùn)練拒炎，該語料庫使用Adafactor的平方根學(xué)習(xí)率進(jìn)行了優(yōu)化（Shazeer和Stern，2018）挨务。所有模型都使用相同的句子片段標(biāo)記器（Kudo和Richardson击你，2018），包含32K個子詞谎柄。這與T5論文中的設(shè)置密切相關(guān)（Raffel等人丁侄，2019）。在GLUE（Wang等人朝巫，2018）鸿摇、SuperGLUE（王等人，2019）和SQuAD（Rajpurkar等人劈猿，2016）的混合物上進(jìn)行100K步的微調(diào)拙吉。我們評估了微調(diào)后NLU任務(wù)（GLUE+SuperGLUE+SQuAD）的上游（預(yù)訓(xùn)練）驗證困惑和下游遷移。我們使用16個具有數(shù)據(jù)并行性的TPU-v3芯片對模型進(jìn)行預(yù)訓(xùn)練和微調(diào)揪荣。所有大型模型的模型并行度為2筷黔，XL模型的模型平行度為8。

型號尺寸

我們?yōu)槊總€架構(gòu)考慮幾種不同的模型大小变逃。對于易于縮放的模型必逆，我們只需遵循Raffel等人的標(biāo)準(zhǔn)慣例。（2019）揽乱，從小型到基礎(chǔ)名眉，再到大型和XL。我們包括每個模型的一個小版本凰棉，以觀察不同模型在較低計算區(qū)域的行為损拢。對于無法直接縮放的型號（例如，UniversalTransformer撒犀、ALBERT）福压，我們試圖以類似的方式縮放它們，但面臨明顯的限制或舞，例如使ALBERT具有與T5 XL相同數(shù)量的參數(shù)荆姆，而不會在FLOP方面產(chǎn)生大量成本。對于卷積模型映凳，我們認(rèn)為dmodel是一維卷積層的隱藏大械ㄍ病（即通道深度）。然后，諸如dkv仆救、NH之類的值將變得多余抒和。每個架構(gòu)的縮放細(xì)節(jié)1的詳細(xì)信息可以在補(bǔ)充材料中找到。

3.3主要結(jié)果

我們在表1中報告了本文的主要結(jié)果彤蔽。我們報告了可訓(xùn)練參數(shù)的數(shù)量摧莽，F(xiàn)LOP（單次向前傳播）和速度（每秒步數(shù)）。我們還報告了驗證困惑（上游預(yù)訓(xùn)練）和17項下游任務(wù)的結(jié)果顿痪。結(jié)果報告了GLUE镊辕、SuperGLUE和SQuAD的聚集物。雖然我們使用了Raffel等人使用的相同的基于Mesh TensorFlow的代碼庫员魏。（2019）丑蛤，因此希望我們的實驗結(jié)果與他們的結(jié)果相匹配，但我們驗證了我們的T5庫確實實現(xiàn)了與Raffel et al.（2019）中報道的結(jié)果相似的結(jié)果撕阎。

3.4所有型號的縮放是否相同受裹？

本節(jié)研究是否所有模型架構(gòu)都以相同的方式擴(kuò)展。

上游困惑

圖2報告了隨著FLOP數(shù)量的增加虏束，所有模型的縮放行為棉饶。我們觀察到，所有模型的縮放行為都非常獨特镇匀，即大多數(shù)模型與標(biāo)準(zhǔn)Transformer截然不同照藻。也許這里最大的發(fā)現(xiàn)是，大多數(shù)模型（例如汗侵，LConv幸缕、Evolved）似乎都與標(biāo)準(zhǔn)Transformers不相上下或更好，但無法以更高的計算預(yù)算進(jìn)行擴(kuò)展晰韵。另一個有趣的趨勢是发乔，“線性”Transformers（如Performer）無法按縮放縮放，如圖2i所示雪猪。從基本到大縮放栏尚，訓(xùn)練前的困惑度指標(biāo)僅下降2.7%，而普通Transformers的困惑度為8.4%只恨。

下游遷移

圖3顯示了所有模型在下游遷移時的縮放曲線译仗。與Transformers相比，大多數(shù)模型都有不同的縮放曲線官觅，這一總體發(fā)現(xiàn)在下游任務(wù)中也很明顯纵菌。同樣值得注意的是，大多數(shù)模型都有不同的上游和下游縮放曲線休涤。我們發(fā)現(xiàn)咱圆，一些模型，如 FunnelTransformer和LConvs，在上游似乎表現(xiàn)得很好闷堡，但在下游卻受到了很大的影響。至于Performer疑故，與上游相比杠览，下游的性能（差異）似乎更大。值得注意的是纵势，SuperGLUE下游任務(wù)通常需要編碼器上的偽交叉關(guān)注踱阿，而卷積等模型不具備處理能力（Tay等人，2021a）钦铁。為此软舌，我們發(fā)現(xiàn)，盡管上游性能良好牛曹，但某些模型可能難以學(xué)習(xí)下游任務(wù)佛点。

3.5每個縮放的最佳模型是否不同？

圖1顯示了根據(jù)上游和下游性能繪制計算時的Pareto邊界黎比。由于繪圖的顏色代表不同的模型超营，我們可以觀察到，每個縮放和計算區(qū)域的最佳模型可能不同阅虫。此外演闭，從圖3中，我們還可以觀察到這一點颓帝。例如米碰，Evolved Transformer在從小到小的區(qū)域（下游）與標(biāo)準(zhǔn)Transformer相比似乎做得很好，但當(dāng)放大模型時购城，這種情況會很快發(fā)生變化吕座。我們在MoS Transformer中也觀察到了這一點，它在某些地區(qū)明顯優(yōu)于vanilla Transformer工猜，但在其他地區(qū)則不然米诉。

3.6每個模型的縮放定律

表2顯示了多個場景中每個模型的擬合線性線α的斜率。我們通過繪制F（FLOPs）篷帅、U（上游困惑）史侣、D（下游精度）、P（參數(shù)數(shù)量）來導(dǎo)出α魏身。通常惊橱，α的大多數(shù)值都描述了模型的縮放程度。例如箭昵，αF税朴，U繪制了FLOP與上游性能的關(guān)系圖。唯一的例外是αU，D正林，它是衡量上游與下游性能的指標(biāo)泡一。高的αU，D值意味著隨著模型的擴(kuò)展觅廓，向下游任務(wù)的遷移更好鼻忠。總體而言杈绸，α值是一個指標(biāo)帖蔓，表示模型在所有尺度上的相對表現(xiàn)

每個模型的坡度分析

通常，我們發(fā)現(xiàn)vanilla Transformer具有最高的α值瞳脓。Evolved Transformer塑娇、GLU Transformer、MoS Transformer和Funnel Transformer等模型往往具有與普通Transformer類似的縮放特性劫侧。GLU Transformer具有與vanilla Transformer相似但稍差的縮放特性埋酬，即使在某些計算機(jī)區(qū)域上觀察到它在絕對意義上做得更好。另一方面烧栋，我們還觀察到奇瘦，存在難以縮放的模型，如LConv劲弦、UT耳标、MLP Mixer和Performer。這在下游任務(wù)中更為明顯邑跪。我們還注意到次坡，隨著模型的擴(kuò)大，ALBERT的縮放（趨勢）為負(fù)2（變得更糟）画畅。另一方面砸琅，度量αU，D衡量下游性能如何與上游性能成縮放轴踱≈⒅總的來說，SwitchTransformer在這一指標(biāo)上做得最好淫僻，下游性能與上游性能的縮放很好诱篷。通常，對主Transformer架構(gòu)（GLUTransformer雳灵、MoSTransformer）進(jìn)行較少更改的模型往往會保持類似的縮放行為棕所，而更改歸納偏置也會顯著改變模型的縮放特性。

3.7縮放協(xié)議對模型架構(gòu)的影響是否相同悯辙？

我們感興趣的是不同的縮放協(xié)議如何影響模型架構(gòu)琳省。圖4顯示了四種模型架構(gòu)（MoS-Transformer迎吵、Transformer、Evolved Transformer和LConv）的縮放深度的影響针贬。圖5顯示了縮放寬度對相同四種架構(gòu)的影響击费。首先，在上游（負(fù)對數(shù)困惑）曲線上桦他，我們注意到荡灾，雖然不同的架構(gòu)在絕對排列上有明顯的差異，但縮放趨勢仍然非常相似瞬铸。在下游，深度縮放（圖4）似乎對除LConv之外的大多數(shù)架構(gòu)都起到了同樣的作用础锐。同時嗓节，對于寬度縮放，Evolved Transformers在應(yīng)用寬度縮放時的縮放效果似乎稍好皆警。值得注意的是拦宣，與寬度縮放相比，深度縮放對下游縮放的影響要大得多信姓。

3.8結(jié)語和結(jié)論

在本文中鸵隧，我們對多達(dá)100個模型進(jìn)行了廣泛的實驗、預(yù)訓(xùn)練和微調(diào)意推，這些模型包括10個成熟的Transformer和非Transformer架構(gòu)豆瘫。我們表明，不同的模型架構(gòu)可能具有不同的縮放行為菊值，并且在一個計算區(qū)域（或模型大型馇）中表現(xiàn)良好的模型在另一計算區(qū)域中可能表現(xiàn)不同。

我們還表明腻窒，模型架構(gòu)可以很好地解決上游的困惑昵宇，但不能遷移到下游的任務(wù)。因此儿子，從業(yè)者應(yīng)該謹(jǐn)慎開發(fā)不僅能很好地解決上游難題瓦哎，而且能基于下游性能的架構(gòu)。雖然我們當(dāng)然不希望研究人員總是報告所有縮放（尤其是大縮放）的模型性能柔逼，但我們相信蒋譬，最好記住，架構(gòu)在不同的計算區(qū)域可以表現(xiàn)得截然不同愉适。因此羡铲，在設(shè)計新的歸納偏置時，這可能是一個很好的考慮因素儡毕。因此也切，在某個計算區(qū)域執(zhí)行評估可能不足以捕捉全貌扑媚。考慮不同的歸納偏置是否會導(dǎo)致應(yīng)急能力的不同擴(kuò)展也是很好的（Wei等人雷恃，2022疆股；Abnar等人，2020）倒槐。

我們還表明旬痹，不同的模型架構(gòu)可能對不同的縮放協(xié)議做出不同的反應(yīng)，這進(jìn)一步擴(kuò)展了比較和基準(zhǔn)測試這些模型可能非常具有挑戰(zhàn)性的說法（Dehghani等人讨越，2021b）两残。當(dāng)涉及到縮放大型模型時，本文表明把跨，新的歸納偏置確實有很大的風(fēng)險人弓，這可能解釋了為什么大多數(shù)最先進(jìn)的大型語言模型（Rae et al.，2021着逐；Chowdhery et al.崔赌，2022；Tay等人耸别，2022）都是基于相對普通的架構(gòu)健芭。我們的建議是，在Transformer架構(gòu)上投入昂貴的運(yùn)行時要謹(jǐn)慎秀姐，因為它會極大地改變注意力機(jī)制（例如慈迈，從我們的實驗結(jié)果中可以看出，混音器和Performers通常是高風(fēng)險的選項）省有。最后吩翻，我們承認(rèn)，并不是每個從業(yè)者或研究人員都需要能夠擴(kuò)展到數(shù)十億個參數(shù)的模型锥咸。在這種情況下狭瞎，為小計算量或低計算量量身定制的歸納偏置就足夠了。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末搏予，一起剝皮案震驚了整個濱河市熊锭，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌雪侥，老刑警劉巖碗殷，帶你破解...
沈念sama閱讀 206,839評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異速缨，居然都是意外死亡锌妻，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門旬牲，熙熙樓的掌柜王于貴愁眉苦臉地迎上來仿粹，“玉大人搁吓，你說我怎么就攤上這事】岳” “怎么了堕仔？”我有些...
開封第一講書人閱讀 153,116評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長晌区。經(jīng)常有香客問我摩骨，道長，這世上最難降的妖魔是什么朗若？我笑而不...
開封第一講書人閱讀 55,371評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任恼五，我火速辦了婚禮，結(jié)果婚禮上哭懈，老公的妹妹穿的比我還像新娘灾馒。我一直安慰自己，他們只是感情好银伟，可當(dāng)我...
茶點故事閱讀 64,384評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著绘搞，像睡著了一般彤避。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上夯辖，一...
開封第一講書人閱讀 49,111評論 1贊 285
城市分裂傳說
那天琉预，我揣著相機(jī)與錄音，去河邊找鬼蒿褂。笑死圆米，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的啄栓。我是一名探鬼主播娄帖，決...
沈念sama閱讀 38,416評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼昙楚！你這毒婦竟也來了近速？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,053評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤堪旧，失蹤者是張志新（化名）和其女友劉穎削葱，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體淳梦，經(jīng)...
沈念sama閱讀 43,558評論 1贊 300
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡析砸，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,007評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了爆袍。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片首繁。...
茶點故事閱讀 38,117評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡作郭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出蛮瞄，到底是詐尸還是另有隱情所坯，我是刑警寧澤，帶...
沈念sama閱讀 33,756評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布挂捅，位于F島的核電站芹助，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏闲先。R本人自食惡果不足惜状土，卻給世界環(huán)境...
茶點故事閱讀 39,324評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望伺糠。院中可真熱鬧蒙谓，春花似錦、人聲如沸训桶。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽舵揭。三九已至谤专，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間午绳，已是汗流浹背置侍。一陣腳步聲響...
開封第一講書人閱讀 31,539評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留拦焚，地道東北人蜡坊。一個月前我還...
沈念sama閱讀 45,578評論 2贊 355
代替公主和親
正文我出身青樓，卻偏偏與公主長得像赎败，于是被迫代替她去往敵國和親秕衙。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 42,877評論 2贊 345

縮放律與模型架構(gòu)：歸納偏置如何影響縮放？

縮放律與模型架構(gòu)：歸納偏置如何影響縮放赞厕？

推薦閱讀更多精彩內(nèi)容