Scaling Laws for Autoregressive Generative Modeling
Oct 2020
https://arxiv.org/abs/2010.14701
Tom Henighan*, Jared Kaplan*, Mor Katz*, Mark Chen, Christopher Hesse, Jacob Jackson, Heewoo Jun, Tom B. Brown, Prafulla Dhariwal, Scott Gray, Chris Hallacy, Benjamin Mann, Alec Radford, Aditya Ramesh, Nick Ryder, Daniel M. Ziegler, John Schulman, Dario Amodei, Sam McCandlish
[OpenAI, Johns Hopkins University]
我們?cè)谒膫€(gè)領(lǐng)域確定了交叉熵?fù)p失的經(jīng)驗(yàn)縮放律:生成圖像建模女仰、視頻建模誊抛、多模式圖像?文本模型和數(shù)學(xué)問(wèn)題解決拔莱。在所有情況下,隨著模型大小和計(jì)算預(yù)算的增加妒挎,自回歸Transformer的性能都會(huì)順利提高,遵循冪律加常數(shù)縮放律贬墩。最佳模型大小還取決于通過(guò)冪律的計(jì)算預(yù)算全闷,其指數(shù)在所有數(shù)據(jù)域中幾乎是通用的。
交叉熵?fù)p失具有S(True)+DKL(True||模型)的信息論解釋潘鲫,并且經(jīng)驗(yàn)縮放律建議對(duì)真實(shí)數(shù)據(jù)分布的熵以及真實(shí)分布和模型分布之間的KL散度進(jìn)行預(yù)測(cè)翁逞。通過(guò)這種解釋,十億參數(shù)變換器是YFCC100M圖像分布的近乎完美的模型溉仑,下采樣到8×8的分辨率挖函,我們可以預(yù)測(cè)在其他分辨率的nats/圖像中實(shí)現(xiàn)任何給定的可減少損失(即DKL)所需的模型大小。
我們?cè)谔囟I(lǐng)域中發(fā)現(xiàn)了許多額外的縮放律:(a)我們確定了多模式模型中字幕和圖像之間相互信息的縮放關(guān)系浊竟,并展示了如何回答“一張圖片值千言萬(wàn)語(yǔ)嗎怨喘?”;(b) 在數(shù)學(xué)問(wèn)題求解的情況下振定,當(dāng)在訓(xùn)練分布之外進(jìn)行外推時(shí)必怜,我們確定了模型性能的縮放律;(c) 我們對(duì)ImageNet分類的生成圖像模型進(jìn)行了微調(diào)后频,并發(fā)現(xiàn)即使生成損失趨于平穩(wěn)梳庆,分類損失和錯(cuò)誤率也能平滑縮放”跋В總之膏执,這些結(jié)果強(qiáng)化了縮放律對(duì)神經(jīng)網(wǎng)絡(luò)性能(包括下游任務(wù))具有重要影響的事實(shí)。
圖1跨域可約損失的光滑標(biāo)度——我們展示了可約損失L?L∞的冪律縮放律作為計(jì)算的函數(shù)露久,其中不可約損失L~∞是一個(gè)擬合的域相關(guān)常數(shù)更米。在關(guān)于無(wú)限數(shù)據(jù)和計(jì)算極限的合理假設(shè)下,不可約損失估計(jì)了基礎(chǔ)數(shù)據(jù)分布的熵毫痕,而可約損失近似于數(shù)據(jù)和模型分布之間的KL偏差征峦。在語(yǔ)言的情況下,我們使用[BMR+20]的結(jié)果消请,并且只顯示完全損失L栏笆。
1簡(jiǎn)介
大規(guī)模模型、數(shù)據(jù)集和計(jì)算預(yù)算推動(dòng)了機(jī)器學(xué)習(xí)的快速發(fā)展梯啤。最近的工作[HNA+17竖伯,RRBS19,LWS+20,RDG+20七婴,KMH+20祟偷,SK20,BMR+20]表明打厘,規(guī)模效益也是高度可預(yù)測(cè)的修肠。當(dāng)語(yǔ)言模型的交叉熵?fù)p失L受到計(jì)算預(yù)算C、數(shù)據(jù)集大小D或模型大小N的限制時(shí)户盯,損失以簡(jiǎn)單冪律的形式隨這些量中的每一個(gè)而縮放嵌施。樣本效率也隨著模型的大小而提高。
這些結(jié)果提出了許多問(wèn)題莽鸭。它們適用于所有數(shù)據(jù)模式嗎吗伤?損失的改善如何轉(zhuǎn)化為下游任務(wù)的表示質(zhì)量和性能的改善?是否有任何方法可以確定模型的性能何時(shí)以及為什么會(huì)達(dá)到最大值硫眨,從而使進(jìn)一步的擴(kuò)展得到遞減的回報(bào)足淆?是什么解釋了這些趨勢(shì)的精確性和普遍性,我們還能從中學(xué)到什么礁阁?
我們將證明縮放律適用于各種數(shù)據(jù)模式的生成建模巧号,包括生成語(yǔ)言[KMH+20,BMR+20]姥闭,圖像[TSF+15丹鸿,CRC+20]和視頻建模[WTU19],文本圖像相關(guān)性的多模式建模[TBL+19]棚品,甚至數(shù)學(xué)問(wèn)題解決[SGHK19]靠欢,這是一項(xiàng)需要一定推理能力的任務(wù)。此外铜跑,我們證明了具有自回歸交叉熵?fù)p失的單一架構(gòu)——Transformer[VSP+17掺涛,LSP+18]——在所有這些領(lǐng)域中都能順利擴(kuò)展,對(duì)超參數(shù)(如寬度疼进、深度或?qū)W習(xí)率)的變化最小。我們還觀察到秧廉,較大的模型始終學(xué)習(xí)得更快伞广,以更少的步驟實(shí)現(xiàn)任何給定的損失值。
通過(guò)研究許多不同的模型大小N疼电、計(jì)算預(yù)算C或數(shù)據(jù)集大小D嚼锄,我們證明了損失的比例關(guān)系
適用于每個(gè)數(shù)據(jù)模態(tài),其中αx是模態(tài)相關(guān)的標(biāo)度指數(shù)蔽豺,我們主要研究x=N区丑、C,偶爾研究D。我們將L∞稱為不可約損失沧侥,冪律標(biāo)度項(xiàng)稱為可約損失可霎。這些標(biāo)度關(guān)系通常保持高精度,即使在可還原損失遠(yuǎn)小于不可還原損失的情況下也是如此宴杀;我們?cè)趫D1中顯示了可減少損失的L(C)的趨勢(shì)癣朗。注意,小偏差在對(duì)數(shù)圖上被視覺(jué)放大旺罢,但趨勢(shì)非常吻合旷余。
圖2最優(yōu)模型大小在各個(gè)領(lǐng)域是一致的——我們將最優(yōu)模型大小Nopt顯示為訓(xùn)練計(jì)算預(yù)算C的函數(shù)。Nopt(C)不僅表現(xiàn)為冪律扁达,而且對(duì)于所有數(shù)據(jù)模式正卧,其行為都非常相似。
這些觀察結(jié)果表明了信息論的解釋
換句話說(shuō)跪解,不可約損失估計(jì)真實(shí)數(shù)據(jù)分布的熵炉旷,而可約損失是真實(shí)分布和模型分布之間KL散度的估計(jì)。人們可能已經(jīng)猜測(cè)惠遏,隨著L(x)曲線的彎曲和損失接近L∞砾跃,增加N、C节吮、D的回報(bào)正在減少抽高。但DKL對(duì)可減少損失的識(shí)別表明,情況并不一定如此透绩,規(guī)模的進(jìn)一步增加仍可能提供重要的額外語(yǔ)義信息翘骂。為了證明方程(1.2)的合理性,我們必須假設(shè)在極限D(zhuǎn)→ ∞ 后接N帚豪、C→ ∞, 無(wú)限大的變換器可以精確地對(duì)數(shù)據(jù)分布進(jìn)行建模碳竟。
縮放關(guān)系提供了對(duì)數(shù)據(jù)復(fù)雜性的深入了解,并闡明了增加N狸臣、D和C的值莹桅。通過(guò)評(píng)估完整圖像或視頻的可減少損失,我們實(shí)際上是在估計(jì)給定模型“有待理解”的信息比特?cái)?shù)烛亦。等效地诈泼,可減少的損失近似于數(shù)據(jù)可以被進(jìn)一步壓縮的程度。我們發(fā)現(xiàn)煤禽,十億參數(shù)模型可以提取所有與YFCC100M圖像[TSF+15]相關(guān)的nat/圖像铐达,但只有少數(shù)nat/,這些圖像被下采樣到8x8分辨率檬果,因此它們可能是這種數(shù)據(jù)分布的近乎完美的模型瓮孙。對(duì)于更大唐断、更實(shí)用的圖像,我們需要更大的模型來(lái)實(shí)現(xiàn)這一壯舉杭抠,但縮放律使精確預(yù)測(cè)成為可能脸甘。這些趨勢(shì)與標(biāo)度指數(shù)αx密切相關(guān):較小的指數(shù)意味著隨著標(biāo)度的增加,改進(jìn)速度較慢祈争,這意味著數(shù)據(jù)只能用更大的模型進(jìn)一步壓縮斤程。
通過(guò)計(jì)算對(duì)損失進(jìn)行縮放,可以估計(jì)給定計(jì)算預(yù)算的最佳模型大小菩混。我們發(fā)現(xiàn)忿墅,正如在[KMH+20]中一樣,這種關(guān)系幾乎是一個(gè)純冪律Nopt(C)∞Cβ沮峡。令人驚訝的是疚脐,所有域的指數(shù)β~0.7都非常相似,如圖2所示邢疙。這對(duì)數(shù)據(jù)集大小與模型大小的縮放具有重要意義棍弄,用于計(jì)算最優(yōu)訓(xùn)練,表明如果我們只在每個(gè)數(shù)據(jù)元素上訓(xùn)練一次疟游,則D≠N0.4呼畸。即使考慮到顯著的誤差或偏差,這也強(qiáng)烈建議數(shù)據(jù)集大小與模型大小的亞線性縮放颁虐。
如果我們專注于每種數(shù)據(jù)模式特有的問(wèn)題蛮原,我們可以學(xué)到更多。生成圖像模型可以針對(duì)分類進(jìn)行微調(diào)另绩。我們將表明儒陨,ImageNet[CLH17]的分類性能隨著預(yù)先訓(xùn)練的模型大小而順利提高,遵循另一個(gè)冪律笋籽。這種趨勢(shì)甚至持續(xù)到大模型狀態(tài)蹦漠,在大模型狀態(tài)下,生成損失趨勢(shì)“彎曲”车海,并由不可約分量主導(dǎo)笛园。這有力地表明,從大型生成圖像模型中擠出盡可能多的性能是有好處的侍芝,因?yàn)橹匾恼Z(yǔ)義信息可能位于“最后幾位”喘沿。圖像分類性能微調(diào)的平穩(wěn)趨勢(shì)表明了一個(gè)更普遍的教訓(xùn):無(wú)監(jiān)督學(xué)習(xí)的縮放律意味著下游性能也隨著模型大小和計(jì)算而提高。
信息理論為研究其他環(huán)境中的模型性能提供了一個(gè)有用的視角竭贩。多模式模型提供了一個(gè)引人注目的例子,例如對(duì)文本字幕和圖像之間的聯(lián)合分布進(jìn)行建模的模型莺禁。通常留量,字幕的熵比圖像的熵小得多,因此(經(jīng)驗(yàn))相互信息4和模型在文本上的損失之間的比率,我們稱之為
為模型性能提供了一個(gè)有趣的度量楼熄。分布之間共享的相互信息必須小于任一分布中的信息量忆绰,因此此比率必須小于1。此外可岂,Infogain似乎隨著模型大小而平滑地增加错敢,因此綁定的Infogain<1可以建議最大性能的目標(biāo)模型大小。通常缕粹,這遠(yuǎn)遠(yuǎn)超出了當(dāng)前的能力稚茅。這些在各種數(shù)據(jù)集上的平滑縮放結(jié)果也證明了Transformer架構(gòu)的非凡多功能性。
換句話說(shuō)平斩,不可約損失估計(jì)真實(shí)數(shù)據(jù)分布的熵亚享,而可約損失是真實(shí)分布和模型分布之間KL散度的估計(jì)。人們可能已經(jīng)猜測(cè)绘面,隨著L(x)曲線的彎曲和損失接近L∞欺税,增加N、C揭璃、D的回報(bào)正在減少晚凿。但DKL對(duì)可減少損失的識(shí)別表明,情況并不一定如此瘦馍,規(guī)模的進(jìn)一步增加仍可能提供重要的額外語(yǔ)義信息歼秽。為了證明方程(1.2)的合理性,我們必須假設(shè)在極限D(zhuǎn)→ ∞ 后接N扣墩、C→ ∞, 無(wú)限大的變換器可以精確地對(duì)數(shù)據(jù)分布進(jìn)行建模哲银。
縮放關(guān)系提供了對(duì)數(shù)據(jù)復(fù)雜性的深入了解,并闡明了增加N呻惕、D和C的值荆责。通過(guò)評(píng)估完整圖像或視頻的可減少損失,我們實(shí)際上是在估計(jì)給定模型“有待理解”的信息比特?cái)?shù)亚脆。等效地做院,可減少的損失近似于數(shù)據(jù)可以被進(jìn)一步壓縮的程度。我們發(fā)現(xiàn)濒持,十億參數(shù)模型可以提取所有與YFCC100M圖像[TSF+15]相關(guān)的nat/圖像键耕,但只有少數(shù)nat/,這些圖像被下采樣到8x8分辨率柑营,因此它們可能是這種數(shù)據(jù)分布的近乎完美的模型屈雄。對(duì)于更大、更實(shí)用的圖像官套,我們需要更大的模型來(lái)實(shí)現(xiàn)這一壯舉酒奶,但縮放律使精確預(yù)測(cè)成為可能蚁孔。這些趨勢(shì)與標(biāo)度指數(shù)αx密切相關(guān):較小的指數(shù)意味著隨著標(biāo)度的增加,改進(jìn)速度較慢惋嚎,這意味著數(shù)據(jù)只能用更大的模型進(jìn)一步壓縮杠氢。通過(guò)計(jì)算對(duì)損失進(jìn)行縮放,可以估計(jì)給定計(jì)算預(yù)算的最佳模型大小另伍。我們發(fā)現(xiàn)鼻百,正如在[KMH+20]中一樣,這種關(guān)系幾乎是一個(gè)純冪律Nopt(C)∞Cβ摆尝。令人驚訝的是温艇,所有域的指數(shù)β~0.7都非常相似,如圖2所示结榄。這對(duì)數(shù)據(jù)集大小與模型大小的縮放具有重要意義中贝,用于計(jì)算最優(yōu)訓(xùn)練,表明如果我們只在每個(gè)數(shù)據(jù)元素上訓(xùn)練一次臼朗,則D≠N0.4邻寿。即使考慮到顯著的誤差或偏差,這也強(qiáng)烈建議數(shù)據(jù)集大小與模型大小的亞線性縮放视哑。如果我們專注于每種數(shù)據(jù)模式特有的問(wèn)題绣否,我們可以學(xué)到更多。生成圖像模型可以針對(duì)分類進(jìn)行微調(diào)挡毅。我們將表明蒜撮,ImageNet[CLH17]的分類性能隨著預(yù)先訓(xùn)練的模型大小而順利提高,遵循另一個(gè)冪律跪呈。這種趨勢(shì)甚至持續(xù)到大模型狀態(tài)段磨,在大模型狀態(tài)下,生成損失趨勢(shì)“彎曲”耗绿,并由不可約分量主導(dǎo)苹支。這有力地表明,從大型生成圖像模型中擠出盡可能多的性能是有好處的误阻,因?yàn)橹匾恼Z(yǔ)義信息可能位于“最后幾位”债蜜。圖像分類性能微調(diào)的平穩(wěn)趨勢(shì)表明了一個(gè)更普遍的教訓(xùn):無(wú)監(jiān)督學(xué)習(xí)的縮放律意味著下游性能也隨著模型大小和計(jì)算而提高。
信息理論為研究其他環(huán)境中的模型性能提供了一個(gè)有用的視角究反。多模式模型提供了一個(gè)引人注目的例子寻定,例如對(duì)文本字幕和圖像之間的聯(lián)合分布進(jìn)行建模的模型。通常精耐,字幕的熵比圖像的熵小得多狼速,因此(經(jīng)驗(yàn))相互信息4和模型在文本上的損失之間的比率,我們稱之為
為模型性能提供了一個(gè)有趣的度量卦停。分布之間共享的相互信息必須小于任一分布中的信息量唐含,因此此比率必須小于1浅浮。此外,Infogain似乎隨著模型大小而平滑地增加捷枯,因此綁定的Infogain<1可以建議最大性能的目標(biāo)模型大小。通常专执,這遠(yuǎn)遠(yuǎn)超出了當(dāng)前的能力淮捆。這些在各種數(shù)據(jù)集上的平滑縮放結(jié)果也證明了Transformer架構(gòu)的非凡多功能性。
這些在各種數(shù)據(jù)集上的平滑縮放結(jié)果也證明了Transformer架構(gòu)的顯著多功能性
1.1結(jié)果總結(jié)
我們將僅自回歸解碼器的Transformer模型應(yīng)用于所有數(shù)據(jù)模式本股,其中包括各種分辨率的網(wǎng)絡(luò)抓取YFCC100M圖像[TSF+15]攀痊、來(lái)自各種來(lái)源的視頻數(shù)據(jù)、多模式圖像+語(yǔ)言數(shù)據(jù)以及程序生成的數(shù)學(xué)問(wèn)題拄显。我們還參考了先前關(guān)于語(yǔ)言[KMH+20苟径,BMR+20]的結(jié)果。在所有域中躬审,我們發(fā)現(xiàn):
?方程(1.1)的縮放律始終適用棘街,包括可減少損失的極小值。由于L(C)趨勢(shì)可以擴(kuò)展到任意大的數(shù)據(jù)分布承边、模型大小和訓(xùn)練步驟遭殉,我們認(rèn)為這支持對(duì)方程(1.2)的解釋。
?我們確定了給定計(jì)算預(yù)算的最佳模型大小Nopt(C)博助,并發(fā)現(xiàn)它可以精確地建模為純冪律[KMH+20]
所有模態(tài)的功率為β~0.7险污,如圖2所示。隨著計(jì)算預(yù)算的增長(zhǎng)富岳,最好將大部分資源用于訓(xùn)練更大的模型蛔糯。這有力地表明,在計(jì)算優(yōu)化訓(xùn)練過(guò)程中窖式,數(shù)據(jù)集大小與模型大小的線性比例為D∞N0.4蚁飒。
?對(duì)于每個(gè)域,Transformer都有一個(gè)最佳縱橫比dmodel/nlayer脖镀。與語(yǔ)言[KMH+20]相比飒箭,大多數(shù)數(shù)據(jù)模式需要更小的縱橫比(即更深的網(wǎng)絡(luò))。
?我們?cè)诘?節(jié)中研究了L(D)和L(C)趨勢(shì)之間的明顯不一致蜒灰。
我們還發(fā)現(xiàn)了一些特定于某些領(lǐng)域的結(jié)果弦蹂,盡管我們預(yù)計(jì)許多經(jīng)驗(yàn)教訓(xùn)更為普遍。對(duì)于圖像和視頻建模(請(qǐng)參見(jiàn)第3節(jié)):
?當(dāng)為ImageNet分類微調(diào)生成圖像模型時(shí)强窖,我們發(fā)現(xiàn)分類損失與模型大小的冪律(見(jiàn)圖11)凸椿,甚至超過(guò)了我們?yōu)樯山=咏豢杉s損失的模型大小。我們得出的結(jié)論是翅溺,不可約損失的方法并不一定意味著表示質(zhì)量或語(yǔ)義內(nèi)容的回報(bào)遞減脑漫。
?我們探索了單個(gè)圖像和圖像丟失分布百分位數(shù)的縮放趨勢(shì)(見(jiàn)圖17髓抑、10、20优幸、21)吨拍。我們發(fā)現(xiàn),單個(gè)圖像上的損失與數(shù)據(jù)分布中所有圖像上的平均值一樣网杆,隨模型大小而變化羹饰。我們期望在其他數(shù)據(jù)模式中有類似的行為。
?我們測(cè)試了各種圖像分辨率(見(jiàn)圖8)碳却,并發(fā)現(xiàn)了每種分辨率的不同比例指數(shù)和不可約損失队秩。我們還測(cè)試了兩個(gè)基于VQVAE[vdOVK18]的模型。
?我們檢查了視頻幀索引的損失比例(見(jiàn)圖6和圖9)昼浦。
對(duì)于多模式模型(見(jiàn)第4節(jié)):
?我們探索了字幕和圖像之間的相互信息(見(jiàn)圖12)馍资,以及方程(1.3)中定義的信息增益。我們發(fā)現(xiàn)了模型大小為N的相互信息和信息增益的平滑縮放关噪。
?我們通過(guò)將文本標(biāo)題的信息內(nèi)容與圖像/文本相互信息進(jìn)行比較鸟蟹,重新審視“一張圖片值千言萬(wàn)語(yǔ)嗎?”這個(gè)問(wèn)題色洞。
關(guān)于數(shù)學(xué)問(wèn)題的解決(見(jiàn)第5節(jié)和附錄B):
?我們探索了模型從訓(xùn)練分布外推到越來(lái)越具有挑戰(zhàn)性的問(wèn)題的能力戏锹。我們發(fā)現(xiàn),外推性能主要取決于訓(xùn)練分布上的性能(圖24)火诸,在其他方面與模型大小無(wú)關(guān)锦针。因此,雖然較大的模型性能更好置蜀,但模型大小并不能為“強(qiáng)泛化”帶來(lái)好處奈搜。?我們提供了按數(shù)學(xué)問(wèn)題類型劃分的詳細(xì)性能明細(xì)(見(jiàn)附錄B)。
每個(gè)域中的2個(gè)中心經(jīng)驗(yàn)縮放律
在本節(jié)中盯荤,我們將描述我們?cè)诿總€(gè)領(lǐng)域中的常見(jiàn)實(shí)驗(yàn)馋吗,以及我們建立計(jì)算、模型大小和(在少數(shù)情況下)數(shù)據(jù)集大小縮放方程(1.1)的結(jié)果秋秤。
2.1領(lǐng)域描述和訓(xùn)練設(shè)置
在每個(gè)領(lǐng)域中宏粤,我們使用使用自回歸交叉熵?fù)p失訓(xùn)練的僅解碼器變換器模型。對(duì)于許多模型灼卢,我們使用稀疏注意力模式[CGRS19]绍哎,盡管我們?cè)诮鉀Q數(shù)學(xué)問(wèn)題時(shí)使用密集注意力。
用于語(yǔ)言和多模式建模的轉(zhuǎn)換器具有大小為4dmodel的完全連接層和大小為dmodel的注意力層鞋真,表示法為[KMH+20崇堰,BMR+20]。對(duì)于數(shù)學(xué)、圖像和視頻建模海诲,我們將FC層擴(kuò)展到dmodel繁莹,將注意力層擴(kuò)展到dmodel/4。對(duì)于數(shù)學(xué)特幔、圖像和視頻咨演,我們使用長(zhǎng)寬比dmodel/nlayer≈10,因?yàn)槲覀儼l(fā)現(xiàn)這是近似最優(yōu)的蚯斯,這意味著與語(yǔ)言[KMH+20]相比雪标,這些領(lǐng)域更喜歡更深層次的模型茴扁,其中最優(yōu)長(zhǎng)寬比~100裕偿。因此宪赶,我們的數(shù)學(xué)、圖像和視頻模型本質(zhì)上是相同的撰茎,只是上下文長(zhǎng)度不同。僅就數(shù)學(xué)而言打洼,我們使用了0.05的重量衰減[LH17]龄糊。我們?cè)诟戒汧中提供了更詳細(xì)的超參數(shù)設(shè)置。
表1縮放律總結(jié)——在該表中募疮,我們總結(jié)了模型大小和計(jì)算縮放擬合公式(1.1)以及Nopt(C)炫惩,損失以nats/token為單位,計(jì)算以PB為單位阿浓。在大多數(shù)情況下他嚷,模型大小和計(jì)算縮放律之間的不可約損失匹配得很好。數(shù)學(xué)計(jì)算縮放律可能會(huì)受到重量衰減的影響芭毙,重量衰減通常會(huì)在訓(xùn)練早期影響表現(xiàn)筋蓖,并在訓(xùn)練后期提高表現(xiàn)。語(yǔ)言的計(jì)算縮放結(jié)果和數(shù)據(jù)來(lái)自[BMR+20]退敦,而Nopt(C)來(lái)自[KMH+20]粘咖。不幸的是,即使有來(lái)自最大語(yǔ)言模型的數(shù)據(jù)侈百,我們也無(wú)法獲得對(duì)自然語(yǔ)言熵的有意義的估計(jì)瓮下。
2.1.1語(yǔ)言
我們展示了GPT-3[BMR+20]的結(jié)果進(jìn)行比較,包括比我們?cè)谄渌I(lǐng)域訓(xùn)練的大得多的模型的性能钝域。在圖2中讽坏,我們使用了[KMH+20]中的最優(yōu)模型大小趨勢(shì)。在附錄D中网梢,我們展示了一些關(guān)于算術(shù)和事實(shí)問(wèn)答能力的量表的實(shí)驗(yàn)震缭,并對(duì)語(yǔ)言理解隨量表的發(fā)展進(jìn)行了一些額外的定性觀察。
2.1.2圖像
我們研究了一個(gè)由大約108幅網(wǎng)絡(luò)圖像[TSF+15]組成的數(shù)據(jù)集战虏,這些圖像被縮放為像素分辨率R×R=8x8拣宰、16x16和32x32党涕,使用RGB顏色按光柵順序表示,每個(gè)顏色在[0255]范圍內(nèi)巡社,每個(gè)圖像總共有3R2個(gè)token膛堤。我們還研究了64x64分辨率的相同圖像,但使用16x16或32x32 VQ編碼模式編碼的VQ[vdOVK18]晌该,每張圖像總共有256或1024個(gè)token肥荔。為了減少計(jì)算,我們使用稀疏注意力模式[CGRS19]朝群,在順序?qū)又性诰植繋钭⒁饬凸潭ú介L(zhǎng)注意力之間交替燕耿,其中局部上下文長(zhǎng)度和固定步長(zhǎng)都由正方形圖像的token中的邊長(zhǎng)給定。
2.1.3視頻
我們研究了一個(gè)從網(wǎng)絡(luò)上截取的約7×105個(gè)視頻的數(shù)據(jù)集姜胖,總計(jì)約100小時(shí)誉帅,其中每幀都被縮放到64x64的像素分辨率。每個(gè)單獨(dú)的幀都使用用于圖像的相同16x16 VQVAE[vdOVK18]進(jìn)行編碼右莱,導(dǎo)致每幀256個(gè)tokens蚜锨。我們?cè)?6個(gè)連續(xù)幀的序列上進(jìn)行訓(xùn)練,每個(gè)視頻總共產(chǎn)生4096個(gè)tokens慢蜓。與圖像一樣亚再,我們通過(guò)使用在局部帶狀注意力和固定步幅注意力之間交替的稀疏注意力模式[CGRS19]來(lái)減少計(jì)算,其中局部上下文長(zhǎng)度和固定步距長(zhǎng)度都由正方形幀的邊長(zhǎng)表示晨抡。
2.1.4 VQ編碼
2.1.2和2.1.3中提到的VQVAE模型是在2.1.3中描述的網(wǎng)絡(luò)抓取視頻的幀上訓(xùn)練的氛悬,使用VQ-VAE架構(gòu)[vdOVK18],并在[DJP+20]中描述了修改凄诞,包括死代碼恢復(fù)圆雁。更多詳細(xì)信息見(jiàn)表2。
2.1.5多模式文本和圖像
訓(xùn)練多模式模型來(lái)自回歸預(yù)測(cè)圖像表征和語(yǔ)言表征帆谍。我們簡(jiǎn)單地將文本的BPE編碼的token列表(使用[BMR+20]的token化)和圖像中每個(gè)RGB像素的[0255]色階連接在一起伪朽,并讓模型學(xué)習(xí)必要的嵌入矩陣。我們分別研究了文本到圖像和圖像到文本映射的模型汛蝙,因?yàn)槲覀冊(cè)诔醪綄?shí)驗(yàn)中發(fā)現(xiàn)雙向模型的性能較差烈涮。對(duì)于圖像到文本和文本到圖像模型,我們計(jì)算平均像素和平均文本token損失窖剑,然后對(duì)它們進(jìn)行加權(quán)坚洽,形成總損失L=9Limage+Ltext,因?yàn)槲覀儼l(fā)現(xiàn)這種加權(quán)在掃描中產(chǎn)生了良好的結(jié)果西土。我們使用32x32個(gè)圖像和128個(gè)token字幕(根據(jù)需要填充或修剪)讶舰,每個(gè)圖像/字幕對(duì)的總上下文長(zhǎng)度為3200個(gè)token。對(duì)于多模式數(shù)據(jù)集,我們使用了通過(guò)網(wǎng)絡(luò)搜索策劃的各種圖像/文本對(duì)跳昼。
2.1.6數(shù)學(xué)問(wèn)題解決
數(shù)學(xué)問(wèn)題解決似乎與生成語(yǔ)言般甲、圖像、視頻和多模態(tài)建模是一個(gè)截然不同的領(lǐng)域鹅颊。為了解決數(shù)學(xué)問(wèn)題敷存,模型需要學(xué)習(xí)執(zhí)行算法以得出確定性答案。相比之下堪伍,我們研究的其他分布通常是真正的概率分布锚烦,至少在直觀的層面上,似乎需要與執(zhí)行算術(shù)或求解方程的簡(jiǎn)單算法有點(diǎn)不同的東西帝雇。我們包含了一些數(shù)學(xué)問(wèn)題涮俄,以探討縮放律和Transformer性能的普遍性。
我們使用數(shù)學(xué)問(wèn)題生成器[SGHK19]來(lái)訓(xùn)練和測(cè)試模型尸闸,該生成器生成代數(shù)禽拔、算術(shù)、微積分室叉、比較、數(shù)字(整數(shù)屬性)硫惕、測(cè)量茧痕、多項(xiàng)式和概率方面的各種問(wèn)題。當(dāng)研究模型和計(jì)算預(yù)算縮放時(shí)恼除,我們?cè)谠诰€環(huán)境中按程序生成訓(xùn)練問(wèn)題踪旷。我們?cè)跊](méi)有漸進(jìn)課程的情況下,對(duì)簡(jiǎn)單豁辉、中等和困難問(wèn)題的默認(rèn)混合進(jìn)行采樣令野。在研究數(shù)據(jù)集大小縮放時(shí),我們使用從相同分布中采樣的靜態(tài)訓(xùn)練數(shù)據(jù)徽级。正如附錄B中進(jìn)一步討論的那樣气破,數(shù)據(jù)分布具有一些不尋常的特征,因?yàn)楦菀椎膯?wèn)題自然會(huì)比更困難的問(wèn)題更頻繁地出現(xiàn)餐抢。
一些問(wèn)題類型需要將數(shù)字和字符串解釋為單個(gè)字符的序列现使,因此為了簡(jiǎn)單起見(jiàn),我們?cè)谧址ㄗ止?jié))級(jí)別對(duì)所有問(wèn)題和響應(yīng)進(jìn)行建模旷痕。該模型以純文本形式接收問(wèn)題碳锈,我們使用掩碼在轉(zhuǎn)換器的512tokens上下文窗口中填充連接的問(wèn)題,以便只有與答案對(duì)應(yīng)的tokens才會(huì)導(dǎo)致?lián)p失欺抗。
問(wèn)題生成器5[SGHK19]可以提供一個(gè)“熵”s售碳。訓(xùn)練分布樣本來(lái)自s∈[3,10],而插值測(cè)試對(duì)應(yīng)于s=8贸人,外推測(cè)試涉及s=12间景,以及一些其他擴(kuò)展以增加合成性。在在線設(shè)置中灸姊,我們不能確定插值測(cè)試是從訓(xùn)練數(shù)據(jù)中消除重復(fù)的拱燃,但外推測(cè)試必須是。為了補(bǔ)充測(cè)試數(shù)據(jù)和進(jìn)一步研究外推力惯,我們生成了s∈[1碗誉,19]的新測(cè)試集,其中較大的s對(duì)模型提出了更大的挑戰(zhàn)父晶,因?yàn)閟>10實(shí)際上超出了訓(xùn)練分布哮缺,需要外推。
我們發(fā)現(xiàn)[SGHK19]的兩個(gè)外推生成器probability_swr_p_level_set_more_samples和probabilite_swr_p_sequence_more_samples的性能一直很差甲喝,較大的模型對(duì)它們進(jìn)行了過(guò)擬合尝苇,并實(shí)現(xiàn)了比一些較小模型更差的損失(但精度更高)。因此埠胖,我們沒(méi)有將它們的貢獻(xiàn)包括在圖1和圖5中糠溜,因?yàn)檫@些模塊的不良損失將主導(dǎo)趨勢(shì)。
我們?cè)诟戒汢中提供了更多關(guān)于數(shù)學(xué)的細(xì)節(jié)和許多其他結(jié)果直撤,包括每個(gè)模塊的結(jié)果非竿、數(shù)據(jù)集大小6的縮放,以及性能與難度水平的進(jìn)一步分析谋竖。在那里红柱,我們還顯示出訓(xùn)練損失的趨勢(shì),這并沒(méi)有很好地堅(jiān)持冪律的形式蓖乘,也許是因?yàn)殡[性課程中易問(wèn)題和難問(wèn)題的頻率分布锤悄。
2.2模型尺寸縮放和縱橫比
可以說(shuō),最簡(jiǎn)單的比例關(guān)系將各種大小N的模型在訓(xùn)練到收斂后所獲得的損失與足夠大以避免過(guò)擬合的數(shù)據(jù)集進(jìn)行比較嘉抒。在本文中零聚,我們將N報(bào)告為轉(zhuǎn)換器模型中的非嵌入?yún)?shù)的數(shù)量,其動(dòng)機(jī)是語(yǔ)言[KMH+20]上的先前結(jié)果些侍。L(N)的縮放結(jié)果如圖3所示握牧,并與方程(1.1)擬合。
我們使用收斂時(shí)的損失來(lái)定義L(N)(實(shí)際上娩梨,這意味著盡可能接近收斂)沿腰,但我們研究的最大模型不會(huì)完全收斂。因此狈定,當(dāng)根據(jù)方程(1.2)解釋L(N)趨勢(shì)并將不可約損失確定為熵颂龙,將可約損失識(shí)別為KL散度時(shí)习蓬,需要謹(jǐn)慎。然而措嵌,可減少的損失通常非常符合純冪律趨勢(shì)躲叼。順便說(shuō)一句,在對(duì)所有模型進(jìn)行固定數(shù)量的訓(xùn)練步驟后企巢,當(dāng)記錄損失時(shí)枫慷,我們經(jīng)常會(huì)發(fā)現(xiàn)有趣的良好冪律加上恒定的趨勢(shì)。
我們發(fā)現(xiàn)浪规,對(duì)于任何給定的數(shù)據(jù)模式或听,轉(zhuǎn)換器模型通常具有理想的縱橫比dmodel/nlayer,該層在保持模型大小N不變的情況下最大化性能笋婿。在圖4中誉裆,我們將收斂性能顯示為幾個(gè)域中幾個(gè)模型大小的縱橫比的函數(shù)。我們看到缸濒,圖像和數(shù)學(xué)模型在縱橫比≈5的情況下表現(xiàn)最佳足丢,這表明在這些領(lǐng)域,我們應(yīng)該瞄準(zhǔn)更深庇配、更薄的模型斩跌,與優(yōu)化的語(yǔ)言模型相比,縱橫比至少小10倍捞慌。由于mattn和mmlp設(shè)置的變化滔驶,差異可能甚至更大。
最后卿闹,請(qǐng)注意,大約有104個(gè)參數(shù)的圖像和視頻模型表現(xiàn)不佳萝快,對(duì)于更高分辨率的圖像锻霎,性能明顯較差。視頻模型必須關(guān)注4096個(gè)tokens上下文揪漩,而32x32個(gè)圖像具有3072個(gè)tokens上下文旋恼。因此,我們推測(cè)小型模型表現(xiàn)不佳奄容,因?yàn)樗鼈兒茈y關(guān)注長(zhǎng)度與其非嵌入?yún)?shù)計(jì)數(shù)相當(dāng)?shù)纳舷挛摹?/p>
2.3計(jì)算縮放和最佳模型大小
不關(guān)注收斂性能冰更,而是可以研究當(dāng)使用足夠大的數(shù)據(jù)集進(jìn)行訓(xùn)練以避免過(guò)擬合時(shí),使用有限的訓(xùn)練計(jì)算預(yù)算C所實(shí)現(xiàn)的損失L昂勒。我們從理論上而不是經(jīng)驗(yàn)上定義C蜀细,并將其近似為C≠6NE,其中N是非嵌入?yún)?shù)計(jì)數(shù)(模型大懈暧)奠衔,E=SB是訓(xùn)練期間處理的tokens總數(shù)(S是參數(shù)更新的數(shù)量谆刨,B是tokens中的批量大小)归斤。來(lái)自各種模型大小的L(C)的結(jié)果如圖5所示痊夭,以及給定計(jì)算預(yù)算的最優(yōu)損失的帕累托邊界,以及強(qiáng)制位于該邊界以下的冪律加常數(shù)擬合脏里。
圖5帶計(jì)算的縮放律——各種域的帶計(jì)算的縮放律(總估計(jì)浮點(diǎn)運(yùn)算)她我,以及冪律加常數(shù)擬合(虛線)。這與圖1相同迫横,只是我們沒(méi)有減去擬合的常數(shù)不可約損失番舆。請(qǐng)注意,當(dāng)非常小的模型為具有非常大上下文的圖像或視頻建模時(shí)员淫,與趨勢(shì)相比合蔽,它們表現(xiàn)不佳。還要注意介返,最大的語(yǔ)言模型[BMR+20]沒(méi)有經(jīng)過(guò)收斂訓(xùn)練拴事。
計(jì)算趨勢(shì)與區(qū)分不可約損失和可約損失最相關(guān),因?yàn)樗鼈儽苊饬擞?xùn)練收斂的問(wèn)題圣蝎,這使得L(N)的解釋變得困難刃宵。我們?cè)趫D1中顯示了L(C)的可約損失趨勢(shì),并強(qiáng)調(diào)這些似乎是純冪律徘公,即使可約損失遠(yuǎn)小于不可約損失牲证。
當(dāng)訓(xùn)練受到固定計(jì)算預(yù)算C的約束時(shí),我們可以使用L(C)趨勢(shì)來(lái)估計(jì)優(yōu)化損失的模型大小Nopt关面。為此坦袍,我們?cè)趽p失與計(jì)算邊界的凸包上選擇點(diǎn);在圖5中等太,這些可以看作是藍(lán)色點(diǎn)捂齐。所有域的結(jié)果一起顯示在圖2中,而每個(gè)域在圖16中分別顯示為單獨(dú)的擬合缩抡。在所有情況下奠宜,我們發(fā)現(xiàn)Nopt(C)∞Cβ可以用純冪律擬合,所有指數(shù)都相當(dāng)接近β~0.7瞻想。這表明压真,應(yīng)該通過(guò)訓(xùn)練更大的生成模型來(lái)花費(fèi)大部分不斷增長(zhǎng)的訓(xùn)練計(jì)算預(yù)算。
當(dāng)估計(jì)Nopt(C)時(shí)蘑险,人們可能會(huì)擔(dān)心由于數(shù)據(jù)的次優(yōu)使用而導(dǎo)致的誤差滴肿。具體地說(shuō),如果在訓(xùn)練的早期批量太大佃迄,那么一些計(jì)算可能會(huì)被有效地浪費(fèi)掉嘴高。這可以通過(guò)確定臨界批量大小[MB17竿音,MKAT18]來(lái)研究,超過(guò)該臨界批量大小拴驮,進(jìn)一步的數(shù)據(jù)并行性的回報(bào)將遞減春瞬。在先前的工作[KMH+20]中,通過(guò)測(cè)量臨界批量并使用[MKAT18]中導(dǎo)出的關(guān)系來(lái)調(diào)整計(jì)算估計(jì)值套啤,將其考慮在內(nèi)宽气。我們?cè)谶@里沒(méi)有進(jìn)行這種調(diào)整,因?yàn)樗枰恍╊~外的實(shí)驗(yàn)來(lái)測(cè)量每個(gè)領(lǐng)域的臨界批量大小潜沦。對(duì)于大的模型大小和計(jì)算預(yù)算萄涯,這些影響應(yīng)該很小,因?yàn)榇蠖鄶?shù)或所有的訓(xùn)練都涉及比臨界批量小的批量(在訓(xùn)練過(guò)程中快速增長(zhǎng)[MKT18])唆鸡,但這個(gè)問(wèn)題可能值得在未來(lái)重新審視涝影。在所有訓(xùn)練過(guò)程中處理的tokens總數(shù)為E=C6N≥D,其中D是數(shù)據(jù)集大小争占,等式表示僅針對(duì)單個(gè)歷元的訓(xùn)練燃逻。這就意味著D∞C1-β∞N1-β。對(duì)于所有數(shù)據(jù)模式臂痕,我們顯然都有β>0.6伯襟,而且幅度很小,這表明在計(jì)算優(yōu)化訓(xùn)練過(guò)程中握童,數(shù)據(jù)集大小的增長(zhǎng)速度不應(yīng)超過(guò)D∞N2/3姆怪,中值估計(jì)值為D∞N0.4更合理。所有數(shù)據(jù)模式的這種明確的亞線性縮放在某種程度上與傳統(tǒng)觀點(diǎn)背道而馳澡绩。值得注意的是稽揭,我們還沒(méi)有在計(jì)算最優(yōu)訓(xùn)練實(shí)際上意味著D N的情況下訓(xùn)練模型。我們將在第6節(jié)對(duì)此進(jìn)行進(jìn)一步討論肥卡。
圖6圖像和視頻的位置相關(guān)損失——我們展示了圖像和視頻模型中損失隨位置變化的趨勢(shì)溪掀。在左邊,我們有不同分辨率的圖像的三種顏色的平均損失召调。左上角的像素實(shí)際上具有明顯更高的色階損失,這是為了使整個(gè)圖像的圖案清晰蛮浑。在右邊唠叛,我們看到了視頻模型的每幀平均損失,作為幀索引的函數(shù)沮稚。每幀的振蕩行為是由于視頻編碼艺沼。
2.4上下文中的損失與位置取決于數(shù)據(jù)結(jié)構(gòu)
損失的某些趨勢(shì)在很大程度上取決于數(shù)據(jù)的結(jié)構(gòu)。一個(gè)明顯的例子是作為上下文中位置函數(shù)的損失蕴掏,即語(yǔ)言模型的每符號(hào)損失障般、視頻模型的每幀損失或視覺(jué)域中的每像素?fù)p失调鲸。我們?cè)趫D6中提供了兩個(gè)示例。注意挽荡,對(duì)于圖像藐石,第一個(gè)像素通常具有大的損失,在所示的顏色范圍之外定拟;我們選擇不擴(kuò)展顏色范圍于微,因?yàn)樗鼤?huì)遮擋圖像其余部分的圖案。
語(yǔ)言[KMH+20]和視頻(每幀)顯示出冪律加上作為上下文位置函數(shù)的恒定趨勢(shì)青自,因?yàn)樗鼈兊臄?shù)據(jù)自然是連續(xù)的株依。然而,這些趨勢(shì)根本不適用于圖像建模延窜,其中第一個(gè)像素和圖像中心附近的損失最大恋腕。因此,上下文中的冪律相關(guān)性在本質(zhì)上取決于數(shù)據(jù)的性質(zhì)逆瑞,并且不是普遍的荠藤。相比之下,計(jì)算和模型大小縮放律的形式似乎在很大程度上與數(shù)據(jù)分布無(wú)關(guān)呆万。
3圖像和視頻建模商源、可減少的損失和下游任務(wù)
圖像數(shù)據(jù)可以以各種分辨率呈現(xiàn),或者可以進(jìn)行壓縮谋减,例如使用VQ代碼[vdOVK18]牡彻。這些設(shè)置提供了一種修改數(shù)據(jù)分布復(fù)雜性的方法,為研究神經(jīng)縮放律創(chuàng)造了一個(gè)有用的領(lǐng)域出爹。此外庄吼,我們可以微調(diào)生成圖像模型進(jìn)行分類,以探索其學(xué)習(xí)特征的質(zhì)量严就。
我們將使用這些工具來(lái)探索可約損失和不可約損失的性質(zhì)总寻。特別是,在非常低的分辨率(8x8)下梢为,我們可以遵循冪律趨勢(shì)渐行,將可減少的損失一直減少到幾個(gè)nat/圖像,這可以通過(guò)接近十億個(gè)參數(shù)的模型來(lái)實(shí)現(xiàn)铸董。這給了我們一些樂(lè)觀的理由祟印,當(dāng)我們?cè)谀壳翱梢蕴剿鞯念I(lǐng)域之外的更大圖像上推斷類似的趨勢(shì)時(shí)。它還有力地表明粟害,冪律加上方程(1.1)的常數(shù)形式將仍然是一個(gè)極好的近似蕴忆。此外,我們將表明悲幅,即使生成損失接近不可約損失套鹅,微調(diào)分類性能的改進(jìn)也會(huì)順利進(jìn)行站蝠。這一結(jié)果有力地表明,即使生成損失趨勢(shì)逐漸減弱卓鹿,表示質(zhì)量也會(huì)繼續(xù)平穩(wěn)改善菱魔。
3.1改變圖像分辨率和編碼
在將圖像縮小到8x8、16x16和32x32像素分辨率后减牺,我們?cè)赮FCC100m數(shù)據(jù)集上訓(xùn)練了Transformers豌习,以及使用16x16、32x32 VQ代碼模式的VQ代碼[vdOVK18]編碼的64x64圖像拔疚。我們?cè)趫D8中顯示了每張圖像可減少損失的趨勢(shì)肥隆,作為計(jì)算預(yù)算的函數(shù)(完整損失的趨勢(shì)見(jiàn)圖附錄中的圖18)。我們加入這些數(shù)字是為了強(qiáng)調(diào)稚失,即使可減少的損失變得非常小栋艳,優(yōu)化分配的計(jì)算預(yù)算的可減少損失也遵循冪律趨勢(shì)。
請(qǐng)注意句各,與分辨率大于8x8的趨勢(shì)相比吸占,最小的模型表現(xiàn)不佳。我們?cè)趫D8中的計(jì)算趨勢(shì)和圖7中的模型大小趨勢(shì)中都看到了這一點(diǎn)凿宾。我們推測(cè)這是由于難以利用位置編碼矾屯。例如,我們最小的模型只有10k個(gè)非嵌入?yún)?shù)初厚,而32x32個(gè)圖像在其上下文中包括3072個(gè)token件蚕,每個(gè)token都有不同的位置嵌入。
為了理解表3中可減少損失趨勢(shì)的重要性产禾,回想一下真實(shí)分布P和模型分布Q之間的交叉熵?fù)p失為
圖7圖像分辨率的比較(模型大小縮放)-頂部:我們顯示了各種圖像分辨率的模型大小縮放律排作,以及各種VQ編碼,以及冪律加上等式(1.1)的常數(shù)擬合(虛線)亚情。像素級(jí)圖像建模的擬合如表3所示妄痪。注意,最欣慵(10k非嵌入?yún)?shù))的像素模型在更高的分辨率下表現(xiàn)不佳衫生;我們懷疑他們很難識(shí)別較大圖像中的相對(duì)位置。這些不足在計(jì)算趨勢(shì)中更加明顯土浸。底部:我們展示了可減少的損失罪针,它估計(jì)了圖像上的真實(shí)概率分布和我們的模型預(yù)測(cè)的分布之間的KL偏差。我們將結(jié)果顯示為模型大小和圖像分辨率或編碼的函數(shù)栅迄,以及純冪律趨勢(shì)站故。
圖8圖像分辨率的比較(計(jì)算縮放)——我們顯示了不同分辨率下像素級(jí)圖像建模的計(jì)算可減少損失的縮放(第一行)皆怕,以及64x64圖像的各種VQ編碼(第二行)毅舆。我們顯示了測(cè)試損失西篓,但我們沒(méi)有觀察到這些模型的任何訓(xùn)練/測(cè)試間隙。一些模特在訓(xùn)練后期出現(xiàn)了分歧憋活。
表3每幅圖像的損失趨勢(shì)——適用于各種圖像分辨率下作為計(jì)算函數(shù)的可減少和不可減少的損失岂津,如表1所示,按每幅圖像而非按每個(gè)token顯示悦即。這里吮成,計(jì)算C是以PF天為單位測(cè)量的,因此分母估計(jì)了實(shí)現(xiàn)1個(gè)nat/圖像的可減少損失所需的計(jì)算量辜梳。不可約損失估計(jì)了YFCC100M數(shù)據(jù)分布[TSF+15]的熵粱甫。
當(dāng)P=Q時(shí),KL散度消失作瞄,并且在其他方面嚴(yán)格為非負(fù)茶宵。因此,我們可以用S(P)來(lái)識(shí)別不可約損失宗挥,即真實(shí)分布的恒定熵乌庶。然后可減少損失估計(jì)真實(shí)分布和模型預(yù)測(cè)的分布之間的KL偏差。只有在無(wú)限數(shù)據(jù)和計(jì)算的極限下契耿,我們期望轉(zhuǎn)換器能夠完美地對(duì)數(shù)據(jù)分布進(jìn)行建模瞒大,這種解釋才有意義。我們關(guān)注的是L(C)趨勢(shì)搪桂,因?yàn)槿绻P蜎](méi)有完全訓(xùn)練到收斂透敌,模型大小趨勢(shì)L(N)的漸近極限可能會(huì)產(chǎn)生誤導(dǎo)。
DKL中的冪律趨勢(shì)可以外推到每張圖像只有幾個(gè)nat的水平锅棕。強(qiáng)大到足以達(dá)到這一性能水平的模型以近乎完美的保真度對(duì)圖像的分布進(jìn)行建模拙泽。事實(shí)上,我們看到具有~1B參數(shù)的模型幾乎實(shí)現(xiàn)了8x8“圖像”的這一壯舉裸燎。然而顾瞻,我們看到,對(duì)于較大的圖像德绿,我們需要大量的計(jì)算來(lái)完美地模擬真實(shí)的圖像分布荷荤。
圖7中不同圖像分辨率之間趨勢(shì)的一致性以及8x8情況下顯著較小的可減少損失表明,如果我們能夠運(yùn)行更大的模型移稳,我們將繼續(xù)在更高的分辨率下看到平滑的改進(jìn)蕴纳。數(shù)據(jù)分布的近乎完美模型的計(jì)算需求似乎隨著圖像分辨率的陡峭冪律甚至指數(shù)而增長(zhǎng)。當(dāng)然个粱,我們并不期望實(shí)際任務(wù)需要真實(shí)世界圖像的概率分布的完美模型古毛。
3.2視頻建模和單個(gè)幀
對(duì)于視頻建模的情況,將總體趨勢(shì)擴(kuò)展到特定幀的研究是很自然的。我們?cè)趫D9中顯示了幾個(gè)與幀相關(guān)的結(jié)果稻薇。在左邊嫂冻,我們顯示了作為模型大小的函數(shù)的損失,省略了第一幀塞椎,這具有更大的損失桨仿,應(yīng)該被視為圖像建模問(wèn)題。在中心案狠,我們展示了最終幀上可減少損失的計(jì)算比例服傍。在同一圖的右側(cè),我們顯示了最后(第16)幀的可減少損失骂铁,這在生成現(xiàn)有視頻的延續(xù)時(shí)特別令人感興趣报嵌。與圖像建模的趨勢(shì)非常相似判沟,我們發(fā)現(xiàn)可減少的損失可以很好地用冪律來(lái)近似,從而可以預(yù)測(cè)我們需要大約1013個(gè)參數(shù)的模型大小和大約104個(gè)PF天的計(jì)算,才能在這種類型的視頻的最后一幀上實(shí)現(xiàn)僅幾nat/幀的損失屈糊。
圖9每幀視頻性能趨勢(shì)——在左側(cè)蝌以,我們顯示了16幀視頻中特定幀的縮放趨勢(shì)躏惋。在中心发框,我們展示了作為視頻最后一幀計(jì)算函數(shù)的可減少損失。在右邊伸辟,我們展示了視頻中最后一幀的可減少損失及其隨模型大小的純冪律趨勢(shì)麻惶。
圖10圖像數(shù)據(jù)集百分位數(shù)的性能趨勢(shì)——我們從32x32圖像測(cè)試集中選擇了1000張圖像,并評(píng)估了每張圖像上所有模型的損失信夫。在該圖中窃蹋,我們繪制了這些圖像上損失分布的1、5静稻、20警没、50、80振湾、95杀迹、99個(gè)百分位數(shù)的趨勢(shì),以及冪律加常數(shù)擬合(虛線)押搪。我們還觀察到隨機(jī)選擇的單個(gè)圖像的類似趨勢(shì)(圖17)树酪。
3.3單個(gè)圖像的縮放趨勢(shì)
我們?cè)诟鞣N數(shù)據(jù)模式上觀察到了非常一致的縮放趨勢(shì)。這就提出了一個(gè)問(wèn)題——在特定的大州、單獨(dú)的數(shù)據(jù)示例上续语,不同規(guī)模的模型所造成的損失是否以相同的方式擴(kuò)展?還是分布水平的趨勢(shì)是單個(gè)例子中許多不同趨勢(shì)的總和厦画?
為了回答這些問(wèn)題疮茄,我們?cè)u(píng)估了從測(cè)試集中隨機(jī)選擇的1000張圖像上所有像素級(jí)32x32圖像模型的損失。當(dāng)將損失繪制為隨機(jī)選擇的單個(gè)示例的模型大小的函數(shù)時(shí),基本上在所有情況下力试,我們都觀察到平穩(wěn)的冪律加上恒定的趨勢(shì)焚虱。
為了傳達(dá)這一信息,對(duì)于每個(gè)模型尺寸懂版,我們?cè)u(píng)估了每個(gè)模型尺寸分布中1000張圖像中損失的1,5,20,50,80,95%和99%。然后躏率,我們?cè)趫D10中繪制了這些百分比損失的趨勢(shì)躯畴。我們?cè)趽p失分布的所有百分位數(shù)之間看到了非常相似的趨勢(shì),所有這些都由方程(1.1)很好地描述薇芝。我們?cè)趫D17中顯示了八個(gè)隨機(jī)選擇的單個(gè)測(cè)試圖像的模型大小趨勢(shì)蓬抄。我們還顯示了圖20中1000張測(cè)試圖像樣本中改進(jìn)最多和最少的10張圖像。最后夯到,我們以不同的方式可視化趨勢(shì)嚷缭,通過(guò)在每個(gè)模型大小下生成條件樣本,如圖21所示耍贾。
我們期望這些發(fā)現(xiàn)也適用于其他數(shù)據(jù)模式阅爽。在快速檢查中,我們發(fā)現(xiàn)隨機(jī)選擇的文本序列和不同大小的語(yǔ)言模型具有相同的模式荐开。
3.4在ImageNet上以32x32分辨率進(jìn)行微調(diào)
通過(guò)微調(diào)圖像分類的生成模型付翁,我們獲得了另一個(gè)關(guān)于性能隨模型大小的縮放的處理。我們使用縮小的32x32分辨率ImageNet[CLH17]晃听,并微調(diào)32x32像素級(jí)生成圖像模型百侧。
為了將這些模型轉(zhuǎn)化為分類器,我們移除它們的最終嵌入矩陣能扒,并使用變換器最終層的平均池(在所有像素上)激活作為新單層分類器的輸入佣渴。在微調(diào)過(guò)程中,我們通過(guò)整個(gè)Transformer進(jìn)行反向傳播初斑,并且我們不會(huì)凍結(jié)其任何權(quán)重辛润。作為比較,我們還僅在分類任務(wù)上“從頭開(kāi)始”訓(xùn)練等效的隨機(jī)初始化Transformer模型见秤。
圖11中提供了預(yù)訓(xùn)練和隨機(jī)初始化模型的微調(diào)學(xué)習(xí)曲線频蛔。在所有情況下,我們都使用1024幅圖像的批量大小秦叛,并且我們使用與預(yù)訓(xùn)練相同的學(xué)習(xí)率時(shí)間表進(jìn)行微調(diào)晦溪。我們發(fā)現(xiàn),對(duì)于小型模型挣跋,與從頭開(kāi)始的訓(xùn)練相比三圆,預(yù)訓(xùn)練幾乎沒(méi)有任何好處,但它大大提高了大型模型的性能。
更重要的是舟肉,在圖11中修噪,我們顯示了預(yù)訓(xùn)練和隨機(jī)初始化模型的ImageNet分類性能的模型大小趨勢(shì)。我們發(fā)現(xiàn)路媚,預(yù)訓(xùn)練的模型在損失和錯(cuò)誤率(1?準(zhǔn)確度)方面都遵循平滑黄琼、純粹的powerlaw9趨勢(shì)。這些趨勢(shì)在下游微調(diào)任務(wù)中的存在整慎,有力地證實(shí)了神經(jīng)縮放律對(duì)人工智能能力的重要性脏款。就語(yǔ)言而言,GPT-3[BMR+20]提供了更多的示例裤园。
我們還強(qiáng)調(diào)撤师,接近不可約損失并不一定意味著模型性能的回報(bào)遞減。圖11中的趨勢(shì)繼續(xù)平穩(wěn)拧揽,盡管圖7中對(duì)應(yīng)于32x32分辨率的綠色曲線表明剃盾,對(duì)于參數(shù)>107的模型,接近不可約損失淤袜。顯然痒谴,許多重要的語(yǔ)義信息都位于不可約損失附近的“最后幾位”。我們也可以將其解釋為為為下游任務(wù)提供高效正則化子的預(yù)訓(xùn)練過(guò)程铡羡。
圖11圖像分類性能的趨勢(shì)——頂部:我們顯示了32x32像素ImageNet[CLH17]分類的模型大小縮放結(jié)果闰歪。我們將在ImageNet分類上從頭開(kāi)始訓(xùn)練的模型(即沒(méi)有預(yù)訓(xùn)練)與微調(diào)的生成模型進(jìn)行比較。盡管生成損失趨勢(shì)隨著接近不可約損失而彎曲(圖7)蓖墅,但預(yù)訓(xùn)練的模型在分類性能與模型大小之間呈現(xiàn)出直冪律趨勢(shì)库倘,這也遠(yuǎn)遠(yuǎn)超過(guò)了從頭訓(xùn)練的模型表現(xiàn)出過(guò)擬合的點(diǎn)。底部:盡管采用了不可減少的生成損失的方法论矾,但較大的預(yù)訓(xùn)練模型的微調(diào)速度明顯更快教翩,性能明顯更好。從頭開(kāi)始訓(xùn)練時(shí)贪壳,情況就不一樣了饱亿。
4多模式模型和信息增益
一幅畫(huà)勝過(guò)千言萬(wàn)語(yǔ)嗎?通過(guò)多模態(tài)模型闰靴,我們可以研究一個(gè)領(lǐng)域提供的關(guān)于另一個(gè)領(lǐng)域的信息量彪笼。為此,我們研究了圖像和文本之間的經(jīng)驗(yàn)互信息以及方程(1.3)中定義的信息增益蚂且。后者具有一個(gè)有趣的特性配猫,即它必須位于區(qū)間[0,1]中杏死,較大的值表明性能更好的多模式模型泵肄。
為了估計(jì)文本到圖像模型中圖像和文本之間的經(jīng)驗(yàn)互信息捆交,我們從存在空白字幕的圖像損失中減去字幕圖像損失。類似地腐巢,對(duì)于圖像到文本模型品追,我們減去有和沒(méi)有相應(yīng)圖像的文本損失。
然而冯丙,這些測(cè)量有一個(gè)潛在的嚴(yán)重缺陷——如果模型只在多模式數(shù)據(jù)上進(jìn)行訓(xùn)練肉瓦,那么空白字幕和空白圖像可能會(huì)失去分布。我們通過(guò)僅在對(duì)我們的模型進(jìn)行104步微調(diào)后胃惜,才將這個(gè)問(wèn)題降到最低泞莉,該模型是在有和沒(méi)有字幕(對(duì)于文本到圖像)或有和沒(méi)有圖像(對(duì)于圖像到文本)的數(shù)據(jù)的均勻混合上進(jìn)行的。根據(jù)經(jīng)驗(yàn)蛹疯,我們發(fā)現(xiàn),如果沒(méi)有這種微調(diào)热监,相互信息被測(cè)量為大約兩倍大捺弦。在文本到圖像模型的情況下,我們還嘗試在多模式和空白字幕數(shù)據(jù)的95/5混合上從頭開(kāi)始訓(xùn)練孝扛,并發(fā)現(xiàn)非常相似的結(jié)果列吼。相互信息的學(xué)習(xí)曲線和其他一些比較可以在附錄C中找到。
我們?cè)趫D12中繪制了相互信息和信息增益比苦始。我們看到寞钥,十億參數(shù)的解碼轉(zhuǎn)換器模型從測(cè)試集中的平均文本標(biāo)題中提取了大約8個(gè)關(guān)于圖像的信息。在圖像到文本和文本到圖像多模式模型的情況下陌选,我們從經(jīng)驗(yàn)上觀察到理郑,相互信息和信息增益隨模型大小的變化如下
λ和Nc不同。如附錄E所述咨油,我們可以從合理的假設(shè)中得出這個(gè)近似公式您炉。如果這個(gè)趨勢(shì)在N的大范圍內(nèi)成立,則可以將其與上限信息增益<1結(jié)合使用役电,以粗略估計(jì)最大生產(chǎn)模型大小赚爵。
然而,圖12中確定的趨勢(shì)表明法瑟,這些模型的信息增益(N)增長(zhǎng)非常緩慢冀膝,因此,一直外推到信息增益=1似乎是不現(xiàn)實(shí)的霎挟。此外窝剖,在數(shù)據(jù)分布中,文本和圖像并不總是緊密相關(guān)的酥夭,因?yàn)樵谠S多例子中枯芬,文本的大部分與伴隨的圖像幾乎沒(méi)有關(guān)系论笔。因此,我們可能會(huì)問(wèn)千所,文本中20%的信息何時(shí)會(huì)用于定義圖像狂魔,使1B參數(shù)模型的信息增益翻倍。對(duì)于文本到圖像模型淫痰,參數(shù)大小為N≈3萬(wàn)億的模型將滿足這一閾值最楷,盡管對(duì)于圖像到文本模型,這仍然遠(yuǎn)遠(yuǎn)達(dá)不到待错。其他體系結(jié)構(gòu)可能會(huì)在這些結(jié)果的基礎(chǔ)上有所改進(jìn)籽孙,但我們推測(cè),隨著模型的大小火俄,它們將顯示出類似的趨勢(shì)犯建。
與圖像到文本模型相比,文本到圖像模型具有更大的互信息和信息增益瓜客。我們推測(cè)适瓦,這是因?yàn)閺膱D像中提取語(yǔ)義信息需要比從文本中提取更多的處理。
我們現(xiàn)在可以重新審視一張照片值多少字的問(wèn)題谱仪。圖3顯示了每個(gè)文本tokens的損失玻熙,包括填充tokens;如果我們排除填充token疯攒,最大的圖像到文本模型實(shí)現(xiàn)了每個(gè)文本token2.6個(gè)nat的損失嗦随,或者大約每個(gè)單詞3.4個(gè)nat。比較8個(gè)nat的圖像與文本互信息敬尺,我們發(fā)現(xiàn)32x32的圖像與我們最好的模型相比只值大約2-3個(gè)單詞枚尼。
5數(shù)學(xué)問(wèn)題解決和外推
在機(jī)器學(xué)習(xí)的背景下,泛化通常指的是測(cè)試和訓(xùn)練性能之間的差距砂吞。但在概念層面上姑原,泛化也可以指從訓(xùn)練分布外推到更大或更多樣的分布的更雄心勃勃的可能性。數(shù)學(xué)問(wèn)題的解決非常自然地適用于外推法的研究呜舒,因?yàn)槲覀兛梢詳U(kuò)展用于創(chuàng)建數(shù)學(xué)問(wèn)題的數(shù)字或運(yùn)算的范圍锭汛,或者擴(kuò)展解決方案所需的遞歸/組合深度[HDMB19]。
我們?cè)诨緢D3中研究了這一現(xiàn)象袭蝗,在圖3中唤殴,我們使用由數(shù)字水平索引的各種測(cè)試集來(lái)評(píng)估問(wèn)題解決性能,這對(duì)應(yīng)于用于生成的“熵”[SGHK19]到腥。我們?cè)谒羞@些測(cè)試集上觀察到相當(dāng)平滑的冪律加上損失的恒定趨勢(shì)朵逝,但根據(jù)難度水平,指數(shù)和偏移不同乡范。因此配名,外推性能隨著模型大小的增加而提高啤咽。
然而,如圖13所示渠脉,這些模型的外推能力主要取決于模型在訓(xùn)練分布上的性能宇整。也就是說(shuō),在訓(xùn)練分布上實(shí)現(xiàn)相同損失的不同大小的模型在各種測(cè)試分布上的表現(xiàn)大致相等芋膘。從這個(gè)意義上說(shuō)鳞青,增加模型大小并不能自動(dòng)改進(jìn)外推,除非它提高了訓(xùn)練分布的性能为朋。當(dāng)從一個(gè)文本分布外推到另一個(gè)時(shí)臂拓,在[KMH+20]中也發(fā)現(xiàn)了類似的結(jié)果。
最后习寸,為了完整性胶惰,我們注意到,在數(shù)學(xué)問(wèn)題解決的背景下霞溪,對(duì)損失的信息論解釋有著不同的意義孵滞,在數(shù)學(xué)解決的背景中,答案與問(wèn)題具有決定性的相關(guān)性威鹿,因此熵應(yīng)該真正消失剃斧。有關(guān)數(shù)學(xué)表現(xiàn)的更詳細(xì)結(jié)果和更多趨勢(shì)轨香,請(qǐng)參閱附錄B忽你。
6計(jì)算和數(shù)據(jù)量縮放律的不一致性
在[KMH+20]中觀察到數(shù)據(jù)大小和計(jì)算縮放律之間的不一致。在本節(jié)中臂容,我們將使用低分辨率圖像上的圖像模型來(lái)研究同樣的現(xiàn)象科雳,盡管我們預(yù)計(jì)在我們所涵蓋的任何數(shù)據(jù)集上的結(jié)果都會(huì)在質(zhì)量上相同。
圖12多模式模型的相互信息趨勢(shì)——我們展示了多模式模型中圖像和文本之間的經(jīng)驗(yàn)相互信息(左)和Infogain(右)脓杉,Infogain是經(jīng)驗(yàn)相互信息與文本經(jīng)驗(yàn)熵的比率糟秘。這些圖中的結(jié)果是在半多模式、半空白字幕/圖像數(shù)據(jù)上微調(diào)10k步的多模式模型后匯編的球散,以確蹦蜃空白字幕/圖片不會(huì)分布不均。最大的文本到圖像模型在構(gòu)建圖像時(shí)使用了文本中大約10%的信息蕉堰。
圖13數(shù)學(xué)難度水平——我們顯示了不同難度水平的數(shù)學(xué)問(wèn)題在訓(xùn)練過(guò)程中的損失(左)和準(zhǔn)確性(右)凌净,作為訓(xùn)練損失的函數(shù)。我們強(qiáng)調(diào)屋讶,當(dāng)我們固定訓(xùn)練損失時(shí)冰寻,不同大小的模型表現(xiàn)幾乎相同。因此皿渗,在解決數(shù)學(xué)問(wèn)題的情況下斩芭,插值和外推性能主要取決于模型大小轻腺,主要是通過(guò)訓(xùn)練損失。注意划乖,難度≤10屬于訓(xùn)練分布范圍贬养;對(duì)于>10級(jí),即使訓(xùn)練損失趨于零迁筛,我們也預(yù)計(jì)會(huì)出現(xiàn)非零測(cè)試損失煤蚌。
圖14訓(xùn)練速度接近極限——左圖:這些圖顯示了各種模型大小的學(xué)習(xí)曲線,以及完全訓(xùn)練的早期停止L(D)的趨勢(shì)细卧,用訓(xùn)練期間經(jīng)過(guò)的tokens數(shù)量來(lái)識(shí)別tokens中的數(shù)據(jù)集大小尉桩。我們觀察到,隨著模型大小的增加贪庙,學(xué)習(xí)曲線正在接近L(D)蜘犁。右圖:我們用黑色顯示學(xué)習(xí)曲線和L(C)趨勢(shì)。在同一張圖上止邮,我們用藍(lán)色顯示了L(D)與C(D)这橙,其中后者是通過(guò)確定分配給tokens的計(jì)算的最佳比例來(lái)確定的,然后假設(shè)這對(duì)應(yīng)于一個(gè)訓(xùn)練時(shí)期导披。通過(guò)構(gòu)建屈扎,所有學(xué)習(xí)曲線都必須位于藍(lán)色虛線的上方和右側(cè),因此黑色和藍(lán)色線的交叉點(diǎn)表明某種趨勢(shì)的崩潰撩匕。紅色陰影區(qū)域?qū)?yīng)于將最佳模型大小指數(shù)更改±5%鹰晨,說(shuō)明預(yù)測(cè)對(duì)這些趨勢(shì)極為敏感。
圖15訓(xùn)練速度接近極限(語(yǔ)言)——這里我們展示了L(D)的近似值止毕,估計(jì)誤差為2%模蜡,以及[BMR+20]中的語(yǔ)言建模學(xué)習(xí)曲線。L(D)趨勢(shì)來(lái)自[KMH+20]扁凛,但該工作中的模型是在略有不同的數(shù)據(jù)分布上訓(xùn)練的忍疾,上下文長(zhǎng)度為[BMR+20]的一半。
在討論不一致性之前谨朝,請(qǐng)考慮圖14左側(cè)的圖卤妒。我們展示了訓(xùn)練模型的學(xué)習(xí)曲線和趨勢(shì)L(D),用各種模型在訓(xùn)練過(guò)程中看到的tokens數(shù)量來(lái)識(shí)別數(shù)據(jù)集大小字币。學(xué)習(xí)曲線位于L(D)趨勢(shì)之上则披,因?yàn)閮?yōu)化過(guò)程未能在單個(gè)歷元中實(shí)現(xiàn)最小損失。如果優(yōu)化器是完美的(在某種意義上)纬朝,那么L(D)將與學(xué)習(xí)曲線重合收叶,假設(shè)性能不受模型大小的限制。注意共苛,隨著模型大小的增加判没,學(xué)習(xí)曲線似乎越來(lái)越接近L(D)趨勢(shì)蜓萄。這意味著較大的模型學(xué)習(xí)速度更快,也意味著隨著模型大小的增加澄峰,優(yōu)化變得越來(lái)越有效嫉沽。但學(xué)習(xí)曲線將始終受L(D)的限制,L(D)設(shè)置了樣本效率俏竞。我們?cè)趫D15中顯示了語(yǔ)言的相同現(xiàn)象绸硕,盡管我們只能估計(jì)這些模型的10L(D)。
為了看到明顯的不一致魂毁,我們必須比較兩種不同趨勢(shì)的預(yù)測(cè)玻佩。對(duì)于L(C)計(jì)算趨勢(shì),我們可以只復(fù)制圖7中的結(jié)果席楚。為了在x軸上繪制L(D)和計(jì)算值咬崔,我們將使用16x16圖像的冪律趨勢(shì)Nopt(C)≈(2.8×108)C 0.74(見(jiàn)圖16),其中C以PB為單位測(cè)量烦秩。由此垮斯,我們可以使用C=6DN求解訓(xùn)練期間處理的tokens的最佳數(shù)量,這導(dǎo)致C(D)≈(5×10?42)D3.9只祠,其中D以tokens為單位測(cè)量兜蠕。類似的分析適用于8x8圖像。使用這些結(jié)果抛寝,我們可以參數(shù)化地繪制L(D)與C(D)的關(guān)系圖熊杨,如圖14右側(cè)所示,用于可減少的損失11(為了在對(duì)數(shù)圖上清晰起見(jiàn)而選擇)墩剖。我們還包括了一個(gè)陰影區(qū)域猴凹,顯示了將經(jīng)驗(yàn)提取的Nopt(C)趨勢(shì)指數(shù)更改±5%的影響夷狰。
出現(xiàn)這種不一致性的原因是岭皂,所有學(xué)習(xí)曲線都必須位于圖14右側(cè)的L(D)趨勢(shì)之上,但L(C)的外推最終相交并通過(guò)L(D)之下沼头。L(D)爷绘、L(C)或Nopt(C)趨勢(shì)必須在此交叉點(diǎn)處或之前分解。請(qǐng)注意进倍,這種交叉點(diǎn)的存在是趨勢(shì)的冪律形式的必然結(jié)果土至,因?yàn)檫@些趨勢(shì)會(huì)導(dǎo)致對(duì)數(shù)圖上的直線,并且兩條直線必須交叉猾昆。
我們不知道如何解決這種不一致性或語(yǔ)言[KMH+20]的等效問(wèn)題陶因。然而,圖14左側(cè)的觀察結(jié)果和我們之前的討論表明了一個(gè)看似合理的假設(shè)垂蜗。隨著我們?cè)黾幽P秃蛿?shù)據(jù)集的大小楷扬,優(yōu)化變得越來(lái)越有效解幽,直到最終學(xué)習(xí)曲線開(kāi)始與L(D)趨勢(shì)合并,因此在超過(guò)一個(gè)歷元的訓(xùn)練中沒(méi)有任何好處[Kom19]烘苹。在交點(diǎn)附近躲株,計(jì)算邊界將彎曲并與L(D)重合。從這個(gè)角度來(lái)看镣衡,L(C)看起來(lái)比L(D(C))更陡的事實(shí)是由于優(yōu)化的不足霜定,這需要一個(gè)以上的歷元才能達(dá)到測(cè)試損失的局部最小值。將來(lái)研究這個(gè)假設(shè)會(huì)很有趣廊鸥。如果這是真的望浩,這表明最優(yōu)模型和數(shù)據(jù)集大小的相對(duì)縮放可能最終會(huì)發(fā)生變化,并且可能最終會(huì)由過(guò)擬合趨勢(shì)決定惰说,例如[RRBS19曾雕,KMH+20]中的趨勢(shì)。
最后助被,我們注意到剖张,數(shù)據(jù)集大小趨勢(shì)的不可約損失是在L(D=∞)≈2013 nats/image(16x16)和599 nats/image(8x8)下測(cè)量的,而從計(jì)算趨勢(shì)中提取的不可約約損失是L(C=∞)≈2023 nats/iimage(16x16)和602 nats/iimage(8x8揩环。這些對(duì)低分辨率YFCC100M圖像熵的估計(jì)非常相似搔弄,并對(duì)我們的結(jié)果進(jìn)行了一致性檢查。
7相關(guān)工作
從[HNA+17]開(kāi)始丰滑,許多小組已經(jīng)研究了現(xiàn)代神經(jīng)網(wǎng)絡(luò)的可預(yù)測(cè)縮放趨勢(shì)顾犹。最近[RRBS19,LWS+20褒墨,RDG+20炫刷,Kom19,RFCS20]使用許多模型體系結(jié)構(gòu)和數(shù)據(jù)集研究了縮放關(guān)系郁妈,[KMH+20]中的語(yǔ)言建模工作最接近我們的方法浑玛。175B參數(shù)GPT-3模型[BMR+20]的工作部分受到神經(jīng)縮放律的推動(dòng)。
對(duì)于我們和其他人已經(jīng)確定的非常精確的比例關(guān)系噩咪,還沒(méi)有大量的理論解釋工作顾彰。[SK20]中提出了一個(gè)簡(jiǎn)單的理論,將比例指數(shù)與數(shù)據(jù)流形的維數(shù)的倒數(shù)聯(lián)系起來(lái)胃碾。模型尺寸的擴(kuò)展涨享,特別是在大寬度[LXS+19,JGH18]時(shí)仆百,如果它們實(shí)際上適用于[LBD+20]優(yōu)化調(diào)整的超參數(shù)設(shè)置厕隧,則可以為思考我們的一些縮放關(guān)系提供另一個(gè)有用的框架。
我們使用的模型和數(shù)據(jù)模式在過(guò)去已經(jīng)得到了廣泛的研究。自回歸圖像模型已經(jīng)從PixelRNN[vdOKK16]開(kāi)始訓(xùn)練吁讨,最近的工作[CRC+20]幾乎與我們的模型和訓(xùn)練過(guò)程相同帖族。基于轉(zhuǎn)換器的視頻模型在[WTU19]中進(jìn)行訓(xùn)練挡爵,多模式模型在[TBL+19]中進(jìn)行訓(xùn)練竖般。最初的作者在數(shù)學(xué)問(wèn)題數(shù)據(jù)集[SGHK19]上訓(xùn)練了包括轉(zhuǎn)換器在內(nèi)的各種模型,并且還用更專業(yè)的架構(gòu)[SSF+19]對(duì)其進(jìn)行了研究茶鹃。我們的模型通常比之前討論的許多模型更簡(jiǎn)單涣雕,因?yàn)槲覀冎皇褂镁哂忻芗蛳∈鑋CGRS19]注意力的僅解碼器[LSP+18]變換器。
8討論
我們認(rèn)為闭翩,單一的神經(jīng)架構(gòu)Transformer可以與語(yǔ)言[KMH+20挣郭,BMR+20]一起應(yīng)用于圖像、視頻疗韵、多模式數(shù)據(jù)和數(shù)學(xué)的生成建模兑障。我們確定了在所有數(shù)據(jù)模式上實(shí)現(xiàn)的損失的通用縮放律,作為模型大小和計(jì)算預(yù)算的函數(shù)蕉汪。與語(yǔ)言的情況一樣流译,這些結(jié)果意味著更大的模型變得更有樣本效率。此外者疤,我們發(fā)現(xiàn)在一些重要情況下福澡,下游任務(wù)的微調(diào)性能也遵循類似的縮放律。這表明生成建模損失的趨勢(shì)轉(zhuǎn)化為實(shí)際能力的優(yōu)勢(shì)驹马。
更令人驚訝的是革砸,作為訓(xùn)練計(jì)算預(yù)算的函數(shù),最優(yōu)模型大小大致呈普遍趨勢(shì)(圖2)——我們沒(méi)有預(yù)料到指數(shù)Nopt∞C 0.7在很大程度上與數(shù)據(jù)分布無(wú)關(guān)糯累。這一趨勢(shì)意味著優(yōu)化訓(xùn)練過(guò)程中所用token數(shù)量的雙重趨勢(shì)算利,作為C或N的函數(shù),并得出結(jié)論泳姐,較大的計(jì)算預(yù)算應(yīng)主要“花”在較大的模型上效拭,而不是更長(zhǎng)的訓(xùn)練運(yùn)行上。因此仗岸,這個(gè)來(lái)自語(yǔ)言建模的教訓(xùn)[KMH+20]概括了允耿。這些經(jīng)驗(yàn)規(guī)律需要理論解釋——為什么這些比例關(guān)系成立借笙?
縮放律還表明扒怖,當(dāng)在模型、數(shù)據(jù)和計(jì)算標(biāo)度的大層次上研究機(jī)器學(xué)習(xí)時(shí)业稼,視角從神經(jīng)架構(gòu)盗痒、損失函數(shù)和訓(xùn)練算法的特殊性轉(zhuǎn)向了更廣泛的共性。ML中的工作通常涉及識(shí)別當(dāng)前能力中的特定缺陷,并通過(guò)修改模型和算法來(lái)糾正這些缺陷俯邓。正如GPT-3模型[BMR+20]的金屬學(xué)習(xí)能力所表明的那樣骡楼,也許許多能力只是存在于一個(gè)可以隨著規(guī)模不斷擴(kuò)大而不斷解鎖的頻譜上。
我們還討論了縮放律的一些信息論意義稽鞭。也許最重要的一點(diǎn)是鸟整,方程(1.1)中的兩項(xiàng)可以解釋為真實(shí)數(shù)據(jù)分布的熵,以及該分布與給定生成模型之間的KL散度朦蕴。熵的識(shí)別是通過(guò)精確趨勢(shì)的外推實(shí)現(xiàn)的篮条,使用單個(gè)模型的結(jié)果是不可預(yù)測(cè)的。我們還觀察到了多模式模型中圖像和字幕之間經(jīng)驗(yàn)互信息的有趣縮放律吩抓。這一點(diǎn)特別有趣涉茧,因?yàn)橄嗷バ畔⒈仨毷艿阶帜混氐南拗啤?/p>
圖像建模的更多細(xì)節(jié)
在圖18和圖19中,我們提供了一些額外的信息疹娶,記錄了具有不同分辨率和編碼的圖像的計(jì)算縮放趨勢(shì)伴栓。在圖20中,我們顯示了當(dāng)我們從100k參數(shù)模型過(guò)渡到400M參數(shù)模型時(shí)雨饺,損失改善最多或最少的圖像钳垮。在圖17中,我們還顯示了從測(cè)試集中隨機(jī)選擇的單個(gè)圖像的趨勢(shì)额港。
圖18計(jì)算不同圖像分辨率(像素級(jí))的趨勢(shì)——以像素為單位的各種圖像分辨率的計(jì)算縮放律扔枫,以及冪律加上等式(1.1)的常數(shù)擬合(虛線)。像素級(jí)圖像建模的擬合如表3所示锹安。
圖19計(jì)算各種圖像分辨率的趨勢(shì)(VQVAE編碼)——我們顯示了使用兩種不同VQ編碼分辨率編碼的64x64圖像的計(jì)算縮放律短荐,以及冪律加上等式(1.1)的常數(shù)擬合(虛線)。其中一些運(yùn)行偏離了計(jì)算邊界叹哭;在最壞的情況下忍宋,這導(dǎo)致了與圖7中的模型大小趨勢(shì)的明顯偏差。
圖20改進(jìn)程度最高和最低的圖像——在這里风罩,我們顯示了在具有400M參數(shù)和100k參數(shù)的模型之間損失改進(jìn)程度最高或最低的圖像糠排。根據(jù)損失率和損失差的測(cè)量,這些是測(cè)試集中1000張圖像的隨機(jī)樣本中改進(jìn)程度最高或最低的10張圖像超升。具有涉及人或人群的復(fù)雜多彩場(chǎng)景的圖像通常改進(jìn)最多入宦,而黑白圖像和由簡(jiǎn)單背景主導(dǎo)的圖像往往改進(jìn)最少。
圖21圖像完成質(zhì)量的趨勢(shì)——這里我們展示了各種大小的32x32像素模型的條件完成室琢,其中最左邊的一列是原始圖像乾闰,其他每一列都展示了頂部token有非嵌入?yún)?shù)計(jì)數(shù)的模型的完成。模型被提供圖像的上半部分作為條件上下文盈滴,下半部分以1.0的溫度采樣涯肩。隨著模型的擴(kuò)大,照片真實(shí)性有明顯的增加趨勢(shì)。
B數(shù)學(xué)實(shí)驗(yàn)的細(xì)節(jié)和附加結(jié)果
B.1程序生成的訓(xùn)練數(shù)據(jù)
我們使用[SGHK19]提供的代碼按程序生成了所有訓(xùn)練數(shù)據(jù)病苗。問(wèn)題是通過(guò)從訓(xùn)練分布中隨機(jī)采樣模塊產(chǎn)生的疗垛,其中“熵”設(shè)置從整數(shù)s∈[3,10]中均勻采樣硫朦。熵s的問(wèn)題數(shù)量約為10s贷腕,這意味著模型可能會(huì)多次看到低熵的簡(jiǎn)單問(wèn)題,而s≥9的一些問(wèn)題可能根本看不到咬展。這意味著可以記住訓(xùn)練分布的簡(jiǎn)單組成部分花履。此外,我們程序生成的數(shù)據(jù)沒(méi)有從“插值”測(cè)試分布[SGHK19]中消除重復(fù)挚赊,但它與“外推”測(cè)試分布完全脫節(jié)诡壁。
官方的外推分布只提供了一個(gè)難度等級(jí),也不包括所有八種模塊類型荠割。因此妹卿,我們還通過(guò)設(shè)置熵s=1,2蔑鹦,···19夺克,生成了難度水平平穩(wěn)增加的問(wèn)題的分布。對(duì)于大多數(shù)模塊嚎朽,我們只使用插值設(shè)置铺纽,但對(duì)于需要其他參數(shù)的模塊,我們通常使用外推設(shè)置哟忍。重要的是奥裸,我們沒(méi)有包括probability_swr_p_level_set_more_samples和probability__swr_p_sequence_more_samples生成器鹅经,因?yàn)槲覀儼l(fā)現(xiàn)我們的模型在這些問(wèn)題上總是表現(xiàn)不佳奉芦,并且很快對(duì)這些生成器的損失進(jìn)行了過(guò)擬合(這可以在圖23中看到多望,其中“概率”表示這兩個(gè)生成器的平均值)。
作為難度級(jí)別和模型大小的函數(shù)的性能如圖24所示爆安。我們注意到叛复,當(dāng)我們從訓(xùn)練分布中推斷時(shí),性能會(huì)平穩(wěn)下降扔仓。
此外褐奥,由于這些實(shí)驗(yàn)進(jìn)行得更早,我們的數(shù)據(jù)集大小縮放和縱橫比掃描使用的模型與語(yǔ)言和多模式模型一樣翘簇,具有相當(dāng)標(biāo)準(zhǔn)的設(shè)置mmlp=4和mattn=1撬码,但與我們用于計(jì)算和模型大小趨勢(shì)的數(shù)學(xué)模型不同,在這些模型中缘揪,這些參數(shù)較小4倍耍群,就像我們的圖像和視頻模型一樣义桂。我們對(duì)更小的mmlp找筝,mattn進(jìn)行了更改蹈垢,因?yàn)槲覀儼l(fā)現(xiàn)它有助于提高非常深入的數(shù)學(xué)模型的訓(xùn)練穩(wěn)定性。
還值得注意的是袖裕,我們使用[SGHK19]提供的訓(xùn)練數(shù)據(jù)文件和使用程序生成的數(shù)據(jù)進(jìn)行采樣(忽略了前面討論的兩個(gè)概率模塊)來(lái)評(píng)估外推性能曹抬。對(duì)于趨勢(shì)圖,我們使用了程序生成的數(shù)據(jù)急鳄,但對(duì)于圖26中的最終準(zhǔn)確性報(bào)告谤民,我們使用“官方”文件。
B.2數(shù)據(jù)集大小縮放
對(duì)于數(shù)學(xué)數(shù)據(jù)集疾宏,我們研究了作為數(shù)據(jù)集大小D的函數(shù)的最佳性能张足,在N>>D的極限下,因此性能受到過(guò)擬合的約束坎藐,而不是模型大小或計(jì)算預(yù)算的約束为牍。對(duì)于每個(gè)數(shù)據(jù)集大小和問(wèn)題分布,我們通過(guò)在訓(xùn)練期間取最小損失來(lái)定義L(D)(這與早期停止略有不同岩馍,因?yàn)槿绻袔讉€(gè)指標(biāo)碉咆,我們可以在不同的步驟進(jìn)行評(píng)估,即不同測(cè)試分布上的損失蛀恩,就像數(shù)學(xué)的情況一樣)疫铜。對(duì)于這些實(shí)驗(yàn),我們對(duì)所有數(shù)據(jù)集大小使用了nlayer=64和dmodel=512的模型双谆。我們得到了L(D)的冪律擬合壳咕,如圖22所示。
B.3其他數(shù)學(xué)結(jié)果
在這里顽馋,我們提供了一些關(guān)于數(shù)學(xué)表現(xiàn)的額外觀察囱井,這些觀察可以分為不同的數(shù)學(xué)模塊和難度級(jí)別。在圖23中趣避,我們顯示了不同模塊的性能(使用[SGHK19]中提供的文件)庞呕,而在圖24中,我們將性能顯示為不同型號(hào)的難度水平的函數(shù)程帕。我們?cè)趫D26和圖27中提供了官方外推和插值測(cè)試集實(shí)現(xiàn)精度的詳細(xì)信息住练。
圖23數(shù)學(xué)問(wèn)題類型——在這里,我們使用[SGHK19]提供的問(wèn)題“官方”文件顯示了數(shù)學(xué)模型在數(shù)學(xué)數(shù)據(jù)集的各個(gè)模塊上的性能愁拭。由于我們的訓(xùn)練集是按程序生成的讲逛,因此模型在訓(xùn)練過(guò)程中可能已經(jīng)看到了插值問(wèn)題。我們注意到岭埠,在大多數(shù)插值模塊和兩個(gè)外推模塊上盏混,單個(gè)模塊上的損耗是具有模型大小的近似冪律蔚鸥。
圖24數(shù)學(xué)難度水平——在這里,我們展示了數(shù)學(xué)模型的性能如何隨著難度水平或問(wèn)題分布的“熵”而變化许赃,訓(xùn)練分布中的級(jí)別≤10止喷。我們注意到在10級(jí)有一個(gè)可觀察到的扭結(jié),這表明存在一定程度的過(guò)度擬合混聊,盡管當(dāng)我們推斷出更困難的問(wèn)題時(shí)弹谁,性能變化很平穩(wěn)。很明顯句喜,較大的型號(hào)性能更好预愤。
圖25數(shù)學(xué)難度水平的模型大小趨勢(shì)——這些圖顯示了官方插值數(shù)據(jù)集的趨勢(shì),以及訓(xùn)練分布中的幾個(gè)難度水平咳胃。我們觀察到冪律趨勢(shì)被扭曲植康,這可能是記憶和數(shù)據(jù)分布中隱含課程的結(jié)果。
圖26所有數(shù)學(xué)問(wèn)題類型的外推結(jié)果——在這里展懈,我們展示了[SGHK19]中官方外推測(cè)試集文件上三種不同大小的模型所實(shí)現(xiàn)的精度销睁,按問(wèn)題生成器分組。性能幾乎總是隨著模型的大小而提高标沪,盡管如圖13所示榄攀,這是由于較大的模型可以獲得更好的訓(xùn)練損失。
圖27所有數(shù)學(xué)問(wèn)題類型的插值結(jié)果——這里我們展示了問(wèn)題生成器通過(guò)400M參數(shù)模型實(shí)現(xiàn)的插值精度金句。請(qǐng)注意檩赢,這些問(wèn)題(來(lái)自[SGHK19]的文件)沒(méi)有從我們程序生成的訓(xùn)練集中消除重復(fù),因此它們可能會(huì)被記憶污染违寞。
圖29相互信息學(xué)習(xí)曲線——在這里贞瞒,我們展示了在有和沒(méi)有字幕或圖像的混合數(shù)據(jù)上進(jìn)行訓(xùn)練或微調(diào)時(shí)相互信息的學(xué)習(xí)曲線。我們包括對(duì)混合物的訓(xùn)練和微調(diào)趁曼,以確保我們的相互信息和Infogain估計(jì)不會(huì)因空白字幕或圖像分發(fā)不當(dāng)?shù)膯?wèn)題而混淆军浆。
C其他多模式結(jié)果
在這里,我們展示了一些關(guān)于多模態(tài)實(shí)驗(yàn)的額外結(jié)果挡闰。相互信息的學(xué)習(xí)曲線如圖29所示乒融。這包括對(duì)文本到圖像的字幕和空白字幕數(shù)據(jù)的95/5混合進(jìn)行從頭開(kāi)始的訓(xùn)練,以及對(duì)兩個(gè)多模式方向的50/50混合進(jìn)行10k步的微調(diào)摄悯。我們比較了圖28中兩種策略的最終相互信息和信息增益赞季;它們非常相似。
圖30算術(shù)——我們顯示了隨著參數(shù)計(jì)數(shù)[BMR+20]的增加奢驯,GPT-3家族模型的算術(shù)能力的進(jìn)展申钩。對(duì)于一個(gè)簡(jiǎn)單的乘法問(wèn)題,我們測(cè)量不同數(shù)字答案的概率瘪阁。在頂部撒遣,我們顯示了每個(gè)模型大小的歸一化概率的熱圖邮偎,在底部,我們顯示未歸一化概率的折線圖义黎。最小的模型對(duì)接近問(wèn)題的小數(shù)字給予了一定的重視禾进。一些更大的模型開(kāi)始重視4和6的倍數(shù)(在熱圖上可以看到明亮的垂直條紋,在折線圖上token為紅線)轩缤,這表明他們已經(jīng)開(kāi)始理解乘法問(wèn)題的含義命迈。最大的模型自信地選擇正確的答案贩绕。
D其他語(yǔ)言結(jié)果
在這里火的,我們展示了一些關(guān)于語(yǔ)言實(shí)驗(yàn)的額外結(jié)果,這些結(jié)果衡量了性能如何隨著參數(shù)計(jì)數(shù)而提高淑倾。在圖30中馏鹤,我們研究了算術(shù)能力的發(fā)展,在圖31中娇哆,我們測(cè)量了回答一個(gè)簡(jiǎn)單事實(shí)問(wèn)題的能力湃累。在這兩種情況下,我們都發(fā)現(xiàn)隨著模型大小的增加碍讨,正確答案的損失會(huì)得到平滑的改善治力。然而,我們也觀察到一些定性的“學(xué)習(xí)階段”勃黍,小模型很難理解被問(wèn)到的問(wèn)題宵统,大模型表現(xiàn)出一些初步的理解,而大模型正確回答了問(wèn)題覆获。
圖31問(wèn)答——我們顯示了隨著參數(shù)計(jì)數(shù)[BMR+20]的增加马澈,GPT-3家族模型的簡(jiǎn)單問(wèn)答能力的進(jìn)展。我們問(wèn)這位模特誰(shuí)是美國(guó)的第一任和第二任總統(tǒng)弄息。
微小的模型似乎很難理解這個(gè)問(wèn)題痊班,而且對(duì)正確答案沒(méi)有任何顯著的概率。較大的模型理解我們請(qǐng)求的是美國(guó)總統(tǒng)摹量,但不理解“第二任總統(tǒng)”和“第一任總統(tǒng)”是不同的請(qǐng)求涤伐,這兩個(gè)問(wèn)題的大部分權(quán)重都放在了“喬治·華盛頓”身上。只有更大的模型才能理解問(wèn)題的兩個(gè)方面缨称,并正確回答這兩個(gè)方面凝果。
E相互信息、信息增益和縮放
我們正在研究經(jīng)驗(yàn)相互信息
其中p是模型分布具钥,q是數(shù)據(jù)的真實(shí)分布豆村。這必須小于模型的交叉熵?fù)p失
使得方程1.3中的經(jīng)驗(yàn)InfoGain不能大于1。與通常的互信息一樣骂删,當(dāng)y=f(x)時(shí)掌动,經(jīng)驗(yàn)互信息最大化四啰,反之亦然,使得x和y之間的關(guān)系是確定的粗恢,并且當(dāng)p(x柑晒,y)=p(x)p(y)時(shí)最小化。
然而眷射,值得注意的是一個(gè)有趣的微妙之處:在某些情況下匙赞,我們的評(píng)估可能會(huì)導(dǎo)致明顯違反綁定的InfoGain<1。當(dāng)x=前T個(gè)token妖碉,而y=后一個(gè)token時(shí)涌庭,這可能發(fā)生在不精確平移不變的語(yǔ)言模型中。例如欧宜,理論上坐榆,計(jì)算資源有限的語(yǔ)言模型可能會(huì)將更高的概率分配給“'powerlaw'的MD5哈希為e9f7a4afeda67a0dab579ba480c24d6”,而不是單獨(dú)分配給序列“e9f7a4afeda 67a0dab579ba480c24d6”冗茸。
E.1標(biāo)度關(guān)系的近似推導(dǎo)
我們不知道如何推導(dǎo)多模式模型的關(guān)系4.1席镀。然而,對(duì)于語(yǔ)言模型中的相互信息和信息增益夏漱,我們可以得出類似的關(guān)系豪诲。在這種情況下,我們研究了文本樣本中第一個(gè)Ttoken和下一個(gè)Ttoken之間的相互信息(很容易推廣到不同長(zhǎng)度的序列)挂绰。
我們知道屎篱,對(duì)于給定的模型大小N,損失按冪律縮放扮授,token位置t≥1[KMH+20]芳室。事實(shí)上,我們可以大致
其中刹勃,p<1是冪堪侯,LU是單位熵,p大致獨(dú)立于N荔仁。該模型并不完美伍宦,但它允許對(duì)經(jīng)驗(yàn)互信息進(jìn)行直接估計(jì),即
其中乏梁,H(p)T是具有功率p的第T次諧波數(shù)次洼。如果需要,我們可以估計(jì)或近似H(p)T遇骑,但關(guān)鍵是它對(duì)所有N都是相同的卖毁,因此該表達(dá)式的N依賴性僅來(lái)自L(N)。由于語(yǔ)言模型的指數(shù)αN1,我們可以近似N-αN≈1-αN log(N)亥啦,得到方程4.1炭剪。類似地,為了近似信息增益翔脱,我們需要除以最后T個(gè)token的損失奴拦,這樣
使用L(N)≈N-αN≈1?αN log(N)對(duì)此進(jìn)行擴(kuò)展,得出第4節(jié)中的近似公式届吁。但更普遍的是错妖,我們看到InfoGain受某個(gè)比率的限制,該比率僅取決于p和T疚沐,因?yàn)長(zhǎng)(N)位于0和LU之間暂氯。因此,它實(shí)際上不會(huì)接近1濒旦。
E.2估計(jì)真實(shí)世界分布之間的DKL
我們已經(jīng)根據(jù)數(shù)據(jù)分布的內(nèi)在熵以及真實(shí)分布和我們的模型之間的KL差異來(lái)解釋了縮放趨勢(shì)株旷。這是基于這樣一種想法再登,即在無(wú)限數(shù)據(jù)的情況下
大小和計(jì)算我們可以精確地對(duì)數(shù)據(jù)分布進(jìn)行建模尔邓。如果我們的模型在新數(shù)據(jù)分布上的經(jīng)驗(yàn)損失也遵循可預(yù)測(cè)的縮放趨勢(shì),那么這意味著我們可以估計(jì)新分布和訓(xùn)練分布之間的基本KL偏差锉矢。由于我們的模型是在YFCC100M圖像[TSF+15]上訓(xùn)練的梯嗽,因此在ImageNet上檢查損失的趨勢(shì)是很有趣的,正如我們?cè)跓o(wú)限極限中所期望的那樣
在左邊沽损,我們有在YFCC100M上訓(xùn)練的模型在ImageNet上的交叉熵?fù)p失灯节。我們?cè)趫D32中顯示了在ImageNet上評(píng)估時(shí)的損失L(N),在圖中我們看到它似乎遵循功率加常數(shù)的趨勢(shì)绵估。不幸的是炎疆,這還不足以識(shí)別DKL(ImageNet||YFCC100M),因?yàn)槲覀冞€需要對(duì)S(ImageNet)進(jìn)行單獨(dú)的估計(jì)国裳,但由于過(guò)擬合形入,我們的技術(shù)不容易在那里應(yīng)用。但這個(gè)數(shù)量可能會(huì)在未來(lái)通過(guò)研究數(shù)據(jù)集大小縮放來(lái)提取缝左。
F超參數(shù)設(shè)置
在這里亿遂,我們包括了關(guān)于用于訓(xùn)練模型的超參數(shù)設(shè)置的更多細(xì)節(jié)。
所有模型都使用了學(xué)習(xí)率計(jì)劃渺杉,其中3000步線性預(yù)熱蛇数,然后線性衰減到最大學(xué)習(xí)率的1/10。模型超級(jí)武裝和學(xué)習(xí)率如表4和表5所示是越。注意力頭部的數(shù)量始終選擇為最大值(2耳舅,dmodel/64)。大多數(shù)模型是用每批大約5×105個(gè)tokens進(jìn)行訓(xùn)練的倚评;與此不同的地方見(jiàn)下表的標(biāo)題參數(shù)總是指非嵌入?yún)?shù)計(jì)數(shù)浦徊,并且是近似的(為了簡(jiǎn)單起見(jiàn)绍赛,我們不包括偏差)。
所有模型都經(jīng)過(guò)了至少250k步的訓(xùn)練(參數(shù)更新)辑畦,但許多模型的訓(xùn)練時(shí)間要長(zhǎng)得多吗蚌,因?yàn)槲覀冏⒁獾剿鼈冞€沒(méi)有達(dá)到計(jì)算效率的前沿,或者似乎沒(méi)有收斂纯出。在最小化測(cè)試損失的步驟中蚯妇,計(jì)算了作為模型大小函數(shù)的損失趨勢(shì)。對(duì)于給定大小的所有模型暂筝,我們使用了非常相似的學(xué)習(xí)率箩言;這些是通過(guò)初始網(wǎng)格搜索確定的。
表4多模式超參數(shù)設(shè)置——顯示了所有文本到圖像模型設(shè)置焕襟,圖像到文本模型使用了相同的設(shè)置陨收,但兩個(gè)最大的模型沒(méi)有經(jīng)過(guò)訓(xùn)練參數(shù)是指非嵌入?yún)?shù)計(jì)數(shù),并且是近似的(為了簡(jiǎn)單起見(jiàn)鸵赖,我們不包括偏差)务漩。這些模型都是用128個(gè)文本/圖像對(duì)的批量大小進(jìn)行訓(xùn)練的,即每批409600個(gè)tokens它褪。
表5數(shù)學(xué)饵骨、圖像和視頻建模超參數(shù)設(shè)置——“參數(shù)”指的是非嵌入?yún)?shù)計(jì)數(shù),并且是近似的(為了簡(jiǎn)單起見(jiàn)茫打,我們不包括偏差)居触。數(shù)學(xué)模型使用了nctx=512和每批524288個(gè)tokens的批量大小。視頻模型使用了128個(gè)視頻剪輯的批量大小老赤,每個(gè)批次總共524288個(gè)tokens轮洋。所有圖像模型都使用128個(gè)圖像的批量大小,因此tokens中的批量大小根據(jù)圖像或VQ分辨率而變化抬旺。我們沒(méi)有在某些領(lǐng)域中訓(xùn)練最大的模型大小弊予。
---