ResMLP: Feedforward networks for image classification with data-efficient training
我們提出ResMLP,一個完全建立在多層感知器上的圖像分類體系結(jié)構(gòu)封断。它是一個簡單的殘差網(wǎng)絡(luò),它交替地(i)線性層,其中圖像塊相互作用,獨立地和相同地跨通道入撒,和(ii)兩層前饋網(wǎng)絡(luò),其中每個通道塊相互作用獨立。當(dāng)使用現(xiàn)代的訓(xùn)練策略進行訓(xùn)練時幕随,使用大量的數(shù)據(jù)擴充和選擇性的提取,它在ImageNet上獲得了令人驚訝的良好的精度/復(fù)雜性權(quán)衡宿接。我們還訓(xùn)練ResMLP模型在一個自我監(jiān)督的設(shè)置赘淮,以進一步消除先驗使用標(biāo)記的數(shù)據(jù)集。最后睦霎,通過使我們的模型適應(yīng)機器翻譯梢卸,我們獲得了令人驚訝的好結(jié)果。
我們共享預(yù)先訓(xùn)練的模型和基于Timm庫的代碼副女。
1簡介
最近蛤高,transformer架構(gòu)(transformer architecture)[60]從其在自然語言處理中的最初用途改編而來,只做了一些小的改動碑幅,當(dāng)使用足夠大的數(shù)據(jù)量進行預(yù)訓(xùn)練時戴陡,它的性能可以與ImageNet-1k[50]上的最新技術(shù)相媲美[16]≌碚裕回顧過去猜欺,這一成就是朝著用較少的先驗知識學(xué)習(xí)視覺特征邁出的又一步:卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)用靈活的、可訓(xùn)練的結(jié)構(gòu)取代了手工設(shè)計的硬連線特征選擇拷窜。視覺變換器進一步消除了編碼在卷積結(jié)構(gòu)中的幾個困難決策开皿,即平移不變性和局部連通性。
更好的訓(xùn)練方案推動了該體系結(jié)構(gòu)向較少硬編碼先驗的演變[16篮昧,56]赋荆,在本文中,我們進一步推動了這一趨勢懊昨,證明了基于純多層感知器(MLP)的體系結(jié)構(gòu)窄潭,稱為剩余多層感知器(ResMLP),在圖像分類方面具有競爭力酵颁。ResMLP算法設(shè)計簡單嫉你,對圖像編碼的先驗知識少:它以圖像塊為輸入,用線性層進行投影躏惋,然后用兩個殘差操作依次更新圖像塊的表示:(i)一個交叉塊線性層獨立應(yīng)用于所有通道幽污;以及(ii)獨立地應(yīng)用于所有貼片的跨信道單層MLP。在網(wǎng)絡(luò)的末端簿姨,補丁表示被平均化距误,并反饋給線性分類器簸搞。我們在圖1中概述ResMLP,并在第2節(jié)中進一步詳述它准潭。
ResMLP體系結(jié)構(gòu)受到視覺變換器(ViT)的強烈啟發(fā)[16]趁俊,但它在以下幾個方面要簡單得多:我們用一個線性層替換自注意子層,從而形成一個只有線性層和GELU非線性的體系結(jié)構(gòu)[25]刑然。我們觀察到寺擂,當(dāng)使用與DeiT[56]和CaiT[57]中相同的訓(xùn)練方案時,ResMLP的訓(xùn)練比ViTs更穩(wěn)定闰集,從而消除了對批特定或跨通道規(guī)范化(如BatchNorm沽讹、GroupNorm或LayerNorm)的需要般卑。我們推測這種穩(wěn)定性來自于用線性層代替自注意武鲁。最后,使用線性層的另一個優(yōu)點是蝠检,我們?nèi)匀豢梢钥梢暬N片嵌入之間的相互作用沐鼠,在較低層顯示類似于卷積的濾波器,在最后一層顯示更長的范圍叹谁。
我們進一步研究了純粹基于MLP的體系結(jié)構(gòu)是否有利于圖像以外的其他領(lǐng)域饲梭,特別是更復(fù)雜的輸出空間。特別地焰檩,我們采用了基于MLP的結(jié)構(gòu)來獲取可變長度的輸入憔涉,并展示了它在機器翻譯問題上的潛力。為此析苫,我們開發(fā)了一個序列到序列(seq2seq)版本的ResMLP兜叨,其中編碼器和解碼器都基于ResMLP,編碼器和解碼器之間相互關(guān)注[2]衩侥。該模型類似于原始的seq2seqTransformer国旷,使用ResMLP層而不是Transformer層[60]。盡管最初不是為這項任務(wù)而設(shè)計的茫死,但我們觀察到跪但,ResMLP在具有挑戰(zhàn)性的WMT基準(zhǔn)上與Transformer具有競爭力。
綜上所述峦萎,在本文中屡久,我們做了以下觀察:
?盡管ResMLP非常簡單,但它僅通過ImageNet-1k訓(xùn)練就達到了出人意料的高精度/復(fù)雜度權(quán)衡爱榔,而不需要基于批處理或通道統(tǒng)計的標(biāo)準(zhǔn)化被环;
?這些模型顯著受益于蒸餾方法[56];它們還與基于數(shù)據(jù)擴充的現(xiàn)代自監(jiān)督學(xué)習(xí)方法兼容搓蚪,如DINO[7]蛤售;
?在WMT機器翻譯基準(zhǔn)上,與seq2seq Transformers相比,seq2seq ResMLP實現(xiàn)了具有競爭力的性能悴能。
2方法
在本節(jié)中揣钦,我們將描述我們的體系結(jié)構(gòu)ResMLP,如圖1所示漠酿。ResMLP受ViT的啟發(fā)冯凹,本節(jié)將重點介紹對ViT所做的更改,這些更改將導(dǎo)致一個純粹基于MLP的模型炒嘲。我們請讀者參考Dosovitskiy等人[16]了解有關(guān)維生素C的更多詳情宇姚。
ResMLP的總體架構(gòu)。
我們的模型用ResMLP表示夫凸,網(wǎng)格為N×N個不重疊的面片作為輸入浑劳,其中面片大小通常等于16×16.然后這些貼片獨立地穿過一個線性層,形成一組n2d維嵌入夭拌。
所得到的N2嵌入集被饋送到剩余的多層感知器層序列以產(chǎn)生N2 d維輸出嵌入集魔熏。然后將這些輸出嵌入平均(“平均池”)作為d維向量來表示圖像,該圖像被饋送到線性分類器以預(yù)測與圖像相關(guān)聯(lián)的標(biāo)簽鸽扁。訓(xùn)練使用交叉熵損失蒜绽。
剩余多感知器層。
我們的網(wǎng)絡(luò)是一系列具有相同結(jié)構(gòu)的層:一個線性子層應(yīng)用于斑塊桶现,然后是一個前饋子層應(yīng)用于通道躲雅。與Transformer層類似,每個子層都有一個跳躍連接[23]骡和。缺乏自注意層使得訓(xùn)練更加穩(wěn)定相赁,允許我們用一個更簡單的仿射變換代替層規(guī)范化[1]:
哪里α 以及β 是可學(xué)習(xí)的權(quán)重向量。此操作僅按順序重新縮放和移動輸入元素即横。與其他歸一化操作相比噪生,這種操作有幾個優(yōu)點:首先,與層歸一化相反东囚,它在推理時沒有成本跺嗽,因為它可以被相鄰的線性層吸收。其次页藻,與BatchNorm[30]和層規(guī)范化相反桨嫁,Aff操作符不依賴于批統(tǒng)計。與Aff更接近的算子是Touvron等人[57]引入的LayerScale份帐,還有一個附加的偏差項璃吧。為了方便起見,我們用Aff(X)表示獨立應(yīng)用于矩陣X的每一列的仿射運算废境。
我們在每個剩余塊的開始(“預(yù)規(guī)范化”)和結(jié)束(“后規(guī)范化”)處應(yīng)用Aff操作符畜挨。作為預(yù)規(guī)范化筒繁,Aff代替LayerNorm而不使用通道統(tǒng)計。在這里巴元,我們初始化α = 1毡咏,和β = 0.作為后規(guī)范化,Aff類似于LayerScale逮刨,我們初始化它α 具有與[57]中相同的小值呕缭。
總的來說,我們的多層感知器采用了一組n2d維的輸入特征修己,這些特征疊加在一個二維空間中× N2矩陣X恢总,并輸出一組N2 d維輸出特征,通過以下一組變換疊加在矩陣Y中:
其中A睬愤、B和C是層的主要可學(xué)習(xí)權(quán)重矩陣片仿。注意,等式(3)與Transformer的前饋子層相同戴涝,ReLU非線性被GELU函數(shù)取代[25]滋戳。參數(shù)矩陣A的維數(shù)為N2×N2钻蔑,即啥刻,這個“交叉補丁”子層在補丁之間交換信息,而“交叉通道”前饋子層在每個位置工作咪笑。與Transformer類似可帽,中間激活矩陣Z具有與輸入和輸出矩陣X和Y相同的維數(shù)。最后窗怒,權(quán)重矩陣B和C具有與Transformer層中相同的尺寸映跟,即4d×d和d×分別為4d。
與Vision Transformer架構(gòu)的區(qū)別扬虚。
我們的體系結(jié)構(gòu)與ViT模型密切相關(guān)[16]努隙。然而,ResMLP與ViT不同辜昵,有幾個簡化:
?無自注意塊:被無非線性的線性層取代荸镊,
?無位置嵌入:線性層隱式編碼關(guān)于面片位置的信息,
?沒有額外的“類”標(biāo)記:我們只是在補丁嵌入上使用平均池堪置,
?沒有基于批量統(tǒng)計的標(biāo)準(zhǔn)化:我們使用可學(xué)習(xí)仿射運算符躬存。
MLP類作為平均池的替代方案。
我們建議對CaiT[57]中引入的類注意標(biāo)記進行修改舀锨。在CaiT中岭洲,它由兩個層組成,這兩個層的結(jié)構(gòu)與transformer相同坎匿,但其中只有類令牌根據(jù)凍結(jié)的補丁嵌入進行更新盾剩。我們將這種方法轉(zhuǎn)化為我們的體系結(jié)構(gòu)雷激,只是在用線性層聚合補丁之后,我們用簡單的線性層替換類和補丁嵌入之間基于注意的交互告私,仍然保持補丁嵌入的凍結(jié)狀態(tài)侥锦。這以增加一些參數(shù)和計算成本為代價,提高了性能德挣。我們將這個池變體稱為“類MLP”恭垦,因為這幾個層的目的是替換平均池。
序列到序列ResMLP格嗅。
與Transformer類似番挺,ResMLP體系結(jié)構(gòu)可以應(yīng)用于序列到序列的任務(wù)。首先屯掖,我們遵循Vaswani等人[60]的通用編碼器-解碼器體系結(jié)構(gòu)玄柏,其中我們用剩余的多感知器層替換自注意子層。在解碼器中贴铜,我們保留了交叉注意子層粪摘,這些子層負責(zé)編碼器的輸出。在解碼器中绍坝,我們通過將矩陣A約束為三角形徘意,使線性子層適應(yīng)語言建模的任務(wù),以防止給定的令牌表示將來訪問令牌轩褐。最后椎咧,在序列到序列模型中使用線性子層的主要技術(shù)難點是處理可變序列長度。然而把介,我們觀察到勤讽,簡單地用零填充并提取對應(yīng)于一批中最長序列的子矩陣A,在實踐中效果良好
3個實驗
在本節(jié)中拗踢,我們將介紹ResMLP架構(gòu)在圖像分類和機器翻譯方面的實驗結(jié)果脚牍。我們還研究了ResMLP不同成分對消融研究的影響。我們考慮三種圖像訓(xùn)練模式
?監(jiān)督學(xué)習(xí):我們使用softmax分類器和交叉熵損失從標(biāo)記圖像訓(xùn)練ResMLP巢墅。這一范式是我們工作的主要焦點诸狭。
?自監(jiān)督學(xué)習(xí):我們使用Caron等人[7]的DINO方法訓(xùn)練ResMLP,該方法通過從同一網(wǎng)絡(luò)的先前實例中提取知識來訓(xùn)練沒有標(biāo)簽的網(wǎng)絡(luò)砂缩。
?知識提煉:我們采用Touvron等人[56]提出的知識提煉程序作谚,用convnet指導(dǎo)ResMLP的監(jiān)督培訓(xùn)。
3.1實驗設(shè)置
數(shù)據(jù)集庵芭。
我們在ImageNet-1k數(shù)據(jù)集[50]上訓(xùn)練模型妹懒,該數(shù)據(jù)集包含120萬個均勻分布在1000個對象類別上的圖像。在沒有可用于此基準(zhǔn)的測試集的情況下双吆,我們遵循社區(qū)中的標(biāo)準(zhǔn)實踐眨唬,報告驗證集的性能会前。這并不理想,因為驗證集最初設(shè)計用于選擇超參數(shù)匾竿。在這個集合上比較方法可能不夠決定性瓦宜,因為性能的提高可能不是由更好的建模引起的,而是由更好地選擇超參數(shù)引起的岭妖。為了降低這種風(fēng)險临庇,我們報告了轉(zhuǎn)移學(xué)習(xí)和兩個替代版本的ImageNet的額外結(jié)果,這兩個版本的ImageNet具有不同的驗證和測試集昵慌,即ImageNet real[4]和ImageNet-v2[49]數(shù)據(jù)集假夺。我們還報告了在ImageNet-21k上訓(xùn)練時的一些數(shù)據(jù)點。我們的超參數(shù)主要來自Touvron等人[56斋攀,57]已卷。
超參數(shù)設(shè)置。
在有監(jiān)督學(xué)習(xí)的情況下淳蔼,我們用Lamb優(yōu)化器[64]訓(xùn)練我們的網(wǎng)絡(luò)侧蘸,學(xué)習(xí)率為5× 10?3,重量衰減0.2鹉梨。我們按照CaiT[57]的要求讳癌,將分層比例參數(shù)初始化為深度的函數(shù)。其余的超參數(shù)遵循DeiT[56]中使用的默認(rèn)設(shè)置俯画。對于知識提煉范式析桥,我們使用與DeiT相同的RegNety-16GF[48],使用相同的訓(xùn)練計劃艰垂。我們的大多數(shù)型號需要兩天的時間在8個V100-32gbgpu上進行訓(xùn)練。
3.2主要結(jié)果
在本節(jié)中埋虹,我們將ResMLP與基于卷積或自關(guān)注的架構(gòu)進行比較猜憎,這些架構(gòu)在ImageNet上具有相當(dāng)?shù)拇笮『屯掏铝俊?/p>
監(jiān)督設(shè)置。
在表1中搔课,我們比較了不同卷積結(jié)構(gòu)和Transformer結(jié)構(gòu)的ResMLP胰柑。為了完整性,我們還報告了僅在ImageNet上訓(xùn)練的模型獲得的最佳公布數(shù)字爬泥。雖然ResMLP的精度柬讨、FLOPs和吞吐量之間的折衷不如卷積網(wǎng)絡(luò)或Transformer,但它們的高精度仍然表明袍啡,層設(shè)計施加的結(jié)構(gòu)約束對性能沒有很大影響踩官,特別是在使用足夠的數(shù)據(jù)和最新的訓(xùn)練方案進行訓(xùn)練時。
自監(jiān)督設(shè)置境输。
我們使用稱為DINO[7]的自監(jiān)督方法在300個時期內(nèi)預(yù)訓(xùn)練ResMLP-S12蔗牡。我們在表2中報告了我們的結(jié)果颖系。趨勢類似于監(jiān)督設(shè)置:ResMLP獲得的準(zhǔn)確度低于ViT。然而辩越,對于純MLP體系結(jié)構(gòu)來說嘁扼,性能出奇地高,并且在k-NN評估方面與Convnet競爭黔攒。此外趁啸,我們還使用地面真值標(biāo)簽在ImageNet上對預(yù)先訓(xùn)練好的網(wǎng)絡(luò)進行了微調(diào)。與單獨使用標(biāo)簽訓(xùn)練的ResMLP-S24相比督惰,預(yù)訓(xùn)練顯著提高了性能莲绰,在ImageNet val上達到79.9%的top-1準(zhǔn)確率(+0.5%)。
知識升華設(shè)置姑丑。
我們利用Touvron等人[56]的知識提煉方法來研究我們的模型蛤签。在他們的工作中,作者通過從RegNet中提取ViT模型來展示訓(xùn)練ViT模型的影響栅哀。在這個實驗中震肮,我們探索ResMLP是否也從這個過程中受益,并將我們的結(jié)果總結(jié)在表3中(“基線模型”和“訓(xùn)練”)留拾。我們觀察到戳晌,與DeiT模型類似,ResMLP從convnet中提取非常有益痴柔。這一結(jié)果與d'Ascoli等人[14]的觀察結(jié)果一致沦偎,他們使用convnets初始化前饋網(wǎng)絡(luò)。盡管我們的設(shè)置與他們的設(shè)置在規(guī)模上不同咳蔚,但在ImageNet上仍然存在前饋網(wǎng)絡(luò)的過度擬合問題豪嚎。從蒸餾中獲得的額外正則化是這種改進的可能解釋。
3.3斑塊間線性相互作用的可視化與分析
交叉貼片子層的可視化谈火。
在圖2中侈询,我們以平方圖像的形式顯示了ResMLP-S24模型不同深度的交叉貼片子層的權(quán)重矩陣行。早期的層顯示出類似卷積的模式:權(quán)重類似于彼此的移位版本糯耍,并且具有局部支持扔字。有趣的是,在許多層中温技,支架也沿兩個軸延伸革为;見第7層。網(wǎng)絡(luò)的最后7層是不同的:它們由斑塊本身的尖峰和其他不同大小斑塊的漫射響應(yīng)組成舵鳞;見第20層震檩。
測量砝碼的稀疏性。
上面描述的可視化表明線性通信層是稀疏的系任。我們在圖3中對此進行了更詳細的定量分析恳蹲。我們測量了矩陣A的稀疏性虐块,并將其與每個貼片MLP中B和C的稀疏性進行了比較。由于沒有精確的零點嘉蕾,我們測量絕對值低于最大值5%的分量的比率贺奠。請注意,丟棄小值類似于我們通過最大值標(biāo)準(zhǔn)化矩陣并使用有限精度的權(quán)重表示的情況错忱。例如儡率,對于權(quán)重的4位表示,通常將絕對值低于最大值6.25%的所有權(quán)重四舍五入為零以清。
圖3中的測量結(jié)果表明儿普,所有三個矩陣都是稀疏的,實現(xiàn)補丁通信的層明顯更稀疏掷倔。這表明它們可能與參數(shù)剪枝兼容眉孩,或者更好地與現(xiàn)代量化技術(shù)兼容,后者在訓(xùn)練時產(chǎn)生稀疏性勒葱,例如量子噪聲[20]和DiffQ[19]浪汪。稀疏性結(jié)構(gòu),特別是在早期的層中凛虽,見圖2死遭,暗示我們可以用卷積實現(xiàn)補丁交互線性層。我們在消融研究中提供了一些卷積變異的結(jié)果凯旋。對網(wǎng)絡(luò)壓縮的進一步研究超出了本文的研究范圍呀潭,但我們認(rèn)為這是一個值得進一步研究的問題。
跨修補程序通信
如果我們?nèi)サ艟€性相互作用層(線性→ 無)至非,我們獲得了相當(dāng)?shù)偷臏?zhǔn)確度(-20%前1名acc.)“袋補丁”的方法钠署。我們已經(jīng)嘗試了跨補丁子層的幾種替代方案,如表3所示(塊“補丁通信”)睡蟋。其中踏幻,使用與貼片處理相同的MLP結(jié)構(gòu)(線性→ ?MLP),我們在補充材料中對其進行了更詳細的分析戳杀。考慮到MLP變體需要在ResMLP-S12和ResMLP-S24之間進行一半的計算夭苗,并且比剩余MLP塊需要更少的參數(shù)信卡,單個線性平方層的簡單選擇導(dǎo)致了更好的精度/性能權(quán)衡。
圖2中的可視化顯示表明許多線性交互層看起來像卷積题造。在我們的消融中傍菇,我們用不同類型的3×3個卷積。深度方向的卷積不實現(xiàn)跨通道的交互——就像我們的線性貼片通信層一樣——并且在相當(dāng)數(shù)量的參數(shù)和觸發(fā)器下產(chǎn)生類似的性能界赔。當(dāng)滿3時×3卷積產(chǎn)生最好的結(jié)果丢习,它們的參數(shù)和觸發(fā)器的數(shù)量大約是原來的兩倍牵触。有趣的是,深度可分離卷積結(jié)合精度接近全3×3個卷積與我們的線性層相當(dāng)?shù)膮?shù)和觸發(fā)器的數(shù)量咐低。這表明揽思,在所有層的低分辨率特征圖上進行卷積是一種有趣的替代方案,而不是convnet的常見金字塔設(shè)計见擦,早期層以更高的分辨率和更小的特征維數(shù)進行操作钉汗。
3.4消融研究
表3報告了我們基礎(chǔ)網(wǎng)絡(luò)的消融研究和我們初步探索性研究的總結(jié)。我們將在下面討論消融鲤屡,并在附錄A中給出早期實驗的更多細節(jié)损痰。
過度裝配的控制。
由于MLP會受到過度擬合的影響酒来,我們在圖4中展示了一個控制實驗卢未,以探索泛化問題。我們明確地分析了ImageNet val和不同的ImageNet-V2測試集之間的性能差異堰汉。曲線之間的相對偏移反映了模型過度擬合ImageNet val w.r.t.超參數(shù)選擇的程度辽社。我們基于MLP的模型的過度擬合程度總體上是中性的,或者略高于其他基于Transformer的架構(gòu)或具有相同訓(xùn)練程序的convnet衡奥。
規(guī)范化和激活爹袁。
我們的網(wǎng)絡(luò)配置不包含任何批處理規(guī)范化。相反矮固,我們使用仿射每通道變換Aff失息。這類似于層規(guī)范化[1],通常用于Transformer档址,只是我們避免收集任何類型的統(tǒng)計數(shù)據(jù)盹兢,因為我們不需要它來收斂。在使用前范數(shù)和后范數(shù)[24]的初步實驗中守伸,我們觀察到兩種選擇都收斂绎秒。在某些情況下,預(yù)標(biāo)準(zhǔn)化與批量標(biāo)準(zhǔn)化相結(jié)合可提供準(zhǔn)確度增益尼摹,見附錄A见芹。
我們選擇使用GELU[25]函數(shù)。
在附錄A中蠢涝,我們還分析了激活函數(shù):ReLU[22]也給出了一個很好的性能玄呛,但在某些設(shè)置下它有點不穩(wěn)定。我們在SiLU[25]和HardSwish[28]中沒有取得好的結(jié)果和二。
聯(lián)營徘铝。
用類MLP替換平均池(見第2節(jié))可以帶來顯著的收益,而計算成本可以忽略不計。默認(rèn)情況下惕它,我們不包含它怕午,以使模型更簡單。
補丁大小淹魄。
較小的補丁顯著提高了性能郁惜,但也增加了觸發(fā)器的數(shù)量(見表3中的塊“補丁大小”)。較小的面片對較大的模型更有利揭北,但只適用于包含更多正則化(蒸餾)或更多數(shù)據(jù)的改進優(yōu)化方案扳炬。
培訓(xùn)。
考慮表3中的“培訓(xùn)”部分搔体。ResMLP從現(xiàn)代培訓(xùn)程序(如DeiT中使用的程序)中獲得了顯著的好處恨樟。例如,與ResNet[23]2所采用的訓(xùn)練相比疚俱,DeiT訓(xùn)練程序?qū)esMLP-S12的性能提高了7.4%劝术。
這與最近指出訓(xùn)練策略對模型選擇的重要性的工作一致[3,48]呆奕。對更多數(shù)據(jù)的預(yù)訓(xùn)練和蒸餾也提高了ResMLP的性能养晋,特別是對于更大的模型,例如蒸餾使ResMLP-B24/8的精度提高了2.6%梁钾。
其他分析绳泉。
在我們早期的探索中,我們評估了幾種可供選擇的設(shè)計方案姆泻。就像在transformers中一樣零酪,我們可以使用混合了輸入補丁的位置嵌入。在我們的實驗中拇勃,我們沒有看到使用這些特性有什么好處四苇,見附錄A。這一觀察結(jié)果表明方咆,我們的交叉補丁子層提供了足夠的空間通信月腋,參考絕對位置消除了任何形式的位置編碼的需要。
3.5遷移學(xué)習(xí)
我們評估從ResMLP架構(gòu)獲得的特征在轉(zhuǎn)移到其他領(lǐng)域時的質(zhì)量瓣赂。目標(biāo)是評估由前饋網(wǎng)絡(luò)生成的特征是否更容易過度擬合訓(xùn)練數(shù)據(jù)分布榆骚。我們采用典型的設(shè)置,在ImageNet-1k上預(yù)先訓(xùn)練模型煌集,并在與特定域相關(guān)聯(lián)的訓(xùn)練集中對其進行微調(diào)寨躁。我們在表4中報告了不同體系結(jié)構(gòu)在各種圖像基準(zhǔn)上的性能,即CIFAR-10和CIFAR-100[34]牙勘、FLOWRS-102[42]、斯坦福汽車[33]和iNaturalist[27]。我們請讀者參閱相應(yīng)的參考文獻方面,以獲得對數(shù)據(jù)集更詳細的描述放钦。
我們觀察到,我們的ResMLP的性能與現(xiàn)有的體系結(jié)構(gòu)相比是有競爭力的恭金,這表明具有足夠數(shù)據(jù)的預(yù)訓(xùn)練前饋模型和通過數(shù)據(jù)擴充的正則化大大降低了它們在原始分布上過度擬合的傾向操禀。有趣的是,這種正則化還可以防止它們在微調(diào)階段過度擬合較小數(shù)據(jù)集的訓(xùn)練集横腿。
3.6機器翻譯
我們還評估了ResMLP轉(zhuǎn)置機制颓屑,以取代神經(jīng)機器翻譯系統(tǒng)的編碼器和解碼器中的自注意。我們按照Ott等人[45]的設(shè)置耿焊,對WMT 2014英德和英法任務(wù)的模型進行培訓(xùn)揪惦。我們考慮尺寸為512的模型,其隱藏MLP大小為2048罗侯,并且具有6或12層器腋。請注意,目前的技術(shù)狀態(tài)采用了更大的模型:我們的6層模型與Vaswani等人[60]中的基本Transformer模型更為相似钩杰,后者作為基線纫塌,以及諸如遞歸和卷積神經(jīng)網(wǎng)絡(luò)等預(yù)Transformer結(jié)構(gòu)。我們使用Adagrad讲弄,學(xué)習(xí)率為0.2措左,線性預(yù)熱32k步,標(biāo)簽平滑0.1避除,En-De和En-Fr的退出率分別為0.15和0.1怎披。我們將LayerScale參數(shù)初始化為0.2。我們使用波束搜索算法生成平移驹饺,波束大小為4钳枕。如表5所示,結(jié)果至少與比較的架構(gòu)相當(dāng)赏壹。
4相關(guān)工作
我們回顧了應(yīng)用全連通網(wǎng)絡(luò)(FCN)解決計算機視覺問題的研究鱼炒,以及與我們的模型共享公共模塊的其他體系結(jié)構(gòu)。
完全連接的圖像網(wǎng)絡(luò)蝌借。
許多研究表明昔瞧,F(xiàn)CNs在數(shù)字識別[12,51]、關(guān)鍵詞識別[8]和手寫識別[5]等任務(wù)上與convnet具有競爭力菩佑。一些著作[37自晰,40,59]質(zhì)疑FCN在自然圖像數(shù)據(jù)集(如CIFAR-10[34])上是否也具有競爭力稍坯。最近酬荞,d'Ascoli等人[14]已經(jīng)證明搓劫,用預(yù)訓(xùn)練convnet的權(quán)值初始化的FCN實現(xiàn)的性能優(yōu)于原始convnet睦尽。Neyshabur[41]通過從零開始訓(xùn)練FCN(但使用正則化器將模型限制為接近網(wǎng)絡(luò))來實現(xiàn)競爭性能浑侥,從而進一步擴展了這一工作范圍。這些研究是在小規(guī)模數(shù)據(jù)集上進行的俗批,目的是從樣本復(fù)雜性[18]和能源景觀[31]的角度研究建筑對泛化的影響咧党。在我們的工作中秘蛔,我們發(fā)現(xiàn),在ImageNet的大尺度環(huán)境中傍衡,F(xiàn)CNs可以在沒有任何約束和初始化的情況下獲得令人驚訝的精度深员。
最后,F(xiàn)CN網(wǎng)絡(luò)在計算機視覺中的應(yīng)用也出現(xiàn)在對無限寬網(wǎng)絡(luò)特性的研究[43]蛙埂,或?qū)δ嫔⑸鋯栴}的研究[32]倦畅。更有趣的是,張量化網(wǎng)絡(luò)[44]是非常大的FCN的近似值箱残,與我們的模型相似滔迈,因為它們打算通過近似更一般的張量運算來去除先驗值,即被辑,不沿著一些預(yù)定義的共享維度任意邊緣化燎悍。然而,他們的方法被設(shè)計成壓縮一個標(biāo)準(zhǔn)網(wǎng)絡(luò)的MLP層盼理。
具有類似組件的其他體系結(jié)構(gòu)谈山。
我們的FCN架構(gòu)與其他架構(gòu)共享多個組件,如convnets[35宏怔,36]或transformers[60]奏路。完全連接層相當(dāng)于具有1的卷積層× 1個感受野,有幾項工作探索了具有小感受野的convnet架構(gòu)臊诊。例如鸽粉,VGG模型[52]使用3×3卷積,以及更高版本的其他體系結(jié)構(gòu)抓艳,如ResNext[63]或exception[11]mix1×1和3×3個卷積触机。與convnets不同的是,在我們的模型中玷或,補丁之間的交互是通過一個在通道間共享的線性層獲得的儡首,它依賴于絕對位置而不是相對位置。
最近偏友,變形金剛已經(jīng)成為一種很有前途的計算機視覺架構(gòu)[10蔬胯,17,46位他,56氛濒,67]产场。特別是,我們的架構(gòu)從Vision Transformer(ViT)[17]中使用的結(jié)構(gòu)中獲得靈感泼橘,因此共享許多組件涝动。該模型以一組互不重疊的斑塊作為輸入,通過一系列與ViT結(jié)構(gòu)相同的MLP層炬灭,用一個線性斑塊交互層代替自注意層。與卷積層不同靡菇,這兩層都具有全局視野重归。而在自注意中,通過查詢和鍵來聚集來自其他補丁的信息的權(quán)重是數(shù)據(jù)相關(guān)的厦凤,而在ResMLP中鼻吮,權(quán)重不是數(shù)據(jù)相關(guān)的,僅基于補丁的絕對位置较鼓。在我們的實現(xiàn)中椎木,我們遵循DeiT[56]的改進來訓(xùn)練視覺變換器,使用resnet[23]的跳過連接博烂,并對層進行預(yù)規(guī)范化[9香椎,24]。
最后禽篱,我們的工作對現(xiàn)有架構(gòu)中自關(guān)注的重要性提出了質(zhì)疑畜伐。在自然語言處理中也有類似的觀察結(jié)果。值得注意的是躺率,合成器[54]表明玛界,點積自注意可以被前饋網(wǎng)絡(luò)所取代,在句子表示基準(zhǔn)上具有競爭力悼吱。與我們的工作相反慎框,合成器確實使用依賴于數(shù)據(jù)的權(quán)重,但與轉(zhuǎn)換器不同的是后添,權(quán)重僅從查詢中確定笨枯。
5結(jié)論
在本文中,我們證明了一個簡單的殘差結(jié)構(gòu)吕朵,其殘差塊由一個隱層前饋網(wǎng)絡(luò)和一個線性面片交互層組成猎醇,在ImageNet分類基準(zhǔn)上獲得了出乎意料的高性能,前提是我們采用現(xiàn)代培訓(xùn)策略努溃,例如最近為基于Transformer的體系結(jié)構(gòu)引入的策略硫嘶。由于它們的結(jié)構(gòu)簡單,以線性層作為主要的通信手段梧税,我們可以將通過這個簡單的MLP學(xué)習(xí)的濾波器可視化沦疾。雖然其中一些層類似于卷積濾波器称近,但我們早在網(wǎng)絡(luò)的第二層就觀察到稀疏的長程相互作用。我們希望我們的無空間先驗?zāi)P陀兄谶M一步了解先驗較少的網(wǎng)絡(luò)學(xué)習(xí)什么哮塞,并有可能指導(dǎo)未來網(wǎng)絡(luò)的設(shè)計選擇刨秆,而不是大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)所采用的金字塔設(shè)計。
關(guān)于我們探索階段的報告
正如本文所討論的忆畅,我們設(shè)計一個剩余多層感知器的工作受到了視覺變換器的啟發(fā)衡未。對于我們的探索,我們采用了最近的CaiT變體[57]作為起點家凯。這種基于轉(zhuǎn)換器的體系結(jié)構(gòu)僅在Imagenettraining上實現(xiàn)了性能狀態(tài)(對于最佳模型缓醋,在Imagenet val上實現(xiàn)了86.5%的top-1精度)。最重要的是绊诲,隨著訓(xùn)練深度的增加送粱,訓(xùn)練相對穩(wěn)定。
在我們的探索階段掂之,我們的目標(biāo)是從根本上簡化這個模型抗俄。為此,我們考慮了更快迭代的Cait-S24模型世舰。這個網(wǎng)絡(luò)由24層組成动雹,工作尺寸為384。我們下面的所有實驗都是用分辨率為224的圖像進行的×224和N=16× 16個補丁冯乘。經(jīng)過定期監(jiān)督培訓(xùn)洽胶,Cait-S24在Imagenet上獲得82.7%的前1名。
SA→ MLP裆馒。
這種自關(guān)注可以看作是一個權(quán)值發(fā)生器姊氓,對值進行線性變換。因此喷好,我們的第一個設(shè)計修改是用一個殘差前饋網(wǎng)絡(luò)來代替自注意翔横,該網(wǎng)絡(luò)以轉(zhuǎn)置的面片集而不是面片集作為輸入。換句話說梗搅,在這種情況下禾唁,我們將沿通道維度操作的剩余塊與沿面片維度操作的一些塊交替使用。在這種情況下无切,MLP代替了自注意荡短,它由一系列操作組成
因此這個網(wǎng)絡(luò)在N和d上是對稱的。通過保持其他元素與CaiT相同哆键,當(dāng)替換自注意層時掘托,準(zhǔn)確率下降到80.2%(-2.5%)。
全班注意→ MLP類籍嘹。
如果我們進一步用MLP代替CaiT的類注意層闪盔,那么我們得到的無注意網(wǎng)絡(luò)在Imagenetval上的top-1準(zhǔn)確率為79.2%弯院,與采用現(xiàn)代訓(xùn)練策略訓(xùn)練的ResNet-50相當(dāng)。這個網(wǎng)絡(luò)已經(jīng)成為我們后續(xù)燒蝕的基線泪掀。注意听绳,在這個階段,我們?nèi)匀话↙ayerScale异赫、類嵌入(在類MLP階段)和位置編碼椅挣。
蒸餾。
受Touvron等人[56]啟發(fā)祝辣,用蒸餾法訓(xùn)練的同一模型達到81.5%贴妻。我們選擇的蒸餾變量對應(yīng)于“硬蒸餾”,其主要優(yōu)點是與香草交叉熵相比蝙斜,它不需要任何參數(shù)調(diào)整。請注意澎胡,在我們所有的實驗中孕荠,這種蒸餾方法似乎帶來了一個增益,這是互補的攻谁,似乎幾乎正交于其他修改稚伍。
激活:圖層窗體→ 十。
我們在上述基于MLP的基線上嘗試了不同的激活戚宦,并保持了GeLU的準(zhǔn)確性和與Transformer選擇的一致性个曙。
消融對通信MLP大小的影響。
對于取代課堂注意力的MLP受楼,我們通過調(diào)整擴展因子e垦搬,探索了不同大小的潛在層:線性N× e× N-格魯-線性e× N× N。在這個實驗中艳汽,我們使用平均池來聚集分類層之前的補丁猴贰。
我們觀察到在貼片通信中大的擴展因子是有害的,可能是因為我們不應(yīng)該在這個剩余塊中引入太多的容量河狐。這促使人們選擇采用尺寸為N的簡單線性層× N:在與上表相當(dāng)?shù)脑O(shè)置下米绕,這隨后將性能提高到79.5%。此外馋艺,如前所示栅干,此選項允許可視化補丁之間的交互。
正尘桁簦化碱鳞。
在我們的MLP基線之上,我們測試了標(biāo)準(zhǔn)化層的不同變體雏赦。我們在下面報告性能的變化劫笙。
為了簡單起見芙扎,我們因此只采用Aff變換,以便不依賴于任何批處理或通道統(tǒng)計填大。
位置編碼戒洼。
在我們的實驗中,當(dāng)使用MLP或簡單線性層作為跨貼片嵌入的通信平均值時允华,移除位置編碼不會改變結(jié)果圈浇。考慮到線性層隱式地將每個面片標(biāo)識編碼為維度之一靴寂,并且另外線性層包括使得能夠在共享線性層之前區(qū)分面片位置的偏置磷蜀,這并不奇怪。
12層網(wǎng)絡(luò)中交互層的分析
在本節(jié)中百炬,我們將進一步分析12層模型中的線性交互層褐隆。
在圖B.1中,我們考慮了在ImageNet-1k數(shù)據(jù)集上訓(xùn)練的ResMLP-S12模型剖踊,如第3.1節(jié)所述庶弃,并顯示了所有12個線性面片交互層。有監(jiān)督的12層模型中的線性交互層與圖2中24層模型中觀察到的類似德澈。
我們還在圖B.2中為該模型提供了相應(yīng)的稀疏度測量值歇攻,類似于圖3中為監(jiān)督24層模型提供的測量值。監(jiān)督12層模型(左面板)中的稀疏度水平與監(jiān)督24層模型中觀察到的稀疏度水平相似梆造,參見圖3缴守。在圖B.2的右面板中,我們考慮了蒸餾12層模型的稀疏度水平镇辉,其總體上與監(jiān)督12層和24層模型中觀察到的稀疏度水平相似屡穗。
D附加燒蝕
訓(xùn)練配方。
DeiT[56]提出了一種訓(xùn)練策略摊聋,只允許在ImageNet上使用數(shù)據(jù)高效的視覺變換器鸡捐。在表D.1中,我們燒蝕了神明訓(xùn)練的每個部分麻裁,回到最初的ResNet50訓(xùn)練箍镜。正如預(yù)期的那樣,ResNet-50論文[23]中使用的訓(xùn)練會降低性能煎源。
培訓(xùn)時間表色迂。
表D.2根據(jù)訓(xùn)練次數(shù)比較了ResMLP-S36的性能。我們觀察到ResMLP在800個周期后的性能飽和手销。這種飽和現(xiàn)象在400個時代的神身上觀察到歇僧。所以ResMLP需要更多的時間來達到最優(yōu)。
共享層。
表D.3比較了兩種池化層的性能:平均池化層和MLP級池化層诈悍,不同深度的蒸餾和不蒸餾祸轮。我們可以看到,類MLP通過只改變幾個flop和參數(shù)的數(shù)量侥钳,比平均池的性能要好得多适袜。然而,這兩種方法之間的差距似乎隨著模型的深入而縮小舷夺。