Pay Attention to MLPs
https://arxiv.org/abs/2105.08050????????????????https://hub.fastgit.org/lucidrains/g-mlp-pytorch
Hanxiao Liu,Zihang Dai,David R. So,Quoc V. Le
Transformers已經(jīng)成為深度學(xué)習(xí)中最重要的架構(gòu)創(chuàng)新之一,并在過去幾年中實(shí)現(xiàn)了許多突破幢踏。在這里挟冠,我們提出了一個(gè)簡(jiǎn)單的無注意網(wǎng)絡(luò)結(jié)構(gòu)gMLP衰齐,它完全基于帶選通(gating)的MLPs,并且證明了它在關(guān)鍵的語言和視覺應(yīng)用中的性能知给。我們的比較表明渺杉,自注意力對(duì)Visual Transformer來說并不重要,因?yàn)間MLP可以達(dá)到同樣的精確度鹦倚。對(duì)于BERT,我們的模型在預(yù)訓(xùn)練的復(fù)雜度上達(dá)到了與Transformer等價(jià)的水平冀惭,并且在一些下游任務(wù)上效果更好震叙。在gMLP性能較差的微調(diào)任務(wù)中,使gMLP模型大得多就可以縮小與Transformer的差距散休。一般來說媒楼,我們的實(shí)驗(yàn)表明,gMLP可以隨著數(shù)據(jù)和計(jì)算量的增加而擴(kuò)展戚丸。
1.引言
Transformers[1]在自然語言處理方面取得了許多突破(例如[2,3,4,5,6])划址,并被證明能很好地用于計(jì)算機(jī)視覺(例如[7,8,9,10])。由于這一成功限府,Transformers在很大程度上取代了LSTM-RNN[11]夺颤,成為NLP中的默認(rèn)體系結(jié)構(gòu),并成為計(jì)算機(jī)視覺中ConvNets[12胁勺、13世澜、14、15署穗、16]的一個(gè)有吸引力的替代方案寥裂。
Transformers體系結(jié)構(gòu)結(jié)合了兩個(gè)重要的概念:(1)沒有使用遞歸結(jié)構(gòu),而是并行計(jì)算每個(gè)token的表示蛇捌,以及(2)聚合token間空間信息的多頭自注意力塊抚恒。一方面,注意機(jī)制[17]引入了歸納偏置络拌,即模型可以基于輸入表示動(dòng)態(tài)地參數(shù)化(the inductive bias that the model can be dynamically parameterized based on the input representations)。另一方面回溺,已知具有靜態(tài)參數(shù)化的MLP可以表示任意函數(shù)[18]春贸。因此混萝,自注意力中的歸納偏置是否對(duì)Transformer的顯著有效性至關(guān)重要,仍然是一個(gè)懸而未決的問題萍恕。
在這里逸嘀,我們研究了自注意力模塊在Transformer的關(guān)鍵語言和視覺應(yīng)用中的必要性,并提出了一種無注意允粤、基于MLP的Transformer替代方案崭倘,包括通道投影、空間投影和選通(圖1)类垫。我們對(duì)MLP類結(jié)構(gòu)的幾種設(shè)計(jì)選擇進(jìn)行了實(shí)驗(yàn)司光,發(fā)現(xiàn)當(dāng)空間投影是線性的并且與乘法選通配對(duì)時(shí),它們工作得很好(spatial projections work well when they are linear and paired with multiplicative gating)悉患。我們把這個(gè)模型命名為gMLP残家,因?yàn)樗怯苫镜腗LP層和選通構(gòu)成的。
我們將gMLP應(yīng)用于圖像分類售躁,在ImageNet上取得了很好的效果坞淮。在類似的訓(xùn)練設(shè)置中,gMLP實(shí)現(xiàn)了與DeiT[8]相當(dāng)?shù)男阅芘憬荩赐ㄟ^改進(jìn)正則化增強(qiáng)的視覺變換器(ViT)[7]回窘。在減少66%參數(shù)的情況下,gMLP模型比MLP-Mixer的精度高3%[19]市袖。與Tolstikhin等人[19]啡直、Melas Kyriazi[20]和Touvron等人[21]一起,我們的研究結(jié)果質(zhì)疑了視覺Transformer中自注意力層的必要性凌盯。
我們將gMLP應(yīng)用到BERT[2]設(shè)置中的屏蔽語言建模(MLM)中付枫,這是Transformer最成熟的應(yīng)用之一,并且發(fā)現(xiàn)它與Transformer一樣能夠在預(yù)訓(xùn)練最小化困惑度(perplexity)驰怎。我們的實(shí)驗(yàn)表明阐滩,困惑度(perplexity)只與模型容量相關(guān),對(duì)注意力的存在不敏感县忌。隨著容量的增加掂榔,我們觀察到gMLP的預(yù)訓(xùn)練和微調(diào)指標(biāo)的改善速度與Transformer一樣快。這是值得注意的症杏,因?yàn)樗砻鱣MLPs的規(guī)模和Transformer一樣好装获,盡管沒有自注意力,任何性能差距總是可以通過訓(xùn)練一個(gè)更大的模型并增加數(shù)據(jù)和計(jì)算來抵消厉颤。在標(biāo)準(zhǔn)的256批量大小穴豫、× 1M步的訓(xùn)練設(shè)置,和原來的BERT一樣,我們的MLP-like模型在MNLI上達(dá)到86.4%的準(zhǔn)確率精肃,在SQuAD v1.1上達(dá)到89.5%的F1秤涩。注意:這些結(jié)果與Devlin等人[2]報(bào)告的使用Transformer獲得的結(jié)果相當(dāng)。
對(duì)于BERT的微調(diào)司抱,Transformers在需要跨句對(duì)齊的任務(wù)上比gMLPs更具實(shí)際優(yōu)勢(shì)(例如筐眷,MNLI的優(yōu)勢(shì)為1.8%),即使容量和預(yù)訓(xùn)練的困惑度(perplexity)是相似的习柠。這個(gè)問題可以通過使gMLPs大很多來解決:3× as large as Transformers匀谣。一個(gè)更實(shí)際的解決方案是只混合一點(diǎn)點(diǎn)注意力——一個(gè)大小達(dá)128的單頭注意力足以使gMLPs在我們?cè)u(píng)估的所有NLP任務(wù)中都優(yōu)于Transformers,而且參數(shù)效率更高资溃。這種改進(jìn)有時(shí)非常顯著(例如武翎,在我們的實(shí)驗(yàn)中,在SQuAD v2.0上比Bertlave提高了4.4%)肉拓。
gMLPs的有效性后频、自注意力在視覺任務(wù)中益處的不足,以及在NLP中特定案例下才帶來益處暖途,使人們對(duì)跨域的注意力機(jī)制的必要性產(chǎn)生了質(zhì)疑卑惜。總的來說驻售,我們的研究結(jié)果表明露久,自注意力并不是擴(kuò)大(scaling up)機(jī)器學(xué)習(xí)模型的必要因素。隨著數(shù)據(jù)和計(jì)算量的增加欺栗,具有簡(jiǎn)單空間交互機(jī)制(如gMLP)的模型可以像Transformer一樣強(qiáng)大毫痕,分配給自注意力的容量(capacity)可以被移除或大大降低。
2 ????模型
我們的模型gMLP由一堆大小和結(jié)構(gòu)相同的個(gè)塊組成厂抽。讓為token表示需频,其序列長(zhǎng)度為,維度為筷凤。每個(gè)塊定義為
? ??
? ??
? ??
其中是一個(gè)激活函數(shù)昭殉,如GeLU[22]。和定義沿通道維度的線性投影-與Transformers中的FFN中的投影相同(例如,在BERTbase中饲化,它們的形狀為768× 3072和3072×768)莽鸭。為了簡(jiǎn)潔起見吗伤,跳連吃靠、歸一化和偏置項(xiàng)被省略。
上述公式中的一個(gè)關(guān)鍵成分是足淆,一個(gè)捕捉空間相互作用的層(見下文)巢块。當(dāng)s是恒等映射時(shí),上述轉(zhuǎn)換退化為常規(guī)FFN巧号,其獨(dú)立地處理單個(gè)token而不進(jìn)行任何token間的信息交互族奢。因此,我們的一個(gè)主要關(guān)注點(diǎn)是設(shè)計(jì)一個(gè)能夠捕獲token間復(fù)雜的空間交互的好的丹鸿。整個(gè)塊布局的靈感來源于inverted bottlenecks[23]越走,它將定義為空間深度卷積。注意靠欢,與Transformer不同廊敌,我們的模型不需要位置嵌入,因?yàn)檫@些信息將在中捕獲门怪。
我們的模型使用與BERT(用于NLP)和ViT(用于vision)完全相同的輸入和輸出格式骡澈。例如,當(dāng)對(duì)語言任務(wù)進(jìn)行微調(diào)時(shí)掷空,我們將多個(gè)分段拼接在一起肋殴,分段后面有padding,并且預(yù)測(cè)是從保留的<cls>符號(hào)的最后一層表示中推導(dǎo)出來的坦弟。盡管這些協(xié)議中有許多是為Transformers引入的护锤,因此對(duì)于gMLPs來說可能不是最優(yōu)的,但是嚴(yán)格遵循它們有助于避免實(shí)驗(yàn)中的混淆因素酿傍,并使我們的層與現(xiàn)有的Transformers實(shí)現(xiàn)更加兼容烙懦。
2.1 空間選通單元
為了實(shí)現(xiàn)token間的交互,層必須包含空間維度上的收縮操作拧粪。最簡(jiǎn)單的選擇是線性投影:
? ??
其中是一個(gè)矩陣修陡,其size與序列長(zhǎng)度相同,是一個(gè)偏置項(xiàng)可霎,它可以是一個(gè)矩陣魄鸦,也可以是一個(gè)標(biāo)量。例如癣朗,如果輸入序列具有128個(gè)tokens拾因,則空間投影矩陣的形狀將是128×128。在這項(xiàng)工作中,我們將空間交互單元定義為其輸入和空間變換輸入的乘積:
? ??
其中表示按元素乘法绢记。對(duì)于訓(xùn)練穩(wěn)定性扁达,我們發(fā)現(xiàn)將初始化為接近零值,將初始化為1是非常關(guān)鍵的蠢熄,這意味著公式中定義的在訓(xùn)練開始時(shí)近似為一個(gè)恒等映射跪解。這種初始化確保每個(gè)gMLP塊在訓(xùn)練的早期階段表現(xiàn)得像一個(gè)常規(guī)的FFN,其中每個(gè)token都是獨(dú)立處理的签孔,并且只是逐漸地注入token之間的空間信息叉讥。
乘法選通可被視為使用空間信號(hào)“調(diào)制”單個(gè)token表示的機(jī)制。換句話說饥追,中每個(gè)元素的大小(magnitude)可以根據(jù)選通函數(shù)快速調(diào)整图仓。
我們進(jìn)一步發(fā)現(xiàn),對(duì)于選通函數(shù)和乘法旁路但绕,沿著通道維度將分成兩個(gè)獨(dú)立部分是有效的救崔,這在GLUs中是典型的:
? ??
我們還歸一化了的輸入,這是經(jīng)驗(yàn)上提高了大型NLP模型的穩(wěn)定性捏顺。這樣我們就有了圖1所示的單元六孵,在本文的其余部分中我們稱之為空間選通單元(SGU)。在表3中草丧,我們提供了燒蝕研究來比較SGU和其他幾種的變體狸臣,表明它工作得更好,并縮小了與自注意力的表現(xiàn)差距昌执。
點(diǎn)評(píng)?? ? SGU的整體配方與門控線性單元(GLU)密切相關(guān)[24烛亦,25,26]懂拾。一個(gè)關(guān)鍵的區(qū)別是煤禽,我們的選通是基于空間維度(在不同的token之間)而不是通道維度(每個(gè)token)來計(jì)算的。在元素級(jí)乘法交互方面岖赋,它也類似于擠壓和激發(fā)塊[27]檬果,但SGU沒有做池化,而是允許可學(xué)習(xí)的空間變換唐断。SGU中的空間投影可以學(xué)習(xí)表示表面深度卷積(superficial depthwise convolutions)选脊。與典型的深度卷積不同(每個(gè)通道都有單獨(dú)的濾波核),SGU在各個(gè)通道上只學(xué)習(xí)一個(gè)共享的變換脸甘。最后恳啥,我們注意到SGU提供了一種除自注意力之外的另一種方法來捕捉高階關(guān)系。具體而言丹诀,公式的輸出包含高達(dá)二階的相互作用(up to 2nd-order interactions)钝的,例如翁垂,,而自注意力的輸出(假設(shè)沒有非線性)包含高達(dá)三階的相互作用(例如硝桩,)沿猜。在計(jì)算成本方面,SGU有乘加碗脊,與點(diǎn)積注意的相當(dāng)啼肩。兩者都相對(duì)于輸入通道是線性的,相對(duì)于序列長(zhǎng)度上是二次的望薄。(注釋1:SGU的輸入通道大小通常大于自注意力的輸入通道大小疟游,因?yàn)榍罢哂糜趬K中間通道擴(kuò)展后。)
3 ????圖像分類
本文將gMLP應(yīng)用到ImageNet上的圖像分類任務(wù)中痕支,不使用額外的數(shù)據(jù),研究了gMLP在視覺領(lǐng)域的應(yīng)用蛮原。我們將我們的無注意力模型與最近基于vanilla?Transformer的有注意模型進(jìn)行了比較卧须,包括視覺Transformer(ViT)[7]、DeiT[8](對(duì)ViT改進(jìn)正則化)以及其他幾種具有代表性的卷積網(wǎng)絡(luò)儒陨。
表1 總結(jié)了我們的gMLP圖像分類模型的配置花嘶。輸入和輸出協(xié)議遵循ViT/B16,其中原始圖像在網(wǎng)絡(luò)的柄(stem)被轉(zhuǎn)換為16×16個(gè)patches蹦漠。深度和寬度的選擇是使模型在容量上與ViT/DeiT相當(dāng)椭员。與Transformer一樣,我們發(fā)現(xiàn)gMLP傾向于大幅過度擬合訓(xùn)練數(shù)據(jù)笛园。因此隘击,我們采用了與DeiT中使用的正則化方法相似的正則化方法。為了避免廣泛的調(diào)整研铆,當(dāng)我們從表1中的較小模型移動(dòng)到較大模型時(shí)埋同,我們僅調(diào)整隨機(jī)深度的強(qiáng)度[28]。所有其他超參數(shù)在我們的三個(gè)模型中保持共享棵红。詳見附錄A.1凶赁。(注釋2:與DeiT不同,我們不使用repeated augmentation或random erasing逆甜。)
我們的ImageNet結(jié)果總結(jié)在表2和圖2中交煞。有趣的是咏窿,gMLPs與DeiT[8](即使用改進(jìn)正則化訓(xùn)練的ViT[7])相當(dāng)。結(jié)果表明错敢,無注意力模型可以像Transformer一樣有效地進(jìn)行圖像分類翰灾。事實(shí)上缕粹,當(dāng)模型被適當(dāng)?shù)卣齽t化時(shí),它們的準(zhǔn)確度似乎與模型容量有更好的相關(guān)性纸淮,而不像之前的注意力機(jī)制一樣平斩。此外,gMLPs的精度參數(shù)/FLOPs權(quán)衡超過了所有同時(shí)提出的類似MLP的架構(gòu)[19咽块,20绘面,21],我們將其歸因于我們的空間選通單元的有效性(見下一節(jié)中的表3)侈沪。我們還注意到揭璃,雖然gMLPs與vanilla?Transformers相比具有競(jìng)爭(zhēng)力,但它們的性能落后于現(xiàn)有最好的ConvNet模型(如[29亭罪,30])或混合型注意力模型(如[31瘦馍,10,32应役,33])情组。(筆者注:[29]是NFNet,[30]是EfficientNetV2箩祥,[31]是LambdaNetworks院崇,[10]是Hierarchical vision transformer using shifted windows,[32]是HaloNets袍祖,[33]是Bottleneck transformers for visual recognition)
圖3顯示了gMLP-B中的空間投影矩陣底瓣。值得注意的是,學(xué)習(xí)后的空間權(quán)值具有局部性和空間不變性(locality and spatial invariance)蕉陋。換句話說捐凭,每個(gè)空間投影矩陣有效地學(xué)習(xí)到去執(zhí)行卷積,該卷積是數(shù)據(jù)驅(qū)動(dòng)的寺滚,核形狀是不規(guī)則的(非方形)(perform convolution with a data-driven, irregular (non-square) kernel shape)
4 用BERT進(jìn)行屏蔽語言建模
本文對(duì)屏蔽語言建模任務(wù)進(jìn)行了實(shí)證研究村视。預(yù)訓(xùn)練和微調(diào)的輸入/輸出格式按照BERT[2]官套。與基于Transformer的模型不同,我們不使用位置編碼蚁孔。我們還發(fā)現(xiàn)奶赔,在微調(diào)過程中,沒有必要掩蓋gMLP塊中的<pad>杠氢,因?yàn)槟P涂梢院芸鞂W(xué)會(huì)忽略它們站刑。對(duì)于燒蝕和案例研究,所有模型都以批量2048訓(xùn)練鼻百,最大長(zhǎng)度為128绞旅,在C4的RealNews類子集上執(zhí)行125K步[5]摆尝。對(duì)于主要結(jié)果,使用批量大小為256因悲、最大長(zhǎng)度為512的模型在完整的英語C4數(shù)據(jù)集上進(jìn)行1M步的訓(xùn)練堕汞。詳見附錄A.2。
對(duì)于MLM任務(wù)晃琳,平移不變性是一個(gè)理想的屬性讯检,因?yàn)檩斎胄蛄械娜魏纹贫疾粦?yīng)影響slot filling結(jié)果。這個(gè)性質(zhì)意味著Toeplitz空間權(quán)重矩陣W卫旱。我們?cè)贛LM實(shí)驗(yàn)中采用了這個(gè)約束人灼,因?yàn)樗鼫p少了模型參數(shù),并且在經(jīng)驗(yàn)上對(duì)質(zhì)量或效率的影響可以忽略不計(jì)顾翼。(注釋3:這是因?yàn)榧词箾]有這個(gè)約束投放,gMLP也將學(xué)習(xí)移位不變性(附錄C中的圖9)。)在這種情況下暴构,類似于寬的深度卷積跪呈,其感受野覆蓋整個(gè)序列。然而她肯,與深度卷積在每個(gè)通道都有專門的卷積核不同梢褐,我們只學(xué)習(xí)通道間共享的單個(gè)。
4.1 ????消融:gMLP門控對(duì)BERT預(yù)訓(xùn)練的重要性
在下面的表3中,我們?yōu)橄谘芯拷⒘嘶€滑潘。其中包括:
—— 具有Transformer結(jié)構(gòu)和可學(xué)習(xí)的絕對(duì)位置嵌入的BERT。
—— 具有Transformer結(jié)構(gòu)和T5風(fēng)格的可學(xué)習(xí)相對(duì)位置偏置的BERT[5]梨州。每個(gè)層和每個(gè)頭都有專門的偏置(也即不共享)蛛碌,因?yàn)槲覀儼l(fā)現(xiàn)這會(huì)產(chǎn)生最好的結(jié)果。
—— 和上面的一樣寻定,不過我們移除softmax里所有的content-dependent項(xiàng)儒洛,只保留relative positional biases,這個(gè)基線是值得關(guān)注的狼速,因?yàn)槠淇杀豢醋鍪荰ransformers的一種直接的無注意力的變體琅锻,也可以被看做是一種Synthesizer[35]。
表3中向胡,我們將這些基線與具有相似大小的幾個(gè)版本的gMLPs進(jìn)行比較恼蓬。請(qǐng)注意,Multiplicative, Split (最后一行)是我們?cè)诜椒且还?jié)中描述的空間選通單元僵芹,并在本文的其余部分中使用处硬。首先,SGU在困惑度(perplexity)方面優(yōu)于其他變體拇派。其次荷辕,值得注意的是凿跳,帶SGU的gMLP也達(dá)到了類似于Transformer的困惑度(perplexity)。請(qǐng)注意疮方,當(dāng)模型被縮放時(shí)控嗜,最強(qiáng)基線(困惑度(perplexity)度=4.26)和我們的基線(困惑度(perplexity)度=4.35)之間的差異是不顯著的,relative to the perplexity change when the models are scaled(見下一節(jié)中的表4)案站。gMLPs學(xué)習(xí)的空間投影權(quán)重如圖4所示躬审。
4.2 案例研究:gMLP隨模型增大的表現(xiàn)
在表4中,我們研究了BERT中Transformer和gMLP的縮放特性隨模型容量的增長(zhǎng)蟆盐。具體來說承边,我們將這些模型的深度按{0.5,1石挂,2博助,4}的因子進(jìn)行縮放,并在GLUE[36]中報(bào)告他們?cè)陬A(yù)訓(xùn)練對(duì)驗(yàn)證集的困惑度以及對(duì)兩個(gè)任務(wù)的開發(fā)集的微調(diào)結(jié)果痹愚。注:每個(gè)Transformer層實(shí)際上是兩個(gè)連續(xù)的塊:一個(gè)用于自注意力富岳,另一個(gè)用于FFN。在下表中拯腮,我們使用12+12表示Transformer基線中的12個(gè)注意塊加上12個(gè)FFN塊窖式。
以上結(jié)果表明,足夠深的gMLP能夠匹配甚至優(yōu)于容量相當(dāng)?shù)腡ransformer的復(fù)雜度动壤。(注釋4:我們還試驗(yàn)了deeper-and-thinner Transformers (with capacity fixed)萝喘,但發(fā)現(xiàn)進(jìn)一步增加深度并不能改善困惑。詳見附錄B琼懊。)此外阁簸,兩種結(jié)構(gòu)族的復(fù)雜度參數(shù)關(guān)系近似遵循冪律(power law)(圖5左側(cè))。這意味著最初為基于Transformer語言模型觀察到的經(jīng)驗(yàn)上的縮放規(guī)律[37 Scaling laws for neural language models哼丈,2020]可能廣泛適用于不同的模型族启妹。
表4還導(dǎo)致了一個(gè)有趣的觀察結(jié)果,即不同模型族的預(yù)訓(xùn)練困惑度(perplexity)在微調(diào)方面并不相等醉旦。雖然gMLPs在SST-2上的性能優(yōu)于Transformer饶米,但在MNLI上的性能較差。結(jié)果表明髓抑,NLP任務(wù)的微調(diào)性能不僅與結(jié)構(gòu)中的復(fù)雜度有關(guān)咙崎,而且與結(jié)構(gòu)中的歸納偏置有關(guān)。圖5顯示吨拍,盡管預(yù)訓(xùn)練和微調(diào)之間存在特定于體系結(jié)構(gòu)的差異褪猛,但gMLPs和Transformers在這兩個(gè)微調(diào)任務(wù)上表現(xiàn)出可比較的可伸縮性(slope)。這意味著人們總是可以通過擴(kuò)大模型容量來彌補(bǔ)差距羹饰。換句話說伊滋,研究結(jié)果表明碳却,模型相對(duì)于下游指標(biāo)的可伸縮性可以獨(dú)立于自注意力的存在。
4.3????消融: 微小的注意力在BERT的微調(diào)中的作用
到目前為止笑旺,我們已經(jīng)發(fā)現(xiàn)昼浦,要實(shí)現(xiàn)強(qiáng)大的MLM困惑度(perplexity)或可擴(kuò)展性,自注意力不是一個(gè)必要的組成部分筒主。同時(shí)关噪,我們還確定了NLP微調(diào)任務(wù),其中g(shù)MLP遷移不如Transformer(表4)乌妙。我們的無注意模型對(duì)SST-2有利使兔,但對(duì)MNLI不利,這一事實(shí)尤其具有信息價(jià)值藤韵,前者是一個(gè)單句任務(wù)虐沥,而后者涉及句子對(duì)(前提和假設(shè))[38]。我們懷疑自注意力在微調(diào)過程中的作用與跨句對(duì)齊有關(guān)泽艘。
為了分離注意的影響欲险,我們用一個(gè)混合模型進(jìn)行了實(shí)驗(yàn),在這個(gè)模型中匹涮,一個(gè)微小的自注意力塊附著在gMLP的門控功能上(圖6)天试。由于gMLP本身已經(jīng)能夠捕捉空間關(guān)系,我們假設(shè)這個(gè)額外的注意模塊不一定很多參數(shù)然低,而且它的存在比它的能力更相關(guān)秋秤。在我們的實(shí)驗(yàn)中,一個(gè)典型的微小注意模塊只有一個(gè)大小為64的單頭脚翘,明顯小于Transformer中一個(gè)典型的多頭注意模塊(12頭,總大小為768)绍哎。下面来农,我們將混合模型,即具有微小注意的gMLP稱為aMLP(“a”表示注意)崇堰。
在圖7中海诲,我們通過MLM模型的預(yù)訓(xùn)練困惑度(perplexity)和微調(diào)指標(biāo)之間的校準(zhǔn)圖研究了MLM模型的可遷移性繁莹。評(píng)估的模型包括BERT base、gMLP及其混合版本的aMLP和64-d單頭注意(圖6)特幔。通過改變模型深度{0.5,1,2}×或數(shù)據(jù){1咨演,2,4蚯斯,8}×來收集數(shù)據(jù)點(diǎn)薄风《希可以看出,無論注意的存在與否遭赂,gMLP對(duì)SST-2的遷移都比Transformer好循诉,而gMLP對(duì)MNLI的轉(zhuǎn)移效果更差,附加一點(diǎn)點(diǎn)注意力就足以彌補(bǔ)這一差距撇他。在附錄D中茄猫,我們將aMLP中的微小注意模塊可視化,顯示它們主要負(fù)責(zé)句子對(duì)之間的對(duì)齊困肩。
在圖8中划纽,我們將三個(gè)模型的縮放特性放在一起,顯示了aMLP(gMLP+tiny attention)在兩個(gè)微調(diào)任務(wù)上始終優(yōu)于Transformer僻弹。
4.4 BERT設(shè)置下的MLM主要結(jié)果
下面我們將在完整的BERT設(shè)置中呈現(xiàn)預(yù)訓(xùn)練和微調(diào)結(jié)果。不同于消融和案例研究翰铡,這里我們使用全英文C4數(shù)據(jù)集钝域,并采用一個(gè)通用的MLM設(shè)置,批量大小256锭魔,最大長(zhǎng)度512和1M的訓(xùn)練步驟例证。為了公平比較,我們調(diào)整了gMLPs的深度和寬度迷捧,以確保模型容量與Transformer基線相當(dāng)织咧。模型規(guī)格見表5,超參數(shù)詳情見附錄A.2漠秋。對(duì)于微調(diào)笙蒙,我們?cè)贕LUE[36]中報(bào)告了SST-2和MNLI的dev set性能,每個(gè)結(jié)果條目都是通過取五次獨(dú)立運(yùn)行的中位數(shù)獲得的庆锦。此外捅位,我們還報(bào)告了[39,40]團(tuán)隊(duì)在SQuAD微調(diào)結(jié)果,以測(cè)試模型在更長(zhǎng)時(shí)間內(nèi)的推理能力。
結(jié)果如表6所示绿渣。與我們之前在第4.1節(jié)和第4.2節(jié)中的研究結(jié)果一致朝群,gMLP在復(fù)雜性方面與Transformer具有競(jìng)爭(zhēng)力,尤其是在更大規(guī)模的設(shè)置中中符。有幾個(gè)觀察結(jié)果與微調(diào)結(jié)果有關(guān):
首先姜胖,在gMLP性能不如Transformer的微調(diào)任務(wù)中,隨著模型容量的增加淀散,性能差距趨于縮小右莱。例如,在基本量表中档插,gMLP在SQuAD-v2.0上的表現(xiàn)較差8.5%慢蜓,而在更大的量表中,相對(duì)于基線的表現(xiàn)差距降低到2.7%郭膛。值得注意的是晨抡,我們的gMLPlarge在SQuAD-v1.1上實(shí)現(xiàn)了89.5%的F1,沒有任何注意或動(dòng)態(tài)參數(shù)化機(jī)制[26]则剃,這遠(yuǎn)遠(yuǎn)高于Devlin等人[2]中報(bào)道的BERTbase的88.5%耘柱,與BERT large的原始結(jié)果僅相差1.4%。雖然這顯然不是一個(gè)公平的比較棍现,由于不同的訓(xùn)練設(shè)置调煎,它可以被視為一個(gè)存在的證據(jù),證明即使沒有注意力己肮,MLP樣模型可以在具有挑戰(zhàn)性的下游NLP任務(wù)中有競(jìng)爭(zhēng)力士袄。
此外,我們還表明谎僻,在一個(gè)64或128大小的微小的單頭注意力的混合結(jié)構(gòu)娄柳,足以使gMLPs優(yōu)于容量相似的Transformer,有時(shí)甚至有很大的優(yōu)勢(shì)艘绍。例如西土,我們的混合模型aMLP large在更困難的SQuAD-v2.0任務(wù)中實(shí)現(xiàn)了比Transformer高4.4%的F1。結(jié)果表明鞍盗,Transformer多頭自注意力的容量可以大量冗余,其大部分功能可以被gMLPs中的空間選通單元捕獲跳昼。結(jié)果還表明般甲,gMLPs的空間門控單元中的歸納偏置與微小注意是互補(bǔ)的。雖然隨著計(jì)算量的增加鹅颊,體系結(jié)構(gòu)歸納偏置的好處可能會(huì)消失敷存,但在我們?cè)诒狙芯恐兴芯康念I(lǐng)域中,微小的自注意力確實(shí)提高了gMLPs的實(shí)用價(jià)值。
5 結(jié)論
自從Vaswani等人的開創(chuàng)性工作[1]以來锚烦,Transformer已經(jīng)被廣泛應(yīng)用于NLP和計(jì)算機(jī)視覺領(lǐng)域觅闽。這種采用使許多令人印象深刻的結(jié)果,特別是在自然語言處理涮俄。到目前為止蛉拙,還不清楚是什么賦予了這樣的成功:是Transformer的前饋性質(zhì),還是Transformer中的多頭自注意力層彻亲?
我們的工作深入研究了這個(gè)問題孕锄,并表明我們通常不需要太多的注意力機(jī)制。我們證明了gMLPs苞尝,一個(gè)簡(jiǎn)單的帶選通的MLPs變體畸肆,可以在BERT的預(yù)訓(xùn)練困惑度(perplexity)和ViT的準(zhǔn)確性方面與Transformers競(jìng)爭(zhēng)。增加數(shù)據(jù)和計(jì)算量宙址,gMLP在可擴(kuò)展性方面(scalability)也可以與Transformers進(jìn)行比較轴脐。至于BERT微調(diào),我們發(fā)現(xiàn)沒有注意力的gMLPs可以在SQuAD等具有挑戰(zhàn)性的任務(wù)上取得吸引人的效果抡砂,并且在某些情況下可以顯著優(yōu)于Transformers大咱。我們還發(fā)現(xiàn),Transformer的多頭自注意力歸納偏置有用的下游任務(wù)舀患,需要跨句子對(duì)齊徽级。然而,在這些情況下聊浅,使gMLP大得多會(huì)縮小與Transformer的差距餐抢。更實(shí)際的是,將一點(diǎn)點(diǎn)的單頭注意力混合到gMLP中低匙,可以獲得更好的體系結(jié)構(gòu)旷痕,而不需要增加模型的大小。
We thank Gabriel Bender, Neil Houlsby, Thang Luong, Niki Parmar, Hieu Pham, Noam Shazeer, Ilya Sutskever, Jakob Uszkoreit and Ashish Vaswani for their feedback to the paper.
附錄
A? ? 超參
A.1 圖片分類
A.2 屏蔽語言建模
B 深而窄的Transformers
C MLM的平移不變性
D? ? 微小注意力的可視化
在這里顽冶,我們?cè)贛NLI-m上進(jìn)行微調(diào)后欺抗,將aMLP中微小注意模塊的注意圖可視化。下面熱圖中的每個(gè)元素表示在網(wǎng)絡(luò)的前半部分期間接收到的相應(yīng)令牌對(duì)的最大關(guān)注權(quán)重强重。
https://openreview.net/forum?id=KBnXrODoBW
Paper Decision
NeurIPS 2021會(huì)議Program Chairs
Program Chairs28的決定2021 9月28日所有人
決定:接受(海報(bào))
備注:
本文介紹了一種基于MLP的門控模型(gMLP)绞呈,該模型可獲得與Transformer相當(dāng)?shù)男阅埽砻髯宰⒁鈱?duì)這些模型的成功并不重要间景。雖然對(duì)所提議的方法的局限性提出了多種擔(dān)憂佃声,但所有四位評(píng)審員都贊賞論文中報(bào)告的強(qiáng)有力的實(shí)證結(jié)果,并建議接受倘要。AC同意這一決定圾亏,并要求作者在最終版本中添加反駁中提供的討論和其他信息,并更清楚地描述擬議方法的局限性。
審查員GiR7對(duì)Paper7105的正式審查
NeurIPS 2021會(huì)議論文7105評(píng)審員GiR7
Paper7105審核人GiR721 2021 7月正式審核所有人
總結(jié):
本文提出了一種基于MLP的模型志鹃,該模型在視覺任務(wù)和語言建模方面的性能與transformers相當(dāng)夭问。雖然這種基于MLP的模型在自然語言理解任務(wù)(如MNLI)上的表現(xiàn)稍差,但引入一個(gè)小的單頭自注意模塊可以彌補(bǔ)大部分性能損失曹铃。與并行工程中引入的其他基于MLP的模型相比缰趋,該模型在空間投影之前使用了選通模塊。就性能而言铛只,該方法在視覺和語言建模任務(wù)上比并行MLP變體MLP混合器更強(qiáng)埠胖,顯示了所提出的選通方法的優(yōu)勢(shì)
總的來說,我發(fā)現(xiàn)所提出的方法很有趣淳玩,而且經(jīng)驗(yàn)性很強(qiáng)直撤。我傾向于接受,但也希望作者在理解提議的模型方面做了更多的工作蜕着。我提出一些建議谋竖,下面有一些問題。
主要審查:
贊成的意見
實(shí)證表現(xiàn)強(qiáng)勁
該模型將選通機(jī)制與僅MLP模型相結(jié)合承匣,具有新穎性蓖乘。
提交的材料寫得很好,很清楚韧骗。
缺點(diǎn)/問題
提交的文件非常注意所提出方法的實(shí)證性能嘉抒。這是可以理解的,但我也希望作者做了更多的分析工作袍暴,以了解所提出的方法些侍。以下是一些建議:
學(xué)習(xí)動(dòng)力學(xué):所提出的方法在收斂行為方面是否與transformers明顯不同?
數(shù)據(jù)效率:transformers和gMLP在數(shù)據(jù)效率方面是否存在權(quán)衡政模?例如岗宣,當(dāng)我們添加更多的訓(xùn)練數(shù)據(jù)時(shí),gMLP相對(duì)于transformer的性能是更好還是更差淋样?
作者是否可以證明gMLP的計(jì)算優(yōu)勢(shì)耗式?所提出的方法推理速度更快還是gMLP節(jié)省了GPU內(nèi)存?
注意機(jī)制對(duì)于跨句理解任務(wù)尤為重要趁猴,這一事實(shí)非常有趣刊咳。我想知道作者是否能識(shí)別出學(xué)習(xí)到的單頭注意力的任何模式±芩荆或者芦缰,作者能否就注意力機(jī)制的作用進(jìn)行更多的討論?
限制和社會(huì)影響:
我認(rèn)為這項(xiàng)工作不會(huì)對(duì)社會(huì)產(chǎn)生任何負(fù)面影響枫慷。
道德問題:
我對(duì)這項(xiàng)工作沒有任何道德問題。
需要倫理審查:否
道德審查領(lǐng)域:我不知道
花在復(fù)習(xí)上的時(shí)間:6
評(píng)分:6:略高于驗(yàn)收閾值
自信:4:你對(duì)自己的評(píng)估有信心,但不是絕對(duì)肯定或听。您不太可能(但并非不可能)不理解提交文件的某些部分探孝,或者不熟悉某些相關(guān)工作。
行為準(zhǔn)則:在履行審查員職責(zé)(包括撰寫評(píng)論和參與討論)時(shí)誉裆,我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則顿颅。
作者回應(yīng):
備注:
感謝您的評(píng)論和問題。
學(xué)習(xí)動(dòng)力學(xué):所提出的方法在收斂行為方面是否與transformers明顯不同足丢?
對(duì)于蒙面語的預(yù)訓(xùn)練粱腻,它們的收斂速度一樣快。對(duì)于圖像分類斩跌,在ImageNet上可比較的訓(xùn)練設(shè)置下绍些,gMLP經(jīng)驗(yàn)收斂速度快于DeiT(ViT+正則化)。下面我們報(bào)告了各步驟的驗(yàn)證精度:
step-30K step-60K step-92K (end of training)
DeiT-B (87M params) 74.7 80.2 81.9
gMLP-B (73M params) 78.3 81.2 81.8
這與我們的主要發(fā)現(xiàn)一致耀鸦,即多頭自注意不是有效學(xué)習(xí)的必要組成部分柬批。我們將在修訂后的文件中包括更多的討論。
數(shù)據(jù)效率:transformers和gMLP在數(shù)據(jù)效率方面是否存在權(quán)衡袖订?
問得好氮帐。在圖5中,我們已經(jīng)表明洛姑,這兩個(gè)模型在增加的參數(shù)上的縮放效果相同上沐。下面我們進(jìn)一步說明,它們?cè)诳蓴U(kuò)展性方面與不斷增加的數(shù)據(jù)不相上下楞艾。
視覺效果:將訓(xùn)練集從ImageNet-1K擴(kuò)展到ImageNet-21K:
Model Training Data Inference Params (M) ImageNet-1K Top-1 (%)
ViT-B (+reg) ImageNet-1K 86 81.8
gMLP-B ImageNet-1K 73 81.6
ViT-B ImageNet-21K 86 84.6
gMLP-B ImageNet-21K 81 84.5
NLP results: enlarging the amount of training tokens by 16x on C4:
Training tokens Params (M) SST-2 MNLI-m
BERT-L 2K bsz x 125K steps 336 94.3 87.0
gMLP-L 2K bsz x 125K steps 365 94.8 86.2
BERT-L 8K bsz x 500K steps 336 95.3 88.9
gMLP-L 8K bsz x 500K steps 365 96.1 88.0
作者是否可以證明gMLP的計(jì)算優(yōu)勢(shì)参咙?
gMLPs有幾個(gè)潛在的計(jì)算優(yōu)勢(shì),我們?cè)趯?shí)現(xiàn)中沒有利用這些優(yōu)勢(shì)产徊。例如昂勒,當(dāng)矩陣為Toeplitz(根據(jù)經(jīng)驗(yàn),情況似乎是L142-149)時(shí)舟铜,理論上可以通過快速傅立葉變換(FFT)在O(n log(n))MAdds中執(zhí)行g(shù)MLPs中的每個(gè)空間投影戈盈。這比Transformer使用O(n^2)MAdds的多頭自注意要好,尤其是對(duì)于長(zhǎng)輸入序列谆刨。gMLPs的簡(jiǎn)單性也使其適合于模型并行塘娶,而Transformer的多頭自注意模塊很難在工作人員之間有效地進(jìn)行分區(qū)。
我想知道作者是否能識(shí)別出學(xué)習(xí)到的單頭注意力的任何模式痊夭〉蟀叮或者,作者能否就注意力機(jī)制的作用進(jìn)行更多的討論她我?
請(qǐng)參考附錄E了解單頭注意的可視化虹曙。有強(qiáng)烈的跡象表明迫横,微小的注意力是在輸入句子對(duì)之間進(jìn)行表面對(duì)齊的——注意注意力矩陣的非對(duì)角線上的清晰條紋。
審查員5t8k對(duì)文件7105的正式審查
NeurIPS 2021會(huì)議論文7105審稿人5t8k
Paper7105審核人5t8k19 2021 7月正式審核所有人
總結(jié):
本文提出了一種基于MLPs的簡(jiǎn)單結(jié)構(gòu)酝碳,它只采用通道投影和帶有空間選通單元的空間投影矾踱。在圖像分類方面,本文提出的gMLP可以達(dá)到與DeiT和ViT相當(dāng)?shù)男阅苁杌⑶覂?yōu)于以前基于MLP的方法呛讲,如MLP-Mixer。在蒙面語言建模任務(wù)中返奉,gMLP在復(fù)雜度上的性能與Transformer相當(dāng)贝搁,在MNLI上的性能略差于Transformer。
主要審查:
出于獨(dú)創(chuàng)性芽偏,本文提出了一種新的基于MLP的方法雷逆,如gMLP。但與MLP混合器相比哮针,這種gMLP的貢獻(xiàn)似乎微乎其微关面。僅新設(shè)計(jì)并驗(yàn)證了空間選通單元的有效性。但本文的實(shí)驗(yàn)研究是充分的十厢,對(duì)社會(huì)有一定的參考價(jià)值等太。
這張紙的質(zhì)量很好。從實(shí)驗(yàn)報(bào)告的角度來看蛮放,與以前的方法相比缩抡,本文包含了足夠的實(shí)驗(yàn)結(jié)果,驗(yàn)證了重要的斷言包颁,并且在NLP中的ImageNet分類和屏蔽語言建模方面都取得了較好的性能瞻想。實(shí)驗(yàn)的多樣性是足夠的。
這篇論文的清晰度很好娩嚼。這篇論文條理清晰蘑险,易于理解。
我主要關(guān)心的是空間投影岳悟。這是一個(gè)簡(jiǎn)單的設(shè)計(jì)佃迄,但由于輸入空間分辨率的大小固定,應(yīng)用場(chǎng)景也受到限制贵少。例如呵俏,對(duì)于目標(biāo)檢測(cè)和語義分割的一些視覺下游任務(wù),輸入大小與圖像分類的大小不同滔灶。這種體系結(jié)構(gòu)不能直接應(yīng)用于這些任務(wù)普碎。
限制和社會(huì)影響:
對(duì)
需要倫理審查:否
復(fù)習(xí)時(shí)間:10
評(píng)分:6:略高于驗(yàn)收閾值
自信:5:你對(duì)自己的評(píng)估絕對(duì)有把握。您非常熟悉相關(guān)工作录平,并仔細(xì)檢查了數(shù)學(xué)/其他細(xì)節(jié)麻车。
行為準(zhǔn)則:在履行審查員職責(zé)(包括撰寫評(píng)論和參與討論)時(shí)缀皱,我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則。
回復(fù)審核人5t8k
NeurIPS 2021年會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 8月10日所有人
備注:
感謝您的評(píng)論和有用的反饋动猬。
但與MLP混合器相比唆鸡,這種gMLP的貢獻(xiàn)似乎微乎其微。
我們恭敬地表示不同意枣察,并想指出,MLP混合器燃逻、FF和ResMLP(在NeurIPS截止日期附近的arXiv上發(fā)布)與我們同時(shí)工作序目。我們引用了這些模型,并將其結(jié)果包括在內(nèi)伯襟,以便為讀者提供這些最近類似MLP的模型的全面概述猿涨。然而,這并不意味著我們的提交文件(獨(dú)立編制)應(yīng)作為后續(xù)工作進(jìn)行評(píng)估姆怪。
我們?cè)贜LP中也做出了MLP混合器所沒有的重要貢獻(xiàn)叛赚。特別是,我們發(fā)現(xiàn)MLP混合器在語言任務(wù)上表現(xiàn)不佳(表3)稽揭,這可能是由于缺乏跨令牌的高階交互俺附。通過利用空間選通的概念,gMLP是第一個(gè)類似MLP的模型溪掀,它可以在屏蔽語言建模方面與Transformers競(jìng)爭(zhēng)事镣。考慮到BERT在NLP中的影響揪胃,這本身就是一個(gè)重要貢獻(xiàn)璃哟。
我主要關(guān)心的是空間投影。這是一個(gè)簡(jiǎn)單的設(shè)計(jì)喊递,但由于輸入空間分辨率的大小固定随闪,應(yīng)用場(chǎng)景也受到限制。
首先骚勘,gMLPs可以處理可變長(zhǎng)度的文本铐伴。請(qǐng)注意,我們關(guān)于GLUE(SST-2和MNLI)和SQuAD的所有NLP結(jié)果都是在長(zhǎng)度可變的文本序列上獲得的调鲸。這是通過對(duì)輸入應(yīng)用填充來實(shí)現(xiàn)的盛杰,這是BERT設(shè)置中Transformer的常見做法。對(duì)我們來說藐石,這有力地表明即供,gMLPs適用于各種高價(jià)值的NLP應(yīng)用,包括語言建模于微、問答和機(jī)器翻譯逗嫡。
此外青自,gMLPs可以處理不同的圖像分辨率以進(jìn)行圖像分類。在這里驱证,我們提供其他結(jié)果作為概念證明延窜。具體而言,我們(1)在圖像大小為224x224的ImageNet-21K上預(yù)訓(xùn)練gMLP抹锄,(2)對(duì)于每個(gè)空間投影逆瑞,“外推”224x224矩陣為384x384矩陣(這是通過平鋪學(xué)習(xí)的空間核來實(shí)現(xiàn)的),然后(3)在圖像大小為384x384的ImageNet-1K上微調(diào)擴(kuò)展模型伙单。下表顯示获高,GMLP可以很好地處理這種分辨率變化艾船,與Transformer取得競(jìng)爭(zhēng)結(jié)果:
Model Params (M) Resolution ImageNet Top-1 (%)
ViT-B/16 86 224->384 84.6
gMLP-B/16 81 224->384 84.5
ViT-L/16 307 224->384 85.1
gMLP-L/16 294 224->384 85.2
最后袍冷,我們同意,與一般Transformer相比聊闯,對(duì)于現(xiàn)代MLP類模型而言布疼,處理可變大小的輸入不那么簡(jiǎn)單摊趾。請(qǐng)注意,前者仍處于早期階段游两。然而砾层,鑒于上述NLP和視覺方面令人鼓舞的信號(hào),以及最近其他類似MLP的模型在分割和對(duì)象檢測(cè)方面的成功(例如器罐。梢为,https://arxiv.org/abs/2107.08391),我們相信這是一個(gè)非常有趣的未來方向轰坊,有許多令人興奮的研究機(jī)會(huì)铸董。
Upxb審查員對(duì)Paper7105的正式審查
NeurIPS 2021會(huì)議論文7105審稿人Upxb
Paper7105審核人正式審核Upxb16 2021 7月(修改:2021 7月17日)所有人
總結(jié):
本文提出并研究了一個(gè)有趣的研究問題,即在基于Transformer的模型中是否可以消除自注意肴沫。作者設(shè)計(jì)了一種稱為gMLPs的新體系結(jié)構(gòu)粟害,通過移除自注意層并在FFN模塊中引入一個(gè)新的空間選通單元來很好地模擬獨(dú)立令牌之間的交互。對(duì)CV或NLP任務(wù)的綜合實(shí)驗(yàn)證實(shí)颤芬,所提出的GMLP可以實(shí)現(xiàn)與標(biāo)準(zhǔn)ViT或BERT模型相當(dāng)?shù)男阅堋?/p>
主要審查:
我很喜歡讀這篇論文悲幅,整個(gè)論文都很清晰,寫得很好站蝠,我相信這篇論文將對(duì)社區(qū)有益汰具,并啟發(fā)其他研究人員在這方面的工作。
以下是我遇到的一些問題或困惑:
建議的體系結(jié)構(gòu)在編碼器風(fēng)格的預(yù)訓(xùn)練模型(如ViT或BERT)上進(jìn)行評(píng)估菱魔,是否有可能將該方法擴(kuò)展到編碼器-解碼器或解碼器風(fēng)格的模型留荔,如T5或GPT?
基于Transformer的模型往往具有更好的OOD泛化能力澜倦,作者建議添加一些在“預(yù)訓(xùn)練Transformer提高分布外魯棒性”一文中進(jìn)行的OOD評(píng)估實(shí)驗(yàn)聚蝶。
在表4和表5中杰妓,最好添加推斷時(shí)間和失敗次數(shù)作為額外的評(píng)估指標(biāo)。
在圖4中碘勉,學(xué)習(xí)的濾波器似乎具有局部相關(guān)性巷挥,這將限制GMLP建模長(zhǎng)期依賴性的能力。
在附錄D中验靡,學(xué)習(xí)到的空間投影矩陣似乎是Toeplitz樣的倍宾,您能否定量評(píng)估這些矩陣是如何Toeplitz樣的?
擬議的gMLPs模型是否會(huì)對(duì)輸入句子的長(zhǎng)度敏感胜嗓?建議作者在考慮序列長(zhǎng)度因素的情況下增加一些分析凿宾,例如下游任務(wù)的精度與長(zhǎng)度。
實(shí)際上兼蕊,在部署到產(chǎn)品之前,通常需要對(duì)預(yù)先訓(xùn)練的模型進(jìn)行壓縮件蚕,我想知道是否可以將GMLP壓縮為物聯(lián)網(wǎng)設(shè)備的一些微型模型孙技。
最好討論擬議的GMLP的一些潛在限制。
限制和社會(huì)影響:
我認(rèn)為這項(xiàng)工作沒有潛在的負(fù)面社會(huì)影響排作。
需要倫理審查:否
復(fù)習(xí)時(shí)間:三小時(shí)
評(píng)分:8:接受NeurIPS論文前50%牵啦,明確接受
自信:4:你對(duì)自己的評(píng)估有信心,但不是絕對(duì)肯定妄痪。您不太可能(但并非不可能)不理解提交文件的某些部分哈雏,或者不熟悉某些相關(guān)工作。
行為準(zhǔn)則:在履行審查員職責(zé)(包括撰寫評(píng)論和參與討論)時(shí)衫生,我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則裳瘪。
回復(fù)審核人Upxb
NeurIPS 2021會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 8月10日所有人
備注:
感謝您的評(píng)論和寶貴建議。
是否有可能將該方法擴(kuò)展到編碼器-解碼器或解碼器樣式模型罪针,如T5或GPT彭羹?
對(duì)我們?cè)贑4上進(jìn)行了額外的語言建模實(shí)驗(yàn),我們的初步結(jié)果表明泪酱,gMLPs也能夠在僅解碼器設(shè)置中實(shí)現(xiàn)與Transformer相當(dāng)?shù)膹?fù)雜度(使用類似GPT-2的架構(gòu)布局)派殷。相對(duì)于我們的傳銷模型,我們所做的唯一改變是屏蔽gMLPs中空間投影矩陣的下三角部分墓阀,以防止因果信息泄漏毡惜。我們將在修訂后的文件中增加更多關(guān)于解碼器風(fēng)格應(yīng)用的討論。
建議作者添加一些在“預(yù)培訓(xùn)Transformer改善配電外魯棒性”一文中進(jìn)行的OOD評(píng)估實(shí)驗(yàn)斯撮。
我們同意经伙,關(guān)于OOD數(shù)據(jù)的穩(wěn)健性分析將非常有趣(因?yàn)樘岢隽瞬煌哪P妥澹覀儗⒀芯克ㄗh的工作吮成。
在表4和表5中橱乱,最好添加推斷時(shí)間和失敗次數(shù)作為額外的評(píng)估指標(biāo)辜梳。
已確認(rèn)。我們將在修訂后的文件中添加它們泳叠。
在圖4中作瞄,學(xué)習(xí)的濾波器似乎具有局部相關(guān)性,這將限制GMLP建模長(zhǎng)期依賴性的能力危纫。
這是可能的宗挥,并且可以解釋為什么GMLP表現(xiàn)良好,尤其是當(dāng)它們足夠深時(shí)(表4)种蝶。另一方面契耿,有趣的是,圖4中學(xué)習(xí)到的感受野通常比人們通常在convnet中使用的感受野更寬(即3螃征、5搪桂、7)。
在附錄D中盯滚,學(xué)習(xí)到的空間投影矩陣似乎是Toeplitz樣的踢械,您能否定量評(píng)估這些矩陣是如何Toeplitz樣的?
量化這一點(diǎn)的一種方法是測(cè)量學(xué)習(xí)到的位置特定濾波器相對(duì)于共享位置不可知濾波器的絕對(duì)錯(cuò)誤率(通過取位置特定濾波器的平均值獲得)魄藕。如果學(xué)習(xí)到的濾波器是完全空間不變的(對(duì)應(yīng)于Toeplitz空間矩陣)内列,則預(yù)計(jì)誤差為零。我們選取gMLP基的最后一層背率,并報(bào)告其隨窗口大小d增加的過濾錯(cuò)誤率:1.4%(d=5)话瞧、2.4%(d=9)、7.0%(d=17)寝姿、14%(d=33)和18%(d=65)交排。結(jié)果表明,誤差率通常很小饵筑,并且矩陣對(duì)角線附近的元素(通常具有更多權(quán)重)可以用Toepltz矩陣更精確地近似个粱。
擬議的gMLPs模型是否會(huì)對(duì)輸入句子的長(zhǎng)度敏感?
我們?cè)贕LUE上嘗試的一個(gè)相關(guān)實(shí)驗(yàn)是向gMLP模型提供更長(zhǎng)翻翩、冗余的輸入序列(通過多次重復(fù)原始輸入序列構(gòu)建)都许。我們還嘗試在MNLI的前提段和假設(shè)段中間插入大量<sep>標(biāo)記(以獲得具有相同語義的更長(zhǎng)序列)。有趣的是嫂冻,這兩項(xiàng)都沒有導(dǎo)致GMLP的輸出行為發(fā)生任何顯著變化胶征。
我想知道gMLPs是否可以壓縮成物聯(lián)網(wǎng)設(shè)備的一些微型模型。
沿著這條路線桨仿,一個(gè)有趣的方向是培訓(xùn)一名大型Transformer/gMLP教師睛低,然后將其提取為一名小型gMLP學(xué)生進(jìn)行部署。我們相信,gMLP的簡(jiǎn)單性可以使其適合于專門用于基本MATMUL的邊緣芯片钱雷,而不是更通用的EINSUM(用于處理Transformer中的額外頭部尺寸)骂铁。
最好討論擬議的GMLP的一些潛在限制。
好的觀點(diǎn)——我們將在修訂版中添加更多討論罩抗。我們討論過的一個(gè)值得注意的方面是拉庵,GMLP似乎攜帶著不同于Transformer的感應(yīng)偏壓,這使得它們?cè)谀承㎞LP下游任務(wù)中表現(xiàn)更好套蒂,但在其他一些任務(wù)中表現(xiàn)更差(圖5)钞支。這可以通過合并一個(gè)小的單頭自注意來解決(圖7),我們認(rèn)為這主要負(fù)責(zé)跨段對(duì)齊(附錄E)操刀。
關(guān)于推斷時(shí)間
NeurIPS 2021會(huì)議論文7105審稿人Upxb
Paper7105審稿人Upxb31 2021 8月大家發(fā)表的官方評(píng)論
備注:
謝謝你的回復(fù)烁挟。潛在的應(yīng)用場(chǎng)景在很大程度上取決于所提出模型的推理時(shí)間和存儲(chǔ)消耗,因此您能否提供一些關(guān)于不同輸入長(zhǎng)度的不同任務(wù)的推理時(shí)間的初步結(jié)果骨坑?
根據(jù)輸入長(zhǎng)度推斷成本
NeurIPS 2021會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 9月2日所有人
備注:
謝謝你的提問撼嗓。下面我們報(bào)告了不同輸入大小的V100 GPU上的推斷延遲。
文本分類(gMLP基):
Seq length 32 64 128 256 512 1024 2048 4096
V100 Latency (ms) 13 13 14 22 31 65 148 386
Image classification (gMLP-B/16):
Resolution 56x56 112x112 224x224 448x448 986x896
V100 Latency (ms) 7 7 12 30 158
雖然推斷延遲可能高度依賴于硬件欢唾,但在這種情況下静稻,根據(jù)經(jīng)驗(yàn)觀察其與輸入大小的關(guān)系仍然很有趣:延遲在開始時(shí)呈次線性增長(zhǎng),然后在輸入大小變大時(shí)呈超線性增長(zhǎng)匈辱。這是因?yàn)槟P偷某杀咀畛踔饕獊碜孕诺罃U(kuò)展/投影操作(O(nd^2)),但隨著輸入長(zhǎng)度n的增加杀迹,空間投影(O(dn^2))逐漸占主導(dǎo)地位亡脸。由于討論時(shí)間有限,上述結(jié)果是非常初步的树酪,但我們將嘗試在修訂后的手稿中包含更全面的分析浅碾。
審查員s4GZ對(duì)Paper7105的正式審查
NeurIPS 2021會(huì)議論文7105審稿人s4GZ
Paper7105正式審核人s4GZ15 2021 7月(修改日期:2021 8月31日)所有人
總結(jié):
本文提出了一種簡(jiǎn)單的機(jī)制:門控MLP,并對(duì)自注意的必要性提出了質(zhì)疑续语。gMLP在分類任務(wù)上的性能與DeiT相當(dāng)垂谢。在NLP語音上的實(shí)驗(yàn)也證明了該方法的有效性。
主要審查:
強(qiáng)度:
在視覺分類和NLP任務(wù)中都設(shè)計(jì)了實(shí)驗(yàn)疮茄。
總體而言滥朱,實(shí)驗(yàn)結(jié)果良好。它在ImageNet 1k分類和NLP基線上實(shí)現(xiàn)了與DeiT類似的性能力试。gMLP實(shí)現(xiàn)了比MLP基線MLPmixer更好的性能徙邻。
動(dòng)機(jī)明確且良好。然而畸裳,由于弱點(diǎn)缰犁,這種說法過于強(qiáng)烈。
弱點(diǎn):
一個(gè)大問題是,gMLP無法擴(kuò)展到下游任務(wù)帅容,如目標(biāo)檢測(cè)颇象,在訓(xùn)練過程中需要不同的分辨率。偽代碼中的spatial\u gating\u unit函數(shù)只能處理固定長(zhǎng)度并徘。我認(rèn)為這是一個(gè)致命的和根本的缺點(diǎn)遣钳,并將極大地限制本文的應(yīng)用。請(qǐng)注意饮亏,自注意可以很容易地處理耍贾,在NeurIPS之前有很多新的工作[1,2,3],可以很容易地處理這種情況路幸,并在分割和對(duì)象檢測(cè)方面取得令人印象深刻的結(jié)果荐开。相反,gMLP框架不能直接處理它简肴。如果我錯(cuò)了晃听,請(qǐng)糾正我。
一些重要因素被忽視砰识,可能導(dǎo)致不公平的比較能扒。一個(gè)重要的基線是DeiT,然而辫狼,在DeiT的基礎(chǔ)上提出了許多改進(jìn)[1,2,3,4,5,6,7]初斑,進(jìn)一步提高了性能。如果包括Transformer和gMLP膨处,則它們之間的性能差距會(huì)擴(kuò)大见秤。例如,gMLP在分類中利用了全局平均池差距真椿,而DeiT則沒有鹃答。這將使transformer在ImageNet驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率至少提高1-1.5%。微調(diào)下降路徑速率(gMLP也可以做到這一點(diǎn))[2突硝、3测摔、7]可以略微改善Transformer的性能。我相信解恰,與這些工作進(jìn)行適當(dāng)?shù)挠懻摵捅容^將有益于本論文和社區(qū)锋八。
未成年人:
門控標(biāo)題有點(diǎn)混亂,因?yàn)樗男袨榕c常用的含義不同护盈。
未報(bào)告推斷速度(imgs/s)(表2)
參考
[1] 金字塔視覺變換器:用于無卷積的密集預(yù)測(cè)的多功能主干查库,https://arxiv.org/abs/2102.12122
[2] 雙胞胎:重新審視視覺Transformer中的空間注意設(shè)計(jì),https://arxiv.org/abs/2104.13840
[3] Swin Transformer:使用移動(dòng)窗口的分層視覺Transformerhttps://arxiv.org/abs/2103.14030
[4] 視覺Transformer的條件位置編碼黄琼,https://arxiv.org/abs/2102.10882
[5] Token to Token ViT:在ImageNet上從頭開始培訓(xùn)視覺Transformerhttps://arxiv.org/abs/2101.11986
[6] Transformer中的Transformer樊销,https://arxiv.org/abs/2103.00112.
[7] 使用圖像Transformer更深入https://arxiv.org/abs/2103.17239
限制和社會(huì)影響:
見主要審查的弱點(diǎn)1整慎。
需要倫理審查:否
花在復(fù)習(xí)上的時(shí)間:7
評(píng)分:6:略高于驗(yàn)收閾值
自信:4:你對(duì)自己的評(píng)估有信心,但不是絕對(duì)肯定围苫。您不太可能(但并非不可能)不理解提交文件的某些部分裤园,或者不熟悉某些相關(guān)工作。
行為準(zhǔn)則:在履行審查員職責(zé)(包括撰寫評(píng)論和參與討論)時(shí)剂府,我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則拧揽。
回復(fù)審核人s4GZ
NeurIPS 2021會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 8月10日所有人
備注:
感謝您的評(píng)論和有用的評(píng)論。
一個(gè)大問題是腺占,gMLP無法擴(kuò)展到下游任務(wù)淤袜,如目標(biāo)檢測(cè),在訓(xùn)練過程中需要不同的分辨率衰伯。铡羡。。我認(rèn)為這是一個(gè)致命的和根本的缺點(diǎn)意鲸,并將極大地限制本文的應(yīng)用烦周。
首先,gMLPs可以處理可變長(zhǎng)度的文本怎顾。請(qǐng)注意读慎,我們關(guān)于GLUE(SST-2和MNLI)和SQuAD的所有NLP結(jié)果都是在長(zhǎng)度可變的文本序列上獲得的。這是通過對(duì)輸入應(yīng)用填充來實(shí)現(xiàn)的槐雾,這是BERT設(shè)置中Transformer的常見做法夭委。對(duì)我們來說,這有力地表明募强,gMLPs適用于各種高價(jià)值的NLP應(yīng)用株灸,包括語言建模、問答和機(jī)器翻譯钻注。
此外,gMLPs可以處理不同的圖像分辨率以進(jìn)行圖像分類配猫。在這里幅恋,我們提供其他結(jié)果作為概念證明。具體而言泵肄,我們(1)在圖像大小為224x224的ImageNet-21K上預(yù)訓(xùn)練gMLP捆交,(2)對(duì)于每個(gè)空間投影,“外推”224x224矩陣為384x384矩陣(這是通過平鋪學(xué)習(xí)的空間核來實(shí)現(xiàn)的)腐巢,然后(3)在圖像大小為384x384的ImageNet-1K上微調(diào)擴(kuò)展模型品追。下表顯示,GMLP可以很好地處理這種分辨率變化冯丙,與Transformer取得競(jìng)爭(zhēng)結(jié)果:
Model Params (M) Resolution ImageNet Top-1 (%)
ViT-B/16 86 224->384 84.6
gMLP-B/16 81 224->384 84.5
ViT-L/16 307 224->384 85.1
gMLP-L/16 294 224->384 85.2
最后肉瓦,我們同意,與一般Transformer相比,對(duì)于現(xiàn)代MLP類模型而言泞莉,處理可變大小的輸入不那么簡(jiǎn)單哪雕。請(qǐng)注意,前者仍處于早期階段鲫趁。然而斯嚎,鑒于上述NLP和視覺方面令人鼓舞的信號(hào),以及最近其他類似MLP的模型在分割和對(duì)象檢測(cè)方面的成功(例如挨厚。堡僻,https://arxiv.org/abs/2107.08391),我們相信這是一個(gè)非常有趣的未來方向疫剃,有許多令人興奮的研究機(jī)會(huì)钉疫。
gMLP在分類中利用了全球平均池差距,而DeiT則沒有慌申。
這不是真的陌选。我們根本不使用全局平均池,我們的輸入/輸出協(xié)議與DeiT相同蹄溉。請(qǐng)參考L70-75中的型號(hào)說明咨油。
如果包括Transformer和gMLP(附加增強(qiáng))之間的性能差距,則會(huì)擴(kuò)大
我們強(qiáng)調(diào)柒爵,我們應(yīng)用的任何增強(qiáng)(附錄A.1)都不超出DeiT的調(diào)查范圍(表8https://arxiv.org/pdf/2012.12877.pdf). 為了進(jìn)一步證實(shí)我們的超參數(shù)配置并沒有給我們帶來任何不公平的優(yōu)勢(shì)役电,我們?cè)谖覀兊拇a庫(kù)中對(duì)DeiT-B進(jìn)行了訓(xùn)練(重新調(diào)整了下降路徑速率),并在ImageNet上獲得了81.9%棉胀。超過81.8%的差異(由DET論文報(bào)告)基本上在方差范圍內(nèi)法瑟。我們將在本文的修訂版中包含此附加結(jié)果。
gMLP在COCO檢測(cè)任務(wù)中的表現(xiàn)唁奢,其中輸入分辨率在培訓(xùn)期間發(fā)生變化霎挟。
NeurIPS 2021會(huì)議論文7105審稿人s4GZ
Paper7105審稿人s4GZ16 2021 8月的官方評(píng)論大家
備注:
謝謝你的回復(fù)。
我確實(shí)了解ImageNet 1k分類任務(wù)的224->384設(shè)置麻掸。這仍然是一個(gè)固定的設(shè)置酥夭,我相信將224x224矩陣外推到384x384矩陣是可行的。然而脊奋,我在初步審查中提到的問題是下游任務(wù)熬北,如目標(biāo)檢測(cè),其中不同的分辨率(例如诚隙,從480到800隨機(jī)抽樣讶隐,https://github.com/SwinTransformer/Swin-Transformer-Object-Detection/blob/master/configs/swin/mask_rcnn_swin_tiny_patch4_window7_mstrain_480-800_adamw_1x_coco.py)培訓(xùn)期間需要(非固定)。我仍然擔(dān)心gMLP是否能處理好它久又。
swin transformer的代碼在提交的DDL之前發(fā)布巫延。有趣的是效五,看到gMLP在目標(biāo)檢測(cè)方面的性能與coco培訓(xùn)設(shè)置保持一致。
大規(guī)模抖動(dòng)的目標(biāo)檢測(cè)結(jié)果
NeurIPS 2021會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 8月27日所有人
備注:
感謝您的澄清和有用的建議烈评。由于基礎(chǔ)設(shè)施的限制火俄,我們很難利用Swin Transformer的實(shí)現(xiàn)。因此讲冠,我們使用EfficientDet代碼庫(kù)對(duì)COCO進(jìn)行了目標(biāo)檢測(cè)實(shí)驗(yàn)瓜客。
為了消除各種正則化技巧的必要性,我們研究了兩個(gè)大小相當(dāng)?shù)奈⑿湍P停篋eiT-tiny和gMLP-tiny(~ 5M參數(shù))竿开,并使用它們替換EfficientDet-D0中的ConvNet主干谱仪。為了避免其他混雜因素(例如,類似convnet的歸納偏差)否彩,我們使用香草ViT架構(gòu)布局疯攒,沒有任何空間池或局部移位窗口(https://arxiv.org/abs/2103.14030). 我們應(yīng)用雙線性上采樣來“重新解釋”DeiT/gMLP端點(diǎn)作為Bi FPN的輸入(https://arxiv.org/abs/2012.09958). 使用相同的超參數(shù)訓(xùn)練兩個(gè)模型(AdamW優(yōu)化器,權(quán)重衰減0.05列荔,學(xué)習(xí)率1e-3)敬尺。我們使用max input size 512,并在訓(xùn)練期間應(yīng)用大規(guī)模抖動(dòng)來大幅改變有效圖像大小贴浙。具體來說砂吞,在填充/裁剪之前,每個(gè)圖像隨機(jī)調(diào)整大小為0.1x-2.0x(https://arxiv.org/abs/1911.09070).
在此設(shè)置下崎溃,DeiT Tiny實(shí)現(xiàn)24.5方塊圖蜻直,而gMLP Tiny實(shí)現(xiàn)27.8方塊圖。雖然兩者都低于最初的EfficientNet-B0主干(34.6 mAP)袁串,但它有力地證明了GMLP在訓(xùn)練期間處理目標(biāo)檢測(cè)任務(wù)的可變輸入大小方面并不比Transformers差概而。新的檢測(cè)結(jié)果也加強(qiáng)了我們?cè)贜LP和圖像分類方面的主要發(fā)現(xiàn),即自注意不是Transformer成功的關(guān)鍵囱修。作為下一步赎瑰,我們計(jì)劃在更大范圍的設(shè)置下研究目標(biāo)檢測(cè),并將嘗試在修訂后的手稿中包含關(guān)于該主題的更全面的結(jié)果破镰。
請(qǐng)告知我們您的問題是否已得到解決餐曼。
比較起來不太公平∑⊙剩渴望看到額外的實(shí)驗(yàn)晋辆。
NeurIPS 2021會(huì)議論文7105審稿人s4GZ
Paper7105評(píng)審員s4GZ27 2021 8月的官方評(píng)論大家
備注:
感謝您的回復(fù)和實(shí)驗(yàn)渠脉。
這個(gè)實(shí)驗(yàn)不太公平宇整。DeiT可以處理不斷變化的輸入序列,因?yàn)闈撛诘淖宰⒁饪梢宰詣?dòng)適應(yīng)芋膘。然而鳞青,由于位置編碼不當(dāng)霸饲,即普通位置編碼(雙三次或雙線性插值)[1,2,3],它在下游任務(wù)中的性能大大降低臂拓。因此厚脉,沒有適當(dāng)位置編碼的香草DeiT是一個(gè)太弱的基線。而gMLP Tiny的獲勝也不太公平胶惰。
你能用1x計(jì)劃或3x計(jì)劃將DeiT tiny+正確的位置編碼(見[2])和PVT tiny([1,3])與COCO上的gMLP tiny進(jìn)行比較嗎傻工?已知COCO上的PVT微小結(jié)果(v1和v2)。
參考文獻(xiàn)【1】金字塔視覺變換器:一種用于無卷積密集預(yù)測(cè)的多功能主干孵滞,https://arxiv.org/abs/2102.12122中捆,(ICCV21)[2]視覺Transformer的條件位置編碼,https://arxiv.org/abs/2102.10882【3】PVTv2:使用金字塔視覺變換器改進(jìn)基線https://arxiv.org/abs/2106.13797
困惑但結(jié)果更多
NeurIPS 2021會(huì)議論文7105作者
Paper7105作者的官方評(píng)論2021 8月31日所有人
備注:
我們對(duì)新的實(shí)驗(yàn)要求感到困惑坊饶,想知道是否有誤解泄伪。這位評(píng)審員最初的問題是在檢測(cè)中處理可變的圖像大小。在我們之前的回復(fù)中匿级,我們表明蟋滴,相對(duì)于標(biāo)準(zhǔn)ViT/DeiT和普通位置編碼(與ViT/DeiT論文中的架構(gòu)相同),GMLP(不使用位置編碼)可以在此類場(chǎng)景中很好地工作痘绎。我們不清楚為什么用一種更先進(jìn)和單獨(dú)開發(fā)的位置編碼方案來增強(qiáng)基線可以提高本研究的公平性津函。
然而,我們?cè)贓fficientDet設(shè)置中對(duì)PEG層進(jìn)行了額外的實(shí)驗(yàn)简逮,最大圖像大小為512^2和1024^2球散。與之前一樣,在訓(xùn)練期間散庶,可以通過大規(guī)模抖動(dòng)改變有效圖像大薪堆摺:
Backbone COCO mAP
DeiT-Tiny 24.5
gMLP-Tiny 27.8
DeiT-Tiny + PEG 28.1
gMLP-Tiny + PEG 29.5
DeiT-Tiny + PEG (max image size 1024^2) 31.6
gMLP-Tiny + PEG (max image size 1024^2) 34.4
與我們之前的研究結(jié)果一致,新的結(jié)果證實(shí)了gMLPs可以在檢測(cè)中處理不同大小的圖像悲龟,而不存在位置編碼或不編碼的問題屋讶。
最后,我們想強(qiáng)調(diào)的是须教,我們的主要貢獻(xiàn)是揭示自注意對(duì)Transformer的成功并不重要皿渗。我們相信這一說法已經(jīng)得到了自然語言處理(可變文本長(zhǎng)度)和圖像分類的廣泛實(shí)驗(yàn)的支持,這是伯特和維特的開創(chuàng)性論文中研究的主要任務(wù)轻腺。在反駁過程中乐疆,我們盡最大努力提供有關(guān)目標(biāo)檢測(cè)的其他結(jié)果,但我們希望在這項(xiàng)具體任務(wù)及其對(duì)位置編碼的影響方面留下進(jìn)一步的探索贬养,作為未來的工作挤土。
發(fā)布關(guān)于額外實(shí)驗(yàn)的反饋。
NeurIPS 2021會(huì)議論文7105審稿人s4GZ
Paper7105評(píng)審員s4GZ31 2021 8月的官方評(píng)論大家
備注:
謝謝你的額外實(shí)驗(yàn)误算。我的擔(dān)憂減弱了仰美,因此迷殿,我將分?jǐn)?shù)提高到略高于接受閾值。
我希望您在修訂版中討論gMLP在檢測(cè)方面的性能咖杂。畢竟庆寺,基于Transformer的主干網(wǎng)[1,2,3]在檢測(cè)上都優(yōu)于卷積網(wǎng)絡(luò),具有明顯的裕度诉字。gMLP實(shí)驗(yàn)的efficientdet似乎有點(diǎn)違反直覺懦尝。最好討論一下。一部好的作品也應(yīng)該指出它的局限性壤圃。
參考
[1] 金字塔視覺變換器:用于無卷積的密集預(yù)測(cè)的多功能主干导披,https://arxiv.org/abs/2102.12122
[2] 雙胞胎:重新審視視覺Transformer中的空間注意設(shè)計(jì),https://arxiv.org/abs/2104.13840
[3] Swin Transformer:使用移動(dòng)窗口的分層視覺Transformer https://arxiv.org/abs/2103.14030