gMLP & aMLP

Pay Attention to MLPs

https://arxiv.org/abs/2105.08050????????????????https://hub.fastgit.org/lucidrains/g-mlp-pytorch

Hanxiao Liu,Zihang Dai,David R. So,Quoc V. Le

Transformers已經(jīng)成為深度學(xué)習(xí)中最重要的架構(gòu)創(chuàng)新之一，并在過去幾年中實(shí)現(xiàn)了許多突破幢踏。在這里挟冠，我們提出了一個(gè)簡(jiǎn)單的無注意網(wǎng)絡(luò)結(jié)構(gòu)gMLP衰齐，它完全基于帶選通(gating)的MLPs，并且證明了它在關(guān)鍵的語言和視覺應(yīng)用中的性能知给。我們的比較表明渺杉，自注意力對(duì)Visual Transformer來說并不重要，因?yàn)間MLP可以達(dá)到同樣的精確度鹦倚。對(duì)于BERT，我們的模型在預(yù)訓(xùn)練的復(fù)雜度上達(dá)到了與Transformer等價(jià)的水平冀惭，并且在一些下游任務(wù)上效果更好震叙。在gMLP性能較差的微調(diào)任務(wù)中，使gMLP模型大得多就可以縮小與Transformer的差距散休。一般來說媒楼，我們的實(shí)驗(yàn)表明，gMLP可以隨著數(shù)據(jù)和計(jì)算量的增加而擴(kuò)展戚丸。

1.引言

Transformers[1]在自然語言處理方面取得了許多突破（例如[2,3,4,5,6]）划址，并被證明能很好地用于計(jì)算機(jī)視覺（例如[7,8,9,10]）。由于這一成功限府，Transformers在很大程度上取代了LSTM-RNN[11]夺颤，成為NLP中的默認(rèn)體系結(jié)構(gòu)，并成為計(jì)算機(jī)視覺中ConvNets[12胁勺、13世澜、14、15署穗、16]的一個(gè)有吸引力的替代方案寥裂。

Transformers體系結(jié)構(gòu)結(jié)合了兩個(gè)重要的概念：（1）沒有使用遞歸結(jié)構(gòu)，而是并行計(jì)算每個(gè)token的表示蛇捌，以及（2）聚合token間空間信息的多頭自注意力塊抚恒。一方面，注意機(jī)制[17]引入了歸納偏置络拌，即模型可以基于輸入表示動(dòng)態(tài)地參數(shù)化(the inductive bias that the model can be dynamically parameterized based on the input representations)。另一方面回溺，已知具有靜態(tài)參數(shù)化的MLP可以表示任意函數(shù)[18]春贸。因此混萝，自注意力中的歸納偏置是否對(duì)Transformer的顯著有效性至關(guān)重要，仍然是一個(gè)懸而未決的問題萍恕。

在這里逸嘀，我們研究了自注意力模塊在Transformer的關(guān)鍵語言和視覺應(yīng)用中的必要性，并提出了一種無注意允粤、基于MLP的Transformer替代方案崭倘，包括通道投影、空間投影和選通（圖1）类垫。我們對(duì)MLP類結(jié)構(gòu)的幾種設(shè)計(jì)選擇進(jìn)行了實(shí)驗(yàn)司光，發(fā)現(xiàn)當(dāng)空間投影是線性的并且與乘法選通配對(duì)時(shí)，它們工作得很好(spatial projections work well when they are linear and paired with multiplicative gating)悉患。我們把這個(gè)模型命名為gMLP残家，因?yàn)樗怯苫镜腗LP層和選通構(gòu)成的。

我們將gMLP應(yīng)用于圖像分類售躁，在ImageNet上取得了很好的效果坞淮。在類似的訓(xùn)練設(shè)置中，gMLP實(shí)現(xiàn)了與DeiT[8]相當(dāng)?shù)男阅芘憬荩赐ㄟ^改進(jìn)正則化增強(qiáng)的視覺變換器（ViT）[7]回窘。在減少66%參數(shù)的情況下，gMLP模型比MLP-Mixer的精度高3%[19]市袖。與Tolstikhin等人[19]啡直、Melas Kyriazi[20]和Touvron等人[21]一起，我們的研究結(jié)果質(zhì)疑了視覺Transformer中自注意力層的必要性凌盯。

我們將gMLP應(yīng)用到BERT[2]設(shè)置中的屏蔽語言建模（MLM）中付枫，這是Transformer最成熟的應(yīng)用之一，并且發(fā)現(xiàn)它與Transformer一樣能夠在預(yù)訓(xùn)練最小化困惑度(perplexity)驰怎。我們的實(shí)驗(yàn)表明阐滩，困惑度(perplexity)只與模型容量相關(guān)，對(duì)注意力的存在不敏感县忌。隨著容量的增加掂榔，我們觀察到gMLP的預(yù)訓(xùn)練和微調(diào)指標(biāo)的改善速度與Transformer一樣快。這是值得注意的症杏，因?yàn)樗砻鱣MLPs的規(guī)模和Transformer一樣好装获，盡管沒有自注意力，任何性能差距總是可以通過訓(xùn)練一個(gè)更大的模型并增加數(shù)據(jù)和計(jì)算來抵消厉颤。在標(biāo)準(zhǔn)的256批量大小穴豫、× 1M步的訓(xùn)練設(shè)置，和原來的BERT一樣，我們的MLP-like模型在MNLI上達(dá)到86.4%的準(zhǔn)確率精肃，在SQuAD v1.1上達(dá)到89.5%的F1秤涩。注意：這些結(jié)果與Devlin等人[2]報(bào)告的使用Transformer獲得的結(jié)果相當(dāng)。

對(duì)于BERT的微調(diào)司抱，Transformers在需要跨句對(duì)齊的任務(wù)上比gMLPs更具實(shí)際優(yōu)勢(shì)（例如筐眷，MNLI的優(yōu)勢(shì)為1.8%），即使容量和預(yù)訓(xùn)練的困惑度(perplexity)是相似的习柠。這個(gè)問題可以通過使gMLPs大很多來解決：3× as large as Transformers匀谣。一個(gè)更實(shí)際的解決方案是只混合一點(diǎn)點(diǎn)注意力——一個(gè)大小達(dá)128的單頭注意力足以使gMLPs在我們?cè)u(píng)估的所有NLP任務(wù)中都優(yōu)于Transformers，而且參數(shù)效率更高资溃。這種改進(jìn)有時(shí)非常顯著（例如武翎，在我們的實(shí)驗(yàn)中，在SQuAD v2.0上比Bertlave提高了4.4%）肉拓。

gMLPs的有效性后频、自注意力在視覺任務(wù)中益處的不足，以及在NLP中特定案例下才帶來益處暖途，使人們對(duì)跨域的注意力機(jī)制的必要性產(chǎn)生了質(zhì)疑卑惜。總的來說驻售，我們的研究結(jié)果表明露久，自注意力并不是擴(kuò)大(scaling up)機(jī)器學(xué)習(xí)模型的必要因素。隨著數(shù)據(jù)和計(jì)算量的增加欺栗，具有簡(jiǎn)單空間交互機(jī)制（如gMLP）的模型可以像Transformer一樣強(qiáng)大毫痕，分配給自注意力的容量(capacity)可以被移除或大大降低。

圖1：帶有空間選通單元（SGU）的gMLP架構(gòu)概述迟几。該模型由一堆具有相同結(jié)構(gòu)和大小的塊組成消请。在每個(gè)塊中，“”表示按元素相乘类腮，所有的投影運(yùn)算都是線性的臊泰。輸入/輸出格式遵循BERT（用于NLP預(yù)訓(xùn)練和微調(diào)）和ViT（用于視覺）。與變壓器不同蚜枢，gmlp不需要位置編碼缸逃，也不需要在NLP微調(diào)期間mask out the paddings。

2 ????模型

我們的模型gMLP由一堆大小和結(jié)構(gòu)相同的 $L$ 個(gè)塊組成厂抽。讓 $X∈R^{n\times d}$ 為token表示需频，其序列長(zhǎng)度為 $n$ ，維度為 $d$ 筷凤。每個(gè)塊定義為

$Z=\sigma (XU)$ ? ?? $(1)$

$\tilde{Z} =s(Z)$ ? ?? $(2)$

$Y=\tilde{Z} V$ ? ?? $(3)$

其中 $σ$ 是一個(gè)激活函數(shù)昭殉，如GeLU[22]。 $U$ 和 $V$ 定義沿通道維度的線性投影-與Transformers中的FFN中的投影相同（例如，在BERTbase中饲化，它們的形狀為768× 3072和3072×768）莽鸭。為了簡(jiǎn)潔起見吗伤，跳連吃靠、歸一化和偏置項(xiàng)被省略。

上述公式中的一個(gè)關(guān)鍵成分是 $s(\cdot )$ 足淆，一個(gè)捕捉空間相互作用的層（見下文）巢块。當(dāng)s是恒等映射時(shí)，上述轉(zhuǎn)換退化為常規(guī)FFN巧号，其獨(dú)立地處理單個(gè)token而不進(jìn)行任何token間的信息交互族奢。因此，我們的一個(gè)主要關(guān)注點(diǎn)是設(shè)計(jì)一個(gè)能夠捕獲token間復(fù)雜的空間交互的好的 $s$ 丹鸿。整個(gè)塊布局的靈感來源于inverted bottlenecks[23]越走，它將 $s(\cdot )$ 定義為空間深度卷積。注意靠欢，與Transformer不同廊敌，我們的模型不需要位置嵌入，因?yàn)檫@些信息將在 $s(\cdot )$ 中捕獲门怪。

我們的模型使用與BERT（用于NLP）和ViT（用于vision）完全相同的輸入和輸出格式骡澈。例如，當(dāng)對(duì)語言任務(wù)進(jìn)行微調(diào)時(shí)掷空，我們將多個(gè)分段拼接在一起肋殴，分段后面有padding，并且預(yù)測(cè)是從保留的<cls>符號(hào)的最后一層表示中推導(dǎo)出來的坦弟。盡管這些協(xié)議中有許多是為Transformers引入的护锤，因此對(duì)于gMLPs來說可能不是最優(yōu)的，但是嚴(yán)格遵循它們有助于避免實(shí)驗(yàn)中的混淆因素酿傍，并使我們的層與現(xiàn)有的Transformers實(shí)現(xiàn)更加兼容烙懦。

2.1 空間選通單元

為了實(shí)現(xiàn)token間的交互，層 $s(\cdot )$ 必須包含空間維度上的收縮操作拧粪。最簡(jiǎn)單的選擇是線性投影：

$f_{W,b} (Z)=WZ+b$ ? ?? $(4)$

其中 $W∈R^{n\times n}$ 是一個(gè)矩陣修陡，其size與序列長(zhǎng)度 $n$ 相同， $b$ 是一個(gè)偏置項(xiàng)可霎，它可以是一個(gè)矩陣魄鸦，也可以是一個(gè)標(biāo)量。例如癣朗，如果輸入序列具有128個(gè)tokens拾因，則空間投影矩陣 $W$ 的形狀將是128×128。在這項(xiàng)工作中，我們將空間交互單元定義為其輸入和空間變換輸入的乘積：

$s(Z)=Z\odot f_{W,b} (Z)$ ? ?? $(5)$

其中 $⊙$ 表示按元素乘法绢记。對(duì)于訓(xùn)練穩(wěn)定性扁达，我們發(fā)現(xiàn)將 $W$ 初始化為接近零值，將 $b$ 初始化為1是非常關(guān)鍵的蠢熄，這意味著公式 $(5)$ 中定義的 $s(\cdot )$ 在訓(xùn)練開始時(shí)近似為一個(gè)恒等映射跪解。這種初始化確保每個(gè)gMLP塊在訓(xùn)練的早期階段表現(xiàn)得像一個(gè)常規(guī)的FFN，其中每個(gè)token都是獨(dú)立處理的签孔，并且只是逐漸地注入token之間的空間信息叉讥。

乘法選通可被視為使用空間信號(hào)“調(diào)制”單個(gè)token表示的機(jī)制。換句話說饥追， $Z$ 中每個(gè)元素的大小(magnitude)可以根據(jù)選通函數(shù) $f_{W,b} (\cdot )$ 快速調(diào)整图仓。

我們進(jìn)一步發(fā)現(xiàn)，對(duì)于選通函數(shù)和乘法旁路但绕，沿著通道維度將 $Z$ 分成兩個(gè)獨(dú)立部分 $(Z_1,Z_2)$ 是有效的救崔，這在GLUs中是典型的：

$s(Z)=Z_1\odot f_{W,b} (Z_2)$ ? ?? $(6)$

我們還歸一化了 $f_{W,b}$ 的輸入，這是經(jīng)驗(yàn)上提高了大型NLP模型的穩(wěn)定性捏顺。這樣我們就有了圖1所示的單元六孵，在本文的其余部分中我們稱之為空間選通單元（SGU）。在表3中草丧，我們提供了燒蝕研究來比較SGU和其他幾種 $s(\cdot )$ 的變體狸臣，表明它工作得更好，并縮小了與自注意力的表現(xiàn)差距昌执。

點(diǎn)評(píng)?? ? SGU的整體配方與門控線性單元（GLU）密切相關(guān)[24烛亦，25，26]懂拾。一個(gè)關(guān)鍵的區(qū)別是煤禽，我們的選通是基于空間維度（在不同的token之間）而不是通道維度（每個(gè)token）來計(jì)算的。在元素級(jí)乘法交互方面岖赋，它也類似于擠壓和激發(fā)塊[27]檬果，但SGU沒有做池化，而是允許可學(xué)習(xí)的空間變換唐断。SGU中的空間投影可以學(xué)習(xí)表示表面深度卷積(superficial depthwise convolutions)选脊。與典型的深度卷積不同（每個(gè)通道都有單獨(dú)的濾波核），SGU在各個(gè)通道上只學(xué)習(xí)一個(gè)共享的變換脸甘。最后恳啥，我們注意到SGU提供了一種除自注意力之外的另一種方法來捕捉高階關(guān)系。具體而言丹诀，公式 $(5)$ 的輸出包含高達(dá)二階的相互作用(up to 2nd-order interactions)钝的，例如翁垂， $z_iz_j$ ，而自注意力的輸出（假設(shè)沒有非線性）包含高達(dá)三階的相互作用（例如硝桩， $z_iz_jz_k$ ）沿猜。在計(jì)算成本方面，SGU有 $n^2e/2$ 乘加碗脊，與點(diǎn)積注意的 $2n^2d$ 相當(dāng)啼肩。兩者都相對(duì)于輸入通道是線性的，相對(duì)于序列長(zhǎng)度 $n$ 上是二次的望薄。（注釋1：SGU的輸入通道大小 $e$ 通常大于自注意力的輸入通道大小 $d$ 疟游，因?yàn)榍罢哂糜趬K中間通道擴(kuò)展后。）

3 ????圖像分類

本文將gMLP應(yīng)用到ImageNet上的圖像分類任務(wù)中痕支，不使用額外的數(shù)據(jù)，研究了gMLP在視覺領(lǐng)域的應(yīng)用蛮原。我們將我們的無注意力模型與最近基于vanilla?Transformer的有注意模型進(jìn)行了比較卧须，包括視覺Transformer（ViT）[7]、DeiT[8]（對(duì)ViT改進(jìn)正則化）以及其他幾種具有代表性的卷積網(wǎng)絡(luò)儒陨。

表1 總結(jié)了我們的gMLP圖像分類模型的配置花嘶。輸入和輸出協(xié)議遵循ViT/B16，其中原始圖像在網(wǎng)絡(luò)的柄(stem)被轉(zhuǎn)換為16×16個(gè)patches蹦漠。深度和寬度的選擇是使模型在容量上與ViT/DeiT相當(dāng)椭员。與Transformer一樣，我們發(fā)現(xiàn)gMLP傾向于大幅過度擬合訓(xùn)練數(shù)據(jù)笛园。因此隘击，我們采用了與DeiT中使用的正則化方法相似的正則化方法。為了避免廣泛的調(diào)整研铆，當(dāng)我們從表1中的較小模型移動(dòng)到較大模型時(shí)埋同，我們僅調(diào)整隨機(jī)深度的強(qiáng)度[28]。所有其他超參數(shù)在我們的三個(gè)模型中保持共享棵红。詳見附錄A.1凶赁。（注釋2：與DeiT不同，我們不使用repeated augmentation或random erasing逆甜。）

表1:gMLP視覺模型的架構(gòu)說明虱肄。隨機(jī)深度的生存概率是從小模型到大模型唯一變化的超參數(shù)。

我們的ImageNet結(jié)果總結(jié)在表2和圖2中交煞。有趣的是咏窿，gMLPs與DeiT[8]（即使用改進(jìn)正則化訓(xùn)練的ViT[7]）相當(dāng)。結(jié)果表明错敢，無注意力模型可以像Transformer一樣有效地進(jìn)行圖像分類翰灾。事實(shí)上缕粹，當(dāng)模型被適當(dāng)?shù)卣齽t化時(shí)，它們的準(zhǔn)確度似乎與模型容量有更好的相關(guān)性纸淮，而不像之前的注意力機(jī)制一樣平斩。此外，gMLPs的精度參數(shù)/FLOPs權(quán)衡超過了所有同時(shí)提出的類似MLP的架構(gòu)[19咽块，20绘面，21]，我們將其歸因于我們的空間選通單元的有效性（見下一節(jié)中的表3）侈沪。我們還注意到揭璃，雖然gMLPs與vanilla?Transformers相比具有競(jìng)爭(zhēng)力，但它們的性能落后于現(xiàn)有最好的ConvNet模型（如[29亭罪，30]）或混合型注意力模型（如[31瘦馍，10，32应役，33]）情组。（筆者注：[29]是NFNet，[30]是EfficientNetV2箩祥，[31]是LambdaNetworks院崇，[10]是Hierarchical vision transformer using shifted windows，[32]是HaloNets袍祖，[33]是Bottleneck transformers for visual recognition）

圖3顯示了gMLP-B中的空間投影矩陣底瓣。值得注意的是，學(xué)習(xí)后的空間權(quán)值具有局部性和空間不變性(locality and spatial invariance)蕉陋。換句話說捐凭，每個(gè)空間投影矩陣有效地學(xué)習(xí)到去執(zhí)行卷積，該卷積是數(shù)據(jù)驅(qū)動(dòng)的寺滚，核形狀是不規(guī)則的（非方形）(perform convolution with a data-driven, irregular (non-square) kernel shape)

圖3:gMLP-B中的空間投影權(quán)重柑营。每一行顯示同一層中一組選定tokens的濾波器（reshaped為2D）。Spatial projection weights in gMLP-B. Each row shows the filters (reshaped into 2D) for a selected set of tokens in the same layer.

4 用BERT進(jìn)行屏蔽語言建模

本文對(duì)屏蔽語言建模任務(wù)進(jìn)行了實(shí)證研究村视。預(yù)訓(xùn)練和微調(diào)的輸入/輸出格式按照BERT[2]官套。與基于Transformer的模型不同，我們不使用位置編碼蚁孔。我們還發(fā)現(xiàn)奶赔，在微調(diào)過程中，沒有必要掩蓋gMLP塊中的<pad>杠氢，因?yàn)槟Ｐ涂梢院芸鞂W(xué)會(huì)忽略它們站刑。對(duì)于燒蝕和案例研究，所有模型都以批量2048訓(xùn)練鼻百，最大長(zhǎng)度為128绞旅，在C4的RealNews類子集上執(zhí)行125K步[5]摆尝。對(duì)于主要結(jié)果，使用批量大小為256因悲、最大長(zhǎng)度為512的模型在完整的英語C4數(shù)據(jù)集上進(jìn)行1M步的訓(xùn)練堕汞。詳見附錄A.2。

對(duì)于MLM任務(wù)晃琳，平移不變性是一個(gè)理想的屬性讯检，因?yàn)檩斎胄蛄械娜魏纹贫疾粦?yīng)影響slot filling結(jié)果。這個(gè)性質(zhì)意味著Toeplitz空間權(quán)重矩陣W卫旱。我們?cè)贛LM實(shí)驗(yàn)中采用了這個(gè)約束人灼，因?yàn)樗鼫p少了模型參數(shù)，并且在經(jīng)驗(yàn)上對(duì)質(zhì)量或效率的影響可以忽略不計(jì)顾翼。（注釋3：這是因?yàn)榧词箾]有這個(gè)約束投放，gMLP也將學(xué)習(xí)移位不變性（附錄C中的圖9）。）在這種情況下暴构， $f_{W,b} (\cdot )$ 類似于寬的深度卷積跪呈，其感受野覆蓋整個(gè)序列。然而她肯，與深度卷積在每個(gè)通道都有專門的卷積核不同梢褐，我們只學(xué)習(xí)通道間共享的單個(gè) $W$ 。

4.1 ????消融：gMLP門控對(duì)BERT預(yù)訓(xùn)練的重要性

在下面的表3中，我們?yōu)橄谘芯拷⒘嘶€滑潘。其中包括：

—— 具有Transformer結(jié)構(gòu)和可學(xué)習(xí)的絕對(duì)位置嵌入的BERT。

—— 具有Transformer結(jié)構(gòu)和T5風(fēng)格的可學(xué)習(xí)相對(duì)位置偏置的BERT[5]梨州。每個(gè)層和每個(gè)頭都有專門的偏置（也即不共享）蛛碌，因?yàn)槲覀儼l(fā)現(xiàn)這會(huì)產(chǎn)生最好的結(jié)果。

—— 和上面的一樣寻定，不過我們移除softmax里所有的content-dependent項(xiàng)儒洛，只保留relative positional biases，這個(gè)基線是值得關(guān)注的狼速，因?yàn)槠淇杀豢醋鍪荰ransformers的一種直接的無注意力的變體琅锻，也可以被看做是一種Synthesizer[35]。

表3中向胡，我們將這些基線與具有相似大小的幾個(gè)版本的gMLPs進(jìn)行比較恼蓬。請(qǐng)注意，Multiplicative, Split （最后一行）是我們?cè)诜椒且还?jié)中描述的空間選通單元僵芹，并在本文的其余部分中使用处硬。首先，SGU在困惑度(perplexity)方面優(yōu)于其他變體拇派。其次荷辕，值得注意的是凿跳，帶SGU的gMLP也達(dá)到了類似于Transformer的困惑度(perplexity)。請(qǐng)注意疮方，當(dāng)模型被縮放時(shí)控嗜，最強(qiáng)基線（困惑度(perplexity)度=4.26）和我們的基線（困惑度(perplexity)度=4.35）之間的差異是不顯著的，relative to the perplexity change when the models are scaled（見下一節(jié)中的表4）案站。gMLPs學(xué)習(xí)的空間投影權(quán)重如圖4所示躬审。

4.2 案例研究：gMLP隨模型增大的表現(xiàn)

在表4中，我們研究了BERT中Transformer和gMLP的縮放特性隨模型容量的增長(zhǎng)蟆盐。具體來說承边，我們將這些模型的深度按{0.5，1石挂，2博助，4}的因子進(jìn)行縮放，并在GLUE[36]中報(bào)告他們?cè)陬A(yù)訓(xùn)練對(duì)驗(yàn)證集的困惑度以及對(duì)兩個(gè)任務(wù)的開發(fā)集的微調(diào)結(jié)果痹愚。注：每個(gè)Transformer層實(shí)際上是兩個(gè)連續(xù)的塊：一個(gè)用于自注意力富岳，另一個(gè)用于FFN。在下表中拯腮，我們使用12+12表示Transformer基線中的12個(gè)注意塊加上12個(gè)FFN塊窖式。

以上結(jié)果表明，足夠深的gMLP能夠匹配甚至優(yōu)于容量相當(dāng)?shù)腡ransformer的復(fù)雜度动壤。（注釋4：我們還試驗(yàn)了deeper-and-thinner Transformers (with capacity fixed)萝喘，但發(fā)現(xiàn)進(jìn)一步增加深度并不能改善困惑。詳見附錄B琼懊。）此外阁簸，兩種結(jié)構(gòu)族的復(fù)雜度參數(shù)關(guān)系近似遵循冪律(power law)（圖5左側(cè)）。這意味著最初為基于Transformer語言模型觀察到的經(jīng)驗(yàn)上的縮放規(guī)律[37 Scaling laws for neural language models哼丈，2020]可能廣泛適用于不同的模型族启妹。

表4還導(dǎo)致了一個(gè)有趣的觀察結(jié)果，即不同模型族的預(yù)訓(xùn)練困惑度(perplexity)在微調(diào)方面并不相等醉旦。雖然gMLPs在SST-2上的性能優(yōu)于Transformer饶米，但在MNLI上的性能較差。結(jié)果表明髓抑，NLP任務(wù)的微調(diào)性能不僅與結(jié)構(gòu)中的復(fù)雜度有關(guān)咙崎，而且與結(jié)構(gòu)中的歸納偏置有關(guān)。圖5顯示吨拍，盡管預(yù)訓(xùn)練和微調(diào)之間存在特定于體系結(jié)構(gòu)的差異褪猛，但gMLPs和Transformers在這兩個(gè)微調(diào)任務(wù)上表現(xiàn)出可比較的可伸縮性（slope）。這意味著人們總是可以通過擴(kuò)大模型容量來彌補(bǔ)差距羹饰。換句話說伊滋，研究結(jié)果表明碳却，模型相對(duì)于下游指標(biāo)的可伸縮性可以獨(dú)立于自注意力的存在。

4.3????消融：微小的注意力在BERT的微調(diào)中的作用

到目前為止笑旺，我們已經(jīng)發(fā)現(xiàn)昼浦，要實(shí)現(xiàn)強(qiáng)大的MLM困惑度(perplexity)或可擴(kuò)展性，自注意力不是一個(gè)必要的組成部分筒主。同時(shí)关噪，我們還確定了NLP微調(diào)任務(wù)，其中g(shù)MLP遷移不如Transformer（表4）乌妙。我們的無注意模型對(duì)SST-2有利使兔，但對(duì)MNLI不利，這一事實(shí)尤其具有信息價(jià)值藤韵，前者是一個(gè)單句任務(wù)虐沥，而后者涉及句子對(duì)（前提和假設(shè)）[38]。我們懷疑自注意力在微調(diào)過程中的作用與跨句對(duì)齊有關(guān)泽艘。

為了分離注意的影響欲险，我們用一個(gè)混合模型進(jìn)行了實(shí)驗(yàn)，在這個(gè)模型中匹涮，一個(gè)微小的自注意力塊附著在gMLP的門控功能上（圖6）天试。由于gMLP本身已經(jīng)能夠捕捉空間關(guān)系，我們假設(shè)這個(gè)額外的注意模塊不一定很多參數(shù)然低，而且它的存在比它的能力更相關(guān)秋秤。在我們的實(shí)驗(yàn)中，一個(gè)典型的微小注意模塊只有一個(gè)大小為64的單頭脚翘，明顯小于Transformer中一個(gè)典型的多頭注意模塊（12頭，總大小為768）绍哎。下面来农，我們將混合模型，即具有微小注意的gMLP稱為aMLP（“a”表示注意）崇堰。

圖6：帶有一個(gè)微小的自注意模塊的混合空間門控單元沃于。我們使用gMLP塊的輸入（在第一次歸一化之后）作為微小注意模塊的輸入。

在圖7中海诲，我們通過MLM模型的預(yù)訓(xùn)練困惑度(perplexity)和微調(diào)指標(biāo)之間的校準(zhǔn)圖研究了MLM模型的可遷移性繁莹。評(píng)估的模型包括BERT base、gMLP及其混合版本的aMLP和64-d單頭注意（圖6）特幔。通過改變模型深度{0.5,1,2}×或數(shù)據(jù){1咨演，2，4蚯斯，8}×來收集數(shù)據(jù)點(diǎn)薄风《希可以看出，無論注意的存在與否遭赂，gMLP對(duì)SST-2的遷移都比Transformer好循诉，而gMLP對(duì)MNLI的轉(zhuǎn)移效果更差，附加一點(diǎn)點(diǎn)注意力就足以彌補(bǔ)這一差距撇他。在附錄D中茄猫，我們將aMLP中的微小注意模塊可視化，顯示它們主要負(fù)責(zé)句子對(duì)之間的對(duì)齊困肩。

在圖8中划纽，我們將三個(gè)模型的縮放特性放在一起，顯示了aMLP（gMLP+tiny attention）在兩個(gè)微調(diào)任務(wù)上始終優(yōu)于Transformer僻弹。

圖7?從MLM的預(yù)訓(xùn)練困惑度(perpexity)到GLUE微調(diào)準(zhǔn)確度的可遷移性阿浓。aMLP是指增強(qiáng)了64維單頭自注意的gMLP，如圖6所示蹋绽。相比之下芭毙，BERT基線中的每個(gè)自我注意模塊包含12個(gè)頭，總大小為768卸耘。

圖8? ?Transformers退敦、gMLPs和aMLPs（64-d，單頭注意）縮放特性的比較蚣抗。使用第4.2節(jié)中相同的設(shè)置獲得結(jié)果侈百。

4.4 BERT設(shè)置下的MLM主要結(jié)果

下面我們將在完整的BERT設(shè)置中呈現(xiàn)預(yù)訓(xùn)練和微調(diào)結(jié)果。不同于消融和案例研究翰铡，這里我們使用全英文C4數(shù)據(jù)集钝域，并采用一個(gè)通用的MLM設(shè)置，批量大小256锭魔，最大長(zhǎng)度512和1M的訓(xùn)練步驟例证。為了公平比較，我們調(diào)整了gMLPs的深度和寬度迷捧，以確保模型容量與Transformer基線相當(dāng)织咧。模型規(guī)格見表5，超參數(shù)詳情見附錄A.2漠秋。對(duì)于微調(diào)笙蒙，我們?cè)贕LUE[36]中報(bào)告了SST-2和MNLI的dev set性能，每個(gè)結(jié)果條目都是通過取五次獨(dú)立運(yùn)行的中位數(shù)獲得的庆锦。此外捅位，我們還報(bào)告了[39,40]團(tuán)隊(duì)在SQuAD微調(diào)結(jié)果，以測(cè)試模型在更長(zhǎng)時(shí)間內(nèi)的推理能力。

結(jié)果如表6所示绿渣。與我們之前在第4.1節(jié)和第4.2節(jié)中的研究結(jié)果一致朝群，gMLP在復(fù)雜性方面與Transformer具有競(jìng)爭(zhēng)力，尤其是在更大規(guī)模的設(shè)置中中符。有幾個(gè)觀察結(jié)果與微調(diào)結(jié)果有關(guān)：

首先姜胖，在gMLP性能不如Transformer的微調(diào)任務(wù)中，隨著模型容量的增加淀散，性能差距趨于縮小右莱。例如，在基本量表中档插，gMLP在SQuAD-v2.0上的表現(xiàn)較差8.5%慢蜓，而在更大的量表中，相對(duì)于基線的表現(xiàn)差距降低到2.7%郭膛。值得注意的是晨抡，我們的gMLPlarge在SQuAD-v1.1上實(shí)現(xiàn)了89.5%的F1，沒有任何注意或動(dòng)態(tài)參數(shù)化機(jī)制[26]则剃，這遠(yuǎn)遠(yuǎn)高于Devlin等人[2]中報(bào)道的BERTbase的88.5%耘柱，與BERT large的原始結(jié)果僅相差1.4%。雖然這顯然不是一個(gè)公平的比較棍现，由于不同的訓(xùn)練設(shè)置调煎，它可以被視為一個(gè)存在的證據(jù)，證明即使沒有注意力己肮，MLP樣模型可以在具有挑戰(zhàn)性的下游NLP任務(wù)中有競(jìng)爭(zhēng)力士袄。

此外，我們還表明谎僻，在一個(gè)64或128大小的微小的單頭注意力的混合結(jié)構(gòu)娄柳，足以使gMLPs優(yōu)于容量相似的Transformer，有時(shí)甚至有很大的優(yōu)勢(shì)艘绍。例如西土，我們的混合模型aMLP large在更困難的SQuAD-v2.0任務(wù)中實(shí)現(xiàn)了比Transformer高4.4%的F1。結(jié)果表明鞍盗，Transformer多頭自注意力的容量可以大量冗余，其大部分功能可以被gMLPs中的空間選通單元捕獲跳昼。結(jié)果還表明般甲，gMLPs的空間門控單元中的歸納偏置與微小注意是互補(bǔ)的。雖然隨著計(jì)算量的增加鹅颊，體系結(jié)構(gòu)歸納偏置的好處可能會(huì)消失敷存，但在我們?cè)诒狙芯恐兴芯康念I(lǐng)域中，微小的自注意力確實(shí)提高了gMLPs的實(shí)用價(jià)值。

5 結(jié)論

自從Vaswani等人的開創(chuàng)性工作[1]以來锚烦，Transformer已經(jīng)被廣泛應(yīng)用于NLP和計(jì)算機(jī)視覺領(lǐng)域觅闽。這種采用使許多令人印象深刻的結(jié)果，特別是在自然語言處理涮俄。到目前為止蛉拙，還不清楚是什么賦予了這樣的成功：是Transformer的前饋性質(zhì)，還是Transformer中的多頭自注意力層彻亲？

我們的工作深入研究了這個(gè)問題孕锄，并表明我們通常不需要太多的注意力機(jī)制。我們證明了gMLPs苞尝，一個(gè)簡(jiǎn)單的帶選通的MLPs變體畸肆，可以在BERT的預(yù)訓(xùn)練困惑度(perplexity)和ViT的準(zhǔn)確性方面與Transformers競(jìng)爭(zhēng)。增加數(shù)據(jù)和計(jì)算量宙址，gMLP在可擴(kuò)展性方面(scalability)也可以與Transformers進(jìn)行比較轴脐。至于BERT微調(diào)，我們發(fā)現(xiàn)沒有注意力的gMLPs可以在SQuAD等具有挑戰(zhàn)性的任務(wù)上取得吸引人的效果抡砂，并且在某些情況下可以顯著優(yōu)于Transformers大咱。我們還發(fā)現(xiàn)，Transformer的多頭自注意力歸納偏置有用的下游任務(wù)舀患，需要跨句子對(duì)齊徽级。然而，在這些情況下聊浅，使gMLP大得多會(huì)縮小與Transformer的差距餐抢。更實(shí)際的是，將一點(diǎn)點(diǎn)的單頭注意力混合到gMLP中低匙，可以獲得更好的體系結(jié)構(gòu)旷痕，而不需要增加模型的大小。

We thank Gabriel Bender, Neil Houlsby, Thang Luong, Niki Parmar, Hieu Pham, Noam Shazeer, Ilya Sutskever, Jakob Uszkoreit and Ashish Vaswani for their feedback to the paper.

附錄

A? ? 超參

A.1 圖片分類

A.2 屏蔽語言建模

B 深而窄的Transformers

C MLM的平移不變性

D? ? 微小注意力的可視化

在這里顽冶，我們?cè)贛NLI-m上進(jìn)行微調(diào)后欺抗，將aMLP中微小注意模塊的注意圖可視化。下面熱圖中的每個(gè)元素表示在網(wǎng)絡(luò)的前半部分期間接收到的相應(yīng)令牌對(duì)的最大關(guān)注權(quán)重强重。

https://openreview.net/forum?id=KBnXrODoBW

Paper Decision

NeurIPS 2021會(huì)議Program Chairs

Program Chairs28的決定2021 9月28日所有人

決定：接受（海報(bào)）

備注：

本文介紹了一種基于MLP的門控模型（gMLP）绞呈，該模型可獲得與Transformer相當(dāng)?shù)男阅埽砻髯宰⒁鈱?duì)這些模型的成功并不重要间景。雖然對(duì)所提議的方法的局限性提出了多種擔(dān)憂佃声，但所有四位評(píng)審員都贊賞論文中報(bào)告的強(qiáng)有力的實(shí)證結(jié)果，并建議接受倘要。AC同意這一決定圾亏，并要求作者在最終版本中添加反駁中提供的討論和其他信息，并更清楚地描述擬議方法的局限性。

審查員GiR7對(duì)Paper7105的正式審查

NeurIPS 2021會(huì)議論文7105評(píng)審員GiR7

Paper7105審核人GiR721 2021 7月正式審核所有人

總結(jié)：

本文提出了一種基于MLP的模型志鹃，該模型在視覺任務(wù)和語言建模方面的性能與transformers相當(dāng)夭问。雖然這種基于MLP的模型在自然語言理解任務(wù)（如MNLI）上的表現(xiàn)稍差，但引入一個(gè)小的單頭自注意模塊可以彌補(bǔ)大部分性能損失曹铃。與并行工程中引入的其他基于MLP的模型相比缰趋，該模型在空間投影之前使用了選通模塊。就性能而言铛只，該方法在視覺和語言建模任務(wù)上比并行MLP變體MLP混合器更強(qiáng)埠胖，顯示了所提出的選通方法的優(yōu)勢(shì)

總的來說，我發(fā)現(xiàn)所提出的方法很有趣淳玩，而且經(jīng)驗(yàn)性很強(qiáng)直撤。我傾向于接受，但也希望作者在理解提議的模型方面做了更多的工作蜕着。我提出一些建議谋竖，下面有一些問題。

主要審查：

贊成的意見

實(shí)證表現(xiàn)強(qiáng)勁

該模型將選通機(jī)制與僅MLP模型相結(jié)合承匣，具有新穎性蓖乘。

提交的材料寫得很好，很清楚韧骗。

缺點(diǎn)/問題

提交的文件非常注意所提出方法的實(shí)證性能嘉抒。這是可以理解的，但我也希望作者做了更多的分析工作袍暴，以了解所提出的方法些侍。以下是一些建議：

學(xué)習(xí)動(dòng)力學(xué)：所提出的方法在收斂行為方面是否與transformers明顯不同？

數(shù)據(jù)效率：transformers和gMLP在數(shù)據(jù)效率方面是否存在權(quán)衡政模？例如岗宣，當(dāng)我們添加更多的訓(xùn)練數(shù)據(jù)時(shí)，gMLP相對(duì)于transformer的性能是更好還是更差淋样？

作者是否可以證明gMLP的計(jì)算優(yōu)勢(shì)耗式？所提出的方法推理速度更快還是gMLP節(jié)省了GPU內(nèi)存？

注意機(jī)制對(duì)于跨句理解任務(wù)尤為重要趁猴，這一事實(shí)非常有趣刊咳。我想知道作者是否能識(shí)別出學(xué)習(xí)到的單頭注意力的任何模式±芩荆或者芦缰，作者能否就注意力機(jī)制的作用進(jìn)行更多的討論？

限制和社會(huì)影響：

我認(rèn)為這項(xiàng)工作不會(huì)對(duì)社會(huì)產(chǎn)生任何負(fù)面影響枫慷。

道德問題：

我對(duì)這項(xiàng)工作沒有任何道德問題。

需要倫理審查：否

道德審查領(lǐng)域：我不知道

花在復(fù)習(xí)上的時(shí)間：6

評(píng)分：6：略高于驗(yàn)收閾值

自信：4：你對(duì)自己的評(píng)估有信心，但不是絕對(duì)肯定或听。您不太可能（但并非不可能）不理解提交文件的某些部分探孝，或者不熟悉某些相關(guān)工作。

行為準(zhǔn)則：在履行審查員職責(zé)（包括撰寫評(píng)論和參與討論）時(shí)誉裆，我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則顿颅。

作者回應(yīng)：

備注：

感謝您的評(píng)論和問題。

學(xué)習(xí)動(dòng)力學(xué)：所提出的方法在收斂行為方面是否與transformers明顯不同足丢？

對(duì)于蒙面語的預(yù)訓(xùn)練粱腻，它們的收斂速度一樣快。對(duì)于圖像分類斩跌，在ImageNet上可比較的訓(xùn)練設(shè)置下绍些，gMLP經(jīng)驗(yàn)收斂速度快于DeiT（ViT+正則化）。下面我們報(bào)告了各步驟的驗(yàn)證精度：

step-30K step-60K step-92K (end of training)

DeiT-B (87M params) 74.7 80.2 81.9

gMLP-B (73M params) 78.3 81.2 81.8

這與我們的主要發(fā)現(xiàn)一致耀鸦，即多頭自注意不是有效學(xué)習(xí)的必要組成部分柬批。我們將在修訂后的文件中包括更多的討論。

數(shù)據(jù)效率：transformers和gMLP在數(shù)據(jù)效率方面是否存在權(quán)衡袖订？

問得好氮帐。在圖5中，我們已經(jīng)表明洛姑，這兩個(gè)模型在增加的參數(shù)上的縮放效果相同上沐。下面我們進(jìn)一步說明，它們?cè)诳蓴U(kuò)展性方面與不斷增加的數(shù)據(jù)不相上下楞艾。

視覺效果：將訓(xùn)練集從ImageNet-1K擴(kuò)展到ImageNet-21K：

Model Training Data Inference Params (M) ImageNet-1K Top-1 (%)

ViT-B (+reg) ImageNet-1K 86 81.8

gMLP-B ImageNet-1K 73 81.6

ViT-B ImageNet-21K 86 84.6

gMLP-B ImageNet-21K 81 84.5

NLP results: enlarging the amount of training tokens by 16x on C4:

Training tokens Params (M) SST-2 MNLI-m

BERT-L 2K bsz x 125K steps 336 94.3 87.0

gMLP-L 2K bsz x 125K steps 365 94.8 86.2

BERT-L 8K bsz x 500K steps 336 95.3 88.9

gMLP-L 8K bsz x 500K steps 365 96.1 88.0

作者是否可以證明gMLP的計(jì)算優(yōu)勢(shì)参咙？

gMLPs有幾個(gè)潛在的計(jì)算優(yōu)勢(shì)，我們?cè)趯?shí)現(xiàn)中沒有利用這些優(yōu)勢(shì)产徊。例如昂勒，當(dāng)矩陣為Toeplitz（根據(jù)經(jīng)驗(yàn)，情況似乎是L142-149）時(shí)舟铜，理論上可以通過快速傅立葉變換（FFT）在O（n log（n））MAdds中執(zhí)行g(shù)MLPs中的每個(gè)空間投影戈盈。這比Transformer使用O（n^2）MAdds的多頭自注意要好，尤其是對(duì)于長(zhǎng)輸入序列谆刨。gMLPs的簡(jiǎn)單性也使其適合于模型并行塘娶，而Transformer的多頭自注意模塊很難在工作人員之間有效地進(jìn)行分區(qū)。

我想知道作者是否能識(shí)別出學(xué)習(xí)到的單頭注意力的任何模式痊夭〉蟀叮或者，作者能否就注意力機(jī)制的作用進(jìn)行更多的討論她我？

請(qǐng)參考附錄E了解單頭注意的可視化虹曙。有強(qiáng)烈的跡象表明迫横，微小的注意力是在輸入句子對(duì)之間進(jìn)行表面對(duì)齊的——注意注意力矩陣的非對(duì)角線上的清晰條紋。

審查員5t8k對(duì)文件7105的正式審查

NeurIPS 2021會(huì)議論文7105審稿人5t8k

Paper7105審核人5t8k19 2021 7月正式審核所有人

總結(jié)：

本文提出了一種基于MLPs的簡(jiǎn)單結(jié)構(gòu)酝碳，它只采用通道投影和帶有空間選通單元的空間投影矾踱。在圖像分類方面，本文提出的gMLP可以達(dá)到與DeiT和ViT相當(dāng)?shù)男阅苁杌⑶覂?yōu)于以前基于MLP的方法呛讲，如MLP-Mixer。在蒙面語言建模任務(wù)中返奉，gMLP在復(fù)雜度上的性能與Transformer相當(dāng)贝搁，在MNLI上的性能略差于Transformer。

主要審查：

出于獨(dú)創(chuàng)性芽偏，本文提出了一種新的基于MLP的方法雷逆，如gMLP。但與MLP混合器相比哮针，這種gMLP的貢獻(xiàn)似乎微乎其微关面。僅新設(shè)計(jì)并驗(yàn)證了空間選通單元的有效性。但本文的實(shí)驗(yàn)研究是充分的十厢，對(duì)社會(huì)有一定的參考價(jià)值等太。

這張紙的質(zhì)量很好。從實(shí)驗(yàn)報(bào)告的角度來看蛮放，與以前的方法相比缩抡，本文包含了足夠的實(shí)驗(yàn)結(jié)果，驗(yàn)證了重要的斷言包颁，并且在NLP中的ImageNet分類和屏蔽語言建模方面都取得了較好的性能瞻想。實(shí)驗(yàn)的多樣性是足夠的。

這篇論文的清晰度很好娩嚼。這篇論文條理清晰蘑险，易于理解。

我主要關(guān)心的是空間投影岳悟。這是一個(gè)簡(jiǎn)單的設(shè)計(jì)佃迄，但由于輸入空間分辨率的大小固定，應(yīng)用場(chǎng)景也受到限制贵少。例如呵俏，對(duì)于目標(biāo)檢測(cè)和語義分割的一些視覺下游任務(wù)，輸入大小與圖像分類的大小不同滔灶。這種體系結(jié)構(gòu)不能直接應(yīng)用于這些任務(wù)普碎。

限制和社會(huì)影響：

對(duì)

需要倫理審查：否

復(fù)習(xí)時(shí)間：10

評(píng)分：6：略高于驗(yàn)收閾值

自信：5：你對(duì)自己的評(píng)估絕對(duì)有把握。您非常熟悉相關(guān)工作录平，并仔細(xì)檢查了數(shù)學(xué)/其他細(xì)節(jié)麻车。

行為準(zhǔn)則：在履行審查員職責(zé)（包括撰寫評(píng)論和參與討論）時(shí)缀皱，我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則。

回復(fù)審核人5t8k

NeurIPS 2021年會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 8月10日所有人

備注：

感謝您的評(píng)論和有用的反饋动猬。

但與MLP混合器相比唆鸡，這種gMLP的貢獻(xiàn)似乎微乎其微。

我們恭敬地表示不同意枣察，并想指出，MLP混合器燃逻、FF和ResMLP（在NeurIPS截止日期附近的arXiv上發(fā)布）與我們同時(shí)工作序目。我們引用了這些模型，并將其結(jié)果包括在內(nèi)伯襟，以便為讀者提供這些最近類似MLP的模型的全面概述猿涨。然而，這并不意味著我們的提交文件（獨(dú)立編制）應(yīng)作為后續(xù)工作進(jìn)行評(píng)估姆怪。

我們?cè)贜LP中也做出了MLP混合器所沒有的重要貢獻(xiàn)叛赚。特別是，我們發(fā)現(xiàn)MLP混合器在語言任務(wù)上表現(xiàn)不佳（表3）稽揭，這可能是由于缺乏跨令牌的高階交互俺附。通過利用空間選通的概念，gMLP是第一個(gè)類似MLP的模型溪掀，它可以在屏蔽語言建模方面與Transformers競(jìng)爭(zhēng)事镣。考慮到BERT在NLP中的影響揪胃，這本身就是一個(gè)重要貢獻(xiàn)璃哟。

我主要關(guān)心的是空間投影。這是一個(gè)簡(jiǎn)單的設(shè)計(jì)喊递，但由于輸入空間分辨率的大小固定随闪，應(yīng)用場(chǎng)景也受到限制。

首先骚勘，gMLPs可以處理可變長(zhǎng)度的文本铐伴。請(qǐng)注意，我們關(guān)于GLUE（SST-2和MNLI）和SQuAD的所有NLP結(jié)果都是在長(zhǎng)度可變的文本序列上獲得的调鲸。這是通過對(duì)輸入應(yīng)用填充來實(shí)現(xiàn)的盛杰，這是BERT設(shè)置中Transformer的常見做法。對(duì)我們來說藐石，這有力地表明即供，gMLPs適用于各種高價(jià)值的NLP應(yīng)用，包括語言建模于微、問答和機(jī)器翻譯逗嫡。

此外青自，gMLPs可以處理不同的圖像分辨率以進(jìn)行圖像分類。在這里驱证，我們提供其他結(jié)果作為概念證明延窜。具體而言，我們（1）在圖像大小為224x224的ImageNet-21K上預(yù)訓(xùn)練gMLP抹锄，（2）對(duì)于每個(gè)空間投影逆瑞，“外推”224x224矩陣為384x384矩陣（這是通過平鋪學(xué)習(xí)的空間核來實(shí)現(xiàn)的），然后（3）在圖像大小為384x384的ImageNet-1K上微調(diào)擴(kuò)展模型伙单。下表顯示获高，GMLP可以很好地處理這種分辨率變化艾船，與Transformer取得競(jìng)爭(zhēng)結(jié)果：

Model Params (M) Resolution ImageNet Top-1 (%)

ViT-B/16 86 224->384 84.6

gMLP-B/16 81 224->384 84.5

ViT-L/16 307 224->384 85.1

gMLP-L/16 294 224->384 85.2

最后袍冷，我們同意，與一般Transformer相比聊闯，對(duì)于現(xiàn)代MLP類模型而言布疼，處理可變大小的輸入不那么簡(jiǎn)單摊趾。請(qǐng)注意，前者仍處于早期階段游两。然而砾层，鑒于上述NLP和視覺方面令人鼓舞的信號(hào)，以及最近其他類似MLP的模型在分割和對(duì)象檢測(cè)方面的成功（例如器罐。梢为，https://arxiv.org/abs/2107.08391)，我們相信這是一個(gè)非常有趣的未來方向轰坊，有許多令人興奮的研究機(jī)會(huì)铸董。

Upxb審查員對(duì)Paper7105的正式審查

NeurIPS 2021會(huì)議論文7105審稿人Upxb

Paper7105審核人正式審核Upxb16 2021 7月（修改：2021 7月17日）所有人

總結(jié)：

本文提出并研究了一個(gè)有趣的研究問題，即在基于Transformer的模型中是否可以消除自注意肴沫。作者設(shè)計(jì)了一種稱為gMLPs的新體系結(jié)構(gòu)粟害，通過移除自注意層并在FFN模塊中引入一個(gè)新的空間選通單元來很好地模擬獨(dú)立令牌之間的交互。對(duì)CV或NLP任務(wù)的綜合實(shí)驗(yàn)證實(shí)颤芬，所提出的GMLP可以實(shí)現(xiàn)與標(biāo)準(zhǔn)ViT或BERT模型相當(dāng)?shù)男阅堋?/p>

主要審查：

我很喜歡讀這篇論文悲幅，整個(gè)論文都很清晰，寫得很好站蝠，我相信這篇論文將對(duì)社區(qū)有益汰具，并啟發(fā)其他研究人員在這方面的工作。

以下是我遇到的一些問題或困惑：

建議的體系結(jié)構(gòu)在編碼器風(fēng)格的預(yù)訓(xùn)練模型（如ViT或BERT）上進(jìn)行評(píng)估菱魔，是否有可能將該方法擴(kuò)展到編碼器-解碼器或解碼器風(fēng)格的模型留荔，如T5或GPT？

基于Transformer的模型往往具有更好的OOD泛化能力澜倦，作者建議添加一些在“預(yù)訓(xùn)練Transformer提高分布外魯棒性”一文中進(jìn)行的OOD評(píng)估實(shí)驗(yàn)聚蝶。

在表4和表5中杰妓，最好添加推斷時(shí)間和失敗次數(shù)作為額外的評(píng)估指標(biāo)。

在圖4中碘勉，學(xué)習(xí)的濾波器似乎具有局部相關(guān)性巷挥，這將限制GMLP建模長(zhǎng)期依賴性的能力。

在附錄D中验靡，學(xué)習(xí)到的空間投影矩陣似乎是Toeplitz樣的倍宾，您能否定量評(píng)估這些矩陣是如何Toeplitz樣的？

擬議的gMLPs模型是否會(huì)對(duì)輸入句子的長(zhǎng)度敏感胜嗓？建議作者在考慮序列長(zhǎng)度因素的情況下增加一些分析凿宾，例如下游任務(wù)的精度與長(zhǎng)度。

實(shí)際上兼蕊，在部署到產(chǎn)品之前，通常需要對(duì)預(yù)先訓(xùn)練的模型進(jìn)行壓縮件蚕，我想知道是否可以將GMLP壓縮為物聯(lián)網(wǎng)設(shè)備的一些微型模型孙技。

最好討論擬議的GMLP的一些潛在限制。

限制和社會(huì)影響：

我認(rèn)為這項(xiàng)工作沒有潛在的負(fù)面社會(huì)影響排作。

需要倫理審查：否

復(fù)習(xí)時(shí)間：三小時(shí)

評(píng)分：8：接受NeurIPS論文前50%牵啦，明確接受

自信：4：你對(duì)自己的評(píng)估有信心，但不是絕對(duì)肯定妄痪。您不太可能（但并非不可能）不理解提交文件的某些部分哈雏，或者不熟悉某些相關(guān)工作。

行為準(zhǔn)則：在履行審查員職責(zé)（包括撰寫評(píng)論和參與討論）時(shí)衫生，我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則裳瘪。

回復(fù)審核人Upxb

NeurIPS 2021會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 8月10日所有人

備注：

感謝您的評(píng)論和寶貴建議。

是否有可能將該方法擴(kuò)展到編碼器-解碼器或解碼器樣式模型罪针，如T5或GPT彭羹？

對(duì)我們?cè)贑4上進(jìn)行了額外的語言建模實(shí)驗(yàn)，我們的初步結(jié)果表明泪酱，gMLPs也能夠在僅解碼器設(shè)置中實(shí)現(xiàn)與Transformer相當(dāng)?shù)膹?fù)雜度（使用類似GPT-2的架構(gòu)布局）派殷。相對(duì)于我們的傳銷模型，我們所做的唯一改變是屏蔽gMLPs中空間投影矩陣的下三角部分墓阀，以防止因果信息泄漏毡惜。我們將在修訂后的文件中增加更多關(guān)于解碼器風(fēng)格應(yīng)用的討論。

建議作者添加一些在“預(yù)培訓(xùn)Transformer改善配電外魯棒性”一文中進(jìn)行的OOD評(píng)估實(shí)驗(yàn)斯撮。

我們同意经伙，關(guān)于OOD數(shù)據(jù)的穩(wěn)健性分析將非常有趣（因?yàn)樘岢隽瞬煌哪Ｐ妥澹覀儗⒀芯克ㄗh的工作吮成。

在表4和表5中橱乱，最好添加推斷時(shí)間和失敗次數(shù)作為額外的評(píng)估指標(biāo)辜梳。

已確認(rèn)。我們將在修訂后的文件中添加它們泳叠。

在圖4中作瞄，學(xué)習(xí)的濾波器似乎具有局部相關(guān)性，這將限制GMLP建模長(zhǎng)期依賴性的能力危纫。

這是可能的宗挥，并且可以解釋為什么GMLP表現(xiàn)良好，尤其是當(dāng)它們足夠深時(shí)（表4）种蝶。另一方面契耿，有趣的是，圖4中學(xué)習(xí)到的感受野通常比人們通常在convnet中使用的感受野更寬（即3螃征、5搪桂、7）。

在附錄D中盯滚，學(xué)習(xí)到的空間投影矩陣似乎是Toeplitz樣的踢械，您能否定量評(píng)估這些矩陣是如何Toeplitz樣的？

量化這一點(diǎn)的一種方法是測(cè)量學(xué)習(xí)到的位置特定濾波器相對(duì)于共享位置不可知濾波器的絕對(duì)錯(cuò)誤率（通過取位置特定濾波器的平均值獲得）魄藕。如果學(xué)習(xí)到的濾波器是完全空間不變的（對(duì)應(yīng)于Toeplitz空間矩陣）内列，則預(yù)計(jì)誤差為零。我們選取gMLP基的最后一層背率，并報(bào)告其隨窗口大小d增加的過濾錯(cuò)誤率：1.4%（d=5）话瞧、2.4%（d=9）、7.0%（d=17）寝姿、14%（d=33）和18%（d=65）交排。結(jié)果表明，誤差率通常很小饵筑，并且矩陣對(duì)角線附近的元素（通常具有更多權(quán)重）可以用Toepltz矩陣更精確地近似个粱。

擬議的gMLPs模型是否會(huì)對(duì)輸入句子的長(zhǎng)度敏感？

我們?cè)贕LUE上嘗試的一個(gè)相關(guān)實(shí)驗(yàn)是向gMLP模型提供更長(zhǎng)翻翩、冗余的輸入序列（通過多次重復(fù)原始輸入序列構(gòu)建）都许。我們還嘗試在MNLI的前提段和假設(shè)段中間插入大量<sep>標(biāo)記（以獲得具有相同語義的更長(zhǎng)序列）。有趣的是嫂冻，這兩項(xiàng)都沒有導(dǎo)致GMLP的輸出行為發(fā)生任何顯著變化胶征。

我想知道gMLPs是否可以壓縮成物聯(lián)網(wǎng)設(shè)備的一些微型模型。

沿著這條路線桨仿，一個(gè)有趣的方向是培訓(xùn)一名大型Transformer/gMLP教師睛低，然后將其提取為一名小型gMLP學(xué)生進(jìn)行部署。我們相信，gMLP的簡(jiǎn)單性可以使其適合于專門用于基本MATMUL的邊緣芯片钱雷，而不是更通用的EINSUM（用于處理Transformer中的額外頭部尺寸）骂铁。

最好討論擬議的GMLP的一些潛在限制。

好的觀點(diǎn)——我們將在修訂版中添加更多討論罩抗。我們討論過的一個(gè)值得注意的方面是拉庵，GMLP似乎攜帶著不同于Transformer的感應(yīng)偏壓，這使得它們?cè)谀承㎞LP下游任務(wù)中表現(xiàn)更好套蒂，但在其他一些任務(wù)中表現(xiàn)更差（圖5）钞支。這可以通過合并一個(gè)小的單頭自注意來解決（圖7），我們認(rèn)為這主要負(fù)責(zé)跨段對(duì)齊（附錄E）操刀。

關(guān)于推斷時(shí)間

NeurIPS 2021會(huì)議論文7105審稿人Upxb

Paper7105審稿人Upxb31 2021 8月大家發(fā)表的官方評(píng)論

備注：

謝謝你的回復(fù)烁挟。潛在的應(yīng)用場(chǎng)景在很大程度上取決于所提出模型的推理時(shí)間和存儲(chǔ)消耗，因此您能否提供一些關(guān)于不同輸入長(zhǎng)度的不同任務(wù)的推理時(shí)間的初步結(jié)果骨坑？

根據(jù)輸入長(zhǎng)度推斷成本

NeurIPS 2021會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 9月2日所有人

備注：

謝謝你的提問撼嗓。下面我們報(bào)告了不同輸入大小的V100 GPU上的推斷延遲。

文本分類（gMLP基）：

Seq length 32 64 128 256 512 1024 2048 4096

V100 Latency (ms) 13 13 14 22 31 65 148 386

Image classification (gMLP-B/16):

Resolution 56x56 112x112 224x224 448x448 986x896

V100 Latency (ms) 7 7 12 30 158

雖然推斷延遲可能高度依賴于硬件欢唾，但在這種情況下静稻，根據(jù)經(jīng)驗(yàn)觀察其與輸入大小的關(guān)系仍然很有趣：延遲在開始時(shí)呈次線性增長(zhǎng)，然后在輸入大小變大時(shí)呈超線性增長(zhǎng)匈辱。這是因?yàn)槟Ｐ偷某杀咀畛踔饕獊碜孕诺罃U(kuò)展/投影操作（O（nd^2）），但隨著輸入長(zhǎng)度n的增加杀迹，空間投影（O（dn^2））逐漸占主導(dǎo)地位亡脸。由于討論時(shí)間有限，上述結(jié)果是非常初步的树酪，但我們將嘗試在修訂后的手稿中包含更全面的分析浅碾。

審查員s4GZ對(duì)Paper7105的正式審查

NeurIPS 2021會(huì)議論文7105審稿人s4GZ

Paper7105正式審核人s4GZ15 2021 7月（修改日期：2021 8月31日）所有人

總結(jié)：

本文提出了一種簡(jiǎn)單的機(jī)制：門控MLP，并對(duì)自注意的必要性提出了質(zhì)疑续语。gMLP在分類任務(wù)上的性能與DeiT相當(dāng)垂谢。在NLP語音上的實(shí)驗(yàn)也證明了該方法的有效性。

主要審查：

強(qiáng)度：

在視覺分類和NLP任務(wù)中都設(shè)計(jì)了實(shí)驗(yàn)疮茄。

總體而言滥朱，實(shí)驗(yàn)結(jié)果良好。它在ImageNet 1k分類和NLP基線上實(shí)現(xiàn)了與DeiT類似的性能力试。gMLP實(shí)現(xiàn)了比MLP基線MLPmixer更好的性能徙邻。

動(dòng)機(jī)明確且良好。然而畸裳，由于弱點(diǎn)缰犁，這種說法過于強(qiáng)烈。

弱點(diǎn)：

一個(gè)大問題是，gMLP無法擴(kuò)展到下游任務(wù)帅容，如目標(biāo)檢測(cè)颇象，在訓(xùn)練過程中需要不同的分辨率。偽代碼中的spatial\u gating\u unit函數(shù)只能處理固定長(zhǎng)度并徘。我認(rèn)為這是一個(gè)致命的和根本的缺點(diǎn)遣钳，并將極大地限制本文的應(yīng)用。請(qǐng)注意饮亏，自注意可以很容易地處理耍贾，在NeurIPS之前有很多新的工作[1,2,3]，可以很容易地處理這種情況路幸，并在分割和對(duì)象檢測(cè)方面取得令人印象深刻的結(jié)果荐开。相反，gMLP框架不能直接處理它简肴。如果我錯(cuò)了晃听，請(qǐng)糾正我。

一些重要因素被忽視砰识，可能導(dǎo)致不公平的比較能扒。一個(gè)重要的基線是DeiT，然而辫狼，在DeiT的基礎(chǔ)上提出了許多改進(jìn)[1,2,3,4,5,6,7]初斑，進(jìn)一步提高了性能。如果包括Transformer和gMLP膨处，則它們之間的性能差距會(huì)擴(kuò)大见秤。例如，gMLP在分類中利用了全局平均池差距真椿，而DeiT則沒有鹃答。這將使transformer在ImageNet驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率至少提高1-1.5%。微調(diào)下降路徑速率（gMLP也可以做到這一點(diǎn)）[2突硝、3测摔、7]可以略微改善Transformer的性能。我相信解恰，與這些工作進(jìn)行適當(dāng)?shù)挠懻摵捅容^將有益于本論文和社區(qū)锋八。

未成年人：

門控標(biāo)題有點(diǎn)混亂，因?yàn)樗男袨榕c常用的含義不同护盈。

未報(bào)告推斷速度（imgs/s）（表2）

參考

[1] 金字塔視覺變換器：用于無卷積的密集預(yù)測(cè)的多功能主干查库，https://arxiv.org/abs/2102.12122

[2] 雙胞胎：重新審視視覺Transformer中的空間注意設(shè)計(jì)，https://arxiv.org/abs/2104.13840

[3] Swin Transformer：使用移動(dòng)窗口的分層視覺Transformerhttps://arxiv.org/abs/2103.14030

[4] 視覺Transformer的條件位置編碼黄琼，https://arxiv.org/abs/2102.10882

[5] Token to Token ViT：在ImageNet上從頭開始培訓(xùn)視覺Transformerhttps://arxiv.org/abs/2101.11986

[6] Transformer中的Transformer樊销，https://arxiv.org/abs/2103.00112.

[7] 使用圖像Transformer更深入https://arxiv.org/abs/2103.17239

限制和社會(huì)影響：

見主要審查的弱點(diǎn)1整慎。

需要倫理審查：否

花在復(fù)習(xí)上的時(shí)間：7

評(píng)分：6：略高于驗(yàn)收閾值

自信：4：你對(duì)自己的評(píng)估有信心，但不是絕對(duì)肯定围苫。您不太可能（但并非不可能）不理解提交文件的某些部分裤园，或者不熟悉某些相關(guān)工作。

行為準(zhǔn)則：在履行審查員職責(zé)（包括撰寫評(píng)論和參與討論）時(shí)剂府，我已經(jīng)并將繼續(xù)遵守NeurIPS行為準(zhǔn)則拧揽。

回復(fù)審核人s4GZ

NeurIPS 2021會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 8月10日所有人

備注：

感謝您的評(píng)論和有用的評(píng)論。

一個(gè)大問題是腺占，gMLP無法擴(kuò)展到下游任務(wù)淤袜，如目標(biāo)檢測(cè)，在訓(xùn)練過程中需要不同的分辨率衰伯。铡羡。。我認(rèn)為這是一個(gè)致命的和根本的缺點(diǎn)意鲸，并將極大地限制本文的應(yīng)用烦周。

首先，gMLPs可以處理可變長(zhǎng)度的文本怎顾。請(qǐng)注意读慎，我們關(guān)于GLUE（SST-2和MNLI）和SQuAD的所有NLP結(jié)果都是在長(zhǎng)度可變的文本序列上獲得的。這是通過對(duì)輸入應(yīng)用填充來實(shí)現(xiàn)的槐雾，這是BERT設(shè)置中Transformer的常見做法夭委。對(duì)我們來說，這有力地表明募强，gMLPs適用于各種高價(jià)值的NLP應(yīng)用株灸，包括語言建模、問答和機(jī)器翻譯钻注。

此外，gMLPs可以處理不同的圖像分辨率以進(jìn)行圖像分類配猫。在這里幅恋，我們提供其他結(jié)果作為概念證明。具體而言泵肄，我們（1）在圖像大小為224x224的ImageNet-21K上預(yù)訓(xùn)練gMLP捆交，（2）對(duì)于每個(gè)空間投影，“外推”224x224矩陣為384x384矩陣（這是通過平鋪學(xué)習(xí)的空間核來實(shí)現(xiàn)的）腐巢，然后（3）在圖像大小為384x384的ImageNet-1K上微調(diào)擴(kuò)展模型品追。下表顯示，GMLP可以很好地處理這種分辨率變化冯丙，與Transformer取得競(jìng)爭(zhēng)結(jié)果：

Model Params (M) Resolution ImageNet Top-1 (%)

ViT-B/16 86 224->384 84.6

gMLP-B/16 81 224->384 84.5

ViT-L/16 307 224->384 85.1

gMLP-L/16 294 224->384 85.2

最后肉瓦，我們同意，與一般Transformer相比，對(duì)于現(xiàn)代MLP類模型而言泞莉，處理可變大小的輸入不那么簡(jiǎn)單哪雕。請(qǐng)注意，前者仍處于早期階段鲫趁。然而斯嚎，鑒于上述NLP和視覺方面令人鼓舞的信號(hào)，以及最近其他類似MLP的模型在分割和對(duì)象檢測(cè)方面的成功（例如挨厚。堡僻，https://arxiv.org/abs/2107.08391)，我們相信這是一個(gè)非常有趣的未來方向疫剃，有許多令人興奮的研究機(jī)會(huì)钉疫。

gMLP在分類中利用了全球平均池差距，而DeiT則沒有慌申。

這不是真的陌选。我們根本不使用全局平均池，我們的輸入/輸出協(xié)議與DeiT相同蹄溉。請(qǐng)參考L70-75中的型號(hào)說明咨油。

如果包括Transformer和gMLP（附加增強(qiáng)）之間的性能差距，則會(huì)擴(kuò)大

我們強(qiáng)調(diào)柒爵，我們應(yīng)用的任何增強(qiáng)（附錄A.1）都不超出DeiT的調(diào)查范圍（表8https://arxiv.org/pdf/2012.12877.pdf). 為了進(jìn)一步證實(shí)我們的超參數(shù)配置并沒有給我們帶來任何不公平的優(yōu)勢(shì)役电，我們?cè)谖覀兊拇a庫(kù)中對(duì)DeiT-B進(jìn)行了訓(xùn)練（重新調(diào)整了下降路徑速率），并在ImageNet上獲得了81.9%棉胀。超過81.8%的差異（由DET論文報(bào)告）基本上在方差范圍內(nèi)法瑟。我們將在本文的修訂版中包含此附加結(jié)果。

gMLP在COCO檢測(cè)任務(wù)中的表現(xiàn)唁奢，其中輸入分辨率在培訓(xùn)期間發(fā)生變化霎挟。

NeurIPS 2021會(huì)議論文7105審稿人s4GZ

Paper7105審稿人s4GZ16 2021 8月的官方評(píng)論大家

備注：

謝謝你的回復(fù)。

我確實(shí)了解ImageNet 1k分類任務(wù)的224->384設(shè)置麻掸。這仍然是一個(gè)固定的設(shè)置酥夭，我相信將224x224矩陣外推到384x384矩陣是可行的。然而脊奋，我在初步審查中提到的問題是下游任務(wù)熬北，如目標(biāo)檢測(cè)，其中不同的分辨率（例如诚隙，從480到800隨機(jī)抽樣讶隐，https://github.com/SwinTransformer/Swin-Transformer-Object-Detection/blob/master/configs/swin/mask_rcnn_swin_tiny_patch4_window7_mstrain_480-800_adamw_1x_coco.py)培訓(xùn)期間需要（非固定）。我仍然擔(dān)心gMLP是否能處理好它久又。

swin transformer的代碼在提交的DDL之前發(fā)布巫延。有趣的是效五，看到gMLP在目標(biāo)檢測(cè)方面的性能與coco培訓(xùn)設(shè)置保持一致。

大規(guī)模抖動(dòng)的目標(biāo)檢測(cè)結(jié)果

NeurIPS 2021會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 8月27日所有人

備注：

感謝您的澄清和有用的建議烈评。由于基礎(chǔ)設(shè)施的限制火俄，我們很難利用Swin Transformer的實(shí)現(xiàn)。因此讲冠，我們使用EfficientDet代碼庫(kù)對(duì)COCO進(jìn)行了目標(biāo)檢測(cè)實(shí)驗(yàn)瓜客。

為了消除各種正則化技巧的必要性，我們研究了兩個(gè)大小相當(dāng)?shù)奈⑿湍Ｐ停篋eiT-tiny和gMLP-tiny（~ 5M參數(shù)）竿开，并使用它們替換EfficientDet-D0中的ConvNet主干谱仪。為了避免其他混雜因素（例如，類似convnet的歸納偏差）否彩，我們使用香草ViT架構(gòu)布局疯攒，沒有任何空間池或局部移位窗口(https://arxiv.org/abs/2103.14030). 我們應(yīng)用雙線性上采樣來“重新解釋”DeiT/gMLP端點(diǎn)作為Bi FPN的輸入(https://arxiv.org/abs/2012.09958). 使用相同的超參數(shù)訓(xùn)練兩個(gè)模型（AdamW優(yōu)化器，權(quán)重衰減0.05列荔，學(xué)習(xí)率1e-3）敬尺。我們使用max input size 512，并在訓(xùn)練期間應(yīng)用大規(guī)模抖動(dòng)來大幅改變有效圖像大小贴浙。具體來說砂吞，在填充/裁剪之前，每個(gè)圖像隨機(jī)調(diào)整大小為0.1x-2.0x(https://arxiv.org/abs/1911.09070).

在此設(shè)置下崎溃，DeiT Tiny實(shí)現(xiàn)24.5方塊圖蜻直，而gMLP Tiny實(shí)現(xiàn)27.8方塊圖。雖然兩者都低于最初的EfficientNet-B0主干（34.6 mAP）袁串，但它有力地證明了GMLP在訓(xùn)練期間處理目標(biāo)檢測(cè)任務(wù)的可變輸入大小方面并不比Transformers差概而。新的檢測(cè)結(jié)果也加強(qiáng)了我們?cè)贜LP和圖像分類方面的主要發(fā)現(xiàn)，即自注意不是Transformer成功的關(guān)鍵囱修。作為下一步赎瑰，我們計(jì)劃在更大范圍的設(shè)置下研究目標(biāo)檢測(cè)，并將嘗試在修訂后的手稿中包含關(guān)于該主題的更全面的結(jié)果破镰。

請(qǐng)告知我們您的問題是否已得到解決餐曼。

比較起來不太公平∑⊙剩渴望看到額外的實(shí)驗(yàn)晋辆。

NeurIPS 2021會(huì)議論文7105審稿人s4GZ

Paper7105評(píng)審員s4GZ27 2021 8月的官方評(píng)論大家

備注：

感謝您的回復(fù)和實(shí)驗(yàn)渠脉。

這個(gè)實(shí)驗(yàn)不太公平宇整。DeiT可以處理不斷變化的輸入序列，因?yàn)闈撛诘淖宰⒁饪梢宰詣?dòng)適應(yīng)芋膘。然而鳞青，由于位置編碼不當(dāng)霸饲，即普通位置編碼（雙三次或雙線性插值）[1,2,3]，它在下游任務(wù)中的性能大大降低臂拓。因此厚脉，沒有適當(dāng)位置編碼的香草DeiT是一個(gè)太弱的基線。而gMLP Tiny的獲勝也不太公平胶惰。

你能用1x計(jì)劃或3x計(jì)劃將DeiT tiny+正確的位置編碼（見[2]）和PVT tiny（[1,3]）與COCO上的gMLP tiny進(jìn)行比較嗎傻工？已知COCO上的PVT微小結(jié)果（v1和v2）。

參考文獻(xiàn)【1】金字塔視覺變換器：一種用于無卷積密集預(yù)測(cè)的多功能主干孵滞，https://arxiv.org/abs/2102.12122中捆，（ICCV21）[2]視覺Transformer的條件位置編碼，https://arxiv.org/abs/2102.10882【3】PVTv2：使用金字塔視覺變換器改進(jìn)基線https://arxiv.org/abs/2106.13797

困惑但結(jié)果更多

NeurIPS 2021會(huì)議論文7105作者

Paper7105作者的官方評(píng)論2021 8月31日所有人

備注：

我們對(duì)新的實(shí)驗(yàn)要求感到困惑坊饶，想知道是否有誤解泄伪。這位評(píng)審員最初的問題是在檢測(cè)中處理可變的圖像大小。在我們之前的回復(fù)中匿级，我們表明蟋滴，相對(duì)于標(biāo)準(zhǔn)ViT/DeiT和普通位置編碼（與ViT/DeiT論文中的架構(gòu)相同），GMLP（不使用位置編碼）可以在此類場(chǎng)景中很好地工作痘绎。我們不清楚為什么用一種更先進(jìn)和單獨(dú)開發(fā)的位置編碼方案來增強(qiáng)基線可以提高本研究的公平性津函。

然而，我們?cè)贓fficientDet設(shè)置中對(duì)PEG層進(jìn)行了額外的實(shí)驗(yàn)简逮，最大圖像大小為512^2和1024^2球散。與之前一樣，在訓(xùn)練期間散庶，可以通過大規(guī)模抖動(dòng)改變有效圖像大薪堆摺：

Backbone COCO mAP

DeiT-Tiny 24.5

gMLP-Tiny 27.8

DeiT-Tiny + PEG 28.1

gMLP-Tiny + PEG 29.5

DeiT-Tiny + PEG (max image size 1024^2) 31.6

gMLP-Tiny + PEG (max image size 1024^2) 34.4

與我們之前的研究結(jié)果一致，新的結(jié)果證實(shí)了gMLPs可以在檢測(cè)中處理不同大小的圖像悲龟，而不存在位置編碼或不編碼的問題屋讶。

最后，我們想強(qiáng)調(diào)的是须教，我們的主要貢獻(xiàn)是揭示自注意對(duì)Transformer的成功并不重要皿渗。我們相信這一說法已經(jīng)得到了自然語言處理（可變文本長(zhǎng)度）和圖像分類的廣泛實(shí)驗(yàn)的支持，這是伯特和維特的開創(chuàng)性論文中研究的主要任務(wù)轻腺。在反駁過程中乐疆，我們盡最大努力提供有關(guān)目標(biāo)檢測(cè)的其他結(jié)果，但我們希望在這項(xiàng)具體任務(wù)及其對(duì)位置編碼的影響方面留下進(jìn)一步的探索贬养，作為未來的工作挤土。

發(fā)布關(guān)于額外實(shí)驗(yàn)的反饋。

NeurIPS 2021會(huì)議論文7105審稿人s4GZ

Paper7105評(píng)審員s4GZ31 2021 8月的官方評(píng)論大家

備注：

謝謝你的額外實(shí)驗(yàn)误算。我的擔(dān)憂減弱了仰美，因此迷殿，我將分?jǐn)?shù)提高到略高于接受閾值。

我希望您在修訂版中討論gMLP在檢測(cè)方面的性能咖杂。畢竟庆寺，基于Transformer的主干網(wǎng)[1,2,3]在檢測(cè)上都優(yōu)于卷積網(wǎng)絡(luò)，具有明顯的裕度诉字。gMLP實(shí)驗(yàn)的efficientdet似乎有點(diǎn)違反直覺懦尝。最好討論一下。一部好的作品也應(yīng)該指出它的局限性壤圃。

參考

[1] 金字塔視覺變換器：用于無卷積的密集預(yù)測(cè)的多功能主干导披，https://arxiv.org/abs/2102.12122

[2] 雙胞胎：重新審視視覺Transformer中的空間注意設(shè)計(jì)，https://arxiv.org/abs/2104.13840

[3] Swin Transformer：使用移動(dòng)窗口的分層視覺Transformer https://arxiv.org/abs/2103.14030

最后編輯于：2022.06.21 15:45:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末埃唯，一起剝皮案震驚了整個(gè)濱河市撩匕，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌墨叛，老刑警劉巖止毕，帶你破解...
沈念sama閱讀 212,383評(píng)論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異漠趁，居然都是意外死亡扁凛，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,522評(píng)論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門闯传，熙熙樓的掌柜王于貴愁眉苦臉地迎上來谨朝，“玉大人，你說我怎么就攤上這事甥绿∽直遥” “怎么了？”我有些...
開封第一講書人閱讀 157,852評(píng)論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵共缕，是天一觀的道長(zhǎng)洗出。經(jīng)常有香客問我，道長(zhǎng)图谷，這世上最難降的妖魔是什么翩活？我笑而不...
開封第一講書人閱讀 56,621評(píng)論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮便贵，結(jié)果婚禮上菠镇，老公的妹妹穿的比我還像新娘。我一直安慰自己承璃，他們只是感情好利耍，可當(dāng)我...
茶點(diǎn)故事閱讀 65,741評(píng)論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般堂竟。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上玻佩，一...
開封第一講書人閱讀 49,929評(píng)論 1贊 290
城市分裂傳說
那天出嘹，我揣著相機(jī)與錄音，去河邊找鬼咬崔。笑死税稼，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的垮斯。我是一名探鬼主播郎仆，決...
沈念sama閱讀 39,076評(píng)論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼兜蠕！你這毒婦竟也來了扰肌？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,803評(píng)論 0贊 268
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤熊杨，失蹤者是張志新（化名）和其女友劉穎曙旭，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體晶府，經(jīng)...
沈念sama閱讀 44,265評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡桂躏，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,582評(píng)論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了川陆。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剂习。...
茶點(diǎn)故事閱讀 38,716評(píng)論 1贊 341
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖较沪，靈堂內(nèi)的尸體忽然破棺而出鳞绕，到底是詐尸還是另有隱情，我是刑警寧澤尸曼，帶...
沈念sama閱讀 34,395評(píng)論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布猾昆，位于F島的核電站，受9級(jí)特大地震影響骡苞，放射性物質(zhì)發(fā)生泄漏垂蜗。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 40,039評(píng)論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一解幽、第九天我趴在偏房一處隱蔽的房頂上張望贴见。院中可真熱鬧，春花似錦躲株、人聲如沸片部。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,798評(píng)論 0贊 21
一樁弒父案霜定，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽档悠。三九已至廊鸥，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間辖所，已是汗流浹背惰说。一陣腳步聲響...
開封第一講書人閱讀 32,027評(píng)論 1贊 266
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留缘回，地道東北人吆视。一個(gè)月前我還...
沈念sama閱讀 46,488評(píng)論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像酥宴，于是被迫代替她去往敵國(guó)和親啦吧。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,612評(píng)論 2贊 350

gMLP & aMLP

推薦閱讀更多精彩內(nèi)容