變換器魯棒性-5：Intriguing Properties of Vision Transformers

Intriguing Properties of Vision?Transformers

★★★★★????NeurIPS'21 (Spotlight)

Authors:Muzammal Naseer,Kanchana Ranasinghe,Salman Khan,Munawar Hayat,Fahad Shahbaz Khan,Ming-Hsuan Yang

https://arxiv.org/abs/2105.10497v3

摘要：視覺(jué)Transformers（ViT）在各種機(jī)器視覺(jué)問(wèn)題上表現(xiàn)出令人印象深刻的性能。這些模型基于多頭自注意機(jī)制召川，可以靈活地處理一系列圖像塊，對(duì)上下文線索進(jìn)行編碼岗憋。一個(gè)重要的問(wèn)題是，以給定圖塊為條件處理圖像范圍上下文的靈活性如何有助于處理自然圖像中的干擾，例如嚴(yán)重遮擋呀枢、域移動(dòng)祈搜、空間排列较店、對(duì)抗攻擊和自然干擾。我們通過(guò)一系列廣泛的實(shí)驗(yàn)系統(tǒng)地研究了這個(gè)問(wèn)題容燕，包括三個(gè)ViT家族梁呈，并與高性能卷積神經(jīng)網(wǎng)絡(luò)（CNN）進(jìn)行了比較。我們展示并分析了ViT的以下有趣特性：（a）Transformers對(duì)嚴(yán)重遮擋蘸秘、擾動(dòng)和域移動(dòng)具有高度魯棒性官卡，例如，即使在隨機(jī)遮擋80%的圖像內(nèi)容后醋虏，在ImageNet上仍保持高達(dá)60%的top-1精度寻咒。（b）對(duì)遮擋的魯棒性能不是由于對(duì)局部紋理的偏置，相反颈嚼，與CNN相比毛秘，VIT對(duì)紋理的偏置要小得多(The robustness towards occlusions is not due to texture bias, instead we show that ViTs are signifificantly less biased towards local textures, compared to CNNs.)。當(dāng)適當(dāng)訓(xùn)練以編碼基于形狀的特征時(shí)，VIT顯示出與人類(lèi)視覺(jué)系統(tǒng)相當(dāng)?shù)男螤钭R(shí)別能力叫挟，這在以前的文獻(xiàn)中是無(wú)與倫比的艰匙。（c）使用VIT對(duì)形狀表示進(jìn)行編碼，可以在沒(méi)有像素級(jí)監(jiān)控的情況下實(shí)現(xiàn)精確的語(yǔ)義分割霞揉。（d）來(lái)自單個(gè)ViT模型的現(xiàn)成特征可以組合起來(lái)創(chuàng)建一個(gè)特征集合旬薯，從而在傳統(tǒng)和few-shot學(xué)習(xí)范式中，在一系列分類(lèi)數(shù)據(jù)集中實(shí)現(xiàn)高準(zhǔn)確率适秩。我們發(fā)現(xiàn)ViTs的有效特征是通過(guò)自注意機(jī)制可能產(chǎn)生的靈活和動(dòng)態(tài)的感受野绊序。代碼在：https://git.io/Js15X

1 引言

隨著視覺(jué)Transformers（ViT）吸引了更多的興趣[1]，研究其學(xué)習(xí)表征的特征變得非常重要秽荞。具體而言骤公，從安全關(guān)鍵應(yīng)用的角度，如自動(dòng)駕駛汽車(chē)扬跋、機(jī)器人和醫(yī)療保浇桌Α；所學(xué)的表示法必須是魯棒的和可泛化的钦听。在本文中洒试，我們比較了Transformers與卷積神經(jīng)網(wǎng)絡(luò)（CNN）在處理不同數(shù)據(jù)分布的干擾（例如，遮擋朴上、分布移位垒棋、對(duì)抗性和自然擾動(dòng)）和泛化方面的性能。我們的深入分析基于三個(gè)Transformers系列痪宰，ViT[2]叼架、DeiT[3]和T2T[4]，跨越15個(gè)視覺(jué)數(shù)據(jù)集衣撬。為簡(jiǎn)潔起見(jiàn)乖订，除非另有說(shuō)明拖刃，否則我們將所有Transformers系列稱(chēng)為ViT诚卸。

我們對(duì)卷積運(yùn)算和自注意的基本差異感興趣鹦肿，這在穩(wěn)健性和泛化方面還沒(méi)有得到廣泛的探討辩尊。雖然卷積擅長(zhǎng)學(xué)習(xí)輸入域中元素之間的局部交互（例如，邊緣和輪廓信息）术辐，但自注意已被證明可以有效地學(xué)習(xí)全局交互（例如茬底，遠(yuǎn)距離對(duì)象部分之間的關(guān)系）[5,6]征绎。給定一個(gè)查詢嵌入占键，自注意會(huì)發(fā)現(xiàn)它與序列中其他嵌入的交互作用昔善，從而在建模全局關(guān)系的同時(shí)對(duì)局部?jī)?nèi)容進(jìn)行調(diào)節(jié)[7]元潘。相反畔乙，卷積與內(nèi)容無(wú)關(guān)，因?yàn)橄嗤臑V波器權(quán)重應(yīng)用于所有輸入翩概，而不管它們的不同性質(zhì)牲距》翟郏考慮到與內(nèi)容相關(guān)的遠(yuǎn)程交互建模能力，我們的分析表明VIT可以靈活地調(diào)整其感受野牍鞠，以應(yīng)對(duì)數(shù)據(jù)中的干擾咖摹，并增強(qiáng)表示的表達(dá)能力。

我們的系統(tǒng)實(shí)驗(yàn)和新穎的設(shè)計(jì)選擇帶來(lái)了以下有趣的發(fā)現(xiàn)：

?????與最先進(jìn)的CNN相比难述，VIT對(duì)前景物體萤晴、非顯著背景區(qū)域和隨機(jī)圖塊位置的嚴(yán)重遮擋具有很強(qiáng)的魯棒性。例如胁后，在ImageNet[8]val.set上店读，對(duì)于高達(dá)80%的顯著隨機(jī)遮擋，DeiT[3]可以保持大約60%的top-1準(zhǔn)確度攀芯，而CNN的準(zhǔn)確度為零屯断。

?????當(dāng)呈現(xiàn)同一對(duì)象的紋理和形狀時(shí)，CNN模型通常根據(jù)紋理做出決策[9]侣诺。相比之下殖演，VIT在形狀識(shí)別方面的表現(xiàn)優(yōu)于CNN，與人類(lèi)相當(dāng)年鸳。這突出了VIT處理顯著分布變化的魯棒性趴久，例如，在紋理較少的數(shù)據(jù)（如繪畫(huà)）中識(shí)別對(duì)象形狀阻星。

?與CNN相比朋鞍，VIT對(duì)其他干擾因素表現(xiàn)出更好的魯棒性，如圖塊排列妥箕、對(duì)抗性干擾和常見(jiàn)自然腐蝕（例如噪聲滥酥、模糊、對(duì)比度和像素化偽影）畦幢。然而坎吻，與CNN[10]類(lèi)似，專(zhuān)注于形狀的訓(xùn)練過(guò)程使他們?nèi)菀资艿綄?duì)抗攻擊和常見(jiàn)腐蝕宇葱。

?????除了具有良好的魯棒性特性外瘦真，ImageNet預(yù)訓(xùn)練模型中的現(xiàn)成ViT特性還可以非常好地推廣到新的領(lǐng)域，例如few-shot學(xué)習(xí)黍瞧、細(xì)粒度識(shí)別诸尽、場(chǎng)景分類(lèi)和長(zhǎng)尾分類(lèi)設(shè)置。除了我們廣泛的實(shí)驗(yàn)分析和新發(fā)現(xiàn)外印颤，我們還介紹了幾種新穎的設(shè)計(jì)選擇您机，以突出VIT的強(qiáng)大潛力。為此，我們建議對(duì)DeiT進(jìn)行架構(gòu)修改际看，以通過(guò)專(zhuān)用token對(duì)形狀信息進(jìn)行編碼咸产，該標(biāo)記演示了如何在同一架構(gòu)中使用不同標(biāo)記對(duì)看似矛盾的線索進(jìn)行建模，從而產(chǎn)生有利的影響仲闽，如無(wú)需像素級(jí)監(jiān)督的自動(dòng)分割脑溢。此外，我們的現(xiàn)成特征轉(zhuǎn)換方法利用從單個(gè)架構(gòu)派生的表示集合赖欣，通過(guò)預(yù)先訓(xùn)練的ViT獲得最先進(jìn)的泛化（圖1）屑彻。

圖1：我們展示了ViT的有趣特性，包括（a）嚴(yán)重遮擋顶吮，（b）分布變化（例如酱酬，去除紋理線索的風(fēng)格化），（c）對(duì)抗性干擾云矫，以及（d）圖塊排列膳沽。此外，我們的ViT模型訓(xùn)練為關(guān)注形狀線索让禀，可以在沒(méi)有任何像素級(jí)監(jiān)控（e）的情況下分割前景挑社。最后，ViT模型的現(xiàn)成特征比CNNs（f）更具普遍性巡揍。Figure 1: We show intriguing properties of ViT including impressive robustness to (a) severe occlusions, (b) distributional shifts (e.g., stylization to remove texture cues), (c) adversarial perturbations, and (d) patch permutations. Furthermore, our ViT models trained to focus on shape cues can segment foregrounds without any pixel-level supervision (e). Finally, off-the-shelf features from ViT models generalize better than CNNs (f).

2????相關(guān)工作

CNN在獨(dú)立和同分布（i.i.d）環(huán)境中表現(xiàn)出最先進(jìn)的性能痛阻，但對(duì)分布變化高度敏感；對(duì)抗性噪聲[11,12]腮敌、常見(jiàn)圖像損壞[13]和域偏移（例如阱当，RGB到草圖）[14]。人們自然會(huì)問(wèn)糜工，與CNN相比弊添，基于自注意力處理輸入的ViT是否有任何優(yōu)勢(shì)。Shao等人[15]分析了VIT對(duì)對(duì)抗性噪聲的影響捌木，并表明VIT對(duì)高頻變化更具魯棒性油坝。類(lèi)似地，Bhojanalli等人[16]研究了ViT對(duì)空間擾動(dòng)的影響[15]及其對(duì)去除任何單層的魯棒性刨裆。由于ViT處理圖像圖塊澈圈，我們重點(diǎn)關(guān)注它們對(duì)圖塊屏蔽、局部對(duì)抗圖塊[17]和常見(jiàn)自然腐蝕的魯棒性帆啃。Paul和Chen[18]同時(shí)開(kāi)展的一項(xiàng)工作也對(duì)VIT的穩(wěn)健性提出了類(lèi)似的見(jiàn)解瞬女，但采用了一些不同的實(shí)驗(yàn)集。

Geirhos等人[9]提供的證據(jù)表明努潘，CNN主要利用紋理來(lái)做出決策诽偷，而對(duì)整體形狀的重視程度較低盯桦。CNN只使用局部特征的能力進(jìn)一步證實(shí)了這一點(diǎn)[19]。最近渤刃，[20]量化了形狀和紋理特征之間的互信息[21]。我們的分析表明贴膘，大型ViT模型具有較少的紋理偏置卖子，并且相對(duì)更強(qiáng)調(diào)形狀信息。當(dāng)直接在程式化ImageNet上訓(xùn)練時(shí)刑峡，ViT的形狀偏置接近人類(lèi)水平的表現(xiàn)[9]洋闽。我們的發(fā)現(xiàn)與最近的一項(xiàng)同時(shí)進(jìn)行的工作一致，該工作證明了這一趨勢(shì)對(duì)人類(lèi)行為理解的重要性突梦，并彌合了人類(lèi)與機(jī)器視覺(jué)之間的差距[22]诫舅。最近的一項(xiàng)研究[23]表明，自監(jiān)督ViT可以自動(dòng)分割前景對(duì)象宫患。相比之下刊懈，我們展示了形狀聚焦學(xué)習(xí)如何在沒(méi)有任何像素級(jí)監(jiān)控的情況下，在圖像級(jí)監(jiān)控的ViT模型中賦予類(lèi)似的能力娃闲。

Zeiler等人[24]介紹了一種在不同層上可視化CNN特征的方法虚汛，并研究了現(xiàn)成特征的性能。本著類(lèi)似的精神皇帮，我們研究了ViT與CNN相比的現(xiàn)成特性的泛化卷哩。感受野是網(wǎng)絡(luò)對(duì)遠(yuǎn)距離依賴性建模能力的一個(gè)指標(biāo)∈羰埃基于Transformers的模型的感受野覆蓋了整個(gè)輸入空間将谊，這一特性類(lèi)似于手工制作的功能[25]，但VIT具有更高的表示容量渐白。與CNN相比尊浓，這使得ViT能夠模擬全局上下文并保留結(jié)構(gòu)信息[26]。這項(xiàng)工作是為了證明在ViTs中靈活的感受野和基于內(nèi)容的上下文建模對(duì)學(xué)習(xí)特征的魯棒性和泛化的有效性纯衍。

3????視覺(jué)Transformers的有趣特性

3.1????視覺(jué)Transformers是否對(duì)遮擋具有魯棒性眠砾？

ViT的感受野橫跨整個(gè)圖像，它利用自注意來(lái)模擬圖像塊序列之間的相互作用[26,27]托酸。我們研究VIT在遮擋場(chǎng)景中是否表現(xiàn)良好褒颈，在遮擋場(chǎng)景中，部分或大部分圖像內(nèi)容缺失励堡。

遮擋建模：? ? 考慮網(wǎng)絡(luò) $f$ 谷丸，它處理輸入圖像 $x$ 來(lái)預(yù)測(cè)標(biāo)簽 $y$ ，其中X被表示為具有N個(gè)元素的圖塊序列应结，即 $x= {\left\{ x_{i} \right\}}_{i=1}^N$ [2]刨疼。雖然可以有多種方法來(lái)定義遮擋泉唁，但我們采用了一種簡(jiǎn)單的遮罩策略，即選擇總圖像圖塊的子集M<N揩慕，并將這些圖塊的像素值設(shè)置為零亭畜，以創(chuàng)建遮擋圖像 $x’$ 。我們將這種方法稱(chēng)為PatchDrop迎卤。目標(biāo)是觀察使 ${f(x’)}_{argmax} =y$ 的魯棒性拴鸵。我們用三種不同的遮擋方法進(jìn)行了實(shí)驗(yàn)，（a）隨機(jī)PatchDrop蜗搔，（b）顯著（前景）PatchDrop劲藐，（c）非顯著（背景）PatchDrop。

圖2：示例圖像及其遮擋版本（隨機(jī)樟凄、顯著和不顯著）聘芜。被遮擋的圖像由Deit-S[3]正確分類(lèi)，但被ResNet50錯(cuò)誤分類(lèi)[28]缝龄。遮擋（黑色）區(qū)域中的像素值設(shè)置為零汰现。 Figure 2: An example image with its occluded versions (Random, Salient and NonSalient). The occluded images are correctly classified by Deit-S [3] but misclassified by ResNet50 [28]. Pixel values in occluded (black) regions are set to zero.

隨機(jī)PatchDrop：????隨機(jī)選擇并丟棄M個(gè)圖塊的子集（圖2）。幾個(gè)最新的視覺(jué)Transformers[2,3,4]將圖像分成196塊叔壤，屬于14x14空間網(wǎng)格服鹅；即將224×224×3大小的圖像分割為196個(gè)斑塊，每個(gè)斑塊的大小為16×16×3百新。例如企软，從輸入中刪除100個(gè)這樣的圖塊相當(dāng)于丟失51%的圖像內(nèi)容。

顯著（前景）PatchDrop：????并非所有像素對(duì)視覺(jué)任務(wù)都具有相同的重要性饭望。因此仗哨，研究VIT對(duì)高度顯著區(qū)域閉塞的魯棒性非常重要。我們利用自監(jiān)督ViT模型DINO[23]铅辞，該模型可有效分割顯著對(duì)象厌漂。特別地，利用流入最后一個(gè)注意塊內(nèi)的最終特征向量（類(lèi)標(biāo)記）的信息的空間位置來(lái)定位顯著像素斟珊。這允許通過(guò)閾值化注意流的數(shù)量來(lái)控制在所選像素內(nèi)捕獲的顯著信息量苇倡。

我們選擇包含前景信息頂部Q%的圖塊子集（對(duì)于固定Q為確定性）并刪除它們。注意囤踩，該Q%并不總是對(duì)應(yīng)于像素百分比旨椒，例如，圖像的50%前景信息可能僅包含在其像素的10%內(nèi)堵漱。

非顯著（背景）PatchDrop：使用與上述相同的方法综慎，使用[23]選擇圖像中最不顯著的區(qū)域。包含最低Q%前景信息的圖塊被選中并放在這里勤庐。注意示惊，這并不總是對(duì)應(yīng)于像素百分比好港，例如，80%的像素可能僅包含圖像的20%的非顯著信息米罚。

Transformers抗遮擋性能的魯棒性：我們考慮在IMANET中預(yù)先訓(xùn)練的視覺(jué)識(shí)別任務(wù)〔2〕钧汹。在驗(yàn)證集（50k圖像）上研究遮擋的影響。我們將信息丟失（IL）定義為丟棄的圖塊與總圖塊的比率（M/N）录择。改變IL拔莱，以獲得每個(gè)PatchDrop方法的一系列遮擋程度。圖3中報(bào)告的結(jié)果（Top-1%）顯示了ViT模型對(duì)CNN的顯著穩(wěn)健性能糊肠。在隨機(jī)圖塊丟棄的情況下，我們報(bào)告了5次運(yùn)行的平均準(zhǔn)確度遗锣。對(duì)于顯著性和非顯著性Patchdrop货裹，由于遮擋是確定性的，因此我們報(bào)告單次運(yùn)行的精度值精偿。當(dāng)50%的圖像信息被隨機(jī)丟棄時(shí)弧圆，CNN的性能很差。例如笔咽，與DeiT-S（2200萬(wàn)個(gè)參數(shù)）相比搔预，ResNet50（2300萬(wàn)個(gè)參數(shù)）達(dá)到了0.1%的精度，而DeiT-S（2200萬(wàn)個(gè)參數(shù)）在刪除50%的圖像內(nèi)容時(shí)獲得了70%的精度叶组≌铮可以觀察到一個(gè)極端的例子，當(dāng)90%的圖像信息被隨機(jī)屏蔽甩十，但Deit-B仍顯示37%的準(zhǔn)確度船庇。這一發(fā)現(xiàn)在不同的ViT架構(gòu)中是一致的[2,3,4]。類(lèi)似地侣监，VIT對(duì)前景（顯著）和背景（非顯著）內(nèi)容移除表現(xiàn)出顯著的魯棒性鸭轮。有關(guān)穩(wěn)健性分析的進(jìn)一步結(jié)果，請(qǐng)參見(jiàn)附錄A橄霉、B窃爷、C、D姓蜂、E按厘。

圖3：在三種PatchDrop設(shè)置下研究了圖像中對(duì)象遮擋的魯棒性（見(jiàn)第3.1節(jié)）。（左）我們研究CNN模型對(duì)遮擋的魯棒性钱慢，并將ResNet50確定為強(qiáng)基線刻剥。（左中）我們將DeiT模型系列與ResNet50進(jìn)行了比較，ResNet50顯示了其對(duì)對(duì)象遮擋的優(yōu)越魯棒性滩字。（右中）與ViT系列的比較造虏。（右）與T2T系列的比較御吞。Figure 3: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). (left) We study the robustness of CNN models to occlusions, and identify ResNet50 as a strong baseline. (mid-left) We compare the DeiT model family against ResNet50 exhibiting their superior robustness to object occlusion. (mid-right) Comparison against ViT model family. (right) Comparison against T2T model family.

對(duì)于信息損失，ViT表示是魯棒的

為了更好地理解針對(duì)這種遮擋的模型行為漓藕，我們可視化了來(lái)自不同層的每個(gè)頭部的注意力（圖4）陶珠。雖然初始層涉及所有區(qū)域，但較深的層往往更關(guān)注圖像非遮擋區(qū)域中的剩余信息享钞。然后揍诽，我們研究從初始層到更深層的這種變化是否會(huì)導(dǎo)致對(duì)遮擋的標(biāo)記不變性(token invariance)，這對(duì)于分類(lèi)很重要栗竖。我們測(cè)量原始圖像和被遮擋圖像的特征/標(biāo)記之間的相關(guān)系數(shù)：

$corr(u,v)=\frac{\sum\nolimits_{i}\hat{u} _{i} \hat{v} _{i} }{n}$

其中 $\hat{u} _{i}=\frac{u_{i}-E[u_{i}]}{\sigma (u_{i} )}$ 暑脆， $E[\cdot ]$ 和 $\sigma (\cdot )$ 是均值和標(biāo)準(zhǔn)差運(yùn)算[29]。在我們的案例中狐肢，隨機(jī)變量 $u$ 和 $v$ 指的是定義在整個(gè)ImageNet驗(yàn)證集上的原始圖像和遮擋圖像的特征圖添吗。對(duì)于ResNet50，我們考慮在logit層之前的特征份名；對(duì)于ViT模型碟联，從最后個(gè)transformer塊中提取類(lèi)tokens。與ResNet50特征相比僵腺，transformers中的類(lèi)tokens更加魯棒鲤孵，并且不會(huì)遭受太多的信息損失的影響（表1）。此外辰如，我們還可視化了ImageNet層次結(jié)構(gòu)中12個(gè)選定超類(lèi)的相關(guān)系數(shù)普监，并注意到這種趨勢(shì)在不同的類(lèi)類(lèi)型中保持不變，即使是相對(duì)較小的對(duì)象類(lèi)型琉兜，如昆蟲(chóng)鹰椒、食物和鳥(niǎo)類(lèi)（圖5）。特征可視化見(jiàn)附錄F呕童。定性結(jié)果見(jiàn)附錄G漆际。

圖4:ImageNet預(yù)訓(xùn)練DeiT-B模型多層中與每個(gè)頭部相關(guān)的注意力圖（整個(gè)ImageNet值集的平均值）。所有圖像都使用相同的遮罩（右下角）進(jìn)行遮擋（隨機(jī)拼接）夺饲。觀察后一層如何清晰地關(guān)注圖像的非遮擋區(qū)域以做出決定奸汇，這是模型高度動(dòng)態(tài)感受野的證據(jù)。??Figure 4: Attention maps (averaged over the entire ImageNet val. set) relevant to each head in multiple layers of an ImageNet pre-trained DeiT-B model. All images are occluded (Random PatchDrop) with the same mask (bottom right). Observe how later layers clearly attend to non-occluded regions of images to make a decision, an evidence of the model’s highly dynamic receptive field.

表1：原始圖像和被遮擋圖像的相關(guān)系數(shù)b/w特征/最終類(lèi)token往声，用于隨機(jī)PatchDrop擂找。整個(gè)ImageNet值集的平均值。Table 1: Correlation coefficient b/w features/final class tokens of original and occluded images for Random PatchDrop. Averaged across the ImageNet val. set.

圖5：50%隨機(jī)下降的原始圖像和遮擋圖像的相關(guān)黑白特征/最終token浩销。每個(gè)超類(lèi)的結(jié)果是跨類(lèi)的平均值贯涎。Figure 5: Correlation b/w features/final tokens of original and occluded images for 50% Random Drop. Results are averaged across classes for each superclass.

鑒于Transformers模型因動(dòng)態(tài)感受野和學(xué)習(xí)標(biāo)記的可辨別性保持行為而具有耐人尋味的魯棒性，接下來(lái)的問(wèn)題是VIT中的學(xué)習(xí)表示是否偏向紋理慢洋。當(dāng)對(duì)象的空間結(jié)構(gòu)部分丟失時(shí)塘雳，可以期望僅聚焦于紋理的有偏模型仍然表現(xiàn)良好陆盘。

（原文：Given the intriguing robustness of transformer models due to dynamic receptive fifields and discriminability preserving behaviour of the learned tokens, an ensuing question is whether the learned representations in ViTs are biased towards texture or not. One can expect a biased model focusing only on texture to still perform well when the spatial structure for an object is partially lost.）

3.2????形狀與紋理：Transformer能否對(duì)這兩種特性建模？

Geirhos等人[9]研究了形狀與紋理假說(shuō)败明，并提出了一個(gè)訓(xùn)練框架隘马，以增強(qiáng)CNN中的形狀偏置。我們首先進(jìn)行了類(lèi)似的分析妻顶，結(jié)果表明酸员，ViT模型的形狀偏置比CNN大得多，與人類(lèi)視覺(jué)系統(tǒng)識(shí)別形狀的能力相當(dāng)讳嘱。然而幔嗦，這種方式會(huì)導(dǎo)致自然圖像的準(zhǔn)確度顯著下降。為了解決這個(gè)問(wèn)題沥潭，我們?cè)趖ransformer架構(gòu)中引入了一個(gè)shape token邀泉，它學(xué)習(xí)如何關(guān)注形狀，從而使用一組不同的tokens在同一架構(gòu)中對(duì)形狀和紋理相關(guān)的特征進(jìn)行建模叛氨。因此呼渣，我們從具有高形狀偏差的預(yù)訓(xùn)練CNN模型中提取形狀信息[9]棘伴。與原始ViT模型相比寞埠，我們的蒸餾方法在高分類(lèi)精度和強(qiáng)形狀偏差之間進(jìn)行了平衡權(quán)衡。

我們?cè)谙旅娓攀鲞@兩種方法焊夸。請(qǐng)注意仁连，[9]中介紹的度量用于量化ViT模型中的形狀偏置，并與CNN模型進(jìn)行比較阱穗。

無(wú)局部紋理的訓(xùn)練：

在這種方法中饭冬，我們首先通過(guò)創(chuàng)建一個(gè)名為SIN的風(fēng)格化版本的ImageNet[9]，從訓(xùn)練數(shù)據(jù)中移除局部紋理線索揪阶。然后昌抠，我們?cè)诖藬?shù)據(jù)集上訓(xùn)練DeiT模型[3]的tiny和small版本。通常鲁僚，VIT在訓(xùn)練期間使用大量數(shù)據(jù)擴(kuò)充[3]炊苫。然而，使用SIN學(xué)習(xí)是一項(xiàng)困難的任務(wù)冰沙，因?yàn)榧y理細(xì)節(jié)較少侨艾，并且對(duì)樣式化樣本應(yīng)用進(jìn)一步的增強(qiáng)會(huì)扭曲形狀信息并使訓(xùn)練不穩(wěn)定。因此拓挥，我們?cè)赟IN上訓(xùn)練模型唠梨，而不應(yīng)用任何增廣、標(biāo)簽平滑或mix up侥啤。

我們注意到当叭，與類(lèi)似容量的CNN模型相比茬故，在ImageNet上訓(xùn)練的VIT表現(xiàn)出更高的形狀偏置，例如科展，DeiT-S（2200萬(wàn)個(gè)參數(shù)）比ResNet50（2300萬(wàn)個(gè)參數(shù)）表現(xiàn)更好（圖6均牢，右圖）。相反才睹，SIN訓(xùn)練的VIT始終比CNN表現(xiàn)更好徘跪。有趣的是，DeiT-S[3]在接受SIN訓(xùn)練時(shí)達(dá)到了人類(lèi)水平的表現(xiàn)（圖6琅攘，左圖）袖迎。

圖6左圖

圖6右圖???圖6：形狀偏置分析：形狀偏置定義為基于對(duì)象形狀的正確決策的分?jǐn)?shù)。（左）圖顯示了CNN践宴、ViT和人類(lèi)在不同對(duì)象類(lèi)中的形狀-紋理權(quán)衡陨囊。（右）類(lèi)別平均形狀偏置比較【绶總的來(lái)說(shuō)寒亥，VIT的表現(xiàn)比CNN好。在程式化ImageNet（SIN）上訓(xùn)練時(shí)荧关，形狀偏置顯著增加溉奕。 Figure 6: Shape-bias Analysis: Shape-bias is defined as the fraction of correct decisions based on object shape. (Left) Plot shows shape-texture tradeoff for CNN, ViT and Humans across different object classes. (Right) classmean shape-bias comparison. Overall, ViTs perform better than CNN. The shape bias increases significantly when trained on stylized ImageNet (SIN).

形狀蒸餾：????知識(shí)蒸餾允許將大型教師模型壓縮為小型學(xué)生模型[29]，因?yàn)榻處熗ㄟ^(guò)軟標(biāo)簽為學(xué)生提供指導(dǎo)忍啤。我們引入了一個(gè)新的形狀標(biāo)記加勤，并采用注意蒸餾[3]從SIN數(shù)據(jù)集上訓(xùn)練的CNN（ResNet50 SIN[9]）中提取形狀知識(shí)。我們觀察到同波，ViT特征本質(zhì)上是動(dòng)態(tài)的鳄梅，可以由輔助token控制，以關(guān)注所需的特征未檩。這意味著單個(gè)ViT模型可以使用單獨(dú)的標(biāo)記同時(shí)顯示高形狀和紋理偏差（表3）戴尸。當(dāng)引入形狀標(biāo)記時(shí)，我們?cè)诜诸?lèi)和形狀偏差度量方面實(shí)現(xiàn)了更平衡的性能（圖7）冤狡。為了證明這些不同的標(biāo)記（用于分類(lèi)和形狀）確實(shí)建模了不同的特征孙蒙，我們計(jì)算了我們提取的模型DeiT-T-SIN和DeiT-S-SIN的類(lèi)和形狀標(biāo)記之間的余弦相似性（在ImageNet val.set上平均），結(jié)果分別為0.35和0.68筒溃。這明顯低于類(lèi)別和蒸餾標(biāo)記之間的相似性[3]马篮；DeiT-T和DeiT-S分別為0.96和0.94。這證實(shí)了我們的假設(shè)怜奖，即在ViTs中使用單獨(dú)的標(biāo)記對(duì)不同的特征進(jìn)行建模浑测，這是CNN無(wú)法直接實(shí)現(xiàn)的獨(dú)特功能。此外，正如我們接下來(lái)解釋的迁央，它還提供了其他好處掷匠。

表3:SIN培訓(xùn)模型的性能比較。ViT生成可由輔助token控制的動(dòng)態(tài)特性岖圈《镉铮”cls'表示類(lèi)token。在蒸餾過(guò)程中蜂科，cls和形狀token使用與[3]相同的特征聚合到截然不同的解決方案顽决。Table 3: Performance comparison of models trained on SIN. ViT produces dynamic features that can be controlled by auxiliary tokens. ‘cls’ represents the class token. During distillation cls and shape tokens converged to vastly different solution using the same features as compared to [3].

圖7：形狀蒸餾

形狀偏差ViT提供自動(dòng)對(duì)象分割：? ? 有趣的是，沒(méi)有局部紋理或形狀提取的訓(xùn)練允許ViT集中于場(chǎng)景中的前景對(duì)象导匣，而忽略背景（表4才菠，圖8）。這為圖像提供了自動(dòng)語(yǔ)義分割贡定，盡管該模型從未見(jiàn)過(guò)像素級(jí)對(duì)象標(biāo)簽赋访。也就是說(shuō)，形狀偏差可以用作ViT模型的自監(jiān)督信號(hào)缓待，以學(xué)習(xí)不同的形狀相關(guān)特征蚓耽，幫助定位正確的前景對(duì)象。我們注意到旋炒，未強(qiáng)調(diào)形狀的ViT訓(xùn)練效果不佳（表4）步悠。

表4：我們計(jì)算了PASCAL-VOC12驗(yàn)證集上ViT模型的注意圖（類(lèi)似于[23]，閾值為0.9）生成的真值和遮罩之間的Jaccard相似性国葬。僅類(lèi)級(jí)別的ImageNet標(biāo)簽用于訓(xùn)練這些模型贤徒。我們的結(jié)果表明芹壕，有監(jiān)督的VIT可以用于自動(dòng)分割汇四，其性能更接近于自監(jiān)督方法DINO[23]。Table 4: We compute the Jaccard similarity between ground truth and masks generated from the attention maps of ViT models (similar to [23] with threshold 0.9) over the PASCAL-VOC12 validation set. Only class level ImageNet labels are used for training these models. Our results indicate that supervised ViTs can be used for automated segmentation and perform closer to the self-supervised method DINO [23].

圖8:ViTs的分割圖踢涌。形狀蒸餾的性能優(yōu)于標(biāo)準(zhǔn)的監(jiān)督模型通孽。

上述結(jié)果表明，經(jīng)過(guò)適當(dāng)訓(xùn)練的ViT模型提供的形狀偏置幾乎與人類(lèi)識(shí)別形狀的能力一樣高睁壁。這讓我們懷疑位置編碼是否是幫助VIT在嚴(yán)重遮擋情況下實(shí)現(xiàn)高性能的關(guān)鍵（因?yàn)樗赡茉试S后續(xù)層在給定空間順序的情況下僅使用幾個(gè)圖像塊恢復(fù)丟失的信息）背苦。下一步將研究這種可能性。

3.3????位置編碼是否保留全局圖像上下文潘明？

Transformers使用自注意[27]（而不是RNN[30]中的順序設(shè)計(jì)）并行處理長(zhǎng)程序列的能力對(duì)序列順序是不變的行剂。對(duì)于圖像，圖塊的順序表示了整體圖像結(jié)構(gòu)和全局合成钳降。由于VIT對(duì)一系列圖像塊進(jìn)行操作厚宰，因此改變序列順序（例如，shuffle）可能會(huì)破壞圖像結(jié)構(gòu)。當(dāng)前的VIT[2,3,4,26]使用位置編碼來(lái)保存此上下文铲觉。在這里澈蝙，我們分析通過(guò)位置編碼建模的序列順序是否允許ViT在遮擋處理下表現(xiàn)出色。我們的分析表明撵幽，Transformers對(duì)圖塊位置具有高度的置換不變性灯荧，并且位置編碼對(duì)向ViT模型注入圖像結(jié)構(gòu)信息的影響是有限的（圖10）。這一觀察結(jié)果與下文所述的語(yǔ)言領(lǐng)域[31]的研究結(jié)果一致盐杂。

圖9：用于消除圖像結(jié)構(gòu)信息的shuffle操作示例逗载。（最佳瀏覽放大）

圖10：在196個(gè)圖像塊上訓(xùn)練的模型。shuffle時(shí)設(shè)置的ImageNet val上的Top-1（%）精度链烈。請(qǐng)注意撕贞，當(dāng)shuffle網(wǎng)格大小等于訓(xùn)練期間使用的原始圖塊數(shù)時(shí)，性能會(huì)達(dá)到峰值测垛，因?yàn)樗坏扔诟妮斎雸D塊的位置（而不干擾圖塊內(nèi)容）捏膨。Figure 10: Models trained on 196 image patches. Top-1 (%) accuracy over ImageNet val. set when patches are shuffled. Note the performance peaks when shuffle grid size is equal to the original number of patches used during training, since it equals to only changing the position of input patch (and not disturbing the patch content).

對(duì)空間結(jié)構(gòu)的敏感性：

如圖9所示，我們通過(guò)在輸入圖像塊上定義shuffle操作來(lái)移除圖像內(nèi)的結(jié)構(gòu)信息（空間關(guān)系）食侮。圖10顯示号涯，當(dāng)輸入圖像的空間結(jié)構(gòu)受到干擾時(shí)，DeiT模型[3]比CNN模型保持的精度更好锯七。這也表明位置編碼對(duì)于正確的分類(lèi)決策并非絕對(duì)重要链快，并且該模型不會(huì)使用位置編碼中保存的序列信息“恢復(fù)”全局圖像上下文。在沒(méi)有編碼的情況下眉尸，ViT的性能相當(dāng)好域蜗，并且實(shí)現(xiàn)了比使用位置編碼的ViT更好的置換不變性（圖10）。最后噪猾，當(dāng)ViT訓(xùn)練過(guò)程中改變圖塊大小時(shí)霉祸，排列不變性特性也會(huì)隨著unshufflfled自然圖像的精度而降低（圖11）「だ總的來(lái)說(shuō)丝蹭，我們將VIT的排列不變性性能歸因于其動(dòng)態(tài)感受野，該感受野依賴于輸入圖塊坪蚁，并且可以通過(guò)其他序列元素調(diào)整注意力奔穿，從而適度地洗牌這些元素不會(huì)顯著降低性能。(Finally, when the patch size is varied during ViT training, the permutation invariance property is also degraded along with the accuracy on unshufflfled natural images (Fig. 11).Overall, we attribute the permutation invariance performance of ViTs to their dynamic receptive fifield that depends on the input patch and can adjust attention with the other sequence elements such that moderately shufflfling the elements does not degrade the performance signifificantly.)

圖11:DeiT-T[3]在不同數(shù)量的圖像塊上訓(xùn)練敏晤。減少圖塊大小會(huì)降低總體性能贱田，但也會(huì)增加對(duì)隨機(jī)網(wǎng)格大小的敏感性。?Figure 11: DeiT-T [3] trained on different number of image patches. Reducing patch size decreases the overall performance but also increases sensitivity to shuffle grid size.

上述分析表明嘴脾，就像紋理偏置假設(shè)不適用于VIT一樣男摧，依賴位置編碼在遮擋下表現(xiàn)良好也是不正確的。這使我們得出結(jié)論，ViTs的魯棒性是由于其靈活和動(dòng)態(tài)的感受野（見(jiàn)圖4）彩倚，該感受野取決于輸入圖像的內(nèi)容〕镂遥現(xiàn)在，我們進(jìn)一步深入研究ViT的魯棒性帆离，并研究其在對(duì)抗性干擾和常見(jiàn)損壞下的性能蔬蕊。

3.4????視覺(jué)Transformers對(duì)對(duì)抗性干擾和自然干擾的魯棒性

在分析VIT編碼形狀信息的能力（第3.2節(jié)）后，接下來(lái)的一個(gè)問(wèn)題是：較高的形狀偏差是否有助于實(shí)現(xiàn)更好的魯棒性哥谷？在表4中岸夯，我們通過(guò)計(jì)算各種合成常見(jiàn)腐蝕（如雨、霧们妥、雪和噪聲）的平均腐蝕誤差（mCE）[13]來(lái)研究這一點(diǎn)猜扮。具有與CNN相似參數(shù)的ViT（例如，DeiT-S）比經(jīng)過(guò)增強(qiáng)訓(xùn)練的ResNet50（Augmix[32]）對(duì)圖像損壞更具魯棒性监婶。有趣的是旅赢，未在ImageNet或SIN上進(jìn)行增強(qiáng)訓(xùn)練的CNN和VIT更容易受到腐蝕。這些發(fā)現(xiàn)與[10]相一致惑惶，并表明增強(qiáng)提高了對(duì)常見(jiàn)腐敗的魯棒性煮盼。

表4：常見(jiàn)損壞的平均損壞誤差（mCE）[13]（越低越好）。雖然與CNN相比带污，VIT具有更好的魯棒性僵控，但實(shí)現(xiàn)更高形狀偏置的訓(xùn)練使CNN和VIT更容易受到自然分布變化的影響。與未在ImageNet或SIN上進(jìn)行增強(qiáng)訓(xùn)練的模型相比鱼冀，所有經(jīng)過(guò)增強(qiáng)訓(xùn)練的模型（ViT或CNN）的mCE較低报破。Table 4: mean Corruption Error (mCE) across common corruptions [13] (lower the better). While ViTs have better robustness compared to CNNs, training to achieve a higher shape-bias makes both CNNs and ViTs more vulnerable to natural distribution shifts. All models trained with augmentations (ViT or CNN) have lower mCE in comparison to models trained without augmentations on ImageNet or SIN.

我們觀察到對(duì)抗性圖塊攻擊的類(lèi)似性能[17]。ViTs在白盒設(shè)置（完全了解模型參數(shù)）下對(duì)無(wú)目標(biāo)千绪、通用對(duì)抗性圖塊顯示出比CNN更高的魯棒性充易。在SIN上訓(xùn)練的VIT和CNN比在ImageNet上訓(xùn)練的模型（圖12和圖13）更容易受到敵對(duì)攻擊，這是由于形狀偏差與魯棒性的權(quán)衡[10]翘紊。

圖12??圖12：對(duì)抗性圖塊攻擊的魯棒性蔽氨。即使參數(shù)較少藐唠，VIT也比CNN具有更高的魯棒性帆疟。在ImageNet上訓(xùn)練的模型比在SIN上訓(xùn)練的模型更健壯。結(jié)果在ImageNet val.set上的五次圖塊攻擊中取平均值宇立。 Figure 12: Robustness against adversarial patch attack. ViTs even with less parameters exhibit a higher robustness than CNN. Models trained on ImageNet are more robust than the ones trained on SIN. Results are averaged across five runs of patch attack over ImageNet val. set.

圖13?：針對(duì)特定樣本攻擊的魯棒性踪宠，包括單步FGSM[34]和多步PGD[35]。即使參數(shù)較少妈嘹，VIT也比CNN具有更高的魯棒性柳琢。PGD僅運(yùn)行了5次迭代。攻擊根據(jù)l進(jìn)行評(píng)估∞ norm和?表示輸入圖像中每個(gè)像素改變的擾動(dòng)預(yù)算。結(jié)果通過(guò)ImageNet val.集合報(bào)告柬脸。Figure 13: Robustness against sample specific attacks including single step, FGSM [34], and multi-step, PGD [35]. ViTs even with less parameters exhibit a higher robustness than CNN. PGD ran for 5 iterations only. Attacks are evaluated under l∞ norm and ? represents the perturbation budget by which each pixel is changed in the input image. Results are reported over the ImageNet val. set.

鑒于ViT強(qiáng)大的魯棒性他去，以及其在形狀偏置、自動(dòng)分割和靈活感受野方面的表現(xiàn)能力倒堕，我們分析了其作為現(xiàn)成特征提取器的效用灾测，以取代CNN作為默認(rèn)特征提取機(jī)制[33]。

3.5 Vision Transformer的 Off-the-shelf Tokens

ViT模型的一個(gè)獨(dú)特特征是垦巴，模型內(nèi)的每個(gè)塊生成一個(gè)類(lèi)別token媳搪，可由分類(lèi)頭單獨(dú)處理（圖14）。這允許我們測(cè)量ImageNet預(yù)訓(xùn)練ViT的每個(gè)單獨(dú)塊的辨別能力骤宣，如圖15所示秦爆。由更深的塊生成的類(lèi)token更具區(qū)分性，我們使用這一洞察來(lái)確認(rèn)其token具有最佳下游可遷移性的塊的有效集合憔披。

圖14：?jiǎn)蝹€(gè)ViT模型可以提供特征集合等限，因?yàn)閬?lái)自每個(gè)塊的類(lèi)token可以由分類(lèi)器獨(dú)立處理。這使我們能夠識(shí)別對(duì)遷移學(xué)習(xí)有用的最具辨別力的token芬膝。Figure 14: A single ViT model can provide a features ensemble since class token from each block can be processed by the classifier independently. This allows us to identify the most discriminative tokens useful for transfer learning.

圖15:ImageNet val的Top-1（%）精刷，為每個(gè)ViT塊生成的類(lèi)token設(shè)置。來(lái)自最后幾層的類(lèi)token表現(xiàn)出最高的性能蔗候，指示最具辨別力的token怒允。?Figure 15: Top-1 (%) for ImageNet val. set for class tokens produced by each ViT block. Class tokens from the last few layers exhibit highest performance indicating the most discriminative tokens.

遷移方法：????如圖15所示，我們分析了DeiT模型的分塊分類(lèi)精度锈遥，并確定在最后幾個(gè)塊的類(lèi)標(biāo)記中捕獲了鑒別信息纫事。因此，如表5所示所灸，我們使用DeiT-S[3]對(duì)細(xì)粒度分類(lèi)數(shù)據(jù)集（CUB[34]）上的現(xiàn)成遷移學(xué)習(xí)進(jìn)行了消融研究丽惶。在這里，我們連接來(lái)自不同塊的類(lèi)標(biāo)記（可選地與平均圖塊標(biāo)記組合）爬立，并訓(xùn)練一個(gè)線性分類(lèi)器將特征遷移到下游任務(wù)钾唬。請(qǐng)注意，通過(guò)沿圖塊維度平均生成圖塊標(biāo)記侠驯。將來(lái)自最后四個(gè)塊的類(lèi)標(biāo)記串聯(lián)在一起的方案顯示了最佳的遷移學(xué)習(xí)性能抡秆。我們將這種遷移方法稱(chēng)為DeiT-S（集成）。將所有塊中的類(lèi)標(biāo)記和平均圖塊標(biāo)記串聯(lián)在一起吟策，有助于實(shí)現(xiàn)與最后四個(gè)塊中的標(biāo)記類(lèi)似的性能儒士，但需要非常大的參數(shù)來(lái)訓(xùn)練。我們?cè)诟鼜V泛的任務(wù)范圍內(nèi)使用DeiT-S（集成）進(jìn)行進(jìn)一步的實(shí)驗(yàn)檩坚，以驗(yàn)證我們的假設(shè)着撩。通過(guò)使用logit層之前的特征诅福，我們進(jìn)一步與預(yù)先訓(xùn)練的ResNet50基線進(jìn)行比較。

表5：使用ImageNet預(yù)訓(xùn)練DeiT-S對(duì)三個(gè)數(shù)據(jù)集進(jìn)行的現(xiàn)成特征轉(zhuǎn)移燒蝕研究[3]拖叙。線性分類(lèi)器僅在不同塊上的類(lèi)token串聯(lián)或類(lèi)token與平均圖塊token的組合上學(xué)習(xí)氓润。我們注意到，來(lái)自塊9-12的類(lèi)token最具辨別力（圖15）薯鳍，并且在Top-1（%）精度方面具有最高的可轉(zhuǎn)移性旺芽。Table 5: Ablative Study for off-the-shelf feature transfer on three datasets using ImageNet pretrained DeiT-S [3]. A linear classifier is learned on only a concatenation of class tokens or the combination of class and averaged patch tokens at various blocks. We note class token from blocks 9-12 are most discriminative (Fig. 15) and have the highest transferability in terms of Top-1 (%) accuracy.

視覺(jué)分類(lèi)：

我們分析了現(xiàn)有特征在多個(gè)數(shù)據(jù)集中的可遷移性，包括飛機(jī)[35]辐啄、CUB[34]采章、DTD[36]、GTSRB[37]壶辜、真菌[38]悯舟、地點(diǎn)365[39]和不自然列表[40]。這些數(shù)據(jù)集分別用于100砸民、200抵怎、47、43岭参、1394反惕、365和1010類(lèi)的細(xì)粒度識(shí)別、紋理分類(lèi)演侯、交通標(biāo)志識(shí)別姿染、物種分類(lèi)和場(chǎng)景識(shí)別。我們?cè)诿總€(gè)數(shù)據(jù)集的序列分割上秒际，在提取的特征的基礎(chǔ)上訓(xùn)練一個(gè)線性分類(lèi)器悬赏，并評(píng)估其各自測(cè)試分割的性能。與CNN基線相比娄徊，ViT特征顯示出明顯的改善（圖16）闽颇。我們注意到，DeiT-T需要的參數(shù)比ResNet50少5倍寄锐，在所有數(shù)據(jù)集中表現(xiàn)更好兵多。此外，采用所提出的集成策略的模型在所有數(shù)據(jù)集上都取得了最佳結(jié)果橄仆。

圖16 左

圖16右??圖16：現(xiàn)成的ViT功能遷移優(yōu)于CNN剩膘。我們使用泛型分類(lèi)和域外任務(wù)的少鏡頭分類(lèi)來(lái)探索學(xué)習(xí)表示的可轉(zhuǎn)移性。在分類(lèi)的情況下（左）沿癞，ImageNet預(yù)先訓(xùn)練的VIT在任務(wù)之間的遷移比CNN對(duì)應(yīng)的VIT更好援雇。在Few shot學(xué)習(xí)的情況下（右），ImageNet預(yù)先訓(xùn)練的VIT平均表現(xiàn)更好椎扬。?Figure 16: Off-the-shelf ViT features transfer better than CNNs. We explore transferability of learned representations using generic classification as well as few-shot classification for out-of-domain tasks. In the case of classification (left), the ImageNet pre-trained ViTs transfer better than their CNN counterparts across tasks. In the case of few-shot learning (right), ImageNet pre-trained ViTs perform better on average.

Few-shot學(xué)習(xí)：? ? 我們認(rèn)為元數(shù)據(jù)集（45）設(shè)計(jì)為一個(gè)大規(guī)模的Few-Shot Learning（FSL）基準(zhǔn)惫搏，包含來(lái)自多個(gè)域的不同數(shù)據(jù)集。這包括字母表蚕涤、手繪草圖筐赔、紋理圖像和細(xì)粒度類(lèi)，使其成為一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集揖铜，同時(shí)涉及到域自適應(yīng)需求茴丰。我們遵循ImageNet培訓(xùn)和所有其他數(shù)據(jù)集測(cè)試的標(biāo)準(zhǔn)設(shè)置，這些數(shù)據(jù)集被視為下游任務(wù)天吓。

在我們的實(shí)驗(yàn)中贿肩，我們?cè)贗mageNet數(shù)據(jù)集上使用預(yù)先訓(xùn)練好的分類(lèi)網(wǎng)絡(luò)來(lái)提取特征。對(duì)于每個(gè)下游數(shù)據(jù)集龄寞，在FSL設(shè)置下汰规，標(biāo)記圖像的支持集可用于每個(gè)測(cè)試查詢。我們使用提取的特征在每個(gè)查詢的支持集上學(xué)習(xí)線性分類(lèi)器（類(lèi)似于[46]）物邑，并使用[45]中定義的標(biāo)準(zhǔn)FSL協(xié)議進(jìn)行評(píng)估溜哮。該評(píng)估涉及針對(duì)每個(gè)下游數(shù)據(jù)集的不同數(shù)量的放炮。平均而言色解，與CNN基線相比茂嗓，ViT特征在這些不同領(lǐng)域的遷移更好（圖16）。此外科阎，我們注意到述吸，使用所提出的集成策略進(jìn)一步提高了ViT的傳輸性能。我們還強(qiáng)調(diào)了QuickDraw（一個(gè)包含手繪草圖的數(shù)據(jù)集）的改進(jìn)锣笨，該數(shù)據(jù)集與我們關(guān)于改進(jìn)ViT模型與CNN模型形狀偏差的研究結(jié)果一致（詳細(xì)討論見(jiàn)第3.2節(jié)）刚梭。

4????討論和結(jié)論

在本文中，我們從魯棒性和可推廣性的角度分析了ViTs的有趣特性票唆。我們?cè)?5個(gè)視覺(jué)數(shù)據(jù)集上使用各種ViT模型進(jìn)行測(cè)試朴读。所有型號(hào)均在4個(gè)V100 GPU上進(jìn)行訓(xùn)練。我們證明了ViTs相對(duì)于CNN在遮擋處理走趋、對(duì)分布偏移和圖塊置換的魯棒性衅金、無(wú)像素監(jiān)督的自動(dòng)分割以及對(duì)對(duì)抗圖塊和常見(jiàn)損壞的魯棒性方面的優(yōu)勢(shì)。此外簿煌，我們還通過(guò)從單個(gè)ViT模型提出的特征集成氮唯，展示了現(xiàn)成ViT特征到多個(gè)下游任務(wù)的強(qiáng)可遷移性。一個(gè)有趣的未來(lái)研究方向是探索如何有效地組合使用單獨(dú)token在單個(gè)ViT中建模的各種線索姨伟，以相互補(bǔ)充惩琉。

我們目前的實(shí)驗(yàn)是基于ImageNet（ILSVRC'12）預(yù)先訓(xùn)練的VIT，這有可能在學(xué)習(xí)的表示中反映潛在的偏差夺荒。數(shù)據(jù)大多是西方的瞒渠，編碼了一些性別/種族刻板印象良蒸，某些群體的代表性不足[43]。這個(gè)版本的ImageNet也帶來(lái)了隱私風(fēng)險(xiǎn)伍玖，因?yàn)樗鼪](méi)有被蒙蔽的人臉嫩痰。將來(lái)，我們將使用最新的ImageNet版本來(lái)解決上述問(wèn)題[44]窍箍。

附錄

隨機(jī)圖塊丟棄：圖塊大小的影響

如圖17所示串纺，我們擴(kuò)展了我們的隨機(jī) PatchDrop實(shí)驗(yàn)，以包括掩蔽操作的不同 PatchDrop大小椰棘。主要論文中的PatchDrop實(shí)驗(yàn)涉及將圖像分割成14×14網(wǎng)格（獲得196塊尺寸為16×16像素的圖塊）纺棺。在這里，我們將圖像分割為不同的網(wǎng)格大小邪狞，并通過(guò)相關(guān)的網(wǎng)格大小定義每個(gè)實(shí)驗(yàn)祷蝌。這些實(shí)驗(yàn)的結(jié)果如圖18所示。所有精度值均在ImageNet val集合中報(bào)告外恕。由于每個(gè)網(wǎng)格大小包含不同數(shù)量的圖塊杆逗，我們?cè)诰葓D中遮擋特定百分比并插值到相同比例，以便更好地進(jìn)行比較鳞疲。

我們注意到罪郊，當(dāng)被遮擋圖塊的尺寸是模型圖塊大小的倍數(shù)（使用的網(wǎng)格大小是原始網(wǎng)格大小的一個(gè)因子）時(shí)，ViT模型（將輸入圖像分割為一系列圖塊進(jìn)行處理）對(duì)圖塊遮擋的魯棒性顯著提高尚洽。這在7×7網(wǎng)格PatchDrop實(shí)驗(yàn)中ViT的更高性能中可見(jiàn)（最初使用14×14網(wǎng)格）悔橄。同時(shí)，由于大部分被遮擋（例如腺毫，使用4×4的空間網(wǎng)格）癣疟，ViT模型和CNN之間的性能差異顯著減小。我們認(rèn)為情況確實(shí)如此潮酒，因?yàn)樵诟哐诒温氏戮χ浚浅４蟮膱D塊遮擋可能會(huì)消除與特定對(duì)象類(lèi)別相關(guān)的所有視覺(jué)線索，這使得ViT和CNN模型都很難做出正確的預(yù)測(cè)急黎。

更重要的是扎狱，我們注意到在Sec3.1中觀察到的趨勢(shì)。通過(guò)不同網(wǎng)格大小的實(shí)驗(yàn)勃教，再次確認(rèn)了關(guān)于遮擋的信息淤击。我們還注意到，其中一些網(wǎng)格大泄试础（例如8×8）與原始ViT模型（將圖像分割為14×14圖塊序列）使用的網(wǎng)格模式無(wú)關(guān)污抬。這表明，雖然這些趨勢(shì)在匹配網(wǎng)格大猩（與ViT模型相同）及其因素方面更為顯著印机，但觀察到的趨勢(shì)并非僅由于ViT模型的網(wǎng)格操作而產(chǎn)生矢腻。我們注意到，由于VIT的動(dòng)態(tài)感受野耳贬，這種行為是可能的踏堡。

圖17：PatchDrop實(shí)驗(yàn)中不同網(wǎng)格大辛匝洹（導(dǎo)致不同的圖塊大兄渚ⅰ）的可視化。?Figure 17: Visualization of varying grid sizes (resulting in different patch sizes) for PatchDrop experiments.

圖18：此處诫隅，用于遮擋的圖塊大小與ViT模型使用的圖塊大小不同（例如腐魂，默認(rèn)為16×16）。請(qǐng)注意逐纬，對(duì)于較大的圖塊大小蛔屹，行為更接近ResNet50，而對(duì)于較小的圖塊大小豁生，ViT模型通常表現(xiàn)更好兔毒。Figure 18: Here, the patch sizes used for occlusion are different to the patch size used by ViT models (e.g., 16×16 by default). Note that for larger patch sizes, the behaviour is closer to ResNet50, while for smaller patch sizes, ViT models generally perform better.

A.1????帶偏移的隨機(jī)PatchDrop

我們還探討了PatchDrop遮罩上的空間偏移如何影響ViT模型。這旨在消除ViT模型的固有網(wǎng)格模式與我們的系列之間可能存在的對(duì)齊甸箱。在圖像上應(yīng)用相同的遮罩育叁，但具有較小的空間偏移，以確保沒(méi)有遮罩圖塊與ViT模型在處理輸入圖像時(shí)使用的任何網(wǎng)格圖案對(duì)齊芍殖。我們重復(fù)第節(jié)所述的相同實(shí)驗(yàn)豪嗽。在3.1節(jié)設(shè)置下，將我們的結(jié)果顯示在圖19中豌骏。一般來(lái)說(shuō)龟梦，我們觀察到ViT模型和ResNet模型之間存在類(lèi)似的趨勢(shì)，但我們注意到窃躲，與無(wú)偏移設(shè)置下的性能相比计贰，ViT-L的精度顯著下降。我們將在下面介紹這種趨勢(shì)的潛在原因蒂窒。

圖19：我們重復(fù)3.1節(jié)的實(shí)驗(yàn)躁倒。通過(guò)向用于遮罩圖塊的網(wǎng)格添加偏移。我們的目標(biāo)是消除由于與ViT模型使用的圖塊類(lèi)型具有相似性的任何網(wǎng)格模式而產(chǎn)生的任何偏置刘绣。為此樱溉，在PatchDrop實(shí)驗(yàn)中，我們消除了掩模和ViT網(wǎng)格模式之間的對(duì)齊纬凤。我們注意到福贞，在這種情況下，隨著ViT-L性能的相對(duì)下降停士，也出現(xiàn)了類(lèi)似的趨勢(shì)挖帘。Figure 19: We repeat our experiments in Sec. 3.1 by adding an offset to the grid we use for masking patches. We aim to eliminate any biases due to any gird patterns that bear similarity with the kind of patches used by ViT models. To this end, in the PatchDrop experiments we remove alignment between our masks and ViT grid patterns. We note similar trends in this case as well, alongside a relative drop in ViT-L performance.

ViT-L是一個(gè)包含超過(guò)3億個(gè)可訓(xùn)練參數(shù)的大型模型完丽，而其他模型包含的參數(shù)明顯較少涨椒，例如DeiT-B（8600萬(wàn)）兵罢、T2T-24（6400萬(wàn)）、TnT-S（2300萬(wàn)）和ResNet50（2500萬(wàn)）束昵。此外骄崩，與ViT-L模型不同的是聘鳞，DeiT家族及其構(gòu)建者使用廣泛的數(shù)據(jù)擴(kuò)充方法進(jìn)行訓(xùn)練，確保使用小數(shù)據(jù)集對(duì)ViT進(jìn)行穩(wěn)定訓(xùn)練要拂。在圖18中的16×16網(wǎng)格尺寸實(shí)驗(yàn)中也觀察到ViT-L性能的類(lèi)似相對(duì)下降抠璃。在這種情況下，ViT-L的異常行為可能是由于這些差異造成的脱惰。

B????Random PixelDrop

觀察與ViT模型固有網(wǎng)格操作解耦的遮擋效果的進(jìn)一步步驟是在像素級(jí)進(jìn)行遮擋搏嗡。如圖20所示，我們生成不同遮擋級(jí)別的像素級(jí)掩模拉一。圖21中采盒，我們對(duì)的ImageNet val集的評(píng)估表明，ViT模型和CNN之間的趨勢(shì)與之前在3.1節(jié)和附錄A中觀察到的趨勢(shì)相同蔚润。

圖20:PixelDrop不同級(jí)別的可視化（隨機(jī)掩蔽像素以研究對(duì)遮擋的魯棒性）磅氨。Figure 20: Visualization of varying levels of PixelDrop (randomly masking pixels to study robustness against occlusions).

圖21:Random PixelDrop：我們將ViT模型的性能與ResNet50進(jìn)行了比較，我們的PixelDrop實(shí)驗(yàn)展示了類(lèi)似的趨勢(shì)抽碌。Figure 21: Random PixelDrop: we compare the performance of ViT models against a ResNet50 for our PixelDrop experiments illustrating how similar trends are exhibited. ?

PixelDrop可以被視為PatchDrop的一個(gè)版本悍赢，我們使用的網(wǎng)格大小等于圖像尺寸（將patch size設(shè)置為1×1）』踽悖考慮到這一點(diǎn)左权，我們比較了當(dāng)我們接近較小網(wǎng)格尺寸的像素下降時(shí)，模型的性能如何變化痴颊。這如圖22所示赏迟，在圖22中，我們使用不同網(wǎng)格大小的PatchDrop評(píng)估ImageNet val集上50%遮擋的模型蠢棱。

圖22：我們比較模型的性能锌杀，因?yàn)槲覀兏淖兙W(wǎng)格大小，保持遮擋水平一直保持在50%泻仙，直到像素下降糕再，我們認(rèn)為PatchDrop的網(wǎng)格大小相當(dāng)于圖像尺寸。雖然PixelDrop隨著遮擋水平的變化向我們展示了類(lèi)似的趨勢(shì)（圖21）玉转，但模型的總體性能會(huì)下降突想。?Figure 22: We compare the performance of models as we vary the grid size keeping the occlusion level constant at 50% all the way until PixelDrop which we consider as PatchDrop with grid size equivalent to the image dimensions. While PixelDrop shows us similar trends as the occlusion level varies (Fig, 21), the general performance of models decreases.

我們注意到，與PatchDrop實(shí)驗(yàn)相比，在PixelDrop的情況下猾担，對(duì)于這種固定的遮擋級(jí)別袭灯，模型的整體性能會(huì)下降。

我們還注意到绑嘹，與其他型號(hào)相比稽荧，ViT-L的性能顯著提高。這可歸因于其更高的可訓(xùn)練參數(shù)計(jì)數(shù)工腋，如第A.1所討論的姨丈。同時(shí)，ViT-L顯示16×16網(wǎng)格的性能異常下降夷蚊，與我們?cè)趫D19中的觀察結(jié)果非常相似构挤。

C????對(duì)特征丟失的魯棒性

與我們以前在模型輸入空間中涉及遮擋的實(shí)驗(yàn)不同髓介，我們現(xiàn)在關(guān)注模型特征空間中的遮擋惕鼓。我們通過(guò)在ViT模型中刪除部分中間表示來(lái)實(shí)現(xiàn)這一點(diǎn)，而不是從輸入圖像中刪除圖塊唐础。對(duì)于每個(gè)Transformers塊（例如箱歧，對(duì)于DeiT-B中的12個(gè)塊中的每個(gè)塊），我們隨機(jī)屏蔽（設(shè)置為零）其輸入特征的選定百分比一膨。表6通過(guò)評(píng)估ImageNet val集的性能研究了這些“特征下降”實(shí)驗(yàn)的影響呀邢。采用標(biāo)準(zhǔn)方法測(cè)量性能（使用ViT模型的最終分類(lèi)器頭部的輸出）。我們注意到豹绪，對(duì)于少量的特征下降（25%和50%）价淌，無(wú)論單個(gè)塊的位置如何，模型都會(huì)遭受相對(duì)類(lèi)似的性能下降瞒津。但是蝉衣，對(duì)于較大數(shù)量的特征丟失，某些塊對(duì)于每個(gè)模型來(lái)說(shuō)顯得更重要巷蚪。此外病毡，我們注意到大型模型塊內(nèi)存在一定程度的信息冗余，因?yàn)樗鼈兊男阅芟陆挡⒉伙@著屁柏，即使是相當(dāng)數(shù)量的特征下降（例如啦膜，ViT-L為25%）。

表6：病變研究：我們將輸入到所選ViT模型的每個(gè)模塊的特征的百分比降低淌喻，并根據(jù)ImageNet val集的Top-1精度（%）評(píng)估其性能僧家。ViT-L對(duì)這種特性下降表現(xiàn)出顯著的魯棒性，甚至高達(dá)25%的token暗示模型中存在信息冗余裸删。Table 6: Lesion Study: we drop a percentage of features input to each block of selected ViT models and evaluate their performance in terms of Top-1 accuracy (%) on ImageNet val set. ViT-L shows significant robustness against such feature drop even up to the 25% mark hinting towards information redundancy within the model.

在表7中八拱，我們對(duì)ResNet50模型進(jìn)行了相同的特征丟棄實(shí)驗(yàn)。我們注意到ResNet架構(gòu)與ViT模型完全不同；因此乘粒，比較這些值將沒(méi)有什么意義豌注。在ResNet50的案例中，我們觀察到早期層中的功能下降如何導(dǎo)致性能顯著下降灯萍，這與ViT模型不同轧铁。此外，最后一層中的功能下降顯示性能下降幾乎可以忽略不計(jì)旦棉，這可能是由于接著處理這些特征的平均池化操作造成的齿风。在比較ViT模型的情況下，最后一層中的圖塊token不用于最終預(yù)測(cè)绑洛，因此對(duì)其應(yīng)用特征丟棄對(duì)性能沒(méi)有影響救斑。

表7:ResNet50病變研究：我們對(duì)輸入到四個(gè)剩余塊（第1-4層）和最終平均池操作（第5層）之前的特征圖的中間特征圖進(jìn)行特征刪除。我們?cè)贗mageNet值上評(píng)估Top-1精度（%）真屯。設(shè)置為25%脸候、50%和75%的特征降應(yīng)用于每個(gè)層。Table 7: ResNet50 Lesion Study: we perform feature drop on the intermediate feature maps input to each of the four residual blocks (layers 1-4) and the feature map prior to the final average pooling operation (layer 5). We evaluate Top-1 accuracy (%) on the ImageNet val. set for 25%, 50%, and 75% feature drop applied to each layer.

D????對(duì)遮擋的魯棒性：更多分析

在我們的實(shí)驗(yàn)設(shè)置中绑蔫，我們將VIT與類(lèi) tokens一起使用运沦，這些類(lèi) tokens在整個(gè)網(wǎng)絡(luò)中與 patch tokens交互，并隨后用于分類(lèi)配深。然而携添，并非所有ViT設(shè)計(jì)都使用類(lèi) token，例如篓叶，Swin Transformer[49]使用所有 tokens的平均值烈掠。為此，我們使用三種最新的Swin Transformer[49]對(duì)我們提出的遮擋進(jìn)行了實(shí)驗(yàn)（圖23）缸托。

D.1????Swin Transformer [49]

圖23：在三種PatchDrop設(shè)置下研究了圖像中對(duì)象遮擋的魯棒性（見(jiàn)第3.1節(jié)）左敌。我們將Swin模型族與ResNet50進(jìn)行了比較，ResNet50顯示了其對(duì)對(duì)象遮擋的優(yōu)越魯棒性嗦董。這些結(jié)果表明母谎，不依賴于使用顯式類(lèi)token（如Swin transformer）[49]的ViT體系結(jié)構(gòu)對(duì)信息丟失也具有魯棒性。Figure 23: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). We compare the Swin model family against ResNet50 exhibiting their superior robustness to object occlusion. These results show that ViT architectures that does not depend on using explicit class token like Swin transformer [49] are robust against information loss as well.

D.2????RegNetY [50]

在這里京革，我們?cè)u(píng)估了RegNetY的三種變體與我們提出的遮擋（圖24）奇唤。與ResNet50相比，RegNetY[50]顯示出相對(duì)較高的魯棒性匹摇，但總體表現(xiàn)與其他CNN模型類(lèi)似咬扇。

圖24：在三種PatchDrop設(shè)置下研究了圖像中對(duì)象遮擋的魯棒性（見(jiàn)第3.1節(jié)）。我們研究了更強(qiáng)的基線CNN模型RegNetY[50]對(duì)遮擋的魯棒性廊勃，并確定其總體行為與其他CNN模型相似懈贺。Deit-T[3]是一種具有少量參數(shù)的ViT经窖，其性能明顯優(yōu)于所有考慮的RegNetY變體。?Figure 24: Robustness against object occlusion in images is studied under three PatchDrop settings (see Sec 3.1). We study the robustness of stronger baseline CNN model, RegNetY [50] to occlusions, and identify that it overall behaves similar to other CNN models. Deit-T [3], a ViT with small number of parameters, performs significantly better than all the considered RegNetY variants.

E????形狀偏置模型的行為

在本節(jié)中梭灿，我們研究了PatchDrop（第3.1節(jié)）和置換不變性（第3.3節(jié)）實(shí)驗(yàn)對(duì)在程式化ImageNet[9]（形狀偏置模型）上訓(xùn)練的模型的影響画侣。與形狀偏向CNN模型相比，VIT模型對(duì)PatchDrop表現(xiàn)出良好的魯棒性堡妒。請(qǐng)注意配乱，ResNet50（2500萬(wàn)）和DeiT-S（2200萬(wàn)）具有類(lèi)似的可訓(xùn)練參數(shù)計(jì)數(shù)，這是一個(gè)更好的比較皮迟。此外搬泥，我們注意到，在“隨機(jī)shufflfle”實(shí)驗(yàn)的情況下伏尼，ViT模型顯示出與CNN模型類(lèi)似（或更低）的置換不變性忿檩。這些隨機(jī)shufflfle的結(jié)果表明，我們?cè)赩iT模型中發(fā)現(xiàn)的排列不變性的缺乏爆阶。3.3在我們的形狀偏差模型中有所克服燥透。

（什么意思？是指附錄中實(shí)驗(yàn)結(jié)論與正文中相悖嗎）

（原文：In this section, we study the effect of our PatchDrop (Sec. 3.1) and permutation invariance (Sec. 3.3)experiments on our models trained on Stylized ImageNet [9] (shape biased models). In comparison to a shape biased CNN model, the VIT models showcase favorable robustness to occlusions presented in the form of PatchDrop. Note that ResNet50 (25 million) and DeiT-S (22 million) have similar trainable parameter counts, and therein are a better comparison. Furthermore, we note that in the case of “random shufflfle” experiments, the ViT models display similar (or lower) permutation invariance in comparison to the CNN model. These results on random shufflfle indicate that the lack of permutation invariance we identifified within ViT models in Sec. 3.3 is somewhat overcome in our shape biased models.）

圖25：形狀偏置模型：我們?cè)诔淌交疘mageNet上訓(xùn)練的DeiT模型上進(jìn)行相同的PatchDrop和隨機(jī)shuffle實(shí)驗(yàn)[9]扰她，并與在相同數(shù)據(jù)集上訓(xùn)練的CNN進(jìn)行比較兽掰。所有結(jié)果都是在ImageNet值集上計(jì)算的。與ResNet50相比徒役，我們強(qiáng)調(diào)了DeiT模型在圖塊投放實(shí)驗(yàn)中的性能改進(jìn)。我們還注意到DeiT模型在隨機(jī)shuffle時(shí)的性能下降與ResNet模型相似窖壕。?Figure 25: Shape biased models: We conduct the same PatchDrop and Random Shuffle experiments on DeiT models trained on Stylized ImageNet [9] and compare with a CNN trained on the same dataset. All results are calculated over the ImageNet val. set. We highlight the improved performance in the PatchDrop experiments for the DeiT models in comparsion to ResNet50. We also note how the DeiT models’ performance drop with random shuffling is similar to that of the ResNet model.

F????動(dòng)態(tài)感受野

我們進(jìn)一步研究了ViT行為忧勿，將重點(diǎn)放在信息信號(hào)上，而不管其位置如何瞻讽。在我們的新實(shí)驗(yàn)中鸳吸，在推斷過(guò)程中，我們將輸入圖像重新縮放到128x128速勇，并將其放置在224x224大小的黑色背景中晌砾。換句話說(shuō)，我們將所有圖像信息反射到幾個(gè)中烦磁，而不是移除或洗牌圖像補(bǔ)丁养匈。然后，我們將這些圖塊的位置移動(dòng)到背景的右上角/左下角都伪。平均而言呕乎，Deit-S顯示62.9%的top-1分類(lèi)準(zhǔn)確率和低方差（62.9±0.05）。相比之下陨晶，ResNet50的平均準(zhǔn)確率僅為5.4%猬仁。這些結(jié)果表明，無(wú)論位置如何，VIT都可以利用鑒別信息（表8）湿刽。圖26顯示了當(dāng)圖像在背景中移動(dòng)時(shí)的烁，描述注意力變化的可視化。

（We further study the ViT behavior to focus on the informative signal regardless of its position. In our new experiment, during inference, we rescale the input image to 128x128 and place it within black background of size 224x224. In other words, rather than removing or shuffling image patches, we reflect all the image information into few patches. We then move the position of these patches to the upper/lower right and left corners of the background. On average, Deit-S shows 62.9% top-1 classification accuracy and low variance (62.9±0.05). In contrast, ResNet50 achieves only 5.4% top-1 average accuracy. These results suggest that ViTs can exploit discriminative information regardless of its position (Table 10). Figure 26 shows visualization depicting the change in attention, as the image is moved within the background. ）

表8：我們將輸入圖像重新縮放為128x128诈闺，并將其放置在224x224大小背景的右上角/左下角撮躁。與ResNet50相比，ViTs可以利用區(qū)分性信息买雾，而不管其位置如何把曼。報(bào)告了ImageNet值集的Top-1（%）精度。?Table 8: We rescale the input image to 128x128 and place it within the upper/lower right and left corners of the background of size 224x224. ViTs can exploit discriminative information regardless of its position as compared to ResNet50. Top-1 (%) accuracy on ImageNet val. set is reported.

圖26：當(dāng)圖像在背景中移動(dòng)時(shí)漓穿，描繪注意力變化的可視化嗤军。在ImageNet預(yù)先訓(xùn)練的DeiT-T（微小）模型的所有12層中晃危，與每個(gè)頭部相關(guān)的注意力圖（整個(gè)ImageNet值集的平均值）[3]叙赚。所有圖像將重新縮放為128x128，并放置在黑色背景中僚饭。觀察后一層如何清晰地關(guān)注圖像的非遮擋區(qū)域以做出決定震叮，這是模型高度動(dòng)態(tài)感受野的證據(jù)。Figure 26: Visualization depicting the change in attention, as the image is moved within the background. Attention maps (averaged over the entire ImageNet val. set) relevant to each head across all 12 layers of an ImageNet pre-trained DeiT-T (tiny) model [3]. All images are rescaled to 128x128 and placed within black background. Observe how later layers clearly attend to non-occluded regions of images to make a decision, an evidence of the model’s highly dynamic receptive field.

E????其他定性結(jié)果

這里鳍鸵，我們展示了一些定性結(jié)果苇瓣，例如，圖27展示了我們的遮擋（隨機(jī)偿乖、前景和背景）方法的示例击罪。我們的形狀模型分割顯著圖像的性能如圖28所示。在圖29中贪薪，我們通過(guò)可視化信息丟失情況下的注意力媳禁，展示了ViT感受野的動(dòng)態(tài)行為。最后画切，我們展示了為愚弄不同ViT模型而優(yōu)化的對(duì)抗圖塊（圖31）竣稽。

圖27：我們的三種PatchDrop遮擋策略的可視化：原始、隨機(jī)（圖像的50%w.r.t）霍弹、非顯著（DINO預(yù)測(cè)的50%w.r.t）和顯著（DINO預(yù)測(cè)的50%背景）PatchDrop（從左到右顯示）毫别。DeiT-B模型在整個(gè)ImageNet val.范圍內(nèi)實(shí)現(xiàn)了81.7%、75.5%庞萍、68.1%和71.3%的準(zhǔn)確度拧烦，分別適用于從左到右圖示的每個(gè)遮擋級(jí)別?Figure 27: Visualizations for our three PatchDrop occlusion strategies: original, random (50% w.r.t the image), non-salient (50% w.r.t the forground predicted by DINO), and salient (50% of the backgrond as predicted by DINO) PatchDrop (shown from left to right). DeiT-B model achieves accuracies of 81.7%, 75.5%, 68.1%, and 71.3% across the ImageNet val. set for each level of occlusion illustrated from left to right, respectively

圖28:DeiT-S模型中使用類(lèi)token注意的圖像自動(dòng)分割。原始钝计、SIN訓(xùn)練和SIN提取的模型輸出分別從上到下進(jìn)行說(shuō)明恋博。??Figure 28: Automatic segmentation of images using class-token attention for a DeiT-S model. Original, SIN trained, and SIN distilled model outputs are illustrated from top to bottom, respectively.

圖29：不同圖像上顯著斑點(diǎn)的變化（水平從左到右增加）齐佳。 Figure 29: The variation (level increasing from left to right) of Salient PatchDrop on different images.

圖30：對(duì)抗圖塊（通用和非目標(biāo)）可視化。最上面一行顯示為愚弄在ImageNet上訓(xùn)練的DeiT-S而優(yōu)化的對(duì)抗圖塊债沮，而最下面一行顯示DeiT-S-SIN的圖塊炼吴。DeiT-S的表現(xiàn)明顯優(yōu)于DeiT-S-SIN。另一方面疫衩，DeiT-SIN比DeiT-S具有更高的形狀偏置硅蹦。Figure 30: Adversarial patch (universal and untargeted) visualizations. Top row shows adversarial patches optimized to fool DeiT-S trained on ImageNet, while bottom row shows patches for DeiT-S-SIN. DeiT-S performs significantly better than DeiT-S-SIN. On the other hand, DeiT-SIN has higher shape-bias than DeiT-S.

圖31：對(duì)抗圖塊（通用和非目標(biāo)）優(yōu)化，從上到下愚弄DeiT-T闷煤、DeiT-B和T2T-24模型童芹。這些ViT模型比CNN（如ResNet50）對(duì)此類(lèi)對(duì)抗模式更具魯棒性。?Figure 31: Adversarial patches (universal and untargeted) optimized to fool DeiT-T, DeiT-B, and T2T-24 models from top to bottom. These ViT models are more robust to such adversarial patterns than CNN (e.g., ResNet50).

注：

（1）編者在機(jī)翻這篇論文時(shí)是基于arxiv上較早的版本鲤拿，在整理時(shí)用的是arixv上v3版本假褪，v3版本相比v1版本的圖像/表格/文本/附錄/參考文獻(xiàn)索引均有所變動(dòng)。編者在整理時(shí)圖像近顷、表格根據(jù)v3版本做相應(yīng)補(bǔ)充生音，但參考文獻(xiàn)索引未做改動(dòng)。因此對(duì)參考文獻(xiàn)感興趣的讀者建議參見(jiàn)原文窒升。

（2）arixv3的表格排布出現(xiàn)錯(cuò)誤：表1缀遍，表3，表4饱须，表4域醇，?表5，表6...

（3）arxiv3中的附錄增加了對(duì)SwinTransformer的比較

最后編輯于：2021.12.03 15:17:42

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末冤寿，一起剝皮案震驚了整個(gè)濱河市歹苦，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌督怜，老刑警劉巖，帶你破解...
沈念sama閱讀 216,651評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件狠角，死亡現(xiàn)場(chǎng)離奇詭異号杠，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)丰歌，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)姨蟋，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人立帖，你說(shuō)我怎么就攤上這事眼溶。” “怎么了晓勇？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,931評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵堂飞，是天一觀的道長(zhǎng)灌旧。經(jīng)常有香客問(wèn)我，道長(zhǎng)绰筛，這世上最難降的妖魔是什么枢泰？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,218評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮铝噩，結(jié)果婚禮上衡蚂，老公的妹妹穿的比我還像新娘。我一直安慰自己骏庸，他們只是感情好毛甲，可當(dāng)我...
茶點(diǎn)故事閱讀 67,234評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著具被，像睡著了一般玻募。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上硬猫，一...
開(kāi)封第一講書(shū)人閱讀 51,198評(píng)論 1贊 299
城市分裂傳說(shuō)
那天补箍，我揣著相機(jī)與錄音，去河邊找鬼啸蜜。笑死坑雅，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的衬横。我是一名探鬼主播裹粤，決...
沈念sama閱讀 40,084評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蜂林！你這毒婦竟也來(lái)了遥诉？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,926評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤噪叙，失蹤者是張志新（化名）和其女友劉穎矮锈，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體睁蕾，經(jīng)...
沈念sama閱讀 45,341評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡苞笨，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,563評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了子眶。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瀑凝。...
茶點(diǎn)故事閱讀 39,731評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖臭杰，靈堂內(nèi)的尸體忽然破棺而出粤咪，到底是詐尸還是另有隱情，我是刑警寧澤渴杆，帶...
沈念sama閱讀 35,430評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布寥枝，位于F島的核電站宪塔，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏脉顿。R本人自食惡果不足惜蝌麸，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,036評(píng)論 3贊 326
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望艾疟。院中可真熱鬧来吩，春花似錦、人聲如沸蔽莱。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,676評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)盗冷。三九已至怠苔，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間仪糖，已是汗流浹背柑司。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,829評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留锅劝，地道東北人攒驰。一個(gè)月前我還...
沈念sama閱讀 47,743評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像故爵，于是被迫代替她去往敵國(guó)和親玻粪。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,629評(píng)論 2贊 354

變換器魯棒性-5：Intriguing Properties of Vision Transformers

推薦閱讀更多精彩內(nèi)容