Intriguing Properties of Vision?Transformers
★★★★★????NeurIPS'21 (Spotlight)
Authors:Muzammal Naseer,Kanchana Ranasinghe,Salman Khan,Munawar Hayat,Fahad Shahbaz Khan,Ming-Hsuan Yang
https://arxiv.org/abs/2105.10497v3
摘要:視覺(jué)Transformers(ViT)在各種機(jī)器視覺(jué)問(wèn)題上表現(xiàn)出令人印象深刻的性能。這些模型基于多頭自注意機(jī)制召川,可以靈活地處理一系列圖像塊,對(duì)上下文線索進(jìn)行編碼岗憋。一個(gè)重要的問(wèn)題是,以給定圖塊為條件處理圖像范圍上下文的靈活性如何有助于處理自然圖像中的干擾,例如嚴(yán)重遮擋呀枢、域移動(dòng)祈搜、空間排列较店、對(duì)抗攻擊和自然干擾。我們通過(guò)一系列廣泛的實(shí)驗(yàn)系統(tǒng)地研究了這個(gè)問(wèn)題容燕,包括三個(gè)ViT家族梁呈,并與高性能卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行了比較。我們展示并分析了ViT的以下有趣特性:(a)Transformers對(duì)嚴(yán)重遮擋蘸秘、擾動(dòng)和域移動(dòng)具有高度魯棒性官卡,例如,即使在隨機(jī)遮擋80%的圖像內(nèi)容后醋虏,在ImageNet上仍保持高達(dá)60%的top-1精度寻咒。(b) 對(duì)遮擋的魯棒性能不是由于對(duì)局部紋理的偏置,相反颈嚼,與CNN相比毛秘,VIT對(duì)紋理的偏置要小得多(The robustness towards occlusions is not due to texture bias, instead we show that ViTs are signifificantly less biased towards local textures, compared to CNNs.)。當(dāng)適當(dāng)訓(xùn)練以編碼基于形狀的特征時(shí),VIT顯示出與人類(lèi)視覺(jué)系統(tǒng)相當(dāng)?shù)男螤钭R(shí)別能力叫挟,這在以前的文獻(xiàn)中是無(wú)與倫比的艰匙。(c) 使用VIT對(duì)形狀表示進(jìn)行編碼,可以在沒(méi)有像素級(jí)監(jiān)控的情況下實(shí)現(xiàn)精確的語(yǔ)義分割霞揉。(d) 來(lái)自單個(gè)ViT模型的現(xiàn)成特征可以組合起來(lái)創(chuàng)建一個(gè)特征集合旬薯,從而在傳統(tǒng)和few-shot學(xué)習(xí)范式中,在一系列分類(lèi)數(shù)據(jù)集中實(shí)現(xiàn)高準(zhǔn)確率适秩。我們發(fā)現(xiàn)ViTs的有效特征是通過(guò)自注意機(jī)制可能產(chǎn)生的靈活和動(dòng)態(tài)的感受野绊序。代碼在:https://git.io/Js15X
1 引言
隨著視覺(jué)Transformers(ViT)吸引了更多的興趣[1],研究其學(xué)習(xí)表征的特征變得非常重要秽荞。具體而言骤公,從安全關(guān)鍵應(yīng)用的角度,如自動(dòng)駕駛汽車(chē)扬跋、機(jī)器人和醫(yī)療保浇桌Α;所學(xué)的表示法必須是魯棒的和可泛化的钦听。在本文中洒试,我們比較了Transformers與卷積神經(jīng)網(wǎng)絡(luò)(CNN)在處理不同數(shù)據(jù)分布的干擾(例如,遮擋朴上、分布移位垒棋、對(duì)抗性和自然擾動(dòng))和泛化方面的性能。我們的深入分析基于三個(gè)Transformers系列痪宰,ViT[2]叼架、DeiT[3]和T2T[4],跨越15個(gè)視覺(jué)數(shù)據(jù)集衣撬。為簡(jiǎn)潔起見(jiàn)乖订,除非另有說(shuō)明拖刃,否則我們將所有Transformers系列稱(chēng)為ViT诚卸。
我們對(duì)卷積運(yùn)算和自注意的基本差異感興趣鹦肿,這在穩(wěn)健性和泛化方面還沒(méi)有得到廣泛的探討辩尊。雖然卷積擅長(zhǎng)學(xué)習(xí)輸入域中元素之間的局部交互(例如,邊緣和輪廓信息)术辐,但自注意已被證明可以有效地學(xué)習(xí)全局交互(例如茬底,遠(yuǎn)距離對(duì)象部分之間的關(guān)系)[5,6]征绎。給定一個(gè)查詢嵌入占键,自注意會(huì)發(fā)現(xiàn)它與序列中其他嵌入的交互作用昔善,從而在建模全局關(guān)系的同時(shí)對(duì)局部?jī)?nèi)容進(jìn)行調(diào)節(jié)[7]元潘。相反畔乙,卷積與內(nèi)容無(wú)關(guān),因?yàn)橄嗤臑V波器權(quán)重應(yīng)用于所有輸入翩概,而不管它們的不同性質(zhì)牲距》翟郏考慮到與內(nèi)容相關(guān)的遠(yuǎn)程交互建模能力,我們的分析表明VIT可以靈活地調(diào)整其感受野牍鞠,以應(yīng)對(duì)數(shù)據(jù)中的干擾咖摹,并增強(qiáng)表示的表達(dá)能力。
我們的系統(tǒng)實(shí)驗(yàn)和新穎的設(shè)計(jì)選擇帶來(lái)了以下有趣的發(fā)現(xiàn):
?????與最先進(jìn)的CNN相比难述,VIT對(duì)前景物體萤晴、非顯著背景區(qū)域和隨機(jī)圖塊位置的嚴(yán)重遮擋具有很強(qiáng)的魯棒性。例如胁后,在ImageNet[8]val.set上店读,對(duì)于高達(dá)80%的顯著隨機(jī)遮擋,DeiT[3]可以保持大約60%的top-1準(zhǔn)確度攀芯,而CNN的準(zhǔn)確度為零屯断。
?????當(dāng)呈現(xiàn)同一對(duì)象的紋理和形狀時(shí),CNN模型通常根據(jù)紋理做出決策[9]侣诺。相比之下殖演,VIT在形狀識(shí)別方面的表現(xiàn)優(yōu)于CNN,與人類(lèi)相當(dāng)年鸳。這突出了VIT處理顯著分布變化的魯棒性趴久,例如,在紋理較少的數(shù)據(jù)(如繪畫(huà))中識(shí)別對(duì)象形狀阻星。
?與CNN相比朋鞍,VIT對(duì)其他干擾因素表現(xiàn)出更好的魯棒性,如圖塊排列妥箕、對(duì)抗性干擾和常見(jiàn)自然腐蝕(例如噪聲滥酥、模糊、對(duì)比度和像素化偽影)畦幢。然而坎吻,與CNN[10]類(lèi)似,專(zhuān)注于形狀的訓(xùn)練過(guò)程使他們?nèi)菀资艿綄?duì)抗攻擊和常見(jiàn)腐蝕宇葱。
?????除了具有良好的魯棒性特性外瘦真,ImageNet預(yù)訓(xùn)練模型中的現(xiàn)成ViT特性還可以非常好地推廣到新的領(lǐng)域,例如few-shot學(xué)習(xí)黍瞧、細(xì)粒度識(shí)別诸尽、場(chǎng)景分類(lèi)和長(zhǎng)尾分類(lèi)設(shè)置。除了我們廣泛的實(shí)驗(yàn)分析和新發(fā)現(xiàn)外印颤,我們還介紹了幾種新穎的設(shè)計(jì)選擇您机,以突出VIT的強(qiáng)大潛力。為此,我們建議對(duì)DeiT進(jìn)行架構(gòu)修改际看,以通過(guò)專(zhuān)用token對(duì)形狀信息進(jìn)行編碼咸产,該標(biāo)記演示了如何在同一架構(gòu)中使用不同標(biāo)記對(duì)看似矛盾的線索進(jìn)行建模,從而產(chǎn)生有利的影響仲闽,如無(wú)需像素級(jí)監(jiān)督的自動(dòng)分割脑溢。此外,我們的現(xiàn)成特征轉(zhuǎn)換方法利用從單個(gè)架構(gòu)派生的表示集合赖欣,通過(guò)預(yù)先訓(xùn)練的ViT獲得最先進(jìn)的泛化(圖1)屑彻。
2????相關(guān)工作
CNN在獨(dú)立和同分布(i.i.d)環(huán)境中表現(xiàn)出最先進(jìn)的性能痛阻,但對(duì)分布變化高度敏感;對(duì)抗性噪聲[11,12]腮敌、常見(jiàn)圖像損壞[13]和域偏移(例如阱当,RGB到草圖)[14]。人們自然會(huì)問(wèn)糜工,與CNN相比弊添,基于自注意力處理輸入的ViT是否有任何優(yōu)勢(shì)。Shao等人[15]分析了VIT對(duì)對(duì)抗性噪聲的影響捌木,并表明VIT對(duì)高頻變化更具魯棒性油坝。類(lèi)似地,Bhojanalli等人[16]研究了ViT對(duì)空間擾動(dòng)的影響[15]及其對(duì)去除任何單層的魯棒性刨裆。由于ViT處理圖像圖塊澈圈,我們重點(diǎn)關(guān)注它們對(duì)圖塊屏蔽、局部對(duì)抗圖塊[17]和常見(jiàn)自然腐蝕的魯棒性帆啃。Paul和Chen[18]同時(shí)開(kāi)展的一項(xiàng)工作也對(duì)VIT的穩(wěn)健性提出了類(lèi)似的見(jiàn)解瞬女,但采用了一些不同的實(shí)驗(yàn)集。
Geirhos等人[9]提供的證據(jù)表明努潘,CNN主要利用紋理來(lái)做出決策诽偷,而對(duì)整體形狀的重視程度較低盯桦。CNN只使用局部特征的能力進(jìn)一步證實(shí)了這一點(diǎn)[19]。最近渤刃,[20]量化了形狀和紋理特征之間的互信息[21]。我們的分析表明贴膘,大型ViT模型具有較少的紋理偏置卖子,并且相對(duì)更強(qiáng)調(diào)形狀信息。當(dāng)直接在程式化ImageNet上訓(xùn)練時(shí)刑峡,ViT的形狀偏置接近人類(lèi)水平的表現(xiàn)[9]洋闽。我們的發(fā)現(xiàn)與最近的一項(xiàng)同時(shí)進(jìn)行的工作一致,該工作證明了這一趨勢(shì)對(duì)人類(lèi)行為理解的重要性突梦,并彌合了人類(lèi)與機(jī)器視覺(jué)之間的差距[22]诫舅。最近的一項(xiàng)研究[23]表明,自監(jiān)督ViT可以自動(dòng)分割前景對(duì)象宫患。相比之下刊懈,我們展示了形狀聚焦學(xué)習(xí)如何在沒(méi)有任何像素級(jí)監(jiān)控的情況下,在圖像級(jí)監(jiān)控的ViT模型中賦予類(lèi)似的能力娃闲。
Zeiler等人[24]介紹了一種在不同層上可視化CNN特征的方法虚汛,并研究了現(xiàn)成特征的性能。本著類(lèi)似的精神皇帮,我們研究了ViT與CNN相比的現(xiàn)成特性的泛化卷哩。感受野是網(wǎng)絡(luò)對(duì)遠(yuǎn)距離依賴性建模能力的一個(gè)指標(biāo)∈羰埃基于Transformers的模型的感受野覆蓋了整個(gè)輸入空間将谊,這一特性類(lèi)似于手工制作的功能[25],但VIT具有更高的表示容量渐白。與CNN相比尊浓,這使得ViT能夠模擬全局上下文并保留結(jié)構(gòu)信息[26]。這項(xiàng)工作是為了證明在ViTs中靈活的感受野和基于內(nèi)容的上下文建模對(duì)學(xué)習(xí)特征的魯棒性和泛化的有效性纯衍。
3????視覺(jué)Transformers的有趣特性
3.1????視覺(jué)Transformers是否對(duì)遮擋具有魯棒性眠砾?
ViT的感受野橫跨整個(gè)圖像,它利用自注意來(lái)模擬圖像塊序列之間的相互作用[26,27]托酸。我們研究VIT在遮擋場(chǎng)景中是否表現(xiàn)良好褒颈,在遮擋場(chǎng)景中,部分或大部分圖像內(nèi)容缺失励堡。
遮擋建模:? ? 考慮網(wǎng)絡(luò)谷丸,它處理輸入圖像來(lái)預(yù)測(cè)標(biāo)簽,其中X被表示為具有N個(gè)元素的圖塊序列应结,即[2]刨疼。雖然可以有多種方法來(lái)定義遮擋泉唁,但我們采用了一種簡(jiǎn)單的遮罩策略,即選擇總圖像圖塊的子集M<N揩慕,并將這些圖塊的像素值設(shè)置為零亭畜,以創(chuàng)建遮擋圖像。我們將這種方法稱(chēng)為PatchDrop迎卤。目標(biāo)是觀察使的魯棒性拴鸵。我們用三種不同的遮擋方法進(jìn)行了實(shí)驗(yàn),(a)隨機(jī)PatchDrop蜗搔,(b)顯著(前景)PatchDrop劲藐,(c)非顯著(背景)PatchDrop。
隨機(jī)PatchDrop:????隨機(jī)選擇并丟棄M個(gè)圖塊的子集(圖2)。幾個(gè)最新的視覺(jué)Transformers[2,3,4]將圖像分成196塊叔壤,屬于14x14空間網(wǎng)格服鹅;即將224×224×3大小的圖像分割為196個(gè)斑塊,每個(gè)斑塊的大小為16×16×3百新。例如企软,從輸入中刪除100個(gè)這樣的圖塊相當(dāng)于丟失51%的圖像內(nèi)容。
顯著(前景)PatchDrop:????并非所有像素對(duì)視覺(jué)任務(wù)都具有相同的重要性饭望。因此仗哨,研究VIT對(duì)高度顯著區(qū)域閉塞的魯棒性非常重要。我們利用自監(jiān)督ViT模型DINO[23]铅辞,該模型可有效分割顯著對(duì)象厌漂。特別地,利用流入最后一個(gè)注意塊內(nèi)的最終特征向量(類(lèi)標(biāo)記)的信息的空間位置來(lái)定位顯著像素斟珊。這允許通過(guò)閾值化注意流的數(shù)量來(lái)控制在所選像素內(nèi)捕獲的顯著信息量苇倡。
我們選擇包含前景信息頂部Q%的圖塊子集(對(duì)于固定Q為確定性)并刪除它們。注意囤踩,該Q%并不總是對(duì)應(yīng)于像素百分比旨椒,例如,圖像的50%前景信息可能僅包含在其像素的10%內(nèi)堵漱。
非顯著(背景)PatchDrop:使用與上述相同的方法综慎,使用[23]選擇圖像中最不顯著的區(qū)域。包含最低Q%前景信息的圖塊被選中并放在這里勤庐。注意示惊,這并不總是對(duì)應(yīng)于像素百分比好港,例如,80%的像素可能僅包含圖像的20%的非顯著信息米罚。
Transformers抗遮擋性能的魯棒性:我們考慮在IMANET中預(yù)先訓(xùn)練的視覺(jué)識(shí)別任務(wù)〔2〕钧汹。在驗(yàn)證集(50k圖像)上研究遮擋的影響。我們將信息丟失(IL)定義為丟棄的圖塊與總圖塊的比率(M/N)录择。改變IL拔莱,以獲得每個(gè)PatchDrop方法的一系列遮擋程度。圖3中報(bào)告的結(jié)果(Top-1%)顯示了ViT模型對(duì)CNN的顯著穩(wěn)健性能糊肠。在隨機(jī)圖塊丟棄的情況下,我們報(bào)告了5次運(yùn)行的平均準(zhǔn)確度遗锣。對(duì)于顯著性和非顯著性Patchdrop货裹,由于遮擋是確定性的,因此我們報(bào)告單次運(yùn)行的精度值精偿。當(dāng)50%的圖像信息被隨機(jī)丟棄時(shí)弧圆,CNN的性能很差。例如笔咽,與DeiT-S(2200萬(wàn)個(gè)參數(shù))相比搔预,ResNet50(2300萬(wàn)個(gè)參數(shù))達(dá)到了0.1%的精度,而DeiT-S(2200萬(wàn)個(gè)參數(shù))在刪除50%的圖像內(nèi)容時(shí)獲得了70%的精度叶组≌铮可以觀察到一個(gè)極端的例子,當(dāng)90%的圖像信息被隨機(jī)屏蔽甩十,但Deit-B仍顯示37%的準(zhǔn)確度船庇。這一發(fā)現(xiàn)在不同的ViT架構(gòu)中是一致的[2,3,4]。類(lèi)似地侣监,VIT對(duì)前景(顯著)和背景(非顯著)內(nèi)容移除表現(xiàn)出顯著的魯棒性鸭轮。有關(guān)穩(wěn)健性分析的進(jìn)一步結(jié)果,請(qǐng)參見(jiàn)附錄A橄霉、B窃爷、C、D姓蜂、E按厘。
對(duì)于信息損失,ViT表示是魯棒的
為了更好地理解針對(duì)這種遮擋的模型行為漓藕,我們可視化了來(lái)自不同層的每個(gè)頭部的注意力(圖4)陶珠。雖然初始層涉及所有區(qū)域,但較深的層往往更關(guān)注圖像非遮擋區(qū)域中的剩余信息享钞。然后揍诽,我們研究從初始層到更深層的這種變化是否會(huì)導(dǎo)致對(duì)遮擋的標(biāo)記不變性(token invariance),這對(duì)于分類(lèi)很重要栗竖。我們測(cè)量原始圖像和被遮擋圖像的特征/標(biāo)記之間的相關(guān)系數(shù):
其中暑脆,和是均值和標(biāo)準(zhǔn)差運(yùn)算[29]。在我們的案例中狐肢,隨機(jī)變量和指的是定義在整個(gè)ImageNet驗(yàn)證集上的原始圖像和遮擋圖像的特征圖添吗。對(duì)于ResNet50,我們考慮在logit層之前的特征份名;對(duì)于ViT模型碟联,從最后個(gè)transformer塊中提取類(lèi)tokens。與ResNet50特征相比僵腺,transformers中的類(lèi)tokens更加魯棒鲤孵,并且不會(huì)遭受太多的信息損失的影響(表1)。此外辰如,我們還可視化了ImageNet層次結(jié)構(gòu)中12個(gè)選定超類(lèi)的相關(guān)系數(shù)普监,并注意到這種趨勢(shì)在不同的類(lèi)類(lèi)型中保持不變,即使是相對(duì)較小的對(duì)象類(lèi)型琉兜,如昆蟲(chóng)鹰椒、食物和鳥(niǎo)類(lèi)(圖5)。特征可視化見(jiàn)附錄F呕童。定性結(jié)果見(jiàn)附錄G漆际。
鑒于Transformers模型因動(dòng)態(tài)感受野和學(xué)習(xí)標(biāo)記的可辨別性保持行為而具有耐人尋味的魯棒性,接下來(lái)的問(wèn)題是VIT中的學(xué)習(xí)表示是否偏向紋理慢洋。當(dāng)對(duì)象的空間結(jié)構(gòu)部分丟失時(shí)塘雳,可以期望僅聚焦于紋理的有偏模型仍然表現(xiàn)良好陆盘。
(原文:Given the intriguing robustness of transformer models due to dynamic receptive fifields and discriminability preserving behaviour of the learned tokens, an ensuing question is whether the learned representations in ViTs are biased towards texture or not. One can expect a biased model focusing only on texture to still perform well when the spatial structure for an object is partially lost.)
3.2????形狀與紋理:Transformer能否對(duì)這兩種特性建模?
Geirhos等人[9]研究了形狀與紋理假說(shuō)败明,并提出了一個(gè)訓(xùn)練框架隘马,以增強(qiáng)CNN中的形狀偏置。我們首先進(jìn)行了類(lèi)似的分析妻顶,結(jié)果表明酸员,ViT模型的形狀偏置比CNN大得多,與人類(lèi)視覺(jué)系統(tǒng)識(shí)別形狀的能力相當(dāng)讳嘱。然而幔嗦,這種方式會(huì)導(dǎo)致自然圖像的準(zhǔn)確度顯著下降。為了解決這個(gè)問(wèn)題沥潭,我們?cè)趖ransformer架構(gòu)中引入了一個(gè)shape token邀泉,它學(xué)習(xí)如何關(guān)注形狀,從而使用一組不同的tokens在同一架構(gòu)中對(duì)形狀和紋理相關(guān)的特征進(jìn)行建模叛氨。因此呼渣,我們從具有高形狀偏差的預(yù)訓(xùn)練CNN模型中提取形狀信息[9]棘伴。與原始ViT模型相比寞埠,我們的蒸餾方法在高分類(lèi)精度和強(qiáng)形狀偏差之間進(jìn)行了平衡權(quán)衡。
我們?cè)谙旅娓攀鲞@兩種方法焊夸。請(qǐng)注意仁连,[9]中介紹的度量用于量化ViT模型中的形狀偏置,并與CNN模型進(jìn)行比較阱穗。
無(wú)局部紋理的訓(xùn)練:
在這種方法中饭冬,我們首先通過(guò)創(chuàng)建一個(gè)名為SIN的風(fēng)格化版本的ImageNet[9],從訓(xùn)練數(shù)據(jù)中移除局部紋理線索揪阶。然后昌抠,我們?cè)诖藬?shù)據(jù)集上訓(xùn)練DeiT模型[3]的tiny和small版本。通常鲁僚,VIT在訓(xùn)練期間使用大量數(shù)據(jù)擴(kuò)充[3]炊苫。然而,使用SIN學(xué)習(xí)是一項(xiàng)困難的任務(wù)冰沙,因?yàn)榧y理細(xì)節(jié)較少侨艾,并且對(duì)樣式化樣本應(yīng)用進(jìn)一步的增強(qiáng)會(huì)扭曲形狀信息并使訓(xùn)練不穩(wěn)定。因此拓挥,我們?cè)赟IN上訓(xùn)練模型唠梨,而不應(yīng)用任何增廣、標(biāo)簽平滑或mix up侥啤。
我們注意到当叭,與類(lèi)似容量的CNN模型相比茬故,在ImageNet上訓(xùn)練的VIT表現(xiàn)出更高的形狀偏置,例如科展,DeiT-S(2200萬(wàn)個(gè)參數(shù))比ResNet50(2300萬(wàn)個(gè)參數(shù))表現(xiàn)更好(圖6均牢,右圖)。相反才睹,SIN訓(xùn)練的VIT始終比CNN表現(xiàn)更好徘跪。有趣的是,DeiT-S[3]在接受SIN訓(xùn)練時(shí)達(dá)到了人類(lèi)水平的表現(xiàn)(圖6琅攘,左圖)袖迎。
形狀蒸餾:????知識(shí)蒸餾允許將大型教師模型壓縮為小型學(xué)生模型[29],因?yàn)榻處熗ㄟ^(guò)軟標(biāo)簽為學(xué)生提供指導(dǎo)忍啤。我們引入了一個(gè)新的形狀標(biāo)記加勤,并采用注意蒸餾[3]從SIN數(shù)據(jù)集上訓(xùn)練的CNN(ResNet50 SIN[9])中提取形狀知識(shí)。我們觀察到同波,ViT特征本質(zhì)上是動(dòng)態(tài)的鳄梅,可以由輔助token控制,以關(guān)注所需的特征未檩。這意味著單個(gè)ViT模型可以使用單獨(dú)的標(biāo)記同時(shí)顯示高形狀和紋理偏差(表3)戴尸。當(dāng)引入形狀標(biāo)記時(shí),我們?cè)诜诸?lèi)和形狀偏差度量方面實(shí)現(xiàn)了更平衡的性能(圖7)冤狡。為了證明這些不同的標(biāo)記(用于分類(lèi)和形狀)確實(shí)建模了不同的特征孙蒙,我們計(jì)算了我們提取的模型DeiT-T-SIN和DeiT-S-SIN的類(lèi)和形狀標(biāo)記之間的余弦相似性(在ImageNet val.set上平均),結(jié)果分別為0.35和0.68筒溃。這明顯低于類(lèi)別和蒸餾標(biāo)記之間的相似性[3]马篮;DeiT-T和DeiT-S分別為0.96和0.94。這證實(shí)了我們的假設(shè)怜奖,即在ViTs中使用單獨(dú)的標(biāo)記對(duì)不同的特征進(jìn)行建模浑测,這是CNN無(wú)法直接實(shí)現(xiàn)的獨(dú)特功能。此外,正如我們接下來(lái)解釋的迁央,它還提供了其他好處掷匠。
形狀偏差ViT提供自動(dòng)對(duì)象分割:? ? 有趣的是,沒(méi)有局部紋理或形狀提取的訓(xùn)練允許ViT集中于場(chǎng)景中的前景對(duì)象导匣,而忽略背景(表4才菠,圖8)。這為圖像提供了自動(dòng)語(yǔ)義分割贡定,盡管該模型從未見(jiàn)過(guò)像素級(jí)對(duì)象標(biāo)簽赋访。也就是說(shuō),形狀偏差可以用作ViT模型的自監(jiān)督信號(hào)缓待,以學(xué)習(xí)不同的形狀相關(guān)特征蚓耽,幫助定位正確的前景對(duì)象。我們注意到旋炒,未強(qiáng)調(diào)形狀的ViT訓(xùn)練效果不佳(表4)步悠。
上述結(jié)果表明,經(jīng)過(guò)適當(dāng)訓(xùn)練的ViT模型提供的形狀偏置幾乎與人類(lèi)識(shí)別形狀的能力一樣高睁壁。這讓我們懷疑位置編碼是否是幫助VIT在嚴(yán)重遮擋情況下實(shí)現(xiàn)高性能的關(guān)鍵(因?yàn)樗赡茉试S后續(xù)層在給定空間順序的情況下僅使用幾個(gè)圖像塊恢復(fù)丟失的信息)背苦。下一步將研究這種可能性。
3.3????位置編碼是否保留全局圖像上下文潘明?
Transformers使用自注意[27](而不是RNN[30]中的順序設(shè)計(jì))并行處理長(zhǎng)程序列的能力對(duì)序列順序是不變的行剂。對(duì)于圖像,圖塊的順序表示了整體圖像結(jié)構(gòu)和全局合成钳降。由于VIT對(duì)一系列圖像塊進(jìn)行操作厚宰,因此改變序列順序(例如,shuffle)可能會(huì)破壞圖像結(jié)構(gòu)。當(dāng)前的VIT[2,3,4,26]使用位置編碼來(lái)保存此上下文铲觉。在這里澈蝙,我們分析通過(guò)位置編碼建模的序列順序是否允許ViT在遮擋處理下表現(xiàn)出色。我們的分析表明撵幽,Transformers對(duì)圖塊位置具有高度的置換不變性灯荧,并且位置編碼對(duì)向ViT模型注入圖像結(jié)構(gòu)信息的影響是有限的(圖10)。這一觀察結(jié)果與下文所述的語(yǔ)言領(lǐng)域[31]的研究結(jié)果一致盐杂。
對(duì)空間結(jié)構(gòu)的敏感性:
如圖9所示,我們通過(guò)在輸入圖像塊上定義shuffle操作來(lái)移除圖像內(nèi)的結(jié)構(gòu)信息(空間關(guān)系)食侮。圖10顯示号涯,當(dāng)輸入圖像的空間結(jié)構(gòu)受到干擾時(shí),DeiT模型[3]比CNN模型保持的精度更好锯七。這也表明位置編碼對(duì)于正確的分類(lèi)決策并非絕對(duì)重要链快,并且該模型不會(huì)使用位置編碼中保存的序列信息“恢復(fù)”全局圖像上下文。在沒(méi)有編碼的情況下眉尸,ViT的性能相當(dāng)好域蜗,并且實(shí)現(xiàn)了比使用位置編碼的ViT更好的置換不變性(圖10)。最后噪猾,當(dāng)ViT訓(xùn)練過(guò)程中改變圖塊大小時(shí)霉祸,排列不變性特性也會(huì)隨著unshufflfled自然圖像的精度而降低(圖11)「だ總的來(lái)說(shuō)丝蹭,我們將VIT的排列不變性性能歸因于其動(dòng)態(tài)感受野,該感受野依賴于輸入圖塊坪蚁,并且可以通過(guò)其他序列元素調(diào)整注意力奔穿,從而適度地洗牌這些元素不會(huì)顯著降低性能。(Finally, when the patch size is varied during ViT training, the permutation invariance property is also degraded along with the accuracy on unshufflfled natural images (Fig. 11).Overall, we attribute the permutation invariance performance of ViTs to their dynamic receptive fifield that depends on the input patch and can adjust attention with the other sequence elements such that moderately shufflfling the elements does not degrade the performance signifificantly.)
上述分析表明嘴脾,就像紋理偏置假設(shè)不適用于VIT一樣男摧,依賴位置編碼在遮擋下表現(xiàn)良好也是不正確的。這使我們得出結(jié)論,ViTs的魯棒性是由于其靈活和動(dòng)態(tài)的感受野(見(jiàn)圖4)彩倚,該感受野取決于輸入圖像的內(nèi)容〕镂遥現(xiàn)在,我們進(jìn)一步深入研究ViT的魯棒性帆离,并研究其在對(duì)抗性干擾和常見(jiàn)損壞下的性能蔬蕊。
3.4????視覺(jué)Transformers對(duì)對(duì)抗性干擾和自然干擾的魯棒性
在分析VIT編碼形狀信息的能力(第3.2節(jié))后,接下來(lái)的一個(gè)問(wèn)題是:較高的形狀偏差是否有助于實(shí)現(xiàn)更好的魯棒性哥谷?在表4中岸夯,我們通過(guò)計(jì)算各種合成常見(jiàn)腐蝕(如雨、霧们妥、雪和噪聲)的平均腐蝕誤差(mCE)[13]來(lái)研究這一點(diǎn)猜扮。具有與CNN相似參數(shù)的ViT(例如,DeiT-S)比經(jīng)過(guò)增強(qiáng)訓(xùn)練的ResNet50(Augmix[32])對(duì)圖像損壞更具魯棒性监婶。有趣的是旅赢,未在ImageNet或SIN上進(jìn)行增強(qiáng)訓(xùn)練的CNN和VIT更容易受到腐蝕。這些發(fā)現(xiàn)與[10]相一致惑惶,并表明增強(qiáng)提高了對(duì)常見(jiàn)腐敗的魯棒性煮盼。
我們觀察到對(duì)抗性圖塊攻擊的類(lèi)似性能[17]。ViTs在白盒設(shè)置(完全了解模型參數(shù))下對(duì)無(wú)目標(biāo)千绪、通用對(duì)抗性圖塊顯示出比CNN更高的魯棒性充易。在SIN上訓(xùn)練的VIT和CNN比在ImageNet上訓(xùn)練的模型(圖12和圖13)更容易受到敵對(duì)攻擊,這是由于形狀偏差與魯棒性的權(quán)衡[10]翘紊。
鑒于ViT強(qiáng)大的魯棒性他去,以及其在形狀偏置、自動(dòng)分割和靈活感受野方面的表現(xiàn)能力倒堕,我們分析了其作為現(xiàn)成特征提取器的效用灾测,以取代CNN作為默認(rèn)特征提取機(jī)制[33]。
3.5 Vision Transformer的 Off-the-shelf Tokens
ViT模型的一個(gè)獨(dú)特特征是垦巴,模型內(nèi)的每個(gè)塊生成一個(gè)類(lèi)別token媳搪,可由分類(lèi)頭單獨(dú)處理(圖14)。這允許我們測(cè)量ImageNet預(yù)訓(xùn)練ViT的每個(gè)單獨(dú)塊的辨別能力骤宣,如圖15所示秦爆。由更深的塊生成的類(lèi)token更具區(qū)分性,我們使用這一洞察來(lái)確認(rèn)其token具有最佳下游可遷移性的塊的有效集合憔披。
遷移方法:????如圖15所示,我們分析了DeiT模型的分塊分類(lèi)精度锈遥,并確定在最后幾個(gè)塊的類(lèi)標(biāo)記中捕獲了鑒別信息纫事。因此,如表5所示所灸,我們使用DeiT-S[3]對(duì)細(xì)粒度分類(lèi)數(shù)據(jù)集(CUB[34])上的現(xiàn)成遷移學(xué)習(xí)進(jìn)行了消融研究丽惶。在這里,我們連接來(lái)自不同塊的類(lèi)標(biāo)記(可選地與平均圖塊標(biāo)記組合)爬立,并訓(xùn)練一個(gè)線性分類(lèi)器將特征遷移到下游任務(wù)钾唬。請(qǐng)注意,通過(guò)沿圖塊維度平均生成圖塊標(biāo)記侠驯。將來(lái)自最后四個(gè)塊的類(lèi)標(biāo)記串聯(lián)在一起的方案顯示了最佳的遷移學(xué)習(xí)性能抡秆。我們將這種遷移方法稱(chēng)為DeiT-S(集成)。將所有塊中的類(lèi)標(biāo)記和平均圖塊標(biāo)記串聯(lián)在一起吟策,有助于實(shí)現(xiàn)與最后四個(gè)塊中的標(biāo)記類(lèi)似的性能儒士,但需要非常大的參數(shù)來(lái)訓(xùn)練。我們?cè)诟鼜V泛的任務(wù)范圍內(nèi)使用DeiT-S(集成)進(jìn)行進(jìn)一步的實(shí)驗(yàn)檩坚,以驗(yàn)證我們的假設(shè)着撩。通過(guò)使用logit層之前的特征诅福,我們進(jìn)一步與預(yù)先訓(xùn)練的ResNet50基線進(jìn)行比較。
視覺(jué)分類(lèi):
我們分析了現(xiàn)有特征在多個(gè)數(shù)據(jù)集中的可遷移性,包括飛機(jī)[35]辐啄、CUB[34]采章、DTD[36]、GTSRB[37]壶辜、真菌[38]悯舟、地點(diǎn)365[39]和不自然列表[40]。這些數(shù)據(jù)集分別用于100砸民、200抵怎、47、43岭参、1394反惕、365和1010類(lèi)的細(xì)粒度識(shí)別、紋理分類(lèi)演侯、交通標(biāo)志識(shí)別姿染、物種分類(lèi)和場(chǎng)景識(shí)別。我們?cè)诿總€(gè)數(shù)據(jù)集的序列分割上秒际,在提取的特征的基礎(chǔ)上訓(xùn)練一個(gè)線性分類(lèi)器悬赏,并評(píng)估其各自測(cè)試分割的性能。與CNN基線相比娄徊,ViT特征顯示出明顯的改善(圖16)闽颇。我們注意到,DeiT-T需要的參數(shù)比ResNet50少5倍寄锐,在所有數(shù)據(jù)集中表現(xiàn)更好兵多。此外,采用所提出的集成策略的模型在所有數(shù)據(jù)集上都取得了最佳結(jié)果橄仆。
Few-shot學(xué)習(xí):? ? 我們認(rèn)為元數(shù)據(jù)集(45)設(shè)計(jì)為一個(gè)大規(guī)模的Few-Shot Learning(FSL)基準(zhǔn)惫搏,包含來(lái)自多個(gè)域的不同數(shù)據(jù)集。這包括字母表蚕涤、手繪草圖筐赔、紋理圖像和細(xì)粒度類(lèi),使其成為一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集揖铜,同時(shí)涉及到域自適應(yīng)需求茴丰。我們遵循ImageNet培訓(xùn)和所有其他數(shù)據(jù)集測(cè)試的標(biāo)準(zhǔn)設(shè)置,這些數(shù)據(jù)集被視為下游任務(wù)天吓。
在我們的實(shí)驗(yàn)中贿肩,我們?cè)贗mageNet數(shù)據(jù)集上使用預(yù)先訓(xùn)練好的分類(lèi)網(wǎng)絡(luò)來(lái)提取特征。對(duì)于每個(gè)下游數(shù)據(jù)集龄寞,在FSL設(shè)置下汰规,標(biāo)記圖像的支持集可用于每個(gè)測(cè)試查詢。我們使用提取的特征在每個(gè)查詢的支持集上學(xué)習(xí)線性分類(lèi)器(類(lèi)似于[46])物邑,并使用[45]中定義的標(biāo)準(zhǔn)FSL協(xié)議進(jìn)行評(píng)估溜哮。該評(píng)估涉及針對(duì)每個(gè)下游數(shù)據(jù)集的不同數(shù)量的放炮。平均而言色解,與CNN基線相比茂嗓,ViT特征在這些不同領(lǐng)域的遷移更好(圖16)。此外科阎,我們注意到述吸,使用所提出的集成策略進(jìn)一步提高了ViT的傳輸性能。我們還強(qiáng)調(diào)了QuickDraw(一個(gè)包含手繪草圖的數(shù)據(jù)集)的改進(jìn)锣笨,該數(shù)據(jù)集與我們關(guān)于改進(jìn)ViT模型與CNN模型形狀偏差的研究結(jié)果一致(詳細(xì)討論見(jiàn)第3.2節(jié))刚梭。
4????討論和結(jié)論
在本文中,我們從魯棒性和可推廣性的角度分析了ViTs的有趣特性票唆。我們?cè)?5個(gè)視覺(jué)數(shù)據(jù)集上使用各種ViT模型進(jìn)行測(cè)試朴读。所有型號(hào)均在4個(gè)V100 GPU上進(jìn)行訓(xùn)練。我們證明了ViTs相對(duì)于CNN在遮擋處理走趋、對(duì)分布偏移和圖塊置換的魯棒性衅金、無(wú)像素監(jiān)督的自動(dòng)分割以及對(duì)對(duì)抗圖塊和常見(jiàn)損壞的魯棒性方面的優(yōu)勢(shì)。此外簿煌,我們還通過(guò)從單個(gè)ViT模型提出的特征集成氮唯,展示了現(xiàn)成ViT特征到多個(gè)下游任務(wù)的強(qiáng)可遷移性。一個(gè)有趣的未來(lái)研究方向是探索如何有效地組合使用單獨(dú)token在單個(gè)ViT中建模的各種線索姨伟,以相互補(bǔ)充惩琉。
我們目前的實(shí)驗(yàn)是基于ImageNet(ILSVRC'12)預(yù)先訓(xùn)練的VIT,這有可能在學(xué)習(xí)的表示中反映潛在的偏差夺荒。數(shù)據(jù)大多是西方的瞒渠,編碼了一些性別/種族刻板印象良蒸,某些群體的代表性不足[43]。這個(gè)版本的ImageNet也帶來(lái)了隱私風(fēng)險(xiǎn)伍玖,因?yàn)樗鼪](méi)有被蒙蔽的人臉嫩痰。將來(lái),我們將使用最新的ImageNet版本來(lái)解決上述問(wèn)題[44]窍箍。
附錄
隨機(jī)圖塊丟棄:圖塊大小的影響
如圖17所示串纺,我們擴(kuò)展了我們的隨機(jī) PatchDrop實(shí)驗(yàn),以包括掩蔽操作的不同 PatchDrop大小椰棘。主要論文中的PatchDrop實(shí)驗(yàn)涉及將圖像分割成14×14網(wǎng)格(獲得196塊尺寸為16×16像素的圖塊)纺棺。在這里,我們將圖像分割為不同的網(wǎng)格大小邪狞,并通過(guò)相關(guān)的網(wǎng)格大小定義每個(gè)實(shí)驗(yàn)祷蝌。這些實(shí)驗(yàn)的結(jié)果如圖18所示。所有精度值均在ImageNet val集合中報(bào)告外恕。由于每個(gè)網(wǎng)格大小包含不同數(shù)量的圖塊杆逗,我們?cè)诰葓D中遮擋特定百分比并插值到相同比例,以便更好地進(jìn)行比較鳞疲。
我們注意到罪郊,當(dāng)被遮擋圖塊的尺寸是模型圖塊大小的倍數(shù)(使用的網(wǎng)格大小是原始網(wǎng)格大小的一個(gè)因子)時(shí),ViT模型(將輸入圖像分割為一系列圖塊進(jìn)行處理)對(duì)圖塊遮擋的魯棒性顯著提高尚洽。這在7×7網(wǎng)格PatchDrop實(shí)驗(yàn)中ViT的更高性能中可見(jiàn)(最初使用14×14網(wǎng)格)悔橄。同時(shí),由于大部分被遮擋(例如腺毫,使用4×4的空間網(wǎng)格)癣疟,ViT模型和CNN之間的性能差異顯著減小。我們認(rèn)為情況確實(shí)如此潮酒,因?yàn)樵诟哐诒温氏戮χ浚浅4蟮膱D塊遮擋可能會(huì)消除與特定對(duì)象類(lèi)別相關(guān)的所有視覺(jué)線索,這使得ViT和CNN模型都很難做出正確的預(yù)測(cè)急黎。
更重要的是扎狱,我們注意到在Sec3.1中觀察到的趨勢(shì)。通過(guò)不同網(wǎng)格大小的實(shí)驗(yàn)勃教,再次確認(rèn)了關(guān)于遮擋的信息淤击。我們還注意到,其中一些網(wǎng)格大泄试础(例如8×8)與原始ViT模型(將圖像分割為14×14圖塊序列)使用的網(wǎng)格模式無(wú)關(guān)污抬。這表明,雖然這些趨勢(shì)在匹配網(wǎng)格大猩(與ViT模型相同)及其因素方面更為顯著印机,但觀察到的趨勢(shì)并非僅由于ViT模型的網(wǎng)格操作而產(chǎn)生矢腻。我們注意到,由于VIT的動(dòng)態(tài)感受野耳贬,這種行為是可能的踏堡。
A.1????帶偏移的隨機(jī)PatchDrop
我們還探討了PatchDrop遮罩上的空間偏移如何影響ViT模型。這旨在消除ViT模型的固有網(wǎng)格模式與我們的系列之間可能存在的對(duì)齊甸箱。在圖像上應(yīng)用相同的遮罩育叁,但具有較小的空間偏移,以確保沒(méi)有遮罩圖塊與ViT模型在處理輸入圖像時(shí)使用的任何網(wǎng)格圖案對(duì)齊芍殖。我們重復(fù)第節(jié)所述的相同實(shí)驗(yàn)豪嗽。在3.1節(jié)設(shè)置下,將我們的結(jié)果顯示在圖19中豌骏。一般來(lái)說(shuō)龟梦,我們觀察到ViT模型和ResNet模型之間存在類(lèi)似的趨勢(shì),但我們注意到窃躲,與無(wú)偏移設(shè)置下的性能相比计贰,ViT-L的精度顯著下降。我們將在下面介紹這種趨勢(shì)的潛在原因蒂窒。
ViT-L是一個(gè)包含超過(guò)3億個(gè)可訓(xùn)練參數(shù)的大型模型完丽,而其他模型包含的參數(shù)明顯較少涨椒,例如DeiT-B(8600萬(wàn))兵罢、T2T-24(6400萬(wàn))、TnT-S(2300萬(wàn))和ResNet50(2500萬(wàn))束昵。此外骄崩,與ViT-L模型不同的是聘鳞,DeiT家族及其構(gòu)建者使用廣泛的數(shù)據(jù)擴(kuò)充方法進(jìn)行訓(xùn)練,確保使用小數(shù)據(jù)集對(duì)ViT進(jìn)行穩(wěn)定訓(xùn)練要拂。在圖18中的16×16網(wǎng)格尺寸實(shí)驗(yàn)中也觀察到ViT-L性能的類(lèi)似相對(duì)下降抠璃。在這種情況下,ViT-L的異常行為可能是由于這些差異造成的脱惰。
B????Random PixelDrop
觀察與ViT模型固有網(wǎng)格操作解耦的遮擋效果的進(jìn)一步步驟是在像素級(jí)進(jìn)行遮擋搏嗡。如圖20所示,我們生成不同遮擋級(jí)別的像素級(jí)掩模拉一。圖21中采盒,我們對(duì)的ImageNet val集的評(píng)估表明,ViT模型和CNN之間的趨勢(shì)與之前在3.1節(jié)和附錄A中觀察到的趨勢(shì)相同蔚润。
PixelDrop可以被視為PatchDrop的一個(gè)版本悍赢,我們使用的網(wǎng)格大小等于圖像尺寸(將patch size設(shè)置為1×1)』踽悖考慮到這一點(diǎn)左权,我們比較了當(dāng)我們接近較小網(wǎng)格尺寸的像素下降時(shí),模型的性能如何變化痴颊。這如圖22所示赏迟,在圖22中,我們使用不同網(wǎng)格大小的PatchDrop評(píng)估ImageNet val集上50%遮擋的模型蠢棱。
我們注意到,與PatchDrop實(shí)驗(yàn)相比,在PixelDrop的情況下猾担,對(duì)于這種固定的遮擋級(jí)別袭灯,模型的整體性能會(huì)下降。
我們還注意到绑嘹,與其他型號(hào)相比稽荧,ViT-L的性能顯著提高。這可歸因于其更高的可訓(xùn)練參數(shù)計(jì)數(shù)工腋,如第A.1所討論的姨丈。同時(shí),ViT-L顯示16×16網(wǎng)格的性能異常下降夷蚊,與我們?cè)趫D19中的觀察結(jié)果非常相似构挤。
C????對(duì)特征丟失的魯棒性
與我們以前在模型輸入空間中涉及遮擋的實(shí)驗(yàn)不同髓介,我們現(xiàn)在關(guān)注模型特征空間中的遮擋惕鼓。我們通過(guò)在ViT模型中刪除部分中間表示來(lái)實(shí)現(xiàn)這一點(diǎn),而不是從輸入圖像中刪除圖塊唐础。對(duì)于每個(gè)Transformers塊(例如箱歧,對(duì)于DeiT-B中的12個(gè)塊中的每個(gè)塊),我們隨機(jī)屏蔽(設(shè)置為零)其輸入特征的選定百分比一膨。表6通過(guò)評(píng)估ImageNet val集的性能研究了這些“特征下降”實(shí)驗(yàn)的影響呀邢。采用標(biāo)準(zhǔn)方法測(cè)量性能(使用ViT模型的最終分類(lèi)器頭部的輸出)。我們注意到豹绪,對(duì)于少量的特征下降(25%和50%)价淌,無(wú)論單個(gè)塊的位置如何,模型都會(huì)遭受相對(duì)類(lèi)似的性能下降瞒津。但是蝉衣,對(duì)于較大數(shù)量的特征丟失,某些塊對(duì)于每個(gè)模型來(lái)說(shuō)顯得更重要巷蚪。此外病毡,我們注意到大型模型塊內(nèi)存在一定程度的信息冗余,因?yàn)樗鼈兊男阅芟陆挡⒉伙@著屁柏,即使是相當(dāng)數(shù)量的特征下降(例如啦膜,ViT-L為25%)。
在表7中八拱,我們對(duì)ResNet50模型進(jìn)行了相同的特征丟棄實(shí)驗(yàn)。我們注意到ResNet架構(gòu)與ViT模型完全不同;因此乘粒,比較這些值將沒(méi)有什么意義豌注。在ResNet50的案例中,我們觀察到早期層中的功能下降如何導(dǎo)致性能顯著下降灯萍,這與ViT模型不同轧铁。此外,最后一層中的功能下降顯示性能下降幾乎可以忽略不計(jì)旦棉,這可能是由于接著處理這些特征的平均池化操作造成的齿风。在比較ViT模型的情況下,最后一層中的圖塊token不用于最終預(yù)測(cè)绑洛,因此對(duì)其應(yīng)用特征丟棄對(duì)性能沒(méi)有影響救斑。
D????對(duì)遮擋的魯棒性:更多分析
在我們的實(shí)驗(yàn)設(shè)置中绑蔫,我們將VIT與類(lèi) tokens一起使用运沦,這些類(lèi) tokens在整個(gè)網(wǎng)絡(luò)中與 patch tokens交互,并隨后用于分類(lèi)配深。然而携添,并非所有ViT設(shè)計(jì)都使用類(lèi) token,例如篓叶,Swin Transformer[49]使用所有 tokens的平均值烈掠。為此,我們使用三種最新的Swin Transformer[49]對(duì)我們提出的遮擋進(jìn)行了實(shí)驗(yàn)(圖23)缸托。
D.1????Swin Transformer [49]
D.2????RegNetY [50]
在這里京革,我們?cè)u(píng)估了RegNetY的三種變體與我們提出的遮擋(圖24)奇唤。與ResNet50相比,RegNetY[50]顯示出相對(duì)較高的魯棒性匹摇,但總體表現(xiàn)與其他CNN模型類(lèi)似咬扇。
E????形狀偏置模型的行為
在本節(jié)中梭灿,我們研究了PatchDrop(第3.1節(jié))和置換不變性(第3.3節(jié))實(shí)驗(yàn)對(duì)在程式化ImageNet[9](形狀偏置模型)上訓(xùn)練的模型的影響画侣。與形狀偏向CNN模型相比,VIT模型對(duì)PatchDrop表現(xiàn)出良好的魯棒性堡妒。請(qǐng)注意配乱,ResNet50(2500萬(wàn))和DeiT-S(2200萬(wàn))具有類(lèi)似的可訓(xùn)練參數(shù)計(jì)數(shù),這是一個(gè)更好的比較皮迟。此外搬泥,我們注意到,在“隨機(jī)shufflfle”實(shí)驗(yàn)的情況下伏尼,ViT模型顯示出與CNN模型類(lèi)似(或更低)的置換不變性忿檩。這些隨機(jī)shufflfle的結(jié)果表明,我們?cè)赩iT模型中發(fā)現(xiàn)的排列不變性的缺乏爆阶。3.3在我們的形狀偏差模型中有所克服燥透。
(什么意思?是指附錄中實(shí)驗(yàn)結(jié)論與正文中相悖嗎)
(原文:In this section, we study the effect of our PatchDrop (Sec. 3.1) and permutation invariance (Sec. 3.3)experiments on our models trained on Stylized ImageNet [9] (shape biased models). In comparison to a shape biased CNN model, the VIT models showcase favorable robustness to occlusions presented in the form of PatchDrop. Note that ResNet50 (25 million) and DeiT-S (22 million) have similar trainable parameter counts, and therein are a better comparison. Furthermore, we note that in the case of “random shufflfle” experiments, the ViT models display similar (or lower) permutation invariance in comparison to the CNN model. These results on random shufflfle indicate that the lack of permutation invariance we identifified within ViT models in Sec. 3.3 is somewhat overcome in our shape biased models.)
F????動(dòng)態(tài)感受野
我們進(jìn)一步研究了ViT行為忧勿,將重點(diǎn)放在信息信號(hào)上,而不管其位置如何瞻讽。在我們的新實(shí)驗(yàn)中鸳吸,在推斷過(guò)程中,我們將輸入圖像重新縮放到128x128速勇,并將其放置在224x224大小的黑色背景中晌砾。換句話說(shuō),我們將所有圖像信息反射到幾個(gè)中烦磁,而不是移除或洗牌圖像補(bǔ)丁养匈。然后,我們將這些圖塊的位置移動(dòng)到背景的右上角/左下角都伪。平均而言呕乎,Deit-S顯示62.9%的top-1分類(lèi)準(zhǔn)確率和低方差(62.9±0.05)。相比之下陨晶,ResNet50的平均準(zhǔn)確率僅為5.4%猬仁。這些結(jié)果表明,無(wú)論位置如何,VIT都可以利用鑒別信息(表8)湿刽。圖26顯示了當(dāng)圖像在背景中移動(dòng)時(shí)的烁,描述注意力變化的可視化。
(We further study the ViT behavior to focus on the informative signal regardless of its position. In our new experiment, during inference, we rescale the input image to 128x128 and place it within black background of size 224x224. In other words, rather than removing or shuffling image patches, we reflect all the image information into few patches. We then move the position of these patches to the upper/lower right and left corners of the background. On average, Deit-S shows 62.9% top-1 classification accuracy and low variance (62.9±0.05). In contrast, ResNet50 achieves only 5.4% top-1 average accuracy. These results suggest that ViTs can exploit discriminative information regardless of its position (Table 10). Figure 26 shows visualization depicting the change in attention, as the image is moved within the background. )
E????其他定性結(jié)果
這里鳍鸵,我們展示了一些定性結(jié)果苇瓣,例如,圖27展示了我們的遮擋(隨機(jī)偿乖、前景和背景)方法的示例击罪。我們的形狀模型分割顯著圖像的性能如圖28所示。在圖29中贪薪,我們通過(guò)可視化信息丟失情況下的注意力媳禁,展示了ViT感受野的動(dòng)態(tài)行為。最后画切,我們展示了為愚弄不同ViT模型而優(yōu)化的對(duì)抗圖塊(圖31)竣稽。
注:
(1)編者在機(jī)翻這篇論文時(shí)是基于arxiv上較早的版本鲤拿,在整理時(shí)用的是arixv上v3版本假褪,v3版本相比v1版本的圖像/表格/文本/附錄/參考文獻(xiàn)索引均有所變動(dòng)。編者在整理時(shí)圖像近顷、表格根據(jù)v3版本做相應(yīng)補(bǔ)充生音,但參考文獻(xiàn)索引未做改動(dòng)。因此對(duì)參考文獻(xiàn)感興趣的讀者建議參見(jiàn)原文窒升。
(2)arixv3的表格排布出現(xiàn)錯(cuò)誤:表1缀遍,表3,表4饱须,表4域醇,?表5,表6...
(3)arxiv3中的附錄增加了對(duì)SwinTransformer的比較