Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs
https://arxiv.org/pdf/2110.02797v2.pdf
Adversarial?Robustness?Comparison of Vision?Transformer?and MLP-Mixer to CNNs????
★★★★★
Authors:Philipp Benz,Soomin Ham,Chaoning Zhang,Adil Karjauv,In So Kweon
Abstract:?Convolutional?Neural Networks (CNNs) have become the de facto gold standard in computer vision applications in the past years. Recently, however, new model architectures have been proposed challenging the status quo. The Vision?Transformer?(ViT) relies solely on attention modules, while the MLP-Mixer architecture substitutes the self-attention modules with Multi-Layer Perceptrons (MLPs). Despite their great success, CNNs have been widely known to be vulnerable to adversarial attacks, causing serious concerns for security-sensitive applications. Thus, it is critical for the community to know whether the newly proposed ViT and MLP-Mixer are also vulnerable to adversarial attacks. To this end, we empirically evaluate their adversarial?robustness?under several adversarial attack setups and benchmark them against the widely used CNNs. Overall, we find that the two architectures, especially ViT, are more?robust?than their CNN models. Using a toy example, we also provide empirical evidence that the lower adversarial?robustness?of CNNs can be partially attributed to their shift-invariant property. Our frequency analysis suggests that the most?robust?ViT architectures tend to rely more on low-frequency features compared with CNNs. Additionally, we have an intriguing finding that MLP-Mixer is extremely vulnerable to universal adversarial perturbations.△ Less
Submitted?11 October, 2021;?v1?submitted 6 October, 2021;?originally announced?October 2021.
Comments:?Code: https://github.com/phibenz/robustness_comparison_vit_mlp-mixer_cnn
在過去的幾年里,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)成為計(jì)算機(jī)視覺應(yīng)用中事實(shí)上的黃金標(biāo)準(zhǔn)女揭。然而蚤假,最近有人提出了挑戰(zhàn)現(xiàn)狀的新模型架構(gòu)。視覺Transformers(ViT)僅依賴于注意模塊吧兔,而MLPMixer架構(gòu)用多層感知器(MLP)替代自注意模塊磷仰。盡管CNN取得了巨大的成功,但眾所周知境蔼,CNN容易受到對抗攻擊灶平,這給安全敏感應(yīng)用程序帶來了嚴(yán)重的問題。因此箍土,社區(qū)必須了解新提議的ViT和MLPMixer是否也容易受到對抗攻擊逢享。為此,我們以經(jīng)驗(yàn)評估了它們在幾種對抗攻擊設(shè)置下的對抗魯棒性涮帘,并針對廣泛使用的CNN對其進(jìn)行了基準(zhǔn)測試拼苍。總的來說调缨,我們發(fā)現(xiàn)這兩種架構(gòu)疮鲫,尤其是ViT,比它們的CNN模型更魯棒弦叶。通過一個玩具樣本俊犯,我們還提供了經(jīng)驗(yàn)證據(jù),證明CNN較低的對抗魯棒性部分歸因于其平移不變特性伤哺。我們的頻率分析表明燕侠,與CNN相比,最魯棒的ViT架構(gòu)更傾向于依賴低頻特性立莉。此外绢彤,我們有一個有趣的發(fā)現(xiàn),MLPMixer極易受到普遍的對抗干擾蜓耻。
1導(dǎo)言
卷積神經(jīng)網(wǎng)絡(luò)(CNN)[37]已經(jīng)成為計(jì)算機(jī)視覺的金標(biāo)準(zhǔn)架構(gòu)茫舶。然而,在自然語言處理(NLP)中刹淌,基于注意的Transformers是主要的go-to-model架構(gòu)[13,55,56]饶氏。已經(jīng)做出各種嘗試讥耗,將這種Transformers架構(gòu)應(yīng)用于計(jì)算機(jī)視覺任務(wù)[8、10疹启、53古程、58]。隨著Vision Transformerser(ViT)[15]的出現(xiàn)喊崖,取得了突破性的進(jìn)展挣磨,提出了一種Transformers架構(gòu),其性能可與最先進(jìn)的CNN架構(gòu)媲美贷祈。最近趋急,提出了另一種MLPMixer模型結(jié)構(gòu)[66],它不依賴卷積或自注意力势誊,與CNN和ViT競爭呜达。在[66]之后,為了簡單起見粟耻,MLPMixer在本工作的其余部分被稱為Mixer查近。
盡管CNN取得了成功,但眾所周知挤忙,CNN容易受到對抗樣本[18,65]的攻擊霜威,這些樣本的輸入的微小加性擾動會導(dǎo)致CNN對樣本進(jìn)行錯誤分類。此漏洞在安全敏感的應(yīng)用程序中引起嚴(yán)重關(guān)注册烈,因此了解最近提出的ViT和Mixer是否也容易受到對抗攻擊也很重要戈泼。這項(xiàng)工作旨在評估ViT和Mixer架構(gòu)的對抗性漏洞,并比較它們與CNN模型的魯棒性赏僧。因此大猛,廣泛采用了各種對抗性攻擊方法進(jìn)行全面研究。具體而言淀零,首先挽绩,在白盒攻擊下比較不同架構(gòu)的性能,對抗完全了解要攻擊的模型參數(shù)驾中“埃總的來說,兩種新提出的架構(gòu)肩民,尤其是ViT唠亚,在對抗性樣本中表現(xiàn)出比CNN更高的魯棒性。我們進(jìn)一步比較了它們在基于查詢和基于遷移的黑盒攻擊下的魯棒性持痰。在這兩種情況下趾撵,我們觀察到一個相似的趨勢,即在三種探索的架構(gòu)中共啃,ViT是最魯棒的架構(gòu)占调,而CNN是最不魯棒的架構(gòu)。
為了便于理解為什么CNN更容易受到攻擊移剪,我們設(shè)計(jì)了一個二進(jìn)制分類的玩具任務(wù)究珊,其中每個類僅由一個圖像表示。每個類的圖像的中心都有一條垂直或水平的黑色條紋纵苛。我們發(fā)現(xiàn)剿涮,CNN的對抗性樣本在圖像上顯示重復(fù)條紋,而FC網(wǎng)絡(luò)的對抗性樣本主要在中心顯示單一條紋攻人。這一觀察結(jié)果表明取试,CNN的脆弱性可能部分歸因于這樣一個事實(shí),即CNN通過卷積內(nèi)核利用局部連接和共享權(quán)重怀吻,具有平移不變性[38,83]瞬浓。我們還試圖從頻率的角度進(jìn)行分析,調(diào)查不同的模型架構(gòu)是否傾向于學(xué)習(xí)更多的高頻或低頻特征蓬坡。我們發(fā)現(xiàn)ViT似乎學(xué)習(xí)了更多的低頻特征贾惦,而CNN偏向于高頻特征溉旋。最后,我們還研究了它們對常見腐蝕[26]和普遍對抗干擾[47]的魯棒性。
2相關(guān)工作
超越CNN的視覺應(yīng)用柠横。
在自然語言處理(NLP)中,完全基于注意機(jī)制的Transformers[70]是主要的模型架構(gòu)[13,55,56]壁熄。相比之下耻台,CNN已經(jīng)成為視覺應(yīng)用深度學(xué)習(xí)的事實(shí)標(biāo)準(zhǔn),而將Transformers應(yīng)用于視覺任務(wù)是一種新興趨勢[8,10,53,58]紫皇。最近引入了Vision Transformers(ViT)[15]慰安,通過將圖像排序?yàn)閳D塊并在大量數(shù)據(jù)上預(yù)訓(xùn)練模型,證明了Vision Transformers可以實(shí)現(xiàn)最先進(jìn)的性能坝橡。為了解決數(shù)據(jù)問題泻帮,DeiT[67]引入了一種針對Transformers的師生策略,并僅在ImageNet-1K數(shù)據(jù)集上訓(xùn)練Transformers架構(gòu)计寇。同時锣杂,提出了T2T ViT[78],引入了一種高級token對token策略番宁。進(jìn)一步的工作正試圖擴(kuò)展ViT架構(gòu)元莫,以提高Transformers架構(gòu)的效率和性能[11、22蝶押、41踱蠢、74]。VIT已經(jīng)在圖像分類任務(wù)之外得到了進(jìn)一步的探索[7,25,34,51,71]。Tolstikhin等人[66]挑戰(zhàn)了當(dāng)前計(jì)算機(jī)視覺模型中卷積和注意力的現(xiàn)狀茎截,并提出了MLPMixer苇侵,這是一種純粹的基于多層感知器(MLP)的架構(gòu),用于分離每位置操作和交叉位置企锌。
對抗性攻擊和魯棒性榆浓。
眾所周知,CNN容易受到對抗性樣本的攻擊[18,36,65]撕攒,這促使人們對各種類型的對抗性攻擊下的模型魯棒性進(jìn)行了大量研究陡鹃。根據(jù)目標(biāo)模型的可訪問性,對抗性攻擊可分為需要完全訪問目標(biāo)模型的白盒攻擊[6,18,42,46]抖坪,基于查詢的黑盒攻擊[9,19,30,31,52,57,62,69]萍鲸,以及基于遷移的黑盒攻擊[14,21,33,40,68,73,75]。對抗性攻擊可分為依賴圖像的攻擊[6,18,42,46,60]和通用攻擊[3,47,48,79,80,82]擦俐。具體而言脊阴,與圖像相關(guān)攻擊相反,存在一個單一的擾動捌肴,即通用對抗擾動(UAP)蹬叭,以愚弄大多數(shù)圖像的模型[82]∽粗基于上述各種攻擊方法秽五,本文實(shí)證研究并比較了ViT和Mixer架構(gòu)與CNN模型的對抗魯棒性。還調(diào)查了NLP任務(wù)中Transformers的脆弱性[16饥悴、23坦喘、27、29西设、35瓣铣、39、63]贷揽。然而棠笑,我們的工作主要集中在圖像分類中CNN、ViT和Mixer三種結(jié)構(gòu)的經(jīng)驗(yàn)魯棒性評估上禽绪。
類似主題的并行工作蓖救。最近,有一系列工作[2,4,20,44,45,49,50,54,61,72]從對抗性魯棒性的角度對Transformers進(jìn)行了研究印屁。具體而言循捺,[2,4,44,49,54,61]同時比較Transformers與CNN的魯棒性,并獨(dú)立得出彼此相似的結(jié)論雄人。忽略細(xì)微差別从橘,他們的主要結(jié)論可以概括為視覺Transformers比CNN更魯棒。毫不奇怪,我們的工作也得到了相同的主要接收方式信息恰力,但在多個方面有所不同叉谜,例如MLPMixer的聯(lián)合分析、擾動最小化(C&W和DeepFool)導(dǎo)致白盒設(shè)置牺勾、普遍攻擊下的評估正罢。我們的工作還帶來了一些額外的見解,例如MLP Mixer顯示出對通用攻擊的脆弱性增加驻民。在另一條平行線上,[45,50]研究了如何提高視覺Transformers的對抗魯棒性履怯。未來版本將進(jìn)一步討論上述并行工作之間的詳細(xì)差異回还。
3研究目標(biāo)和實(shí)驗(yàn)裝置
研究目標(biāo)和范圍。
在過去幾年中叹洲,CNN在許多vision應(yīng)用中取得了巨大成功柠硕,但是,它們也容易受到對抗攻擊运提。這種漏洞在安全敏感的應(yīng)用程序(如自動駕駛)中引起嚴(yán)重關(guān)注蝗柔。這種關(guān)注促使人們廣泛研究模型對各種攻擊方法的魯棒性。隨著近年來ViT和Mixer作為CNN替代品的流行民泵,社區(qū)了解其對抗魯棒性并將其與廣泛使用的CNN進(jìn)行對比是至關(guān)重要的癣丧。為此,本文實(shí)證研究了這三種架構(gòu)的對抗性魯棒性栈妆。換句話說胁编,這項(xiàng)工作無意理解為什么某個架構(gòu)或多或少魯棒。請注意鳞尔,盡管在這一領(lǐng)域有大量工作嬉橙,但對于CNN對對抗性樣本敏感的解釋仍然沒有達(dá)成共識[1]。作為研究ViT和Mixer對抗性魯棒性的早期嘗試寥假,我們的工作集中在實(shí)證評估上市框,從理論上理解其易受攻擊的原因超出了本工作的范圍。盡管如此糕韧,我們的工作試圖從方差角度和頻率角度更好地理解模型之間的魯棒性差距枫振。誠然,我們對解釋的嘗試是有限的兔沃,為了更好地理解蒋得,還需要進(jìn)一步的工作。
模型和數(shù)據(jù)集乒疏。
在我們的實(shí)驗(yàn)中额衙,我們主要比較了ViT[15]模型、MLPMixer[66]和CNN架構(gòu)[24]。請注意窍侧,它們在架構(gòu)設(shè)計(jì)中都采用了跳連[24]县踢。對于VIT模型,我們考慮VIT-B/16和VIT-L/16伟件,其中B和L分別代表“基”和“大”硼啤,而16表示圖塊大小。所考慮的VIT模型在IMANETET-21K上預(yù)訓(xùn)練并在IMANETET-1K(12)上進(jìn)行微調(diào)斧账。我們還評估了從[4]中直接對IMANETET-1K進(jìn)行訓(xùn)練的VIT模型(由對應(yīng)于VIT模型谴返,我們還研究了在IMANETET-1K上訓(xùn)練的MixerB/16和MixerL/16/66。我們進(jìn)一步考慮在IMANETET-1K上訓(xùn)練的CNN架構(gòu)咧织、RESNET-18和RESNET-50(24)以及半弱監(jiān)督(SWSL)變型[76 ]嗓袱,這是在IG-1B目標(biāo)(43)上預(yù)訓(xùn)練的。使用1000個ImageNet-1K類的相關(guān)哈希標(biāo)記习绢,然后在ImageNet-1K上進(jìn)行微調(diào)渠抹。為了評估對抗性攻擊,如果沒有另外提及闪萄,我們在ImageNet兼容數(shù)據(jù)集上評估非目標(biāo)設(shè)置中的不同對抗性攻擊梧却。該數(shù)據(jù)集最初在NeurIPS 2017對抗性挑戰(zhàn)者1中引入。我們MPA對于相應(yīng)的最廣泛使用的模型有不同的架構(gòu)败去,例如CNN的ResNet-18/50放航,B/16和-L/16的ViT和Mixer。但是为迈,我們也注意到三椿,除了架構(gòu)本身之外,許多其他因素也可能影響魯棒性葫辐∷衙蹋考慮到公開可用的模型,幾乎不可能規(guī)定所有其他因素耿战。
4實(shí)驗(yàn)結(jié)果
4.1抗白盒攻擊的魯棒性
首先研究了白盒攻擊下的魯棒性蛋叼,特別是部署了PGD〔42〕和FGSM〔18〕,對于這兩種攻擊剂陡,我們考慮ε={D/255×D狈涮。∈ 對于[0,1]范圍內(nèi)的圖像鸭栖,{0.1,0.3,0.5,1,3}}歌馍。對于PGD攻擊,我們將迭代次數(shù)設(shè)置為20晕鹊,并將其他參數(shù)保留為傻瓜箱[59]的默認(rèn)設(shè)置松却。對于這兩種攻擊暴浦,我們報(bào)告攻擊成功率(ASR),即與地面真相分類不同的樣本百分比晓锻。此外歌焦,我們評估了C&W攻擊[6]和DeepFool[46]的“2-變體”模型。這兩種攻擊的目標(biāo)是在ASR為100%的情況下最小化擾動幅度砚哆。因此独撇,我們報(bào)告了對抗性擾動的“2-范數(shù)”,結(jié)果見表1躁锁》紫常總體上可以觀察到一種趨勢,即與CNN架構(gòu)相比灿里,ViT和Mixer模型的攻擊成功率較低关炼,表明它們比CNN架構(gòu)更魯棒。對于C&W和DeepFool攻擊匣吊,ViT和Mixer模型的魯棒性得到了更高的`2范數(shù)的進(jìn)一步支持。但是寸潦,當(dāng)擾動幅度非常小時色鸳,可以觀察到相反的現(xiàn)象。例如见转,對于ε=0.1的PGD或FGSM命雀,Mixer和ViT模型C與CNN模型相比,其魯棒性有所下降斩箫。
類別魯棒性吏砂。
為了提供更詳細(xì)的魯棒性評估,我們進(jìn)行了一個類別魯棒性研究乘客。我們在ImageNet驗(yàn)證數(shù)據(jù)集上執(zhí)行類別魯棒性研究狐血,其中每個類有50個驗(yàn)證圖像,并使用`∞-PGD攻擊(ε=0.3)易核。圖1(左)顯示了ViT-L/16從最堅(jiān)固的類別到最不堅(jiān)固的類別的每50個類別匈织,其中類別“屏幕”顯示不堅(jiān)固,而類別“黃色女士拖鞋”顯示100%的魯棒性牡直。這表明不同類別之間的類別魯棒性不平衡缀匕。我們進(jìn)一步計(jì)算不同模型之間的類別精度的相似性。我們將不同的類別精度視為向量碰逸,并計(jì)算不同模式的類別精度之間的余弦相似性圖1中的ls(中間)乡小,可以觀察到ViT和Mixer模型顯示出相對較高的相似性值,但ResNet18和ResNet50在類別魯棒性精度方面相似饵史。最后满钟,我們通過計(jì)算一個模型的多少類比另一個模型的魯棒性更高來檢驗(yàn)?zāi)P偷南鄬︻悇e魯棒性胜榔。這些結(jié)果如圖1(右)所示。在此可以觀察到零远,ViT和Mixer模型比CNN具有更高的分類精度苗分,始終超過945個分類比檢查的CNN更魯棒。
4.2抗黑盒攻擊的魯棒性
我們評估并比較了基于查詢的黑盒攻擊和基于遷移的黑盒攻擊兩種設(shè)置中不同模型架構(gòu)對黑盒攻擊的魯棒性牵辣。
基于查詢的黑盒攻擊摔癣。
基于查詢的黑盒攻擊通過模型評估一系列受干擾的圖像來工作。我們采用了一種流行的基于決策的攻擊纬向,即邊界攻擊[5]择浊,它只需要模型的最終決策(即類標(biāo)簽)和白盒攻擊一樣,在黑盒攻擊中可以觀察到一種趨勢逾条,即ViT和Mixer模型更為魯棒琢岩,對抗性干擾的“2-范數(shù)”相對較高(見表2)。我們使用最近提出的降低查詢成本的方法[31]進(jìn)一步測試和比較模型师脂。為了在更少的查詢中獲得更高的成功率担孔,bandit ST D使用bandit算法集成有關(guān)梯度的先驗(yàn)信息(即時間和數(shù)據(jù)),以減少查詢數(shù)吃警。遵循[31]中的設(shè)置糕篇,擾動的最大“2-范數(shù)”設(shè)置為5,其他的也設(shè)置為默認(rèn)值酌心。如表3所示拌消,總體而言,我們觀察到ViT和Mixer需要更大的平均查詢數(shù)安券,平均ASR更低墩崩,這表明ViT和Mixer比CNN對應(yīng)項(xiàng)更魯棒。
基于遷移的黑盒攻擊侯勉。
基于遷移的黑盒攻擊利用對抗樣本的可遷移特性鹦筹,即源模型生成的對抗樣本遷移到另一個看不見的目標(biāo)模型。對于源模型壳鹤,我們部署了IFGSM[36]通過7個步驟進(jìn)行攻擊盛龄,并評估目標(biāo)模型的可遷移性。從表4中的結(jié)果來看芳誓,我們有兩個主要觀察結(jié)果余舶。第一,來自同一家族(或類似結(jié)構(gòu))的對抗性樣本表現(xiàn)出更高的可遷移性锹淌,這表明來自同一系列的模型學(xué)習(xí)到了類似的功能匿值。其次,當(dāng)使用不同的模型架構(gòu)作為源模型時赂摆,CNN也有相對更脆弱的趨勢(即挟憔,向外國架構(gòu)的遷移較差)例如钟些,從CNN到ViT的可遷移性通常低于20%,而相反的情況則更高
4.3玩具樣本
圖2:我們的二元分類玩具樣本的圖像绊谭。與傳統(tǒng)CNN相比政恍,ViT和Mixer對對抗性攻擊更具魯棒性。換句話說达传,CNN在大多數(shù)設(shè)置中往往是最不魯棒的篙耗。為了便于理解機(jī)制,我們設(shè)計(jì)了一個二元分類玩具樣本宪赶,其中每個類別由單個ima表示ge宗弯,尺寸為224。兩幅圖像由灰色背景上的一條黑色條紋組成搂妻,條紋方向不同蒙保,即垂直條紋和水平條紋。用于訓(xùn)練的兩幅圖像如圖2所示欲主。
然后邓厕,我們在圖像上訓(xùn)練一個全連接網(wǎng)絡(luò)(FC)、一個卷積神經(jīng)網(wǎng)絡(luò)(CNN)和一個視覺Transformers(ViT)扁瓢。請注意邑狸,由于任務(wù)的簡單性,我們將網(wǎng)絡(luò)設(shè)計(jì)為相對較小的容量(<5M)涤妒,并限制網(wǎng)絡(luò)具有大約相同數(shù)量的參數(shù)。我們使用常用的'2攻擊C&W[6]和DDN[60]評估了這些模型的對抗魯棒性赚哗。我們在表5中報(bào)告了對抗性擾動的“2-范數(shù)”她紫。可以觀察到屿储,在這個玩具樣本設(shè)置中贿讹,CNN的魯棒性也不如FC和ViT。
從平移不變性的角度進(jìn)行解釋够掠。
最近民褂,[17]表明CNN的平移不變性特性可能是其易受對抗攻擊的原因之一。他們的結(jié)論是通過定量分析和理論證明得出的疯潭,而我們的重點(diǎn)是提供直觀的定性分析赊堪,觀察到平移不變性e屬性導(dǎo)致具有重復(fù)模式的對抗性樣本。攻擊產(chǎn)生的對抗性干擾的定性結(jié)果如圖3所示竖哩。對于ViT哭廉,可以觀察到一種現(xiàn)象,即對抗性擾動由方形斑塊組成相叁。這可能是因?yàn)樵赩iT架構(gòu)中將輸入圖像劃分為多個圖塊遵绰。在圖像上沒有這種分割過程辽幌,我們觀察到清晰的條紋,但CNN和FC的模式不同椿访。當(dāng)CNN模型產(chǎn)生重復(fù)條紋的擾動時乌企,F(xiàn)C模型只產(chǎn)生以圖像為中心的單一條紋的擾動。應(yīng)該注意的是成玫,擾動是朝著對抗產(chǎn)生的加酵,即朝著對方的方向。CNN模型在圖像上產(chǎn)生條紋的現(xiàn)象可以歸因于CNN模型的平移不變性梁剔。從平移不變性的角度來看虽画,CNN模型識別特征,即該設(shè)置中的水平或垂直條紋荣病,而不考慮特征在圖像上的位置码撰。因此,在某種程度上可以預(yù)期个盆,擾動在整個圖像上具有不同方向的條紋脖岛。對于不具有平移不變性的FC模型,它只識別中心的條紋颊亮;因此柴梆,產(chǎn)生的擾動主要是中心的條紋。由于我們的玩具樣本僅包含兩個樣本终惑,因此ASR對于模型的魯棒性的信息價值有限绍在。然而,定性結(jié)果仍然可以觀察到雹有。對于'2-PGD攻擊偿渡,我們選擇一個足夠高的ε40,這樣兩個樣本都被錯誤分類霸奕。圖3(下圖)中PGD攻擊的定性結(jié)果與C&W攻擊的定性結(jié)果相似溜宽。這些定性結(jié)果提供了一個有趣的洞察移位不變屬性和CNN漏洞之間可能存在的聯(lián)系。誠然质帅,這種聯(lián)系是模糊的适揉,今后需要開展工作,在它們之間建立更具體的聯(lián)系煤惩。
4.4頻率分析
我們進(jìn)一步試圖從頻率角度解釋CNN的魯棒性較低[77,81]嫉嘀。在[77,81]之后,我們部署了一個低通濾波器來濾除高頻盟庞,并部署了一個高通濾波器來濾除輸入圖像中的低頻吃沪,然后再將其輸入模型。然后什猖,我們通過應(yīng)用低通或高通濾波來評估NeurIPS數(shù)據(jù)集中圖像的Top-1精度票彪,結(jié)果如圖4所示红淡。對于低通濾波,可以觀察到CNN結(jié)構(gòu)比ViT和Mixer的下降幅度更大降铸,這表明與其他模型相比在旱,CNN結(jié)構(gòu)更依賴于高頻特性。例如推掸,當(dāng)使用大帶寬進(jìn)行濾波時桶蝎,ResNet-50(SWSL)比ViT-L/16具有更高的精度;然而谅畅,隨著帶寬的減小登渣,ViT-L/16的精度將高于ResNet。此外毡泻,在60到180的低通帶寬下胜茧,Mixer比VIT的下降幅度更大。對于高通濾波仇味,ViT模型的下降幅度最大呻顽,表明ViT模型更依賴于低頻特征,而CNN相對更偏向于低頻特征丹墨。請注意廊遍,非魯棒特征往往具有高頻特性[32、77贩挣、81]喉前,并解釋了模型魯棒度降低的原因。這說明了為什么ViT模型比CNN架構(gòu)從頻率角度更魯棒王财。通過比較低通和高通濾波的結(jié)果被饿,我們觀察到,無論其精度的絕對值如何搪搏,Mixer顯示出與CNN而不是VIT類似的趨勢。
5其他調(diào)查
5.1對常見腐蝕的魯棒性
除了我們對ViT闪金、Mixer和CNN模型的對抗性脆弱性的調(diào)查外疯溺,我們還檢查了這些模型對常見(即自然發(fā)生的)腐蝕的魯棒性[26]。ImageNet-C是由[26]基準(zhǔn)測試神經(jīng)網(wǎng)絡(luò)對這些常見損壞的魯棒性而提出的哎垦。本質(zhì)上囱嫩,ImageNet-C是原始ImageNet驗(yàn)證數(shù)據(jù)集的擾動版本,該數(shù)據(jù)集有1000個類漏设,每個類有50個圖像墨闲。具體地說,ImageNet-C有15個測試損壞郑口,每種損壞類型有5種不同的嚴(yán)重性鸳碧,還有4種保持損壞盾鳞。
在[28]之后,我們對15個測試腐蝕進(jìn)行了評估瞻离,結(jié)果如表6所示腾仅。首先,有一個明顯的趨勢套利,即在原始(干凈)ImageNet上具有更高精度的模型在ImageNet-C上也具有更高的精度推励,這在某種程度上是意料之中的。第二肉迫,在原始(干凈的)ImageNet验辞、ViT和Mixer架構(gòu)上具有相當(dāng)?shù)木龋虼藢p壞具有更高的魯棒性喊衫。例如跌造,ViT-B/16具有與RN50(SWSL)相似的精度,即81.43%對81.18%格侯,但ViT-B/16的魯棒性明顯高于RN50(SWSL)鼻听,即58.85%對52.03%。對于MixerB/16和RN50联四,可以觀察到類似的現(xiàn)象撑碴。圖5顯示了更詳細(xì)的腐敗分析結(jié)果。我們發(fā)現(xiàn)朝墩,在一些腐蝕情況下醉拓,例如縮放模糊和雪花,ViT的優(yōu)勢比其他腐蝕情況(例如高斯噪聲)更為顯著收苏。
5.2對普遍對抗性擾動的魯棒性
我們進(jìn)一步比較了不同模型結(jié)構(gòu)對普遍對抗性擾動(UAP)的魯棒性亿卤。文獻(xiàn)[47]中已經(jīng)提出了UAP,但是鹿霸,他們的算法相對來說效率較低排吴,但速度較慢。在這項(xiàng)工作中懦鼠,我們采用了[80]中最先進(jìn)的UAP算法钻哩。在[47,80]之后,我們將圖像大小設(shè)置為224肛冶,并使用`∞-ε的范數(shù)=10/255街氢。白框和相應(yīng)的可遷移性結(jié)果如表7所示∧佬洌可以進(jìn)行幾項(xiàng)觀察珊肃。首先,MLPMixer模型在白盒和黑盒場景中都非常容易受到UAP的攻擊。特別是在黑盒場景中伦乔,無論代理模型架構(gòu)如何厉亏,攻擊成功率始終高于95%。相反评矩,ViT模型和CNN模型對UAP更具魯棒性叶堆,尤其是在黑盒場景中。其次斥杜,對比ViT和CNN模型虱颗,所有模型的ASR都在90%左右,沒有明顯的魯棒性差距蔗喂。然而忘渔,在更具挑戰(zhàn)性的黑盒場景中,ViT模型明顯比CNN模型更魯棒缰儿。這一趨勢與我們之前的發(fā)現(xiàn)一致畦粮,即ViT模型比CNN模型更為魯棒。我們在圖6中可視化了結(jié)果UAP的放大版本乖阵。值得注意的是宣赔,對于ViT和Mixer架構(gòu),可以觀察到一個tile模式瞪浸,這是由將圖像劃分為作為標(biāo)記的圖塊的操作引起的儒将。另一個有趣的觀察結(jié)果是,Mixer的UAP比ViT和CNN上產(chǎn)生的UAP更不平滑对蒲。對UAP具有最高魯棒性的ViT-L/16似乎也具有最局部平滑的模式钩蚊。總的來說蹈矮,有趣的是砰逻,Mixer極易受到UAP的影響,定性結(jié)果表明它們具有局部非光滑模式泛鸟。然而蝠咆,我們對觀察到的現(xiàn)象沒有明確的解釋,因?yàn)镸ixer仍然是一種非常新的架構(gòu)北滥。向社區(qū)傳達(dá)的一個重要信息是勺美,Mixer面臨的對抗威脅不容忽視,因?yàn)樵趯?shí)際的可遷移通用攻擊場景中碑韵,Mixer容易受到攻擊。
6結(jié)論
我們的工作對ViT和MLPMixer與廣泛使用的CNN在圖像分類方面的對抗性魯棒性進(jìn)行了實(shí)證研究缎脾。我們的結(jié)果表明祝闻,在廣泛的白盒攻擊中,ViT明顯比CNN更魯棒。在基于查詢和基于遷移的黑盒攻擊中也觀察到類似的趨勢联喘。我們的玩具任務(wù)是在圖像中心用垂直或水平的黑色條紋對兩幅簡單圖像進(jìn)行分類华蜒,這提供了有關(guān)平移不變特性和CNN漏洞之間可能存在聯(lián)系的有趣見解,未來的工作對于進(jìn)一步研究這一聯(lián)系是必要的豁遭。我們從特征角度的分析進(jìn)一步表明叭喜,VIT更依賴于低頻(魯棒)特征,而CNN對高頻特征更敏感蓖谢。我們還研究了新提出的MLPMixer的魯棒性捂蕴,發(fā)現(xiàn)其魯棒性一般位于VIT和CNN的中間。我們還對常見的腐敗和UAP的魯棒性進(jìn)行了額外的研究闪幽。一個非常有趣的發(fā)現(xiàn)是啥辨,Mixer極易受到UAP攻擊,即使是在基于遷移的黑盒攻擊中盯腌。未來的工作需要更好地理解報(bào)告的實(shí)證結(jié)果溉知。