https://arxiv.org/abs/2103.15670v2
隨著自然語(yǔ)言處理和理解的成功推進(jìn),Transformers有望給計(jì)算機(jī)視覺(jué)帶來(lái)革命性的變化谍夭。這項(xiàng)工作首次全面研究了視覺(jué)Transformers(VIT)對(duì)對(duì)抗性干擾的魯棒性渊迁。在各種白盒和遷移攻擊設(shè)置下進(jìn)行測(cè)試,我們發(fā)現(xiàn)ViTs與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比具有更好的對(duì)抗魯棒性。這一觀察結(jié)果也適用于certified robustness座每。我們總結(jié)了以下有助于提高ViTs魯棒性的主要觀察結(jié)果:
1) VIT學(xué)習(xí)到的特征包含較少的低級(jí)信息,更具普遍性摘悴,這有助于增強(qiáng)對(duì)抗性干擾的魯棒性峭梳。
2) 引入卷積或tokens-to-token blocks以學(xué)習(xí)ViTs中的低級(jí)特征可以提高分類(lèi)精度,但代價(jià)是對(duì)抗性魯棒性。
3) 增加模型結(jié)構(gòu)中Transformers的比例(當(dāng)模型由Transformers和CNN塊組成時(shí))可提高魯棒性葱椭。但對(duì)于純Transformers模型捂寿,簡(jiǎn)單地增加尺寸或添加層并不能保證類(lèi)似的效果。
4) 在較大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練不會(huì)顯著提高對(duì)抗魯棒性孵运,盡管這對(duì)于訓(xùn)練VIT至關(guān)重要秦陋。
5) 對(duì)抗性訓(xùn)練也適用于ViT,用于訓(xùn)練健壯的模型治笨。
此外驳概,還進(jìn)行了特征可視化和頻率分析。結(jié)果表明旷赖,與CNN相比顺又,VIT對(duì)高頻擾動(dòng)的敏感性較低,并且模型對(duì)低層特征的學(xué)習(xí)程度與其對(duì)不同頻率擾動(dòng)的魯棒性之間存在高度相關(guān)性等孵。
1導(dǎo)言
Transformer最初作為一種主要基于自注意機(jī)制的深層神經(jīng)網(wǎng)絡(luò)(DNN)應(yīng)用于自然語(yǔ)言處理(NLP)任務(wù)中(Vaswani et al.(2017)待榔;Devlin et al.(2018)嘲碧;Brown et al.(2020))挟鸠,具有大規(guī)模預(yù)訓(xùn)練的Transformer在許多NLP任務(wù)中取得了最新成果(Devlin et al.(2018)欲账;Liu et al.(2019)堪簿;Yang et al.(2019)埠对;Sun et al.(2019))焕蹄。最近酬蹋,Dosovitskiy et al.(2020)將純Transformers直接應(yīng)用于圖像塊序列(即視覺(jué)Transformers身笤,ViT)糖声,并表明在圖像分類(lèi)任務(wù)上斤彼,Transformers本身可以與卷積神經(jīng)網(wǎng)絡(luò)(CNN)競(jìng)爭(zhēng)。自那時(shí)起蘸泻,Transformers已擴(kuò)展到各種視覺(jué)任務(wù)琉苇,并顯示出與CNN和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)相比具有競(jìng)爭(zhēng)力甚至更好的性能(Carion et al.(2020);Chen et al.(2020)悦施;Zhu et al.(2020))并扇。雖然ViT及其變體有望實(shí)現(xiàn)適用于不同數(shù)據(jù)模式的統(tǒng)一機(jī)器學(xué)習(xí)范式和架構(gòu),但ViT對(duì)對(duì)抗性干擾的魯棒性尚不清楚抡诞,這對(duì)于安全可靠地部署許多實(shí)際應(yīng)用程序至關(guān)重要穷蛹。
在這項(xiàng)工作中崩侠,我們對(duì)VIT在圖像分類(lèi)任務(wù)中的對(duì)抗魯棒性進(jìn)行了首次研究,并與CNN基線(xiàn)進(jìn)行了比較坷檩。如圖1(a)所示却音,我們的實(shí)驗(yàn)結(jié)果表明,無(wú)論是在白盒攻擊還是黑盒攻擊環(huán)境下矢炼,ViTs的魯棒性都優(yōu)于CNN系瓢,基于此,我們得出了以下重要發(fā)現(xiàn):
?????VIT學(xué)習(xí)到的功能包含較少的低級(jí)信息句灌,有利于對(duì)抗魯棒性夷陋。VIT的攻擊成功率(ASR)較低,為51.9%胰锌,而圖1(a)中CNN的攻擊成功率最低為83.3%骗绕。VIT對(duì)高頻對(duì)抗干擾的敏感性也較低。
?????使用去噪隨機(jī)平滑(Salman et al.资昧,2020)酬土,VIT比CNN獲得更好的認(rèn)證穩(wěn)健性。
?????如圖1(a)所示格带,通過(guò)引入模塊幫助學(xué)習(xí)低級(jí)特征撤缴,VIT的分類(lèi)精度可以提高,代價(jià)是對(duì)抗穩(wěn)健性降低叽唱。
?????當(dāng)模型同時(shí)包含transformer和CNN塊時(shí)屈呕,增加模型中transformer塊的比例可以提高魯棒性。例如棺亭,當(dāng)向T2T-ViT-14中添加10個(gè)額外的Transformers組時(shí)虎眨,攻擊成功率(ASR)從87.1%降至79.2%。然而侦铜,增加純Transformers模型的尺寸不能保證類(lèi)似的效果专甩,例如,圖1(a)中ViT-S/16的穩(wěn)健性?xún)?yōu)于ViT-B/16钉稍。
?????在較大數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練不會(huì)提高對(duì)抗魯棒性,盡管這對(duì)于訓(xùn)練ViT至關(guān)重要棺耍。
?????通過(guò)最小-最大優(yōu)化(min-max optimization)進(jìn)行對(duì)抗性訓(xùn)練的原則(Madry et al.(2017)贡未;Zhang et al.(2019))可用于訓(xùn)練強(qiáng)健的VIT。
2????相關(guān)工作
Transformer(Vaswani et al.(2017))在許多NLP任務(wù)中取得了顯著的性能,并且在這些NLP任務(wù)中對(duì)其魯棒性進(jìn)行了研究俊卤。謝等(2019)嫩挤;金等(2020);施和黃(2020)消恍;李等人(2020年)岂昭;加格和羅摩克里希南(2020年);尹等人(2020年)對(duì)Transformers進(jìn)行了對(duì)抗性攻擊狠怨,包括預(yù)訓(xùn)練的模型约啊,在他們的實(shí)驗(yàn)中,Transformers通常比其他基于長(zhǎng)短時(shí)記憶(LSTM)或CNN的模型表現(xiàn)出更好的魯棒性佣赖,謝等人(2019年)提供了理論解釋恰矩。然而,由于NLP模型的離散性憎蛤,這些研究集中于離散擾動(dòng)(例如外傅,單詞或字符替換),這與計(jì)算機(jī)視覺(jué)任務(wù)中的小擾動(dòng)和連續(xù)擾動(dòng)非常不同俩檬。此外萎胰,Wang et al.(2020a)從信息論的角度改進(jìn)了預(yù)訓(xùn)練Transformers的魯棒性,Shi et al.(2020)棚辽;葉等人(2020年)奥洼;Xu等人(2020年)研究了基于Transformers的模型的魯棒性認(rèn)證。據(jù)我們所知晚胡,這項(xiàng)工作是第一項(xiàng)研究Transformers對(duì)計(jì)算機(jī)視覺(jué)任務(wù)的對(duì)抗性魯棒性(針對(duì)輸入像素空間中的小擾動(dòng))灵奖。
在計(jì)算機(jī)視覺(jué)的背景下,最相關(guān)的工作是Alamri等人(2020年)估盘,他們將transformer編碼器應(yīng)用于目標(biāo)檢測(cè)任務(wù)瓷患,并報(bào)告了更好的對(duì)抗魯棒性。但是他們考慮的模型是CNN和transformer的混合遣妥,而不是本文考慮的ViT模型擅编。此外,他們采用的攻擊相對(duì)較弱箫踩,并且缺乏對(duì)Transformers帶來(lái)的對(duì)抗性魯棒性好處的研究和解釋爱态。
3????模型架構(gòu)
我們首先回顧了在我們的實(shí)驗(yàn)中研究的模型結(jié)構(gòu),包括幾個(gè)視覺(jué)Transformers(VIT)和CNN模型境钟。表5給出了詳細(xì)的比較表锦担。
3.1????視覺(jué)Transformers
我們考慮原始VIT(DOSOOVITKYY等人(2020))及其四個(gè)變體,如圖1(b)所示慨削。
視覺(jué)Transformers(ViT)和數(shù)據(jù)高效圖像Transformers(DeiT):
ViT(Dosovitskiy et al.(2020))在語(yǔ)言任務(wù)上主要遵循Transformers的原始設(shè)計(jì)(Vaswani et al.(2017)洞渔;Devlin et al.(2018))套媚。對(duì)于二維圖像具有分辨率H×W和C通道,被劃分為長(zhǎng)度為的圖塊序列磁椒,分辨率為的二維圖塊被展平堤瘤,這樣,(原文似乎有筆誤)浆熔。首先用一個(gè)簡(jiǎn)單的卷積層將圖塊編碼成圖塊嵌入本辐,其中卷積的核大小和步長(zhǎng)恰好為P×P。此外医增,還存在位置嵌入以保留位置信息慎皱。類(lèi)似于BERT(Devlin et al.(2018)),BERT是NLP的大規(guī)模預(yù)訓(xùn)練模型调窍,一個(gè)特殊的[CLS]標(biāo)記被添加到分類(lèi)的輸出特征中宝冕。DeiT(Touvron et al.(2021))使用CNN教師提供的數(shù)據(jù)增強(qiáng)或蒸餾以及額外的蒸餾token,進(jìn)一步提高了ViT的性能邓萨。我們研究了ViT-{S地梨,B,L}/16缔恳,DeiT-S/16和Dist-DeiT-B/16宝剖,定義見(jiàn)正文中的相應(yīng)文件,并在附錄F中討論了其他結(jié)構(gòu)歉甚。
CNN和ViT的混合(CNN-ViT):
Dosovitskiy等人(2020年)還提出了一種VIT混合架構(gòu)万细,將原始圖像塊替換為從CNN特征圖中提取的塊。這相當(dāng)于將學(xué)習(xí)到的CNN塊添加到ViT的頭部纸泄,如圖1(b)所示赖钞。繼Dosovitskiy等人(2020年)之后,我們?cè)趯?shí)驗(yàn)中研究了ViT-B/16 Res聘裁,其中輸入序列是通過(guò)將ResNet50中特征映射的空間維度展平獲得的雪营。
T2T和ViT的混合(T2T-ViT):
Yuan et al.(2021)提出通過(guò)使用token-to-token(T2T)模塊逐步將圖像結(jié)構(gòu)化為token,從而克服VIT中簡(jiǎn)單token化的局限性衡便,該模塊遞歸地將相鄰token聚合為一個(gè)token献起,以便更好地學(xué)習(xí)低級(jí)結(jié)構(gòu)。在中等規(guī)模數(shù)據(jù)集上從頭開(kāi)始訓(xùn)練時(shí)镣陕,T2T ViT的表現(xiàn)優(yōu)于ViT谴餐。我們?cè)趯?shí)驗(yàn)中研究了T2T-ViT-14和T2T-ViT-24。
移動(dòng)窗口和ViT(Swin-T)的混合:
Liu等人(2021年)使用移位窗口方案計(jì)算表示呆抑,該方案將自注意計(jì)算限制在非重疊局部窗口上岂嗓,同時(shí)允許跨窗口連接,從而提高了效率理肺。我們?cè)谡闹醒芯苛薙win-S/4摄闸,并在附錄F中討論了其他結(jié)構(gòu)善镰。
3.2????卷積神經(jīng)網(wǎng)絡(luò)
我們研究了幾種CNN模型進(jìn)行比較妹萨,包括ResNet18(He et al.(2016))年枕、ResNet50-32x4d(He et al.(2016))、ShuffleNet(Zhang et al.(2018))乎完、MobileNet(Howard et al.(2017))和VGG16(Simonyan&Zisserman(2014))熏兄。我們還考慮SEResNet50模型,它使用擠壓和激勵(lì)(SE)塊(胡等人)(2018)树姨,它在通道維度執(zhí)行注意力摩桶,以在每個(gè)層內(nèi)的局部感受野中融合空間和信道信息。
上述CNN都是從頭開(kāi)始在ImageNet上進(jìn)行訓(xùn)練的帽揪。為了更好地與預(yù)訓(xùn)練的Transformers進(jìn)行比較硝清,我們還考慮了兩個(gè)CNN模型在較大的數(shù)據(jù)集上預(yù)訓(xùn)練:在YFCC100M數(shù)據(jù)集(THOMEE等人(2015))上預(yù)訓(xùn)練的ReXeXT-32 x4d ssl,在IG-1B-Targeted (Mahajan et al. (2018))上用半監(jiān)督-弱監(jiān)督預(yù)訓(xùn)練的ResNet50-swsl转晰。它們都在ImageNet上進(jìn)行了微調(diào)芦拿。
4????對(duì)抗性穩(wěn)健性評(píng)估方法
我們考慮常用的范數(shù)有界(bounded)對(duì)抗攻擊,以評(píng)估目標(biāo)模型魯棒性查邢。一個(gè)攻擊通常表示為解決約束優(yōu)化問(wèn)題:
其中是一個(gè)帶有標(biāo)簽的干凈樣本蔗崎,我們的目標(biāo)是在以為中心、以為半徑的球上扰藕,找到對(duì)抗樣本缓苛,使得分類(lèi)損失最大。本文考慮無(wú)目標(biāo)攻擊邓深,如果擾動(dòng)成功地改變了模型的預(yù)測(cè)未桥,則攻擊是成功的。下面列出了本文中使用的攻擊以及隨機(jī)平滑方法芥备。
白盒攻擊
我們的實(shí)驗(yàn)中涉及四次白盒攻擊冬耿。投影梯度下降(Projected Gradient Decent,PGD)攻擊(Madry et al.(2017))通過(guò)迭代采用梯度上升來(lái)解決等式1:
其中代表次迭代后的解门躯,表示剪裁值淆党,使每個(gè)落在范圍內(nèi),根據(jù)威脅模型讶凉。作為特例染乌,快速梯度符號(hào)法(Fast Gradient Sign Method,F(xiàn)GSM)(Goodfello等人(2014))使用t=1的單次迭代懂讯。自動(dòng)攻擊(Croce&Hein荷憋,2020)是目前最強(qiáng)大的白盒攻擊,它通過(guò)各種攻擊的無(wú)參數(shù)集成來(lái)評(píng)估對(duì)手的魯棒性褐望。我們還設(shè)計(jì)了一種基于頻率的攻擊進(jìn)行分析勒庄,它在額外的頻率約束下進(jìn)行攻擊:
其中串前,DCT和IDCT分別表示離散余弦變換和逆離散余弦變換,表示PGD生成的對(duì)抗性樣本实蔽,表示附錄B中所示頻率濾波器定義的掩碼度量荡碾。我們發(fā)現(xiàn)該設(shè)計(jì)類(lèi)似于Wang等人(2020b)。
黑盒攻擊
我們考慮遷移攻擊局装,研究攻擊源模型(source model)所產(chǎn)生的對(duì)抗擾動(dòng)是否能成功地欺騙目標(biāo)模型(target model)坛吁。該測(cè)試不僅評(píng)估了黑盒設(shè)置下模型的穩(wěn)健性,還成為檢測(cè)模糊梯度現(xiàn)象的魯棒性檢查(Athalye et al.(2018))铐尚。先前的研究表明拨脉,類(lèi)似FGSM的單步攻擊比多步攻擊具有更好的可遷移性(Kurakin等人(2017))。因此宣增,我們?cè)趯?shí)驗(yàn)中使用FGSM進(jìn)行遷移攻擊玫膀。
去噪隨機(jī)平滑
我們還使用隨機(jī)平滑評(píng)估模型的認(rèn)證魯棒性,其中魯棒性評(píng)估為確信半徑(certifified radius)爹脾,并且該模型在半徑內(nèi)擾動(dòng)的高概率下被認(rèn)證為魯棒性帖旨。我們遵循Salman et al.(2020)為每個(gè)預(yù)訓(xùn)練的模型訓(xùn)練一個(gè)DnCNN(Zhang et al.(2017))去噪器,使用“穩(wěn)定性”目標(biāo)誉简,LCE表示交叉熵碉就,N表示高斯分布:
對(duì)去噪后的分類(lèi)器進(jìn)行隨機(jī)平滑, for robustness certifification:
然后闷串,計(jì)算平滑分類(lèi)器的認(rèn)證半徑為(Cohen等人瓮钥,2019):
其中是標(biāo)準(zhǔn)高斯CDF的倒數(shù),是top-1預(yù)測(cè)類(lèi)別的置信度烹吵,是第二個(gè)預(yù)測(cè)類(lèi)別的置信度碉熄。因此,給定擾動(dòng)半徑肋拔,可通過(guò)將給定半徑與認(rèn)證半徑(certifified radius)進(jìn)行比較來(lái)評(píng)估該擾動(dòng)半徑下的認(rèn)證精度锈津。
5????實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,我們證明了ViTs比CNN對(duì)白盒攻擊和遷移攻擊都具有更好的魯棒性凉蜂。我們還使用去噪隨機(jī)平滑技術(shù)研究了它們的魯棒性琼梆,并在ViT上進(jìn)行了初步的對(duì)抗性訓(xùn)練實(shí)驗(yàn)。在實(shí)驗(yàn)的基礎(chǔ)上窿吩,我們分析了ViTs在 different lens下的抗干擾能力茎杂。
對(duì)于所有實(shí)驗(yàn),我們分別從PyTorch圖像模型庫(kù)(timm纫雁,Wightman(2019))和torchvision(Paszke et al.(2019))加載預(yù)訓(xùn)練的ViT模型和CNN煌往。我們?cè)贗mageNet-1k(Deng等人(2009))的整個(gè)測(cè)試集上評(píng)估了每個(gè)模型的清潔精度,并抽樣1000個(gè)測(cè)試示例來(lái)評(píng)估魯棒精度和攻擊成功率(ASR)轧邪。請(qǐng)注意刽脖,較低的ASR意味著更好的魯棒性羞海。關(guān)于CIFAR-10的實(shí)驗(yàn)結(jié)果見(jiàn)附錄E。對(duì)于對(duì)抗性訓(xùn)練曲管,我們使用CIFAR-10(Krizhevsky等人(2009))却邓,詳見(jiàn)第5.4節(jié)。
5.1白盒攻擊下的魯棒性
設(shè)置
我們使用PGD和自動(dòng)攻擊來(lái)研究白盒攻擊下的魯棒性翘地。我們從{0.001申尤,0.003癌幕,0.005衙耕,0.01 }考慮攻擊半徑。對(duì)于PGD攻擊勺远,我們將攻擊步驟固定為=40橙喘,其他參數(shù)遵循Foolbox中實(shí)現(xiàn)的默認(rèn)設(shè)置(Rauber et al.(2020))。自動(dòng)攻擊不需要任何超參數(shù)調(diào)整胶逢。
結(jié)果
我們?cè)诒?中給出了使用PGD攻擊的結(jié)果厅瞎,在表2中給出了使用自動(dòng)攻擊的結(jié)果。當(dāng)較大時(shí)初坠,例如當(dāng)=0.01時(shí)和簸,所有型號(hào)的ASR約為100%。但對(duì)于較小的攻擊半徑碟刺,ViT模型在PGD攻擊和自動(dòng)攻擊下的ASR均低于CNN锁保。例如,當(dāng)=0.001時(shí)半沽,ViT-S/16的ASR僅為44.6%爽柒,而CNN的ASR至少為70.0%。在相同的攻擊半徑下者填,ViTS/16的自動(dòng)攻擊ASR僅為51.9%浩村,而ShuffleNet為93.9%。此外占哟,結(jié)果表明心墅,在相同的,AutoAttack的攻擊強(qiáng)度遠(yuǎn)大于PGD榨乎。這些結(jié)果表明怎燥,在這些白盒攻擊下,ViT比CNN更具魯棒性谬哀。我們還在圖1(a)中可視化了這些模型的干凈/魯棒精度權(quán)衡和模型大小刺覆。
5.2????遷移攻擊下的魯棒性
我們還進(jìn)行遷移攻擊,以測(cè)試第4節(jié)所述的黑盒設(shè)置中的對(duì)抗魯棒性史煎。我們考慮攻擊范數(shù)擾動(dòng)不大于0.1谦屑,結(jié)果如圖2所示驳糯。當(dāng)VIT用作目標(biāo)模型,CNN用作源模型時(shí)氢橙,如每個(gè)子圖左下方所示酝枢,遷移攻擊的ASR相當(dāng)?shù)汀A硪环矫婧肥郑?dāng)VIT是源模型時(shí)帘睦,它們生成的對(duì)抗性示例在遷移到其他目標(biāo)模型時(shí)具有更高的ASR。因此坦康,前三行和后七列比其他行暗竣付。此外,對(duì)于圖中FGSM實(shí)際在白盒設(shè)置下攻擊模型的對(duì)角線(xiàn)滞欠,我們可以觀察到古胆,與CNN相比,VIT對(duì)較小半徑的攻擊不太敏感筛璧,T2T模塊使VIT對(duì)這種一步攻擊更為魯棒逸绎。此外,對(duì)抗性樣本在具有類(lèi)似結(jié)構(gòu)的模型之間遷移良好夭谤。由于ViT-S/16棺牧、ViT-B/16和ViT-L/16具有相似的結(jié)構(gòu),因此它們生成的對(duì)抗性示例可以很好地相互傳遞朗儒,T2T ViT和CNN分別具有相似性颊乘。
5.3????認(rèn)證的穩(wěn)健性
設(shè)置
我們使用穩(wěn)定性目標(biāo)對(duì)去噪器進(jìn)行了25個(gè)階段的訓(xùn)練,噪聲水平σ=0.25采蚀,學(xué)習(xí)率為10?5疲牵,批量大小為64。我們迭代通過(guò)ImageNet數(shù)據(jù)集榆鼠,根據(jù)公式6計(jì)算相應(yīng)半徑纲爸,并在圖3中報(bào)告Salman等人(2020)定義的不同半徑的認(rèn)證精度。
結(jié)果
如圖3所示妆够,ViT-S/16比ResNet18具有更高的認(rèn)證精度识啦,表明視覺(jué)Transformers比CNN具有更好的認(rèn)證魯棒性。我們還發(fā)現(xiàn)神妹,在相同的設(shè)置下颓哮,為ResNet18訓(xùn)練高斯去噪器比為ViT-S/16訓(xùn)練高斯去噪器更困難。在σ=0.25的噪聲下鸵荠,帶去噪器的ViT-S/16的精度為64.84%(4.996%冕茅,無(wú)任何去噪器),而在相同噪聲下帶去噪器的ResNet18的精度為47.782%(5.966%,無(wú)任何去噪器)姨伤。
5.4????對(duì)抗性訓(xùn)練
設(shè)置
我們還對(duì)ViT對(duì)抗性訓(xùn)練進(jìn)行了初步實(shí)驗(yàn)哨坪。在本實(shí)驗(yàn)中,我們使用e=8/255的CIFAR-10(Krizhevsky et al.(2009))和ViT-B/16模型乍楚。由于最初該ViT是在ImageNet上預(yù)訓(xùn)練的当编,圖像大小為224×224,圖塊大小為16×16徒溪,而CIFAR-10上的圖像大小為32×32忿偷,因此我們將圖塊嵌入的權(quán)重減少采樣,并將圖塊大小調(diào)整為4×4臊泌,因此仍然有8×8個(gè)圖塊鲤桥,我們將新模型命名為ViT-B/4。雖然ViT最初在CIFAR-10上放大了輸入圖像缺虐,以便進(jìn)行自然微調(diào)和評(píng)估芜壁,但我們將輸入大小保持為32×32,以使攻擊半徑具有可比性高氮。對(duì)于訓(xùn)練,我們分別使用PGD-7(7次迭代的PGD)(Madry et al.(2017))和TRADES(Zhang et al.(2019))方法顷牌,對(duì)抗性訓(xùn)練期間無(wú)額外數(shù)據(jù)剪芍。我們將ViT與兩個(gè)CNN(ResNet18(He et al.(2016))和WideResNet-34-10(Zagoruyko和Komodakis(2016))進(jìn)行比較。為了節(jié)省訓(xùn)練成本窟蓝,我們只對(duì)每個(gè)模型進(jìn)行20個(gè)epoch的訓(xùn)練罪裹,盡管之前的一些工作使用了數(shù)百個(gè)epoch(Madry et al.(2017);Pang et al.(2020))运挫,并且對(duì)于大型模型來(lái)說(shuō)成本非常高状共。我們使用批量大小為128、初始學(xué)習(xí)率為0.1谁帕、動(dòng)量為0.9的SGD優(yōu)化器峡继,學(xué)習(xí)率在15個(gè)階段和18個(gè)階段后分別以0.1的速度衰減。而我們使用的是5×10的權(quán)重衰減?4對(duì)于Pang等人(2020)提出的CNN匈挖,5×10?4優(yōu)于2×10?4碾牌,我們?nèi)匀皇褂?×10?ViT為4,我們發(fā)現(xiàn)為5×10?4導(dǎo)致ViT安裝不充分儡循。我們分別使用PGD-10(10次迭代的PGD)和自動(dòng)攻擊對(duì)模型進(jìn)行評(píng)估舶吗。
結(jié)果
我們?cè)诒?中顯示了結(jié)果。ViT模型與ResNet18相比具有更高的魯棒精度择膝,與WideResNet-34-10相比具有可比的魯棒精度誓琼,而ViT模型與其他兩種模型相比具有更好的清潔精度。在這里,與WideResNet-34-10等大型CNN相比腹侣,ViT在對(duì)抗性訓(xùn)練后并不能提高魯棒精度呵扛。我們推測(cè),ViT可能需要更大的訓(xùn)練數(shù)據(jù)或更長(zhǎng)的訓(xùn)練時(shí)間筐带,以進(jìn)一步提高其強(qiáng)健的訓(xùn)練性能今穿,這是受以下事實(shí)啟發(fā)的:在自然訓(xùn)練中,如果沒(méi)有大規(guī)模的預(yù)訓(xùn)練伦籍,ViT也無(wú)法表現(xiàn)良好蓝晒。雖然T2T-ViT在從頭開(kāi)始訓(xùn)練時(shí)改善了自然訓(xùn)練的表現(xiàn),但我們之前在表1和表2中的結(jié)果表明帖鸦,T2T-ViT結(jié)構(gòu)可能天生就不那么健壯芝薇。我們還嘗試了Wong等人(2020年)的建議,該建議旨在緩解FGSM的過(guò)度擬合作儿,以使用FGSM進(jìn)行快速對(duì)抗性訓(xùn)練洛二,但我們發(fā)現(xiàn),它仍然可能導(dǎo)致ViT的災(zāi)難性過(guò)度擬合攻锰,因此PGD攻擊的測(cè)試準(zhǔn)確度仍然幾乎為0晾嘶。我們推測(cè)這種快速訓(xùn)練方法可能不適用于預(yù)訓(xùn)練模型或需要進(jìn)一步調(diào)整。我們?cè)诒竟?jié)中的實(shí)驗(yàn)表明娶吞,使用PGD或TRADES的對(duì)抗性訓(xùn)練框架適用于視覺(jué)任務(wù)的Transformers垒迂,我們?yōu)槲磥?lái)的探索和改進(jìn)提供了基線(xiàn)結(jié)果和見(jiàn)解。
6????對(duì)抗性穩(wěn)健性推理
在本節(jié)中妒蛇,我們將進(jìn)行擴(kuò)展分析机断,以剖析ViTs中改進(jìn)的對(duì)抗魯棒性的來(lái)源。我們還驗(yàn)證了ViT的改進(jìn)不是由攻擊優(yōu)化不足引起的绣夺,并從Hopfield網(wǎng)絡(luò)的角度進(jìn)行了解釋?zhuān)ㄔ斍橐?jiàn)附錄D)吏奸。
學(xué)習(xí)低級(jí)結(jié)構(gòu)會(huì)降低模型的魯棒性
一個(gè)有趣且可能令人驚訝的發(fā)現(xiàn)是,當(dāng)幫助學(xué)習(xí)局部結(jié)構(gòu)的模塊在Transformers塊之前添加時(shí)陶耍,VIT的魯棒性較差奋蔚。例如,T2T-ViT將幾個(gè)T2T模塊添加到ViT的頭部物臂,ViT迭代地將相鄰的token聚合到每個(gè)局部感知字段中的一個(gè)token中旺拉。ViT-B/16 Res將ResNet生成的特征作為輸入,其效果與在Transformers塊前面加入經(jīng)過(guò)訓(xùn)練的CNN層相同棵磷。這兩個(gè)模塊都有助于學(xué)習(xí)邊緣和線(xiàn)條等局部結(jié)構(gòu)(Yuan等人(2021))蛾狗。
當(dāng)引入ResNet學(xué)習(xí)到的特性時(shí),在PGD攻擊下仪媒,ViT-B/16的ASR從ViT-B/16的51.1%上升到54.5%沉桌,在自動(dòng)攻擊下谢鹊,從60.2%上升到72.3%,攻擊半徑e=0.001留凭。通過(guò)比較ViTs和T2T ViTs的ASR佃扼,可以觀察到類(lèi)似的現(xiàn)象。在攻擊半徑e=0.001的情況下蔼夜,T2T-ViT-14在PGD攻擊下的ASR比ViT-S/16高18.3%兼耀,在自動(dòng)攻擊下的ASR比ViT-S/16高35.2%。
一種可能的解釋是求冷,引入的模塊通過(guò)記住訓(xùn)練數(shù)據(jù)集中反復(fù)出現(xiàn)的低級(jí)結(jié)構(gòu)來(lái)提高分類(lèi)精度瘤运。這些結(jié)構(gòu),如邊和線(xiàn)匠题,是高頻率和敏感的擾動(dòng)拯坟。學(xué)習(xí)這些特性會(huì)使模型更容易受到敵對(duì)攻擊。第6.1節(jié)對(duì)該假設(shè)進(jìn)行了檢驗(yàn)韭山。
增加Transformers模塊的比例可以提高魯棒性
Hendrycks等人(2019年)提到郁季,較大的模型并不一定意味著更好的魯棒性。我們的實(shí)驗(yàn)證實(shí)了這一點(diǎn)钱磅,在PGD攻擊和自動(dòng)攻擊下梦裂,ViT-S/16比較大的ViT-B/16具有更好的魯棒性。在這種情況下续搀,簡(jiǎn)單地向分類(lèi)器添加transformer塊并不能保證更好的魯棒性塞琼。然而,我們認(rèn)識(shí)到禁舷,對(duì)于同時(shí)具有T2T和transformer塊的混合架構(gòu),通過(guò)增加模型中transformer塊的比例來(lái)提高對(duì)抗魯棒性是有用的毅往。如表1和表2所示牵咙,在兩種攻擊下,T2T-ViT-24的ASR均低于T2T-ViT-14攀唯。除了transformer block洁桌,我們發(fā)現(xiàn)其他注意機(jī)制模塊(如SE block)也提高了對(duì)抗魯棒性——由于SEResNet50的注意比例最小,SEResNet50的ASR高于ViT和T2T ViT模型侯嘀,但低于其他純CNN另凌。這兩個(gè)發(fā)現(xiàn)是一致的,因?yàn)樽⒁鈾C(jī)制是Transformers塊的基礎(chǔ)戒幔。
預(yù)訓(xùn)練不能提高魯棒性
預(yù)訓(xùn)練對(duì)于ViTs實(shí)現(xiàn)競(jìng)爭(zhēng)性標(biāo)準(zhǔn)精度至關(guān)重要吠谢,CNN從頭開(kāi)始訓(xùn)練(Dosovitskiy et al.(2020))。然而诗茎,預(yù)訓(xùn)練可能不是魯棒性更好的主要原因工坊。為了說(shuō)明這一點(diǎn),我們?cè)诖笮蛿?shù)據(jù)集上預(yù)訓(xùn)練了CNN,并在ImageNet-1k上進(jìn)行了微調(diào)王污,以檢查預(yù)訓(xùn)練對(duì)對(duì)抗魯棒性的影響罢吃。在大型數(shù)據(jù)集IG-1B-Targeted(Mahajan et al.(2018))和YFCC100M(Thomee et al.(2015))上預(yù)訓(xùn)練的CNN,其比ViT昭齐、ResNet50-swsl和ResNeXt-32x4d-ssl使用的ImageNet-21k更大尿招,但其ASR仍然與未預(yù)訓(xùn)練的ResNet18和ResNet50-32x4d相似或更高。這支持了我們的觀察阱驾,即當(dāng)前形式的預(yù)訓(xùn)練可能無(wú)法提高對(duì)抗魯棒性就谜。Hendrycks等人(2019年)還報(bào)告說(shuō),沒(méi)有對(duì)抗性訓(xùn)練技術(shù)的訓(xùn)練前訓(xùn)練無(wú)法提高對(duì)抗性穩(wěn)健性啊易。ViT對(duì)擾動(dòng)的恢復(fù)力更多地對(duì)應(yīng)于Transformers結(jié)構(gòu)吁伺,而不是預(yù)訓(xùn)練。
6.1????頻率研究和特征可視化
表4:針對(duì)PGD攻擊的目標(biāo)模型的頻率研究和ASR(%)租谈。在“低通”列中篮奄,僅保留低頻對(duì)抗干擾,并將其添加到輸入圖像中割去。在“高通”列中窟却,只有高頻擾動(dòng)才能通過(guò)濾波器∩肽妫“全通”模式與傳統(tǒng)PGD攻擊相同夸赫。我們將攻擊步長(zhǎng)設(shè)置為40,并將攻擊半徑更改為不同的值咖城,如第二行所示茬腿。
在這里,我們進(jìn)行了頻率研究和特征可視化宜雀,以支持我們的主張切平,即VIT更穩(wěn)健,因?yàn)榕c其他模型相比辐董,VIT學(xué)習(xí)到較少關(guān)注高頻特征悴品。當(dāng)在ViT結(jié)構(gòu)中引入其他模塊時(shí),這種特性可能會(huì)減弱简烘,從而導(dǎo)致混合ViT的對(duì)抗魯棒性較差苔严。
頻率研究
我們?cè)O(shè)計(jì)了一項(xiàng)頻率研究來(lái)驗(yàn)證我們的假設(shè),即VIT與CNN相比具有更強(qiáng)的魯棒性孤澎,因?yàn)閂IT學(xué)習(xí)的高頻特征較少届氢。如等式3所定義,對(duì)于PGD攻擊產(chǎn)生的對(duì)抗性干擾亥至,我們首先通過(guò)DCT將其投影到頻域悼沈。我們?cè)O(shè)計(jì)了三個(gè)頻率濾波器贱迟,如附錄B圖5所示:全通濾波器、低通濾波器和高通濾波器絮供。我們將224×224像素中低頻區(qū)域的32×32像素作為低通濾波器衣吠,高頻區(qū)域的192×192像素作為高通濾波器。每個(gè)濾波器只允許相應(yīng)的頻率通過(guò)-當(dāng)對(duì)抗性擾動(dòng)通過(guò)低通濾波器時(shí)壤靶,高頻濾波器組件被過(guò)濾掉缚俏,反之亦然,并且全通過(guò)濾器不做任何更改贮乳。然后忧换,我們將這些濾波器應(yīng)用于擾動(dòng)的頻率,并使用IDCT將其投影回空間域向拆。我們測(cè)試了不同頻率區(qū)域下的ASR亚茬,結(jié)果如表4所示。
當(dāng)僅保留擾動(dòng)的高頻時(shí)浓恳,“高通”列中ViT的ASR相對(duì)較低刹缝。相比之下,CNN在“高通”列中的ASR顯著高于在“低通”列中的ASR颈将。這反映出CNN比VIT對(duì)高頻對(duì)抗性干擾更敏感梢夯。我們還觀察到,添加學(xué)習(xí)低級(jí)結(jié)構(gòu)的模塊使模型對(duì)高頻擾動(dòng)更加敏感晴圾。與普通ViT相比颂砸,T2TViT-14、T2T-ViT-24和ViT-B/16 Res在“高通”列中具有較高的ASR死姚,在“低通”列中具有較低的ASR人乓,這驗(yàn)證了我們的假設(shè),即低水平特征的不利穩(wěn)健性較低都毒。此外撒蟀,當(dāng)向T2T-ViT模型添加更多Transformers塊時(shí),該模型對(duì)對(duì)抗性擾動(dòng)的高頻不太敏感温鸽,例如,T2T-ViT-24在“高通”列中的ASR比T2T-ViT-14低8.7%手负。
特征可視化
我們遵循Yuan等人(2021年)的工作涤垫,將從圖4中的目標(biāo)模型的第一個(gè)塊中學(xué)習(xí)到的特征可視化。對(duì)于CNN竟终,我們將輸入圖像的分辨率調(diào)整為224×224蝠猬;對(duì)于VIT和T2T VIT,我們將輸入圖像的分辨率調(diào)整為1792×1792统捶,以便來(lái)自第一個(gè)塊的特征圖的形狀相同,為112×112蝶念。線(xiàn)和邊等低級(jí)特征以藍(lán)色(明顯可見(jiàn))和綠色(輕微可見(jiàn))突出顯示匕积。如圖4所示,諸如ResNet50 swsl和ResNet50-32x4d等CNN學(xué)習(xí)具有明顯邊緣和線(xiàn)條的功能驻右。通過(guò)T2T-ViT-24和ViT-B/16-Res學(xué)習(xí)可感知的低級(jí)特征。但在ViT-B/16學(xué)習(xí)的特征圖中很難觀察到此類(lèi)信息崎淳。特征可視化與頻率研究相結(jié)合表明堪夭,模型在對(duì)抗性干擾下的脆弱性與模型學(xué)習(xí)低水平高頻特征的傾向高度相關(guān)。幫助模型學(xué)習(xí)這些特性的技術(shù)可能會(huì)提高干凈數(shù)據(jù)的性能拣凹,但有犧牲對(duì)抗性健壯性的風(fēng)險(xiǎn)森爽。
7????結(jié)論
本文首次研究了ViTs對(duì)對(duì)抗性干擾的魯棒性。我們的結(jié)果表明嚣镜,ViTs比CNN在考慮的對(duì)抗性攻擊和認(rèn)證的魯棒性設(shè)置上更具魯棒性爬迟。此外,我們還表明菊匿,VIT學(xué)習(xí)到的特征包含較少的低級(jí)信息付呕,有助于提高對(duì)通常包含高頻成分的對(duì)抗性干擾的魯棒性;在ViTs中引入卷積塊有助于學(xué)習(xí)低級(jí)特征捧请,但會(huì)對(duì)對(duì)抗性穩(wěn)健性產(chǎn)生負(fù)面影響凡涩,并使模型對(duì)高頻擾動(dòng)更加敏感。我們還演示了ViT的對(duì)抗性訓(xùn)練疹蛉。我們的工作提供了對(duì)ViTs固有魯棒性的深入理解活箕,并可用于基于Transformers結(jié)構(gòu)的魯棒視覺(jué)模型的設(shè)計(jì)。
補(bǔ)充材料
在本補(bǔ)充材料中可款,我們?cè)趯?shí)驗(yàn)中提供了更多的分析和結(jié)果育韩。
目標(biāo)模型
正文中調(diào)查的目標(biāo)模型匯總?cè)绫?所示。這些模型的權(quán)重都可在Paszke等人(2019)處公開(kāi)獲得闺鲸;Wightman(2019)筋讨,這樣我們的實(shí)驗(yàn)就可以很容易地重現(xiàn)。
B????頻率濾波器
我們?cè)趫D5中展示了頻率濾波器的設(shè)計(jì)摸恍。
C????遷移攻擊結(jié)果
使用更多攻擊半徑的遷移攻擊結(jié)果如圖6所示
D.對(duì)抗性穩(wěn)健性的來(lái)源
在本節(jié)中悉罕,我們將研究我們的實(shí)驗(yàn)中揭示的對(duì)抗性穩(wěn)健性的來(lái)源。
ViT魯棒性的提高不是由于攻擊優(yōu)化不足造成的立镶。
我們首先通過(guò)繪制具有足夠攻擊步驟的損失圖來(lái)證明壁袄,在白盒攻擊中,ViT具有更好的魯棒性并不是由于ViT中的困難優(yōu)化造成的媚媒。
圖7顯示了ViT-S/16和ResNet18的交叉熵?fù)p失與各種PGD攻擊步驟之間的關(guān)系嗜逻。如圖所示,ViT的損失曲線(xiàn)收斂于比RestNet18低得多的值缭召,這表明ViT的魯棒性提高不是由于攻擊優(yōu)化不足造成的栈顷。
圖8顯示了針對(duì)不同攻擊半徑(“eps”)和攻擊步驟(“步驟”)的PGD攻擊的更多目標(biāo)模型的魯棒精度逆日。視覺(jué)Transformers擁有比CNN更暗的方塊,這代表了它們對(duì)PGD攻擊的超強(qiáng)對(duì)抗魯棒性萄凤。
Hopfield網(wǎng)絡(luò)視角
最近室抽,Ramsauer等人(2020)證明了Transformers中的注意機(jī)制與現(xiàn)代Hopfield網(wǎng)絡(luò)(Krotov&Hopfield(2016))之間的等效性。此外蛙卤,在簡(jiǎn)單的Hopfield網(wǎng)絡(luò)(一層類(lèi)似注意力的網(wǎng)絡(luò))和數(shù)據(jù)集(MNIST)上狠半,Krotov&Hopfield(2018)顯示了更強(qiáng)的對(duì)抗魯棒性。因此颤难,Transformers中的注意力與Hopfield網(wǎng)絡(luò)的聯(lián)系可以用來(lái)解釋VIT對(duì)抗魯棒性的提高神年。
E????CIFAR-10的實(shí)驗(yàn)
我們選擇ImageNet作為基準(zhǔn),因?yàn)楫?dāng)直接在像Cifar這樣的小數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)行嗤,VIT很難收斂已日。因此,我們對(duì)VIT進(jìn)行了微調(diào)栅屏。如表6所示飘千,ViT-B/4比WideResNet具有更高的魯棒精度,這與ImageNet的趨勢(shì)一致栈雳。
F????SOTA-VIT結(jié)構(gòu)的實(shí)驗(yàn)
在本節(jié)中,我們補(bǔ)充了最近提出的SOTA VIT的實(shí)驗(yàn)結(jié)果哥纫。
Swin Trasnformer(Liu等人霉旗,2021年)使用移位窗口方案計(jì)算表示,該方案通過(guò)將自注意計(jì)算限制在非重疊的局部窗口蛀骇,同時(shí)允許跨窗口連接厌秒,從而帶來(lái)更高的效率。
DeiT(Touvron等人擅憔,2021年)使用CNN教師提供的數(shù)據(jù)增強(qiáng)或蒸餾以及額外的蒸餾token鸵闪,進(jìn)一步提高了ViTs的性能。
SAM ViT(Chen等人暑诸,2021年)使用銳度感知最小化(Foret等人蚌讼,2020年)在ImageNet上從頭開(kāi)始訓(xùn)練ViT,無(wú)需大規(guī)模預(yù)訓(xùn)練或強(qiáng)大的數(shù)據(jù)增強(qiáng)个榕。
表7總結(jié)了我們實(shí)驗(yàn)中研究的模型的信息啦逆。表7中SWITransformers的窗口尺寸為7。這些模型的預(yù)訓(xùn)練權(quán)重在timm軟件包中提供笛洛。
表8顯示了表7中ViTs在不同半徑的40步PGD攻擊下的干凈和穩(wěn)健精度。自動(dòng)攻擊的結(jié)果如表9所示乃坤。Swin transformers引入了移位窗口方案苛让,將自關(guān)注計(jì)算限制在非重疊的局部窗口上沟蔑,根據(jù)上述結(jié)果,這損害了token方案作為token的魯棒性狱杰。