學(xué)號:20021210879
姓名:曹卓為
【嵌牛導(dǎo)讀】給出一些關(guān)于對抗機器學(xué)習(xí)在圖像分類中的最新研究進展赶站。
【嵌牛鼻子】圖像分類中的對抗機器學(xué)習(xí)
【嵌牛正文】
原文作者:孫裕道
原文鏈接:https://mp.weixin.qq.com/s/pZH6ZZSCqDR3BCY6zopV4Q
引言
? ? ? 最近百度自動駕駛出租車 Apollo GO 服務(wù)在北京全面開放,可見 AI 的各類應(yīng)用在我們的日常生活中的滲透的廣度和深度均芽。需要提高警惕的是根植于深度神經(jīng)網(wǎng)絡(luò)模型的一個安全 bug(對樣樣本)也會隨著各類 AI 應(yīng)用的廣泛鋪展增多起來,自然對對抗攻擊的防御性手段需要格外重視俐芯。
? ? ? 在該論文中篮绰,作者旨在為所有讀者從防御者的角度上提供一個關(guān)于對抗機器學(xué)習(xí)在圖像分類中的最新研究進展,并且作者對現(xiàn)有的對抗攻擊和對抗防御的方法以及對抗樣本產(chǎn)生的原因進行了分類和整理镇眷,非常全面值得一讀咬最。
論文貢獻
? ? ? 該論文的貢獻可以歸結(jié)為如下五點,分別如下所示:
? ? ? 更新一些現(xiàn)有的分類方法法欠动,以便對不同類型的對抗樣本進行分類
? ? ? 基于新分類法的對抗攻擊防御的機進總結(jié)和分析
? ? ? 將現(xiàn)有關(guān)于對抗樣本存在原因的文獻進行匯總
? ? ? 提出了一些在設(shè)計和評估防御措施時應(yīng)遵循的重要指導(dǎo)原則
? ? ? 對該領(lǐng)域未來研究方向的進行了探討
卷積神經(jīng)網(wǎng)絡(luò)簡介
? ? ? CNN 體系結(jié)構(gòu)通常通過使用卷積層和池化層來執(zhí)行特征學(xué)習(xí)永乌,這些層分別從圖像中提取有用的特征并降低其空間維數(shù)惑申。在特征學(xué)習(xí)之后會連接全連接層。在分類任務(wù)中翅雏,會輸出一個概率向量進行分類圈驼。如下圖描述了一個 CNN 的標(biāo)準(zhǔn)架構(gòu)示例。
? ? ? 計算機視覺領(lǐng)域的一項重要競賽被稱為 ILSVRC(ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽)望几,鼓勵人們創(chuàng)建分類準(zhǔn)確率更高的 CNN 架構(gòu)绩脆。下圖所示顯示了 ILSVRC 挑戰(zhàn)中的一些脫穎而出的 CNN 框架,分別是 AlexNet橄抹、ZFNet靴迫、VGGNet、GoogLeNet楼誓、ResNet玉锌、Trimpsnet2 和 SENet。并且自 2015 年以來慌随,CNNs 已經(jīng)超越了人類的表現(xiàn)芬沉。
對抗樣本和對抗攻擊
4.1 對抗攻擊分類
? ? ? 對抗攻擊的分類可以按照三個方面進行劃分,分別是對抗擾動的擾動范圍阁猜,對抗擾動的可見性和對抗擾動的測量方法丸逸。
4.1.1 對抗擾動范圍
? ? ? ? 對抗樣本按照對抗擾動范圍可能分為單個范圍擾動或通用范圍擾動。
? ? ? 單個范圍擾動:單個范圍的擾動在文獻中是最常見的剃袍,是針對于每一張輸入圖像進行對抗攻擊黄刚。
? ? ? 通用范圍擾動:通用范圍擾動是圖像無關(guān)的擾動,即它們是獨立于任何輸入樣本而產(chǎn)生的擾動民效。然而憔维,當(dāng)它們被應(yīng)用于一個合法的圖像時,由此產(chǎn)生的對抗性示例通常會導(dǎo)致模型錯誤分類畏邢。通用擾動允許在實詞場景中更容易進行對抗性攻擊业扒,因為這些擾動只需精心設(shè)計一次就可以插入到屬于某個數(shù)據(jù)集的任何樣本中。
4.1.2 對抗擾動的可見性
? ? ? 對抗樣本按照對抗擾動的可見性可以分為最優(yōu)擾動舒萎,不可分辨的擾動程储,可見擾動,物理擾動臂寝,愚弄噪聲章鲤,普通噪聲。
? ? ? 最優(yōu)擾動:這些擾動對人眼來說是不可察覺的咆贬,但有助于導(dǎo)致深度學(xué)習(xí)模型的錯誤分類败徊,通常對預(yù)測具有很高的可信度;
? ? ? 不可分辨的擾動:無法區(qū)分的擾動對人眼來說也是無法察覺的掏缎,但它們不足以愚弄深度學(xué)習(xí)模型皱蹦;
? ? ? 可見擾動:當(dāng)插入到圖像中時煤杀,可以愚弄深度學(xué)習(xí)模型的擾動。然而根欧,它們也很容易被人類發(fā)現(xiàn)怜珍;
? ? ? 物理擾動:擾動是否設(shè)計在像素范圍之外,并實際添加到現(xiàn)實世界中的對象本身凤粗。盡管有些研究已經(jīng)將物理擾動應(yīng)用于圖像分類,但它們通常都是針對涉及目標(biāo)檢測的任務(wù)今豆。
? ? ? 愚弄噪聲:使圖像腐化到人類無法辨認(rèn)的程度的擾動嫌拣。然而,分類模型認(rèn)為這些損壞的圖像屬于原始分類問題的一類呆躲,有時賦予它們對預(yù)測的高置信度异逐。
? ? ? 普通噪聲:與擾動的惡意性質(zhì)不同,噪聲是非惡意的或非最優(yōu)的破壞插掂,可能存在于輸入圖像中或插入到輸入圖像中灰瞻。噪聲的一個例子是高斯噪聲。
4.2 對抗攻擊的分類
? ? ? 在安全的背景下辅甥,對抗性攻擊和攻擊者被歸為威脅模型酝润。威脅模型定義了防御設(shè)計的條件,在這種情況下璃弄,防御系統(tǒng)能夠為特定類型的攻擊和攻擊者提供安全保障要销。
? ? ? 根據(jù)攻擊者對目標(biāo)分類器的知識(例如其參數(shù)和體系結(jié)構(gòu))和對抗攻擊的目標(biāo),以及如何執(zhí)行對抗性攻擊可以將威脅模型可以分為以下幾個方面分別是攻擊者的影響夏块,攻擊者的知識疏咐,安全侵犯,攻擊特異性脐供,攻擊方法浑塞。
4.2.1 攻擊者的影響力
? ? ? 攻擊者的影響力表示的是攻擊者控制深度學(xué)習(xí)模型力度≌海考慮到對分類模型的影響酌壕,攻擊者可以執(zhí)行兩種類型的攻擊分別是中毒攻擊和逃避或試探性攻擊。
? ? ? 中毒攻擊:在中毒攻擊中匹颤,攻擊者在訓(xùn)練階段會對深度學(xué)習(xí)模型產(chǎn)生影響仅孩。在這種類型的攻擊中,訓(xùn)練樣本被破壞或訓(xùn)練集被攻擊者污染印蓖,以產(chǎn)生與原始數(shù)據(jù)分布不相容的分類模型辽慕;
? ? ? 規(guī)避或試探性攻擊:與中毒攻擊相比,在試探性攻擊中赦肃,攻擊者在推理或測試階段對深層學(xué)習(xí)模型產(chǎn)生影響溅蛉。規(guī)避攻擊是最常見的攻擊類型公浪,攻擊者會精心設(shè)計對抗樣本,導(dǎo)致深度學(xué)習(xí)模型錯誤分類船侧,通常對預(yù)測具有較高的可信度欠气。規(guī)避攻擊還具有探索性,攻擊者的目標(biāo)是收集有關(guān)目標(biāo)模型的信息镜撩,例如其參數(shù)预柒、體系結(jié)構(gòu)、損失函數(shù)等袁梗。最常見的探索性攻擊是輸入/輸出攻擊宜鸯,攻擊者向目標(biāo)模型提供由其生成的對抗樣本。然后遮怜,攻擊者觀察模型給出的輸出淋袖,并嘗試重新生成一個替代或代理模型,以便可以模仿目標(biāo)模型锯梁。輸入/輸出攻擊通常是執(zhí)行黑盒攻擊的第一步即碗。
4.2.2 攻擊者的知識
? ? ? 考慮到攻擊者對目標(biāo)模型的知識,可以進行三種類型的攻擊分別是白盒攻擊陌凳,黑盒攻擊和灰盒攻擊剥懒。
? ? ? 白盒攻擊:攻擊者可以完全訪問模型甚至防御的參數(shù)和架構(gòu)。由于采取了保護措施(例如冯遂,用戶控制)蕊肥,以防止未經(jīng)授權(quán)的人員訪問系統(tǒng)組件,這種攻擊場景在真實應(yīng)用程序中可能是最不常見的。相比之下,白盒攻擊通常是最強大的對抗攻擊類型寺酪,因此,通常用于評估防御和/或分類模型在惡劣條件下的魯棒性展东。
? ? ? 黑盒攻擊:攻擊者既不能訪問也不知道有關(guān)分類模型和防御方法的任何信息。黑盒攻擊對攻擊者施加了更多的限制炒俱,盡管如此盐肃,當(dāng)針對部署的模型再現(xiàn)外部對抗性攻擊時,黑盒攻擊非常重要权悟,而部署模型又能更好地代表真實世界的場景砸王。盡管黑盒攻擊的執(zhí)行難度更大,但由于對抗樣本的可轉(zhuǎn)移性峦阁,攻擊者仍然可以避開目標(biāo)模型谦铃。利用這一特性,攻擊者可以通過一個稱為替代或代理模型的因果攻擊創(chuàng)建一個經(jīng)驗?zāi)P屠莆簦撃P偷膮?shù)與目標(biāo)模型的參數(shù)相似驹闰。
? ? ? 灰盒攻擊:在灰盒攻擊中瘪菌,攻擊者可以訪問分類模型,但不能訪問任何有關(guān)防御方法的信息嘹朗∈γ睿灰盒攻擊是評估防御和分類器的一種中間選擇,因為與黑盒攻擊相比屹培,灰盒攻擊施加了更大的威脅級別默穴,但在向攻擊者提供有關(guān)防御方法的所有信息時(如在白盒場景中執(zhí)行的),灰盒攻擊不會給攻擊者帶來很大的優(yōu)勢褪秀。
4.2.3 安全入侵
? ? ? 當(dāng)對分類器執(zhí)行對抗攻擊時壁顶,安全侵犯通常與攻擊者的目標(biāo)相關(guān)聯(lián),并會影響目標(biāo)分類器的完整性溜歪、可用性和隱私。
? ? ? 完整性入侵:這是對抗攻擊最常見的侵犯行為许蓖,當(dāng)由某個攻擊者生成的對抗樣本能夠繞過現(xiàn)有的防御對策并導(dǎo)致目標(biāo)模型錯誤分類蝴猪,但不會損害系統(tǒng)的功能時,完整性會受到影響膊爪;
? ? ? 可用性入侵:當(dāng)系統(tǒng)功能受到破壞時自阱,從而導(dǎo)致拒絕服務(wù)時發(fā)生∶壮辏可用性入侵主要通過提高預(yù)測的不確定性來影響學(xué)習(xí)系統(tǒng)的可靠性沛豌;
? ? ? ? 隱私入侵:當(dāng)攻擊者能夠訪問有關(guān)目標(biāo)模型的相關(guān)信息時發(fā)生,例如其參數(shù)赃额、體系結(jié)構(gòu)和使用的學(xué)習(xí)算法加派。深度學(xué)習(xí)中的隱私侵犯與黑盒攻擊密切相關(guān),在黑盒攻擊中跳芳,攻擊者查詢目標(biāo)模型芍锦,以便對其進行反向工程,并生成一個代理模型飞盆,從而對對抗樣本更接近原始數(shù)據(jù)分布娄琉。
論文總結(jié)
自從 Szegedy 等人的工作首次發(fā)現(xiàn)這個問題以來,科學(xué)界一直在努力尋找其他方法來防御對抗攻擊吓歇。但是在眾多的防御方法中孽水,雖然一開始很有希望,但已經(jīng)證明所有的防御手段都是脆弱的城看,對阻止強大對抗攻擊是無效的女气。
在這種攻擊和防御之間的軍備競賽使得對抗機器學(xué)習(xí)領(lǐng)域相當(dāng)活躍和活躍,幾乎每天都有新的防御方法的出現(xiàn)析命。該論文將對抗攻擊主卫,對抗防御逃默,以及對抗樣本存在的解釋性做了一次全面的梳理,非常值得一讀簇搅。