@article{hu2019a,
title={A New Defense Against Adversarial Images: Turning a Weakness into a Strength},
author={Hu, Shengyuan and Yu, Tao and Guo, Chuan and Chao, Weilun and Weinberger, Kilian Q},
pages={1633--1644},
year={2019}}
代碼.
概
本文介紹了一種檢測(cè)是否為adversarial sample的defense.
主要內(nèi)容
準(zhǔn)則1
一般的CNN網(wǎng)絡(luò), 抗干擾(隨機(jī)噪聲)的能力是很強(qiáng)的, 這說(shuō)明, 數(shù)據(jù)分布應(yīng)當(dāng)是如下圖一樣, (其類別為) 的周圍的點(diǎn)大部分類別仍為, 落入需要一些更強(qiáng)的干擾(如gradient-based adversaries).
這啟發(fā)了作者, 采樣, 比較
其中為網(wǎng)絡(luò), 其輸出為概率向量, 顯然越大, 說(shuō)明對(duì)隨機(jī)噪聲的抗干擾能力不強(qiáng), 說(shuō)明越有可能是adversarial sample.
準(zhǔn)則2
同樣如上圖, 可以發(fā)現(xiàn), 普通的樣本往往落在分類邊界周圍, 所以利用adversaries 可以很容易(表現(xiàn)為迭代次數(shù)少)就能將其轉(zhuǎn)移到另外的類別區(qū)域中去, 相反的, adversarial samples往往落在分類區(qū)域內(nèi)部, 所以如果我們將adversarial samples移動(dòng)到別的區(qū)域是不容易的(表現(xiàn)為需要更多的迭代次數(shù)).
所以, 假設(shè)將移動(dòng)到別的區(qū)域內(nèi)的最少迭代次數(shù)為, 越大越有可能是adversarial samples. 由于攻擊分為untarget, target所以, 所以作者也將準(zhǔn)則2細(xì)分為C2(t/u)
總策略
有了, 當(dāng)其中任何一個(gè)大于(分別)時(shí), 我們就認(rèn)為是一個(gè)adversarial sample, 其中是認(rèn)為設(shè)置的閾值.
注: 這倆個(gè)直覺(jué)還是挺有趣的, 只是感覺(jué)很難實(shí)用, 畢竟這些指標(biāo)不僅是依賴于網(wǎng)絡(luò)本身, 對(duì)干凈數(shù)據(jù)也是一個(gè)挑戰(zhàn).