概
作者認為, adversarial samples 和 natural samples的分布是不同, 結果二者的輸出logits的分布也是不同的, 那么能否通過此來還原正確的類別呢?
在這里插入圖片描述
主要內容
在這里插入圖片描述
思路是這樣子的, 假設原本的網絡為, natural樣本
和adversarial樣本
分別得到
和
, 根據假設(發(fā)現(xiàn))二者的分布是不同的. 構建一個新的判別器
, 將
和
作為新的輸入, 自然我們希望natrual樣本的
的輸出還是
, 而adversarial樣本的
被轉換為
. 如果能夠做到, 那么
就成為了一個防御手段.
實驗發(fā)現(xiàn), 這種想法是有效的, 且效率非常高, 甚至能夠提高clean accuracy !
實驗
論文沒有開放代碼, 個人的實驗結果不是很理想, 當然可能和在小數(shù)據集上跑有關系. 另外論文沒有說清楚adversarial samples是如何構造的. 因為如果是單純通過原有的網絡構造對抗樣本再利用恢復是不可靠的, 應該在
的基礎上構造.