概
作者認為, adversarial samples 和 natural samples的分布是不同, 結果二者的輸出logits的分布也是不同的, 那么能否通過此來還原正確的類別呢?
主要內容
思路是這樣子的, 假設原本的網絡為, natural樣本和adversarial樣本分別得到和, 根據假設(發(fā)現(xiàn))二者的分布是不同的. 構建一個新的判別器, 將和作為新的輸入, 自然我們希望natrual樣本的的輸出還是, 而adversarial樣本的被轉換為. 如果能夠做到, 那么就成為了一個防御手段.
實驗發(fā)現(xiàn), 這種想法是有效的, 且效率非常高, 甚至能夠提高clean accuracy !
實驗
論文沒有開放代碼, 個人的實驗結果不是很理想, 當然可能和在小數(shù)據集上跑有關系. 另外論文沒有說清楚adversarial samples是如何構造的. 因為如果是單純通過原有的網絡構造對抗樣本再利用恢復是不可靠的, 應該在的基礎上構造.