Towards Evaluating the Robustness of Neural Networks（C&W）

論文地址

摘要

神經(jīng)網(wǎng)絡(luò)為大多數(shù)機器學習任務提供了最新的結(jié)果董习。不幸的是，神經(jīng)網(wǎng)絡(luò)容易受到對抗性例子的攻擊：給定輸入 $x$ 和任何目標分類 $t$ 蛹找，是否有可能找到新的輸入 $x'$ 與 $x$ 類似建蹄，但歸類為 $t$ 茴扁。這使得難以將神經(jīng)網(wǎng)絡(luò)應用到安全關(guān)鍵的領(lǐng)域登下。防御性蒸餾是最近提出的一種方法卓练，該方法可以采用任意神經(jīng)網(wǎng)絡(luò)，并增強其魯棒性晒哄，將當前攻擊找到敵方實例的能力的成功率從95％降低到0.5％睁宰。

在本文中，我們通過引入三種新的攻擊算法來證明防御性蒸餾不會顯著提高神經(jīng)網(wǎng)絡(luò)的魯棒性揩晴，這三種新的攻擊算法以100％的概率在蒸餾和未蒸餾神經(jīng)網(wǎng)絡(luò)上均成功勋陪。我們的攻擊是針對文獻中先前使用的三個距離度量量身定制的贪磺，與以前的對抗性示例生成算法相比硫兰，我們的攻擊通常更為有效（而且永遠不會更糟）。此外寒锚，我們建議在一個簡單的可轉(zhuǎn)移性測試中使用高可信度的對抗性示例劫映，我們證明該示例也可以用于打破防御性蒸餾违孝。我們希望我們的攻擊將被用作未來防御嘗試的基準，以創(chuàng)建能夠抵抗對抗性示例的神經(jīng)網(wǎng)絡(luò)泳赋。

1.介紹

深度神經(jīng)網(wǎng)絡(luò)已在許多困難的機器學習任務上變得越來越有效雌桑。在圖像識別領(lǐng)域，他們能夠以接近人類的準確性識別圖像祖今。它們還用于語音識別校坑，自然語言處理和玩游戲。但是千诬，研究人員發(fā)現(xiàn)耍目，現(xiàn)有的神經(jīng)網(wǎng)絡(luò)容易受到攻擊。 Szegedy等人首先注意到圖像分類領(lǐng)域中存在對抗性示例：可以對圖像進行少量轉(zhuǎn)換徐绑，從而改變圖像的分類方式邪驮。

通常，所需的更改總量可能很小傲茄，以至于無法檢測到毅访。攻擊者可以找到對抗性示例的程度限制了可以使用神經(jīng)網(wǎng)絡(luò)的領(lǐng)域。例如盘榨，如果我們在無人駕駛汽車中使用神經(jīng)網(wǎng)絡(luò)喻粹，那么對抗性示例可能會使攻擊者導致汽車采取不必要的行動。對抗性例子的存在激發(fā)了關(guān)于如何針對此類攻擊強化神經(jīng)網(wǎng)絡(luò)的研究草巡。許多早期的嘗試來保護神經(jīng)網(wǎng)絡(luò)失敗或僅提供了邊際魯棒性改進磷斧。

防御性蒸餾就是最近提出的一種針對對抗性例子強化神經(jīng)網(wǎng)絡(luò)的防御措施。初步分析被證明是非常有前途的：防御性蒸餾擊敗了現(xiàn)有的攻擊算法捷犹，并將其成功概率從95％降低至0.5％弛饭。防御性蒸餾可以應用于任何前饋神經(jīng)網(wǎng)絡(luò)，只需要一個簡單的重新訓練步驟萍歉，并且是目前為對抗性示例提供強大安全保證的唯一防御之一侣颂。

通常，可以采用兩種不同的方法來評估神經(jīng)網(wǎng)絡(luò)的健壯性：嘗試證明下界枪孩，或構(gòu)造證明上限的攻擊憔晒。前一種方法雖然合理，但實際上很難實施蔑舞，所有嘗試都需要近似值拒担。另一方面，如果在后一種方法中使用的攻擊強度不足且經(jīng)常失敗攻询，則上限可能無濟于事从撼。

在本文中，我們創(chuàng)建了一組攻擊钧栖，可用于構(gòu)建神經(jīng)網(wǎng)絡(luò)魯棒性的上限低零。作為案例研究婆翔，我們使用這些攻擊來證明防御性蒸餾實際上并沒有消除對抗性例子。我們構(gòu)造了三個新的攻擊（在三個先前使用的距離度量標準下： $L_0$ 掏婶， $L_2$ 和 $L_{\infty}$ ）啃奴，這些攻擊成功地為防御性蒸餾網(wǎng)絡(luò)上100％的圖像找到了對抗示例。防御性提煉可以阻止以前發(fā)布的攻擊雄妥，但是它無法抵抗我們在本文中介紹的更強大的攻擊技術(shù)最蕾。該案例研究表明，通常需要更好的技術(shù)來評估神經(jīng)網(wǎng)絡(luò)的魯棒性：盡管蒸餾已被證明可以抵御當前的最新攻擊老厌，但無法抵御我們更強大的攻擊揖膜。此外，在將我們的攻擊與標準無擔保模型上的最新技術(shù)進行比較時梅桩，我們的方法生成的對抗性示例在每種情況下的總失真都較小壹粟。我們建議我們的攻擊是評估候選防御的更好基準：在對新的可能防御抱有信心之前，我們建議設(shè)計人員至少檢查它是否可以抵抗我們的攻擊宿百。

我們還建議使用高可信度的對抗性示例來評估防御的魯棒性趁仙。傳遞性，是眾所周知的屬性垦页，一個模型上的對抗性示例通常在另一個模型上也具有對抗性雀费。我們證明了我們攻擊的對抗性例子可以從不安全模型轉(zhuǎn)移到防御性提煉(安全)模型中。總的來說痊焊，我們認為任何防御都必須證明其能夠破壞可傳遞性盏袄。

我們評估對三個標準數(shù)據(jù)集的攻擊：MNIST ，一個數(shù)字識別任務（0-9）薄啥； CIFAR-10 辕羽，一個小圖像識別任務，也有10個類別垄惧；和ImageNet 刁愿，這是一個具有1000個類別的大圖像識別任務。圖1顯示了我們的技術(shù)在經(jīng)過MNIST和CIFAR數(shù)據(jù)集訓練的防御性蒸餾網(wǎng)絡(luò)上生成的對抗性示例到逊。在ImageNet分類任務的一個極端示例中铣口，我們可以通過僅更改每個像素的最低位來使Inception v3 網(wǎng)絡(luò)對圖像進行錯誤分類。這樣的變化是肉眼無法察覺的觉壶。為了使其他人更容易地使用我們的工作來評估其他防御的魯棒性脑题，我們所有的對抗性示例生成算法（以及用于訓練我們使用的模型，再現(xiàn)我們呈現(xiàn)的結(jié)果的代碼）都可以在以下網(wǎng)址在線獲得： http://nicholas.carlini.com/code/nn_robust_attacks

本文做出了以下貢獻：

我們針對 $L_0$ 铜靶， $L_2$ 和 $L_{\infty}$ 距離度量引入了三種新的攻擊叔遂。我們的攻擊比以前的方法明顯更有效。我們的 $L_0$ 攻擊是第一個發(fā)布的攻擊，它可能導致ImageNet數(shù)據(jù)集上的目標錯誤分類掏熬。
我們將這些攻擊應用于防御性蒸餾，發(fā)現(xiàn)與未蒸餾網(wǎng)絡(luò)相比秒梅，蒸餾幾乎沒有提供安全益處旗芬。
我們建議在簡單的可傳遞性測試中使用高可信度對抗性示例來評估防御，并表明該測試可以打破防御性蒸餾捆蜀。
我們系統(tǒng)地評估目標函數(shù)的選擇以找到對抗性示例疮丛，并表明選擇可以極大地影響攻擊的效果

2.背景

A. Threat Model

越來越多的設(shè)置使用機器學習來做出可能對安全性至關(guān)重要的決策：自動駕駛汽車，無人機辆它，機器人誊薄，異常檢測，惡意軟件分類锰茉，語音識別和語音命令識別呢蔫，NLP 等。因此飒筑，了解深度學習的安全屬性已成為該領(lǐng)域的關(guān)鍵問題片吊。我們可以構(gòu)造對抗性示例的程度會影響我們可能希望（或不想）使用神經(jīng)網(wǎng)絡(luò)的設(shè)置。在語音識別領(lǐng)域协屡，最近的工作表明俏脊，對于機器學習算法而言，生成語音聽起來像語音的音頻是可能的肤晓，但對于人類而言爷贫，則不是。這可用于在用戶不知情的情況下控制他們的設(shè)備补憾。例如漫萄，通過播放帶有隱藏語音命令的視頻，可能會導致智能手機訪問惡意網(wǎng)頁盈匾，從而導致偷渡式下載卷胯。這項工作集中于常規(guī)技術(shù)（高斯混合模型和隱馬爾可夫模型），但是隨著語音識別越來越多地使用神經(jīng)網(wǎng)絡(luò)威酒，對抗性示例的研究在這一領(lǐng)域變得很重要窑睁。

在惡意軟件分類的領(lǐng)域，對抗性示例的存在不僅限制了其潛在的應用程序設(shè)置葵孤，而且完全破壞了其目的：一個能夠?qū)阂廛浖募M行少量修改以使其仍為惡意軟件但被分類的對手作為良性的担钮，已經(jīng)完全擊敗了惡意軟件分類器。回到前面介紹的對自動駕駛汽車的威脅，這并不是不切實際的攻擊：已經(jīng)證明在拍照后箭昵，現(xiàn)實世界中可能存在對抗性例子俭嘁。然后狠轻，關(guān)鍵問題就變成了我們必須增加多少失真才能導致分類發(fā)生變化苏遥。在每個域中饼拍，我們必須使用的距離度量是不同的。在本文重點關(guān)注的圖像空間中田炭，我們依靠先前的工作表明各種 $L_p$ 范式是人類感知距離的合理近似值（有關(guān)更多信息师抄，請參見II-D節(jié)）

我們在本文中假設(shè)對手可以完全訪問神經(jīng)網(wǎng)絡(luò)，包括體系結(jié)構(gòu)和所有參數(shù)教硫，并且可以白盒方式使用叨吮。這是一個保守和現(xiàn)實的假設(shè)：先前的工作已經(jīng)表明在黑盒訪問目標模型的情況下，有可能訓練替代模型瞬矩，然后通過攻擊替代模型茶鉴，我們可以將這些攻擊轉(zhuǎn)移到目標模型。

考慮到這些威脅景用，已經(jīng)進行了各種嘗試涵叮，以構(gòu)建能夠增強神經(jīng)網(wǎng)絡(luò)健壯性的防御措施，這被定義為衡量神經(jīng)網(wǎng)絡(luò)變得多么容易的一種措施伞插。查找接近其原始輸入的對抗性示例围肥。在本文中，我們研究了其中之一蜂怎，即蒸餾作為防御穆刻，希望可以確保任意神經(jīng)網(wǎng)絡(luò)的安全。事實證明杠步，這種類型的防御性蒸餾使現(xiàn)有的攻擊技術(shù)幾乎不可能生成對抗性示例氢伟。我們發(fā)現(xiàn)，盡管當前的最新技術(shù)未能找到防御性提煉網(wǎng)絡(luò)的對抗性示例幽歼，但我們在本文中開發(fā)的更強的攻擊能力卻可以構(gòu)建對抗性示例朵锣。

B. Neural Networks and Notation

神經(jīng)網(wǎng)絡(luò)是函數(shù) $F(x)= y$ ，它接受輸入 $x∈\Bbb R^n$ 并產(chǎn)生輸出 $y∈\Bbb R^m$ 甸私。模型F還隱式地依賴于某些模型參數(shù) $θ$ 诚些；在我們的工作中，模型是固定的皇型，因此為方便起見诬烹，我們不顯示對 $θ$ 的依賴性。在本文中弃鸦，我們專注于用作 $m$ 類分類器的神經(jīng)網(wǎng)絡(luò)绞吁。使用 $softmax$ 函數(shù)計算網(wǎng)絡(luò)的輸出，該函數(shù)可確保輸出向量 $y$ 滿足 $0≤y_i≤1$ 且 $y_1 +···+ y_m =1$ 唬格。因此家破，將輸出向量 $y$ 視為概率分布颜说，即 $y_i$ 被視為輸入 $x$ 具有類別 $i$ 的概率。分類器將標簽 $C(x)= \arg \max_i F(x)_i$ 分配給輸入 $x$ 汰聋。令 $C^?(x)$ 為 $x$ 的正確標簽门粪。 $softmax$ 函數(shù)的輸入稱為 $logits$ 。我們使用Papernot等人的符號烹困。將 $F$ 定義為包括 $softmax$ 函數(shù)的完整神經(jīng)網(wǎng)絡(luò)玄妈，將 $Z(x)= z$ 定義為除 $softmax$ 外的所有層的輸出（因此z是對數(shù)），并且

對于一些非線性激活函數(shù) $σ$ 韭邓，一些模型權(quán)重的矩陣 $θ_i$ 措近，和一些模型偏差的向量 $\hat{θ_i}$ 溶弟。 $θ$ 和 $\hat{θ}$ 共同構(gòu)成模型參數(shù)女淑。 $σ$ 的常用選擇有tanh ，sigmoid辜御，ReLU 或ELU 鸭你。在本文中，我們主要關(guān)注使用ReLU激活功能的網(wǎng)絡(luò)擒权，因為它是目前使用最廣泛的激活功能袱巨。

我們使用圖像分類作為我們的主要評估領(lǐng)域。 $h×w$ 像素的灰度圖像是二維向量 $x∈\Bbb R^{hw}$ 碳抄，其中 $x_i$ 表示像素 $i$ 的強度愉老，并縮放到[0，1]范圍內(nèi)剖效。彩色RGB圖像是三維向量 $x∈\Bbb R^{3hw}$ 嫉入。我們不會將RGB圖像轉(zhuǎn)換為HSV，HSL或其他彩色圖像的圓柱坐標表示形式：神經(jīng)網(wǎng)絡(luò)會作用于原始像素值璧尸。

C. Adversarial Examples

Szegedy等人首先指出了對抗性例子的存在：給定有效輸入 $x$ 和目標 $t \neq C ^?(x)$ 咒林，通常可以找到相似的輸入 $x'$ 這樣爷光， $C(x')= t$ 垫竞， $x$ ， $x'$ 根據(jù)某個距離度量是接近的蛀序。具有此屬性的示例 $x'$ 被稱為目標對抗示例欢瞪。文獻中還討論了一種不那么強大的攻擊，而是要求使用非針對性的對抗示例：我們沒有搜索 $x$ 并將其分類為給定的目標類徐裸，而是僅搜索輸入 $x'$ 從而使 $C(x') \neq C ^?(x)$ 并且 $x$ 引有， $x'$ 接近。非目標攻擊嚴格地沒有目標攻擊強大倦逐，我們在本文中不予考慮譬正。3相反宫补，我們針對目標攻擊考慮三種不同的方法來選擇目標類別：

平均情況：在以下情況下統(tǒng)一選擇目標類別在不是正確標簽的標簽之間隨機。
最佳情況：對所有不正確的類別進行攻擊曾我，并報告最難攻擊的目標類別粉怕。
最壞的情況：對所有不正確的類別進行攻擊，并報告最難攻擊的目標類別抒巢。

在所有評估中贫贝，我們執(zhí)行所有三種類型的攻擊：最佳情況，平均情況和最壞情況蛉谜。請注意稚晚，如果分類器在80％的時間內(nèi)僅是準確的，則最佳案例攻擊將需要在20％的案例中將其更改為0型诚。在ImageNet上客燕，出于效率考慮，我們通過從1,000種可能的目標類別中采樣100種隨機目標類別來估計最佳情況和最壞情況的攻擊狰贯。

D. Distance Metrics

在我們的對抗性示例定義中也搓，我們需要使用距離度量來量化相似性。在文獻中涵紊，存在三種廣泛使用的距離度量來生成對抗性示例傍妒，所有這些都是 $L_p$ 范數(shù)。 $L_p$ 距離寫成 $\begin{Vmatrix} x-x' \end{Vmatrix} _p$ 摸柄，其中p范數(shù) $\begin{Vmatrix} \cdot \end{Vmatrix} _p$ 定義為:

更詳細地說：
(1) $L_0$ 距離測量坐標 $i$ 的數(shù)量颤练，使得 $x_i \neq x'_i$ 。因此驱负， $L_0$ 距離對應于圖像中已更改的像素數(shù)嗦玖。
(在RGB圖像中，每個通道可以更改三個通道电媳。我們計算不同像素的數(shù)量踏揣，如果三種顏色中的任何一種不同，則認為兩個像素不同匾乓。我們不考慮攻擊者可以更改一個顏色平面但不能改變另一種顏色平面的距離度量捞稿。與其他未作此假設(shè)的L0攻擊進行比較時，我們放寬了此要求)
Papernot等人討論 $L_0$ 距離度量的使用拼缝，這是防御性蒸餾的安全性被論證的主要距離度量娱局。
(2) $L_2$ 距離測量 $x$ 和 $x'$ 之間的標準歐幾里得距離(均方根)。當許多像素有很多細微變化時咧七， $L_2$ 距離可以保持很小衰齐。在最初的對抗示例工作中使用了這種距離度量。
(3) $L_\infty$ 距離測量到任何坐標的最大變化：
$\begin{Vmatrix} x-x' \end{Vmatrix} _\infty = max(|x_1-x'_1 |继阻，...耻涛，|x_n-x'_n |).$

對于圖像废酷，我們可以想象有一個最大的預算，并且每個像素被允許最多更改此限制抹缕，而對修改的像素數(shù)沒有限制澈蟆。 Goodfellow等人認為 $L_\infty$ 是要使用的最佳距離度量。在后續(xù)論文Papernot等人認為在此距離指標下蒸餾是安全的卓研。

沒有距離度量是與人類感知相似的完美度量趴俘，并且我們沒有準確判斷哪個距離度量是最佳的。我們認為奏赘，構(gòu)建和評估良好的距離度量標準是我們留給未來工作的重要研究問題寥闪。但是，由于大多數(shù)現(xiàn)有工作都選擇了這三個距離量度之一磨淌，并且由于防御性蒸餾認為其中的兩個距離量度是安全的疲憋，因此我們也使用這些距離量度并構(gòu)造對每個距離量度都優(yōu)于最新技術(shù)的攻擊這些距離指標。在報告本文中的所有數(shù)字時伦糯，我們使用上面定義的距離度量在[0柜某，1]范圍內(nèi)進行報告嗽元。 (也就是說敛纲，將灰度圖像中的像素從全開更改為全關(guān)將導 $L_2$ 變?yōu)?.0， $L_\infty$ 變?yōu)闉?.0剂癌，而不是255)

E. Defensive Distillation

我們簡要地概述了防御性分配淤翔。稍后在第八節(jié)中，我們將提供完整的描述佩谷。為了防御性地提取神經(jīng)網(wǎng)絡(luò)旁壮，首先要以標準方式在訓練數(shù)據(jù)上訓練具有相同架構(gòu)的網(wǎng)絡(luò)。當我們在訓練該網(wǎng)絡(luò)時計算softmax時谐檀，將其替換為更平滑的softmax版本（將對數(shù)除以某個常數(shù)T）抡谐。訓練結(jié)束時，通過在每個訓練實例上評估該網(wǎng)絡(luò)并獲取網(wǎng)絡(luò)的輸出標簽來生成軟訓練標簽桐猬。

然后麦撵，丟棄第一個網(wǎng)絡(luò)并僅使用軟訓練標簽。通過這些標簽溃肪，訓練第二個網(wǎng)絡(luò)免胃，而不是在原始訓練標簽上進行訓練，而使用軟標簽惫撰。這訓練了第二個模型羔沙，使其表現(xiàn)得像第一個模型，并且軟標簽傳達了第一個模型學到的其他隱藏知識厨钻。此處的關(guān)鍵見解是扼雏，通過進行培訓以匹配第一個網(wǎng)絡(luò)坚嗜，我們有望避免針對任何培訓數(shù)據(jù)進行過度擬合。如果存在神經(jīng)網(wǎng)絡(luò)的原因是因為神經(jīng)網(wǎng)絡(luò)是高度非線性的诗充，并且在對抗示例中存在“盲點” 惶傻，那么防止這種類型的過度擬合可能會消除那些盲點。實際上其障，正如我們稍后將看到的银室，防御性蒸餾并不能消除對抗性的例子±恚可能發(fā)生這種情況的一個可能原因是蜈敢，其他人認為存在對抗性例子的原因不是由于高度非線性神經(jīng)網(wǎng)絡(luò)中的盲點，而是僅由于神經(jīng)網(wǎng)絡(luò)的局部線性性質(zhì)汽抚。這種所謂的線性假設(shè)看來是正確的抓狭，在這種解釋下，蒸餾不會增加神經(jīng)網(wǎng)絡(luò)的魯棒性可能就不足為奇了造烁。

F. Organization

本文的其余部分的結(jié)構(gòu)如下否过。在下一部分中，我們將調(diào)查文獻中為生成 $L_2$ 惭蟋， $L_\infty$ 和 $L_0$ 距離量度的對抗示例而提出的現(xiàn)有攻擊苗桂。然后，我們描述針對相同三個距離度量的攻擊算法告组，并為先前的工作提供卓越的結(jié)果煤伟。在開發(fā)了這些攻擊之后，我們將更詳細地討論防御性提煉木缝，并討論為什么現(xiàn)有攻擊未能在防御性提煉網(wǎng)絡(luò)上找到對抗性示例便锨。最后，我們使用新算法對防御性蒸餾進行了攻擊我碟，并表明它僅提供有限的價值放案。

3. 攻擊算法

A. L-BFGS(論文地址)

Szegedy等人使用框約束的L-BFGS生成對抗示例。給定一個圖像 $x$ 矫俺，他們的方法找到一個不同的圖像 $x'$ 吱殉，類似于 $L_2$ 距離下的 $x$ ，但分類器對其進行了不同的標記恳守。他們將問題建模為約束最小化問題

然而考婴，這個問題很難解決，因此催烘，Szegedy等人沥阱。而是解決以下問題:

其中 $loss_{F,l}$ 是將圖像映射到正實數(shù)的函數(shù), 使用的一種常見損失函數(shù)是交叉熵損失。進行線搜索以找到常數(shù) $c> 0$ 伊群，產(chǎn)生了最小距離的對抗示例：換句話說我們針對c的多個值反復解決此優(yōu)化問題考杉，使用對分搜索或任何其他用于一維優(yōu)化的方法自適應地更新 $c$ 策精。

B. Fast Gradient Sign(論文地址)

快速梯度符號方法與L-BFGS方法有兩個主要區(qū)別：首先，它針對 $L_\infty$ 距離度量進行了優(yōu)化崇棠，其次咽袜，它主要是為了快速而設(shè)計，而不是產(chǎn)生非常接近的對抗性示例枕稀。給定圖像 $x$ 快速梯度符號方法集:

其中 $\epsilon$ 被選為足夠小以便不被檢測询刹，而 $t$ 是目標標簽。直觀地說萎坷，對于每個像素凹联，快速梯度符號法利用損失函數(shù)的梯度來確定像素的強度應該朝哪個方向改變（是應該增加還是減少），以最小化損失函數(shù)哆档；然后蔽挠，它同時移動所有像素。值得注意的是瓜浸，快速梯度符號攻擊被設(shè)計成快速的澳淑，而不是最優(yōu)的。它并不意味著產(chǎn)生最小的對抗性干擾插佛。

$Iterative Gradient Sign$ 論文地址：Kurakin等人引入快速梯度符號法的一個簡單的改進杠巡，其中沒有采取一個單一的步驟大小 $\epsilon$ 在梯度符號的方向上，而是采取多個較小的步驟α朗涩，并用相同的 $\epsilon$ 對結(jié)果進行裁剪忽孽。具體來說绑改，先設(shè)定

然后在每次迭代

發(fā)現(xiàn)迭代梯度符號比快速梯度符號產(chǎn)生更好的結(jié)果谢床。

C. JSMA(論文地址)

Papernot等人引入了一種在 $L_0$ 距離下優(yōu)化的攻擊，稱為Jacobian-based Saliency Map Attack(基于雅可比的顯著性圖攻擊 JSMA)厘线。我們簡要概述了他們的攻擊算法识腿。為了獲得完整的描述和動力，我們鼓勵讀者閱讀其原始論文造壮。從高層次上講渡讼，這種攻擊是一種貪婪算法，該算法一次選擇像素以修改一個像素耳璧，從而在每次迭代中增加目標分類成箫。他們使用梯度 $?Z(x)_l$ 計算顯著圖，該顯著圖模擬了每個像素對結(jié)果分類的影響旨枯。較大的值表示更改此值將大大增加模型將圖像標記為目標類別 $l$ 的可能性蹬昌。給定顯著性圖，它會選擇最重要的像素并對其進行修改以增加 $l$ 類的可能性攀隔。重復此操作皂贩，直到修改了超過設(shè)置的像素閾值（可以檢測到攻擊）或成功更改分類為止栖榨。

更詳細地，我們首先根據(jù)一對像素 $p$ 明刷， $q$ 定義顯著圖婴栽。定義:

因此， $α_{pq}$ 代表像素 $p$ 和 $q$ 的變化量將改變目標分類辈末，而 $β_{pq}$ 代表像素 $p$ 和 $q$ 的變化量將改變所有其他輸出愚争。然后算法選擇

因此， $α_{pq}> 0$ (更有可能成為目標類別)挤聘， $β_{pq}<0$ (其他類別變得不太可能)准脂，并且 $-α_{pq}·β_{pq}$ 是最大。請注意檬洞，JSMA在計算中使用倒數(shù)第二層到最后一層的輸出 $Z$ 狸膏，也就是 $logits$ : $softmax$ $F$ 的輸出未使用。我們將此稱為JSMA-Z攻擊添怔。但是湾戳，當作者將此攻擊應用于防御性蒸餾網(wǎng)絡(luò)時，他們會修改攻擊广料，因此使用F代替Z砾脑。換句話說，他們的計算使用 $softmax(F)$ 的輸出而不是 $logits(Z)$ 艾杏。我們將此修改稱為JSMA-F攻擊

當圖像具有多個顏色通道(例如RGB)時韧衣，此攻擊將針對每個獨立更改的顏色通道的L0差異視為1(因此，如果一個像素的所有三個顏色通道均發(fā)生更改购桑，則L0范數(shù)將為3)畅铭。盡管我們認為這不是有意義的威脅模型，但與這種攻擊相比勃蜘，我們在兩種模型下進行評估硕噩。

D. Deepfool(論文地址)

Deepfool 是針對 $L_2$ 距離指標優(yōu)化的無目標攻擊技術(shù)。與前面討論的L-BFGS方法相比缭贡，它是有效的并且產(chǎn)生了更緊密的對抗性示例炉擅。作者通過想象神經(jīng)網(wǎng)絡(luò)是完全線性的，并通過一個超平面將每個類別彼此分開來構(gòu)造Deepfool阳惹。由此谍失，他們分析性地得出了此簡化問題的最佳解決方案，并構(gòu)造了對抗性示例莹汤。然后快鱼，由于神經(jīng)網(wǎng)絡(luò)實際上不是線性的，因此它們朝該解決方案邁出了一步，并再次重復了該過程攒巍。找到真實的對抗示例后嗽仪，搜索將終止。使用的確切公式相當復雜柒莉。有興趣的讀者應參考原著闻坚。

4. 實驗設(shè)置

在開發(fā)攻擊算法以打破蒸餾之前，我們將描述如何訓練模型以評估攻擊兢孝。
我們?yōu)镸NIST [28]和CIFAR-10 [24]分類任務訓練了兩個網(wǎng)絡(luò)窿凤，并為ImageNet分類任務[41]使用了一個預先訓練的網(wǎng)絡(luò)。我們的模型和訓練方法與[39]中介紹的模型和訓練方法相同跨蟹。我們在MNIST上達到了99.5％的準確度雳殊，可與最新技術(shù)相媲美。在CIFAR-10上窗轩，我們達到80％的精度夯秃，與蒸餾工作中給出的精度相同。

表1

表2

MNIST和CIFAR-10痢艺。模型結(jié)構(gòu)如表1所示仓洼，超參數(shù)的選擇見表2。我們在訓練中使用基于動量的SGD優(yōu)化器堤舒。CIFAR-10模型對訓練數(shù)據(jù)的擬合程度明顯超過了訓練數(shù)據(jù)色建，即使有丟失：我們得到的最終訓練交叉熵損失為0.05，準確率為98%舌缤，而驗證損失為1.2箕戳，驗證準確率為80%。我們不會通過執(zhí)行圖像增強或添加額外的丟失來改變網(wǎng)絡(luò)国撵。

5. 我們的方法

現(xiàn)在我們轉(zhuǎn)向我們構(gòu)建對抗性例子的方法陵吸。首先，我們依賴于對抗性示例的初始表述卸留，并正式定義了以圖像 $x$ 尋找對抗性實例的問題走越，如下所示

其中 $x$ 是固定的，目標是找到最小化 $D(x, x+δ)$ 的 $δ$ 耻瑟。也就是說，我們希望找到一些變化小的 $δ$ 赏酥，我們可以對一個圖像x進行改變喳整，從而改變它的分類，但是其仍然是一個有效的圖像裸扶。這里D是一些距離度量框都；如前所述，它將是 $L_0$ 呵晨、 $L_2$ 或 $L_\infty$ 魏保。

我們通過將其描述為可用現(xiàn)有優(yōu)化算法解決的適當優(yōu)化實例來解決此問題熬尺。有許多可能的方法可以做到這一點；我們探索公式的空間谓罗，并根據(jù)經(jīng)驗確定哪些方法會導致最有效的攻擊

A. Objective Function

由于約束 $C(x+δ)=t$ 是高度非線性的粱哼，現(xiàn)有算法很難直接求解上述公式。因此檩咱，我們用更適合于優(yōu)化的不同形式來表示它揭措。我們定義了一個目標函數(shù) $f$ ，使得 $C（x+δ）=t$ 當且僅當 $f（x+δ）≤0$ 刻蚯。f有很多可能的選擇:

其中 $s$ 是正確的分類绊含， $(e)^+$ 是 $max(e，0)$ 的簡寫炊汹， $softplus(x)=log(1+exp(x))$ 躬充， $loss_{F，s}(x)$ 是x的交叉熵損失讨便。

注意麻裳，我們已經(jīng)通過添加一個常量來調(diào)整上面的一些公式；我們這樣做只是為了使函數(shù)符合我們的定義器钟。這不會影響最終結(jié)果津坑，因為它只是縮放最小化函數(shù)。現(xiàn)在傲霸，把問題表述為:

我們用另一個公式:

其中 $c>0$ 是一個適當選擇的常數(shù)疆瑰。這兩者是等價的，即存在 $c>0$ 昙啄，使得后者的最優(yōu)解與前者的最優(yōu)解相匹配穆役。在用 $L_p$ 范式實例化距離度量 $D$ 后款咖，問題變?yōu)椋航o定 $x$ 袜瞬，找到 $δ$ 解決:

選擇常數(shù)c

從經(jīng)驗上講，我們發(fā)現(xiàn)選擇c的最佳方法通常是使用c的最小值棺聊，由此得到的解 $x^*$ 的 $f(x^?)≤0$ 韧拒。這會導致梯度下降同時最小化兩個項淹接，而不是只選擇一個項進行優(yōu)化。

我們通過運行 $f_6$ 公式（我們發(fā)現(xiàn)最有效）對MNIST數(shù)據(jù)集上 $c$ 的值從 $c = 0.01$ 到 $c = 100$ 均勻間隔（以對數(shù)刻度）進行驗證叛溢。我們在圖2中繪制這條線塑悼。

圖2

B. Box constraints

為了確保修改產(chǎn)生有效的圖像，我們對 $δ$ 進行了約束：對于所有 $i$ 楷掉，我們必須使 $0≤x_i +δ_i≤1$ 厢蒜。在優(yōu)化文獻中，這稱為“盒約束”。以前的工作使用了一種特殊的優(yōu)化算法L-BFGS-B斑鸦，它本地支持盒約束愕贡。我們研究了三種解決此問題的方法:

(1)投影梯度下降執(zhí)行標準梯度下降的一個步驟，然后將所有坐標裁剪到框內(nèi)巷屿。對于具有復雜更新步驟（例如固以，具有動量的梯度下降方法）的梯度下降方法，此方法可能效果不佳：當裁剪實際xi時攒庵，我們意外地將輸入更改為算法的下一個迭代

(2)

(3)