摘要:
機器學習(ML)尤其是深度神經網絡(DNN)已廣泛用于各種應用程序中沈贝,其中包括幾種對安全性至關重要的應用程序(例如,自動駕駛)勋乾。結果缀程,最近關于對抗性例子的研究引起了極大的關注搜吧。可以通過在輸入中添加少量擾動來誤導模型預測杨凑,從而實現這種對抗性攻擊滤奈。盡管多次白盒攻擊已經證明了其有效性,但它們假定攻擊者可以完全訪問機器學習模型撩满;而攻擊者可以完全訪問機器學習模型蜒程。在實踐中,黑盒攻擊更為現實伺帘。在本文中昭躺,我們僅基于模型的最終預測標簽提出了一種基于查詢邊界的黑盒攻擊(QEBA)。我們從理論上說明了為什么先前的在整個梯度空間上進行梯度估計的基于邊界的攻擊在查詢數量方面效率不高伪嫁,并為基于維降的梯度估計提供了最優(yōu)性分析领炫。另一方面,我們對ImageNet和CelebA數據集進行了廣泛的實驗张咳,以評估QEBA帝洪。我們證明,與最新的黑盒攻擊相比脚猾,QEBA能夠使用更少的查詢來實現更低的擾動幅度葱峡,攻擊成功率達到100%。我們還將展示針對包括MEGVII Face ++和Microsoft Azure在內的現實世界API的攻擊的案例研究
1.簡介
機器學習(ML)龙助,特別是深度神經網絡(DNN)的最新發(fā)展砰奕,已經推動了許多實際應用,包括對象檢測提鸟,藥物發(fā)現和機器人技術军援。同時,一些對安全性要求很高的應用也采用了ML称勋,例如自動駕駛汽車和外科手術機器人胸哥。但是,最近的研究表明铣缠,機器學習系統(tǒng)容易受到對抗示例的攻擊烘嘱,這些示例的輸入加上少量的對抗性擾動,因此在測試期間會導致任意不正確的預測蝗蛙。當將ML應用于ML時蝇庭,這種對抗性攻擊引起了極大的關注。實際應用捡硅。因此哮内,需要對這些廣告攻擊的內在特性以及潛在的防御策略進行深入分析。
首先,根據攻擊者對受害者ML模型的了解北发,可以將此類攻擊分為白盒和黑盒攻擊纹因。通常,可以通過利用模型的梯度來進行白盒攻擊-像快速梯度符號方法(FGSM)琳拨,基于優(yōu)化的攻擊瞭恰,基于投影梯度下降的方法(PGD)之類的方法已被提出。但是狱庇,考慮到大多數現實應用程序不會發(fā)布所使用的實際模型惊畏,因此白盒攻擊不太實用。另外密任,這些白盒攻擊被證明是可以防御的颜启。結果,近來黑盒對抗攻擊引起了很多關注浪讳。在黑盒攻擊中缰盏,根據攻擊者是否需要查詢受害者ML模型,有無查詢(例如基于可轉移性的攻擊)和基于查詢的攻擊淹遵。盡管基于可傳遞性的攻擊不需要查詢模型口猜,但它假定攻擊者可以訪問大型訓練數據來訓練替代模型,并且不能保證攻擊成功率合呐∧旱模基于查詢的攻擊包括基于分數的攻擊和基于邊界的攻擊笙以√适担基于得分的攻擊假設攻擊者可以訪問模型的類概率,與基于邊界的攻擊相比猖腕,實用性較低拆祈,后者僅需要最終模型預測,而兩者都需要大量查詢倘感。
在本文中放坏,我們提出了僅基于模型的最終預測標簽作為通用框架的基于查詢邊界的黑盒攻擊(QEBA),以最大程度地減少查詢數量老玛。由于梯度估計消耗了所有查詢的大部分淤年,因此減少基于邊界的黑盒攻擊的查詢數量的主要挑戰(zhàn)是高維數據(例如圖像)將需要大量查詢才能探測決策邊界。結果蜡豹,我們建議搜索一個小的代表性子空間以生成查詢麸粮。具體而言,通過向圖像添加擾動來生成查詢镜廉。我們從三種新穎的角度來探討子空間優(yōu)化方法弄诲,以進行擾動采樣:1)空間,2)頻率和3)本征分量娇唯。第一個利用空間變換(例如線性插值)齐遵,以便可以在低維空間中進行采樣寂玲,然后再投影回原始空間。第二個使用圖像壓縮文獻中的直覺和低頻子空間中的樣本梗摇,并使用離散余弦變換(DCT)進行投影拓哟。最后一個執(zhí)行可擴展的梯度矩陣分解,以通過主成分分析(PCA)選擇主要的主成分作為子空間進行采樣伶授。另外彰檬,理論上我們證明了它們在估計梯度上的最優(yōu)性,而不是直接估計原始空間上的梯度谎砾。
為了證明所提出的黑箱攻擊QEBA方法的有效性逢倍,我們對包括ImageNet 和CelebA 在內的高維圖像數據進行了廣泛的實驗。我們對ResNet模型進行攻擊景图,并表明與最新的黑盒攻擊方法相比较雕,QEBA的不同變體可以以較少的查詢數量實現較低的擾動幅度(攻擊成功率100 %)。為了顯示所提議攻擊的現實影響挚币,我們還針對在線商業(yè)API(包括MEGVII Face ++ 和Microsoft Azure )執(zhí)行了QEBA苛吱。我們的方法可以通過合理程度的擾動成功攻擊API。對于這些不同的子空間虹蓄,我們的推測是不同子空間的總體性能取決于多個因素痹届,包括數據集大小,模型平滑度笛粘,對抗性攻擊目標等趁怔。因此,我們的目標是首先嘗試提供對這三個子空間有足夠的經驗觀察薪前,同時還需要進一步的廣泛研究來比較這些子空間的不同因素润努,并確定新的子空間類型。這項工作的貢獻概括如下:1)我們提出了一種通用的基于查詢有效邊界的黑盒攻擊QEBA示括,以減少基于邊界攻擊的查詢數量铺浇。 QEBA基于三個不同的代表子空間包含三個變體,包括空間變換子空間垛膝,低頻子空間和本征分量子空間鳍侣。 2)理論上證明了整個梯度空間中的梯度估計在查詢數量方面效率低下,并且證明了我們提出的查詢有效梯度估計方法的最優(yōu)性分析吼拥; 3)我們對兩個高分辨率圖像數據集:ImageNet和CelebA進行了全面的實驗倚聚。 QEBA的所有不同變體都遠遠超過了最新的基線方法。 4)我們成功攻擊了兩個現實世界的API扔罪,包括Face ++ 和Azure 秉沼,并展示了QEBA的有效性。
2.問題定義
3.3. 基于邊界的高效查詢黑盒攻擊(QEBA)
在本節(jié)中,我們首先介紹基于HopSkipJumpAttack(HSJA)的QEBA管道唬复。 然后矗积,我們詳細說明三種建議的查詢約簡方法。 我們在第4節(jié)中提供了QEBA的理論依據敞咧。作為示例棘捣,圖1中顯示了所提出的基于查詢有效邊界的黑盒攻擊(QEBA)的流程。 目的是生成一個看起來像(貓)的adv-image休建,但被受害者模型錯誤地標記為惡意標簽(魚)乍恐。 首先,攻擊使用
初始化adv-image测砂。 然后茵烈,它執(zhí)行一個由三個步驟組成的迭代算法:基于建議的代表性子空間,在決策邊界處估計梯度砌些,沿著估計的梯度移動呜投,并投影至旨在向
方向移動的決策邊界。
在下文中存璃,我們首先在3.1節(jié)中介紹攻擊中的三個交互步驟仑荐,然后在3.2-3.4節(jié)中介紹三種用于生成優(yōu)化的代表性子空間的不同方法
3.1.QEBA的總體框架
決策邊界處的估計梯度:用表示在
部生成的adv-image。如果
在決策邊界處纵东,我們可以僅使用對φ的訪問來估計
的梯度粘招。可以通過蒙特卡洛方法對該梯度進行采樣:
其中是單位長度為
的隨機采樣擾動偎球,而
是較小的加權常數洒扎。 此過程的一個示例如圖2所示。關鍵點是如何對擾動ub進行采樣甜橱,我們建議從
中的代表性子空間中提取
算法:
沿估計的坡度移動:
在估計了對抗性預測得分的梯度后逊笆,我們將
朝梯度方向移動:
其中是第
步的步長栈戳。 因此岂傲,對抗類的預測得分將提高。
投影到決策邊界:當前超出邊界子檀,我們可以將adv圖像移向目標圖像镊掖,以便將其投影回決策邊界:
通過對進行二分查找來實現投影。 請注意褂痰,我們假設
位于邊界上亩进,而
不在邊界上。 因此缩歪,在初始化步驟中归薛,我們需要像方程式中一樣首先應用公式5中的投影操作得到
。 在以下各節(jié)中,我們將從空間主籍,頻率和本征分量的角度介紹三種代表性子空間優(yōu)化的探索习贫。
3.2.空間變換子空間(QEBA-S)
首先,我們從空間變換的查詢減少方法開始千元。 靈感(原文是:intuition)來自觀察到輸入圖像的梯度具有局部相似性的特性苫昌。 因此,很大一部分梯度位于雙線性插值運算所跨越的低維子空間上幸海。 為了采樣圖像的隨機擾動祟身,我們首先采樣形狀為的低維隨機擾動
,其中r是降維因子的超參數物独。 然后袜硫,我們使用雙線性插值將其映射回原始圖像空間,
挡篓。 該空間變換子空間的基礎是從下部空間中的單位擾動變換的圖像:
其中表示在第
個條目上具有
且在其他位置具有
的單位矢量
3.3.低頻子空間(QEBA-F)
通常父款,圖像的低頻子空間包含大部分關鍵信息,包括梯度信息瞻凤。 而高頻信號所包含的噪聲卻超過了有用的內容憨攒。 因此,我們想通過離散余弦變換(DCT)來采樣低頻子空間中的擾動阀参。 正式地說肝集,將DCT的基本功能定義為:
DCT逆變換是從頻域到圖像域的映射:
3.4.本征子空間(QEBA-I)
Principal Component Analysis(PCA)是執(zhí)行降維以搜索給定實例的固有成分的標準方法。給定高維空間中的一組數據點蛛壳,PCA的目的是找到一個低維子空間杏瞻,以使數據點在子空間上的投影最大化。因此衙荐,可以利用PCA優(yōu)化模型梯度矩陣的子空間捞挥。但是,為了執(zhí)行PCA忧吟,我們將需要一組數據點砌函。在我們的情況下,應該是一組
不同的
溜族。但在黑盒這一設定下無法訪問讹俊。因此,我們轉向一組我們可以訪問其漸變的“參考模型”煌抒。如圖3所示仍劈,我們將使用參考模型來計算一組圖像梯度
然后,我們執(zhí)行PCA提取其前n個主成分(
)寡壮。這些
是內在分量子空間的基礎贩疙。 請注意讹弯,與可傳遞性不同,我們不限制將參考模型與原始模型使用相同的訓練數據進行訓練这溅,因為我們只需要搜索給出的數據集的內在成分闸婴,該成分對于各種模型而言相對穩(wěn)定。 在實踐中芍躏,基于大型的高維數據集(ImageNet上的數據維超過150k邪乍,我們需要大量的數據點,這些數據點都很密集)对竣,在時間和內存效率方面庇楞,PCA的計算可能具有挑戰(zhàn)性。 因此否纬,我們利用了隨機PCA算法吕晌,該算法可加快PCA的速度,同時實現可比的性能临燃。
另一個挑戰(zhàn)是矩陣可能太大而無法存儲在內存中睛驳。 因此,我們將它們存儲在不同的行中膜廊,因為每一行(即一幅圖像的梯度)是與其他行獨立計算的乏沸。 然后對內存中的
和其他矩陣進行乘法運算。
4.QEBA的理論分析
我們從理論上分析降維如何幫助QEBA中的梯度估計爪瓜。 我們表明蹬跃,通過從代表子空間而不是原始空間中進行采樣,梯度估計范圍更緊密铆铆。
我們考慮方程式3中的梯度估計蝶缀,讓表示位于所選子空間跨度span(W)上的
的比例。 然后薄货,我們有以下定理翁都,關于
和估計值之間的余弦相似性的期望
如果我們從整個空間采樣(即),則預期的余弦相似度為
如果讓
且
谅猾,則相似度僅為
另一方面柄慰,如果隨機選擇子空間w,則并且估計質量低赊瞬。 隨著
的增大先煎,估計質量將優(yōu)于從整個空間進行采樣。 因此巧涧,我們進一步探索了三種方法來優(yōu)化包含較大梯度的代表性子空間,如第3節(jié)所述遥倦。例如谤绳,在實驗中我們看到占锯,當
時,我們可以達到
并且預期的余弦相似度增加到約
缩筛。 這提高了梯度估計的質量消略,從而導致更有效的攻擊
5.實驗
在本節(jié)中,我們介紹了我們提出的方法QEBA-S瞎抛,QEBA-F和QEBA-I的實驗設置和定量結果艺演,并與HSJA攻擊(最先進的邊界)進行了比較 基于黑盒的攻擊。 在這里桐臊,我們將重點放在最強的基線HSJA上胎撤,該基線優(yōu)于其他所有邊界攻擊,有限攻擊和選擇攻擊断凶。 我們還展示了使用所提出的方法攻擊兩個真實世界的API的兩組定性結果
5.1.數據集和實驗設置
數據集:我們評估了對ImageNet 和CelebA 上兩個離線模型以及兩個在線人臉識別API Face ++ 和Azure 的攻擊伤提。 我們將預訓練的ResNet-18模型用作ImageNet的目標模型,并對預訓練的ResNet-18模型進行微調认烁,以在CelebA中的100個人中進行分類肿男。 我們從ImageNet / CelebA驗證集中隨機選擇50對,這些對由模型正確分類為源圖像和目標圖像
攻擊設定:
我們提供了兩個評估指標來評估攻擊性能却嗡。第一個是每一步在目標圖像和對抗性示例之間的平均均方誤差(MSE)曲線舶沛,指示了擾動的幅度。擾動越小窗价,對抗示例與目標圖像越相似冠王,因此提供了更好的攻擊質量。第二個是基于有限數量查詢的攻擊成功率舌镶,其中“成功”被定義為達到特定的特定MSE閾值柱彻。為了達到某個擾動閾值,我們需要的查詢越少餐胀,攻擊方法的效率就越高哟楷。對于降維子空間,我們在空間變換和低頻子空間中使用降維因子否灾,從而得到
維子空間卖擅。為了生成本征分量子空間,我們首先在該空間上生成一組圖像梯度向量墨技。我們對輸入w.r.t.五個不同的預訓練替代模型-ResNet-50 惩阶,DenseNet-121 ,VGG16 扣汪,WideResNet 和GoogleNet 断楷。我們使用ImageNet驗證集的一部分(
張圖像)來生成梯度向量。最后崭别,我們采用可伸縮的近似PCA算法提取前
主要成分作為內部成分子空間冬筒。
5.2.商業(yè)在線API(Commercial Online APIs)
多家公司提供經過訓練的模型的商業(yè)API(應用程序編程接口)恐锣,用于完成諸如人臉識別之類的不同任務。下游任務的開發(fā)人員可以為服務付費舞痰,并將API集成到其應用程序中土榴。請注意,盡管典型的平臺API為開發(fā)人員提供了與其最終預測相關的類的置信度得分响牛,但使用最終應用程序的最終用戶在大多數情況下將無權訪問這些得分玷禽。例如,一些Face ++的合作伙伴使用面部識別技術在手機中進行登錄身份驗證呀打,用戶僅知道最終決定(無論他們是否通過驗證)矢赁。我們僅根據最終預測為現實世界實驗選擇兩個代表性平臺。第一個是來自MEGVII的Face ++ 聚磺,第二個是Microsoft Azure 坯台。 Face ++提供了一個“比較” API ,通過該API瘫寝,我們可以以字節(jié)字符串的形式發(fā)送帶有兩個圖像的HTTPS請求蜒蕾,并獲得有關兩個圖像是否包含同一個人的預測置信度。在所有實驗中焕阿,我們認為置信度大于50%咪啡,這意味著將兩個圖像標記為同一個人。 Azure具有稍微復雜一些的界面暮屡。要比較兩張圖片撤摸,每張圖片首先需要傳遞一個“ detect” API調用,以獲取一張具有其地標褒纲,特征和屬性的檢測到的面部列表准夷。然后,將這兩個圖像的特征輸入“驗證”功能莺掠,以最終決定它們是否屬于同一個人衫嵌。還給出了置信度,但是我們在實驗中不需要它彻秆,因為我們僅將二進制預測用于實際目的楔绞。在實驗中,我們使用圖4中的示例作為源圖像和目標圖像唇兑。更具體地說酒朵,我們使用一個男女臉作為“比較” API Face ++的源-目標對,并且使用一個貓女臉作為“檢測” API Azure人臉的一對圖像扎附。
攻擊API的離散化優(yōu)化:
針對在線API的攻擊受到“離散化”問題的困擾蔫耽。 也就是說,在攻擊過程中帕棉,我們假設像素值在中是連續(xù)的针肥,但是在查詢在線API時饼记,需要在上載的RGB圖像中將其四舍五入為8位浮點香伴。 由于舍入后最后一個邊界圖像和新查詢圖像之間的實際擾動與加權擾動向量
不同慰枕,因此這將導致公式3中的蒙特卡洛梯度估計格式出錯。
為了減輕這個問題即纲,我們在本地進行離散化具帮。 令為從連續(xù)圖像
投影到離散圖像
。 令
低斋,新的梯度估計格式變?yōu)?
5.3.離線模型的實驗結果
詳細結果請參考論文