layout: post
title: 黑盒攻擊深度學(xué)習(xí)模型paper5篇總結(jié)
categories: [deep learning]
description: 截止201804幾種黑盒攻擊方法
keywords: deeplearning, , black box attack, model
Transferability in ML: 需要少量input 和 label(例如預(yù)測(cè)數(shù)字為label=2)
- 模型的訓(xùn)練:
初始化收集:收集少量的數(shù)據(jù)集,如手mnist赠堵,收集0~9的10張
替代模型的結(jié)構(gòu),尋找合適的替代模型結(jié)構(gòu),如針對(duì)圖片采用卷積層,針對(duì)文本采用RNN位仁, 而且他們證明層的類型携悯,數(shù)量和大小僅有些相對(duì)較小的影響。
submodel的訓(xùn)練:將初始inputs送入原model進(jìn)行查詢獲取label涨岁,獲得一個(gè)完成的數(shù)據(jù)集(input,label)之后進(jìn)行submodel的訓(xùn)練
數(shù)據(jù)集的擴(kuò)增吉嚣,jacobian-based with reservoir sampling
- 對(duì)抗樣本的生成(利用白盒攻擊的方法)
GENERATING NATURAL ADVERSARIAL EXAMPLES: 需要input 和 label(例如預(yù)測(cè)數(shù)字為label=2)
1.模型的訓(xùn)練(獲得generator和inverter):
和普通GAN的學(xué)習(xí)基本一致梢薪,只不過(guò)多了一個(gè)反向轉(zhuǎn)換器inverter
損失函數(shù)如上,實(shí)現(xiàn)的效果是:
輸入高斯分布z尝哆,G輸出真實(shí)圖片x'
夠輸入x秉撇,inverter輸出符合高斯分布的z’
以上保證了輸入z或者對(duì)z的輕微修改,G依舊能夠生成真實(shí)圖片
2.對(duì)抗樣本的生成
迭代隨機(jī)尋找秋泄,對(duì)z=z’+θ琐馆,其中θ是對(duì)z的修改,是循環(huán)嘗試恒序、隨機(jī)生成瘦麸、符合一定分布的,所以說(shuō)盡可能嘗試歧胁。
ZOO: Zeroth Order Optimization Based Black-box Attacks:需要input+每一個(gè)類別的概率
1.模型的訓(xùn)練
損失函數(shù)如上滋饲,左邊保證對(duì)抗樣本與真實(shí)input的相似,右邊保證對(duì)抗樣本能導(dǎo)致目標(biāo)模型出錯(cuò)喊巍,具體如下:
-
DNN model屠缭,如果目標(biāo)model的數(shù)據(jù)集類似mnist,圖片較小,就不會(huì)使用到attack-space hierarchical attack importance sampling
attack-space :計(jì)算梯度時(shí)的坐標(biāo)選取范圍變小 (299x299x3->32x32x3)
hierarchical attack:與上面的相反崭参,小范圍的坐標(biāo)選取可能會(huì)沒(méi) 有效果(32x32x3->64x64x3)
importance sampling:有時(shí)經(jīng)過(guò)了attack-space呵曹,坐標(biāo)范圍還是非 常的大,此時(shí)就需要根據(jù)坐標(biāo)的重要性進(jìn)行 選取(一般認(rèn)為奄喂,圖片中間位置的像素較邊 角的重要)
隨機(jī)選取一個(gè)坐標(biāo)
估計(jì)梯度之剧,h非常小,ei是一個(gè)只有i-th元素等于1的偏置向量砍聊。第二個(gè)只在牛頓法中才會(huì)使用背稼。
- 獲得了上面的近似梯度后,利用一階或二階方法(如下紅框內(nèi)的adam方法和newton method)來(lái)獲取best梯度
- 獲得了best梯度玻蝌,對(duì)x進(jìn)行修改蟹肘,輸入目標(biāo)model,如果出錯(cuò)則保留修改后的x俯树,否則帘腹,循環(huán)②③④直到產(chǎn)生best梯度
DECISION-BASED ADVERSARIAL ATTACKS:需要input和 label(例如預(yù)測(cè)數(shù)字為label=2)
- 模型的訓(xùn)練
① 初始化一張對(duì)抗input’ ~ U(0,1)
② 獲取擾動(dòng),之后對(duì)其進(jìn)行修剪符合下列:
阳欲,也就是如下圖的箭頭←(#1),在與原input中心的等距線上
④ 修改ε陋率,滿足下列損失函數(shù)
此損失函數(shù)會(huì)導(dǎo)致上圖的箭頭↓(#2)球化,即與等距線垂直的方向,靠近原input
⑤重復(fù)②③④瓦糟,即重復(fù)←↓(#1 #2)筒愚,越貼近原input時(shí),會(huì)修改ε變小菩浙。
⑤ 當(dāng)ε非常小的時(shí)候(收斂至0巢掺,如0.001),則保存此input’
說(shuō)明:上述②③④一直循環(huán)時(shí)劲蜻,input’是一致導(dǎo)致目標(biāo)model出錯(cuò)的陆淀,只不過(guò)是越來(lái)越接近原input,即圖片越來(lái)越真實(shí)先嬉。當(dāng)ε非常小的時(shí)候轧苫,則表明此時(shí)input’已經(jīng)很貼切原input,同時(shí)已經(jīng)保持著讓目標(biāo)model出錯(cuò)的性質(zhì)坝初。
Machine Learning as an Adversarial Service: Learning Black-Box Adversarial Examples:需要input和每一個(gè)類別的概率
-
模型的訓(xùn)練