注:部分轉(zhuǎn)載于http://www.reibang.com/p/d5c968e0e194(博主:月牙眼的樓下小黑)
發(fā)表于:ICLR 2018 (Poster)
代碼地址:https://github.com/SaoYan/LearnToPayAttention
論文類(lèi)型:注意力機(jī)制用于分類(lèi)網(wǎng)絡(luò)
摘要:提出一種注意力生成機(jī)制队贱,使用全局特征(global feature)為不同尺度上的特征圖(local feature)生成Attention Map, 強(qiáng)制網(wǎng)絡(luò)僅使用不同尺度的Local feature結(jié)合對(duì)應(yīng)的Attention Map進(jìn)行最終分類(lèi)靡努,并使得不同scale的Attention map關(guān)注圖像不同的區(qū)域,互相補(bǔ)充忠荞。
亮點(diǎn):
- 全局特征被視作一種Query, 直接影響Attention maps的生成
- 不同scale的Attention map關(guān)注圖像不同的區(qū)域,互相補(bǔ)充
- 強(qiáng)制網(wǎng)絡(luò)僅使用local features進(jìn)行分類(lèi)
- 使用了不同尺度上的特征進(jìn)行融合
模型概覽:
流程概述:
如上圖所示,L: [L1夫嗓、L2桐玻、L3]
分別為VGG網(wǎng)絡(luò)中不同尺度下的中間特征輸出(local feature篙挽,原屬于VGG網(wǎng)絡(luò)的最終分類(lèi)層FC-2, 10
被移除,全連接層FC-1, 512
的輸出G
即被視作全局特征 (global feature)镊靴,Attention Estimator
接收Ln
和G
作為輸入铣卡,計(jì)算出Attention map, Attention map作用于Ln
的每一個(gè)channel得到 Weighted local feature L'n
链韭。各個(gè)scale下的L'n
進(jìn)行concat之后得到L':[L'1、L'2煮落、L'3]
敞峭,最后將L'
送入全連接層分類(lèi)器FC-2, 10
進(jìn)行最終分類(lèi)。
關(guān)鍵操作和細(xì)節(jié):
- Attention map 具體如何計(jì)算得到蝉仇?
論文中提出了兩種方法通過(guò)L和G來(lái)計(jì)算Attention map
:
1.有參法(parameterised)
:將兩個(gè)張量逐元素相加后旋讹,再經(jīng)過(guò)一個(gè)線性映射(1x1的卷積)學(xué)習(xí)Attention map, 下式中u即代表學(xué)習(xí)到的線性映射
有參法
2.點(diǎn)乘法(dot-product-based)
:將兩個(gè)張量直接做點(diǎn)乘得到Attention map
點(diǎn)乘法 - Attention Estimator 的輸入為維度不一定相同的
G
和L
/不同的中間輸出特征G
之間維度不同轿衔,如何處理骗村?
使用映射函數(shù)(project function),將特征映射到相同維度(相同通道數(shù))呀枢,具體的操作即為使用1x1的卷積對(duì)特征進(jìn)行升/降維胚股,論文源碼將中間層輸出特征都映射為和全局特征維度一致。
思想:
1.利用Attention map來(lái)確認(rèn)和尋找那些有效支持CNN模型做出選擇的區(qū)域(這和CAM的想法類(lèi)似)裙秋,這個(gè)方法的一個(gè)重要前提假設(shè)是:施加更多的關(guān)注在圖像的顯著性區(qū)域上琅拌,同時(shí)減輕對(duì)那些不相關(guān)或者易混淆區(qū)域的關(guān)注
是對(duì)分類(lèi)有益的;對(duì)圖像更集中和簡(jiǎn)潔的使用更有助于數(shù)據(jù)分布發(fā)生變化時(shí)網(wǎng)絡(luò)的魯棒性
摘刑。
2.本文中Attention map其實(shí)是local feature和global feature間的compatibility
的表現(xiàn)形式进宝,兩類(lèi)特征的compatibility(兼容性)
由上文提到的有參法或者點(diǎn)乘法得到。每個(gè)compatibility
作為中間特征的注意力權(quán)重枷恕。
3.通過(guò)強(qiáng)制使用中間特征輸出的集合進(jìn)行分類(lèi)党晋,強(qiáng)制使得網(wǎng)絡(luò)去學(xué)習(xí)解決當(dāng)前任務(wù)的特定的Attention模式。
實(shí)驗(yàn):
作者分別在分類(lèi)任務(wù)徐块、細(xì)粒度圖像分類(lèi)任務(wù)未玻、弱監(jiān)督分割任務(wù)、對(duì)抗樣本攻擊胡控、跨領(lǐng)域圖像分類(lèi)任務(wù)上進(jìn)行了實(shí)驗(yàn)扳剿,均取得了不錯(cuò)的結(jié)果。
- 細(xì)粒度圖像分類(lèi):作者在鳥(niǎo)類(lèi)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)昼激,不同scale的Attention區(qū)域關(guān)注鳥(niǎo)的不同身體部位庇绽。
- 弱監(jiān)督分割任務(wù):不同特征圖的Attention map關(guān)注目標(biāo)的不同區(qū)域,互相補(bǔ)充橙困,多張Attention map能夠更精準(zhǔn)瞧掺、更完整地覆蓋目標(biāo)區(qū)域。
- 對(duì)抗樣本攻擊:模型對(duì)對(duì)抗樣本的魯棒性更強(qiáng)了凡傅。
- 跨領(lǐng)域圖像分類(lèi):模型特征提取能力更易遷移辟狈。
除此之外,作者還對(duì)生成Attention map的兩種方法進(jìn)行了實(shí)驗(yàn)分析像捶,分析了兩種方法的不同上陕。
如上圖所示,先利用一幅
target image
的 global vector 和 local feature map 產(chǎn)生 attention map (第三拓春、六列), 然后再選取另一張圖片作為 query image
, 利用 query image
的 global vector 和 target image 的 local feature map 產(chǎn)生 attention map( 第四释簿、七列) , 比較兩個(gè)attention map 的異同(第五硼莽、八列)庶溶。
- 對(duì)于
點(diǎn)乘法
產(chǎn)生Attention map來(lái)說(shuō),global feature直接影響Attention map的生成懂鸵,會(huì)使得網(wǎng)絡(luò)關(guān)注和query image
中目標(biāo)相同類(lèi)別的目標(biāo)區(qū)域偏螺; - 而對(duì)于
有參法
來(lái)說(shuō),global feature對(duì)Attention map幾乎沒(méi)有影響匆光,作者得出的結(jié)論是有參法學(xué)習(xí)到的映射函數(shù)的權(quán)重u
能夠去學(xué)習(xí)目標(biāo)為中心的高階特征套像,這些特征能夠較好地進(jìn)行從訓(xùn)練數(shù)據(jù)泛化到驗(yàn)證數(shù)據(jù),因?yàn)樗鼈兊念?lèi)別相似终息;還有一個(gè)原因就是global feature
和local feature
在數(shù)值量級(jí)上差距過(guò)大夺巩。
一些啟示:
一開(kāi)始看到這篇論文并沒(méi)有覺(jué)得非常solid或者有什么insight,在仔細(xì)閱讀完整篇論文之后有所改觀周崭。作者不僅僅是使用不同尺度的中間特征來(lái)進(jìn)行分類(lèi)柳譬,而是以global feature
作為一種Query
來(lái)控制中間特征需要關(guān)注的區(qū)域。
還有一個(gè)值得注意的點(diǎn):作者提到全局特征和局部特征數(shù)值量級(jí)差距過(guò)大续镇,這需要我在實(shí)驗(yàn)中被進(jìn)一步證實(shí)美澳,如果屬實(shí),那在對(duì)中間特征和全局特征進(jìn)行融合或者拼接時(shí)應(yīng)該考慮進(jìn)行歸一化操作摸航。