Residual Attention Network for Image Classification論文精讀及源碼

Introduction

首先作者介紹了在視覺領(lǐng)域中Attention也發(fā)揮著很大的作用，Attention不止能使得運算聚焦于特定區(qū)域，同時也可以使得該部分區(qū)域的特征得到增強盅抚，同時'very deep'的網(wǎng)絡結(jié)構(gòu)結(jié)合殘差連接（Residual Network）在圖像分類等任務中表現(xiàn)出了極好的性能〕基于這兩點考量洁灵，作者提出了殘差注意力網(wǎng)絡（Residual Attention Network），這種網(wǎng)絡具有以下兩點屬性：

增加更多的注意力模塊可以線性提升網(wǎng)絡的分類性能还棱，基于不同深度的特征圖可以提取額外的注意力模型载慈。
殘差注意力模型可以結(jié)合到目前的大部分深層網(wǎng)絡中，做到end-to-end訓練結(jié)果珍手，因為殘差結(jié)構(gòu)的存在办铡，可以很容易將網(wǎng)絡擴展到百數(shù)層。并且使用該種策略可以在達到其他大網(wǎng)絡的分類準確率的同時顯著降低計算量（計算量基本上為ResNet大網(wǎng)絡的69%左右）

1.png

上圖中左圖顯示了在殘差注意力網(wǎng)絡中主干網(wǎng)絡和注意力模塊之間的關(guān)系琳要，注意力模塊為主干網(wǎng)絡以某一個特征圖為節(jié)點的分叉子網(wǎng)絡寡具；右圖中的結(jié)果顯示網(wǎng)絡模型中，不同層特征圖響應的注意力不同稚补，在淺層結(jié)構(gòu)中童叠，網(wǎng)絡的注意力集中于背景等區(qū)域，而在深層結(jié)構(gòu)中，網(wǎng)絡的注意力特征圖（Attention Feature Map）聚焦于待分類的物體厦坛。這與之前的很多工作結(jié)論類似五垮，那就是深層次的特征圖具有更高的抽象性和語義表達能力，對于物體分類較淺層特征有較大的作用杜秸。

本文的主要貢獻點為：

設(shè)計了一種可堆疊的網(wǎng)絡結(jié)構(gòu)放仗，并且可堆疊的基本模塊中引入了注意力特征圖的機制，不同層次的特征圖能夠捕捉圖像中的多種響應結(jié)果撬碟。
注意力殘差學習诞挨，直接堆疊注意力模塊會導致網(wǎng)絡層次過深出現(xiàn)梯度消失的現(xiàn)象，本文使用了殘差連接的方式呢蛤，使得不同層的注意力模塊可以得到充分學習惶傻。
Bottom-up與top-down結(jié)構(gòu)相結(jié)合，自底向上主要是為了圖像的特征提取其障，自頂向下是為了生成Attention Map

Related Work

略（感興趣可以翻論文查看）

Residual Attention Network

最終論文提出的殘差注意力網(wǎng)絡主要由多層注意力模塊堆疊而成银室，每個注意力模塊包含了兩個分支：掩膜分支（mask branch）和主干分支（trunk branch）。其中主干分支可以是當前的任何一種SOTA卷積神經(jīng)網(wǎng)絡模型静秆，掩膜分支通過對特征圖的處理輸出維度一致的注意力特征圖（Attention Feature Map））着降，然后使用點乘操作將兩個分支的特征圖組合在一起周瞎，得到最終的輸出特征圖锥涕。

假如主干分支輸出特征圖為 $T_{i,c}(x)$ 请琳，掩膜分支的輸出特征圖為 $M_{i,c}(x)$ ，那么最終該注意力模塊的輸出特征圖為：

$H_{i,c}(x) = T_{i,c}(x) * M_{i,c}(x)$

Attention Residual Learning

作者在文中指出殊橙，雖然注意力模塊對于目標分類有較大的作用辐宾，但是單純疊加注意力模塊會導致模型性能的下降，主要有兩點：

掩膜分支為了輸出權(quán)重歸一的特征圖膨蛮，后面需要跟Sigmoid作為激活函數(shù)叠纹，但是問題在于Sigmoid將輸入歸一化到0到1之間，再來與主干分支進行點乘敞葛，會使得特征圖的輸出響應變?nèi)跤欤鄬盈B加該種結(jié)構(gòu)會使得最終輸出的特征圖每一個點上的值變得很小惹谐；
同時持偏，掩膜分支輸出的特征圖有可能會破壞主干分支的優(yōu)點，比如說將殘差連接中的shortcut機制替換為掩膜分支氨肌，那么將會使得深層網(wǎng)絡的梯度不能很好的反傳鸿秆。

為了解決上述問題，作者使用了下列公式來替代注意力模塊的輸出：

$H_{i,c}(x) = (1 + M_{i,c}(x)) * F_{i,c}(x)$

$M_{i,c}(x)$ 為[0, 1]區(qū)間內(nèi)的取值怎囚，與1相加之后可以很好的解決一中提出來的會降低特征值的問題卿叽；到這個部分本文與殘差網(wǎng)絡的區(qū)別在于，殘差網(wǎng)絡的公式 $H_{i,c}(x) = x + F_{i,c}(x)$ ， $F_{i,c}(x)$ 學習的是輸出和輸入之間的殘差結(jié)果考婴，而在本文中贩虾， $F_{i,c}(x)$ 是由一個深層的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)來學習擬合。結(jié)合掩膜分支輸出的結(jié)果蕉扮，可以使得 $F_{i,c}(x)$ 的輸出特征圖中重要的特征得到加強整胃，而不重要的特征被抑制。最終喳钟，不斷地疊加注意力模塊可以使得逐漸的提升網(wǎng)絡的表達能力。上圖中顯示越是深層在岂，注意力模型的注意力機制會更加關(guān)注在對分類有幫助的目標上奔则。

Soft Mask Branch

在掩膜分支（mask branch）中，特征圖的處理操作主要包含為前向的降采樣過程和上采樣過程蔽午，前者是為了快速編碼易茬、獲取特征圖的全局特征，而后者主要是將提取出來的全局高維特征上采樣之后與之前未降采樣的特征組合在一起及老，目的使得上下文抽莱，高低緯度的特征能夠更好的組合在一起，類似于FPN網(wǎng)絡的做法骄恶。掩膜分支的操作如下圖所示：

2.png

圖中每一個Attention Module食铐，也即是Soft Mask Branch對于固定的輸入，多層卷積計算之后使用Max-Pooling操作對特征圖進行降維操作僧鲁，一直降維直到特征圖寬高達到網(wǎng)絡輸出特征圖的最小尺寸虐呻，比如7x7，然后逐層使用雙線性差值的方法擴張?zhí)卣鲌D的寬高維度寞秃，并且與之前同樣維度下的特征相加斟叼，這里的考量是結(jié)合了全局的和局部的特征，增強了特征圖的表達能力春寿。這種做法類似于FCN網(wǎng)絡中FCN8s朗涩，最終對特征圖使用2個1x1的卷積層對通道做整合計算輸出一個與input寬高維度相等，但是通道數(shù)為1的特征圖绑改，最后接一個Sigmoid激活函數(shù)層將特征圖歸一化到0~1之間谢床。這一部分的做法如下圖所示。

3.png

Spatial Attention and Channel Attention

論文作者在Attention這部分總共考慮了三種Attention方式绢淀，Spatial Attention使用L2正則化約束每個位置上的所有通道萤悴，推測最終輸出一個空間維度一致的Attention Map；Channel Attention皆的，類似于SENet約束每一個通道上的所有特征值覆履，最后輸出長度與通道數(shù)相同的一維向量作為特征加權(quán)；Mix Attention對每個通道和每個空間位置使用Sigmoid。不同Attention的計算公式如下所示：

4.png

論文作者也對三種Attention方法的分類結(jié)果做了對比硝全，對比結(jié)果如下所示：

5.png

Network Structure

網(wǎng)絡的結(jié)構(gòu)如下所示：

6.png

上圖是一個使用在ResNet-50上的例子栖雾，可以看出來和原始的ResNet的區(qū)別就是在每個階段的Residual Block之間增加了Attention Module，可以看到最小的輸出特征圖的寬高大小為7x7伟众，上文中說到析藕，在每一個Soft Mask Branch中對于input的特征圖，會不斷地卷積操作之后使用Max-Pooling降采樣凳厢，文中降采樣的寬高維度下限就是網(wǎng)絡的最小輸出特征圖账胧，比如這里的7x7。

Experiments

作者對使用Residual Attention機制的不同網(wǎng)絡結(jié)構(gòu)在Cifar10先紫、Cifar100和ImageNet上做了分類實驗治泥，結(jié)果如下所示：

7.jpg

總的來說，作者在實驗部分做了很多充分的對比實驗和定量分析遮精，感興趣的話可以直接閱讀論文相關(guān)部分的實驗結(jié)果居夹。

Conclusion

深度學習發(fā)展到現(xiàn)在，有很多工作開始逐漸的轉(zhuǎn)向Attention的融合上去做本冲，過去通過一個單一結(jié)構(gòu)的網(wǎng)絡提取整張圖像的特征用于分類准脂、檢測和分割，其實從人腦配合人眼的機制去思考檬洞，這種方法不一定是最優(yōu)的狸膏，每一個圖像樣本都具有內(nèi)容性，而且基本一張圖片的內(nèi)容并不會均勻分布在畫面中的每一塊區(qū)域疮胖，對于圖像的內(nèi)容區(qū)域使用Attention機制進行輔助可以增強有效信息同時抑制無效信息环戈。目前這一方法被用于大部分計算機視覺任務中。

論文原文 - Residual Attention Network for Image Classification

代碼實現(xiàn) - fwang91/residual-attention-network

最后編輯于：2018.08.17 21:14:54

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末澎灸，一起剝皮案震驚了整個濱河市院塞，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌性昭，老刑警劉巖拦止，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異糜颠，居然都是意外死亡汹族，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門其兴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來顶瞒，“玉大人，你說我怎么就攤上這事元旬×裥欤” “怎么了守问？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長坑资。經(jīng)常有香客問我耗帕，道長，這世上最難降的妖魔是什么袱贮？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任仿便，我火速辦了婚禮，結(jié)果婚禮上攒巍，老公的妹妹穿的比我還像新娘嗽仪。我一直安慰自己，他們只是感情好窑业，可當我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布钦幔。她就那樣靜靜地躺著，像睡著了一般常柄。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上搀擂，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天西潘，我揣著相機與錄音，去河邊找鬼哨颂。笑死喷市，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的威恼。我是一名探鬼主播品姓，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼箫措！你這毒婦竟也來了腹备？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤斤蔓，失蹤者是張志新（化名）和其女友劉穎植酥，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體弦牡，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡友驮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了驾锰。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片卸留。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖椭豫，靈堂內(nèi)的尸體忽然破棺而出耻瑟，到底是詐尸還是另有隱情旨指，我是刑警寧澤，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布匆赃，位于F島的核電站淤毛，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏算柳。R本人自食惡果不足惜低淡，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瞬项。院中可真熱鬧蔗蹋，春花似錦、人聲如沸囱淋。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽妥衣。三九已至皂吮，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間税手，已是汗流浹背蜂筹。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留芦倒，地道東北人艺挪。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像兵扬，于是被迫代替她去往敵國和親麻裳。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,577評論 2贊 353