論文題名:《CBAM: Convolutional Block Attention Module》
arxiv:https://arxiv.org/abs/1807.06521v2
github: https://github.com/Jongchan/attention-module
CBAM 是對標(biāo)于SENet所提出的一種結(jié)合了通道注意力和空間注意力的輕量級模塊覆享,它和SENet一樣元暴,幾乎可以嵌入任何CNN網(wǎng)絡(luò)中,在帶來小幅計算量和參數(shù)量的情況下,大幅提升模型性能袱瓮。
? ? ? ? 卷積神經(jīng)網(wǎng)絡(luò)在很大程度上推動了計算機視覺任務(wù)的發(fā)展,最近的眾多研究主要關(guān)注了網(wǎng)絡(luò)的三個重要因素:深度、寬度、基數(shù)(cardinality)
深度的代表:VGG擦盾、ResNet
寬度的代表:GooLeNet
基數(shù)的代表:Xception嘲驾、ResNeXt
? ? ? ? 而本文作者承接SENet的思想,從attention(注意力)這個維度出發(fā)迹卢,研究提升網(wǎng)絡(luò)性能的方法辽故。
? ? ? ? 人類視覺系統(tǒng)的一個重要特性是,人們不會試圖同時處理看到的整個場景腐碱。取而代之的是誊垢,為了更好地捕捉視覺結(jié)構(gòu),人類利用一系列的局部瞥見症见,有選擇性地聚集于顯著部分喂走。近年來,有人嘗試將注意力機制引入到卷積神經(jīng)網(wǎng)絡(luò)中筒饰,以提高其在大規(guī)模分類任務(wù)中的性能缴啡。
本文作者為了強調(diào)空間和通道這兩個維度上的有意義特征,依次應(yīng)用通道和空間注意力模塊瓷们,來分別在通道和空間維度上學(xué)習(xí)關(guān)注什么、在那里關(guān)注秒咐。CBAM如下圖1 所示谬晕。
圖1 CBAM模塊
輸入特征依次通過通道注意力模塊、空間注意力模塊的篩選携取,最后獲得經(jīng)過了重標(biāo)定的特征攒钳,即強調(diào)重要特征,壓縮不重要特征雷滋。
1.通道注意力模塊
CBAM的通道注意力模塊如下圖2所示:
圖2 通道注意力模塊
? ? ? ? 相比SENet只使用全局平局池化層來壓縮通道特征不撑,本文作者認(rèn)為最大池化可以收集到難區(qū)分物體之間更重要的線索,來獲得更詳細(xì)的通道注意力晤斩。因此焕檬,本文同時使用了平均池化和最大池化后的特征,然后將他們依次送入一個權(quán)重共享的多層感知機中(MLP)澳泵,這里估計是參考了NIN(網(wǎng)中網(wǎng))這篇文章实愚,最后將各自的輸出特征再對應(yīng)位置Add,其中本文并沒有說明在參數(shù)學(xué)習(xí)這里為啥使用多層感知機而不使用全連接層(像SENet那樣)兔辅,可能是通過1X1卷積來更好地融合通道信息吧腊敲。通道注意力主要聚焦于輸入圖像的什么特征是有意義的。
2.空間注意力模塊
CBAM的空間注意力模塊如下圖3所示:
圖3? 空間注意力模塊
加入空間注意力模塊在一定程度上彌補了只是用通道注意力的不足维苔,因為空間注意力主要聚焦于輸入圖像的哪部分的有效信息較豐富碰辅。剛開始看著部分的時候?qū)Τ鼗糠植皇呛芾斫猓髞聿榭戳舜a才知道介时,這里的池化操作是沿著通道軸進行的没宾,即每次池化時對比的是不同通道之間的數(shù)值忍法,而非同一個通道不同區(qū)域的數(shù)值。哈哈榕吼,第一次見這種方法饿序。所通過最大池化和平均池化各獲得一張?zhí)卣鲌D,而后將他們拼接成一張2D特征圖羹蚣,再送入標(biāo)準(zhǔn)7X7卷積進行參數(shù)學(xué)習(xí)原探,最終得到一張1D的權(quán)重特征圖。注意顽素,不管是通道注意力得到的權(quán)重咽弦,還是空間注意力得到的權(quán)重,在最后于原數(shù)據(jù)相乘時胁出,都使用了數(shù)據(jù)的廣播機制的型型。
3.CBAM的tensorflow代碼
圖4 CBAM 代碼
4.可視化
讀這篇文章,還學(xué)到的一點就是運用grad-CAM進行可視化全蝶,這可以增強論文的可信度闹蒜。
本文的可視化如下圖4所示。
圖5 可視化
grad-CAM是最近提出的一種可視化方法抑淫,它利用梯度來計算卷積層空間位置的重要性绷落,由于梯度是針對一個唯一的類計算的,grad-CAM的結(jié)果清楚地顯示了對最終預(yù)測產(chǎn)生影響的圖像區(qū)域始苇。本文作者通過這種方法來觀測神經(jīng)網(wǎng)絡(luò)是如何有效利用圖像特征的砌烁。從圖4可知,加入了CBAM的ResNet50它的有效預(yù)測區(qū)域范圍更大催式,最后的softmax概率值也更大函喉,結(jié)果也更加準(zhǔn)確。
5.學(xué)習(xí)感受
1.對空間注意力機制有了一定的了解荣月;
2.學(xué)習(xí)到將平均池化和最大池化一起用效果會更好管呵;
3.對池化的方式有了新認(rèn)識;
4.學(xué)習(xí)到通過使用grad-CAM的可視化方法,可以是增加論文的說服力。