摘要:作者提出一個Convolutional Block Attention Module(CBAM)顷牌。給定一個特征圖,作者的模塊可從兩個維度(通道和空間)按順序地推出注意力圖,然后將注意力圖與輸入的特征圖進行點積勿锅,從而可以自適應(yīng)地提煉特征剑勾。因為CBAM是個輕量級的通用模塊含懊,所有它可以整合到任何CNN框架中拴签,并且計算成本幾乎不變。
1.Introduction
為了提高CNN的性能脏里,最近的研究主要關(guān)注網(wǎng)絡(luò)的三個因素:深度,寬度和cardinality。Xception和ResNeXt被提出來增加網(wǎng)絡(luò)的cardinality缰盏。這證明了cardinality不僅節(jié)省了參數(shù)總數(shù),而且比深度和寬度具有更強的表示能力。
因為卷積操作通過混合跨通道和空間信息來提取有用特征口猜,所以作者的模塊會在這兩個重要的維度上(通道和空間軸)提取特征负溪。為了達到這一點,作者依次應(yīng)用通道和空間注意力模塊济炎,因此每個分支都可以在通道和空間軸上”學(xué)習什么“和”在哪里學(xué)習“川抡。將CBAM嵌入到其他模型后,發(fā)現(xiàn)其準確度提高须尚。作者推測崖堤,這種提高來自于對無關(guān)雜波的精確的注意和降噪。
本文的貢獻有:
提出了一種簡單而有效的注意力模塊(CBAM)耐床,可廣泛應(yīng)用于提高CNNs的表示能力密幔;
3.Convolutional Block Attention Module
Channel attention module. 由于特種圖的每個通道都被看作是一個特征檢測器,所以在給定的輸入圖像下撩轰,通道的注意力會集中在”什么“是有意義的胯甩。為了有效地計算通道注意力,作者壓縮了輸入特征圖的空間維數(shù)堪嫂。對于空間信息的聚合偎箫,目前普遍采用平均池化的方法。Zhou等人認為使用它來有效學(xué)習目標對象的范圍皆串。而Hu等人在他們的注意力模塊中采用它來計算空間統(tǒng)計淹办。除了以前的工作,作者認為最大池化收集了另一個關(guān)于獨特目標特征的重要線索愚战,從而推斷出更好的通道級的注意力娇唯。因此,作者同時利用了平均池化和最大池化特征寂玲。作者證明了利用兩個特征能提高網(wǎng)絡(luò)的表示能力塔插。
作者首先通過利用平均池化和最大池化操作來整合特征圖的空間信息,從而生成兩個不同的空間上下文描述器拓哟,分別表示經(jīng)過平均池化和最大池化的特征想许。
Spatial attention module. 作者利用特征間的空間關(guān)系來生成空間注意力圖《闲颍空間注意不同于通道注意流纹,它側(cè)重于信息部分的位置,是對渠道注意的補充违诗。為了計算空間注意力漱凝,作者首先沿著通道軸應(yīng)用平均池化和最大池化,并且concat它們來生成一個有效的特征描述器诸迟。沿著通道軸池化操作可以有效突出有用的區(qū)域茸炒。在已經(jīng)concat好的特征描述器中愕乎,作者用一個卷積層來生成空間注意力圖,它能編碼要強調(diào)或抑制的區(qū)域壁公。
Arrangement of attention modules. 作者發(fā)現(xiàn)對于兩個注意力模塊感论,順序排列比并行排列的結(jié)果更好。而且先用通道注意力紊册,再用空間注意力的效果更好比肄。
4.Experiments
4.1 Ablation studies
Channel attention. 作者認為最大池化特征(對最顯著部分進行編碼的程度)可以彌補平均池化特征(對全局統(tǒng)計特征進行編碼)。因此囊陡,作者建議同時采用兩個特征并對兩個特征共享同一個網(wǎng)絡(luò)芳绩。
Spatial attention. 作者發(fā)現(xiàn)采用通道池化可以產(chǎn)生更高精確度,這表明顯式地對池化建模會產(chǎn)生更好的注意力推斷撞反,而不是可學(xué)習的加權(quán)通道池化(用1x1卷積執(zhí)行)示括。同時作者發(fā)現(xiàn)采用一個更大的核大小會產(chǎn)生更好的結(jié)果。這意味著需要一個更寬廣的視野(即大的感受野)來決定空間上重要的區(qū)域痢畜。
Arrangement of the channel and spatial attention. 因為每個模塊有不同功能垛膝,所以通道和空間注意力的先后次序會影響模型的整體性能。例如丁稀,從空間的角度看吼拥,通道注意力是應(yīng)用的全局的,而空間注意力是應(yīng)用在局部的线衫。
作者發(fā)現(xiàn)對通道注意和空間注意進行排序凿可,生成的注意力圖的效果要好于讓兩個注意機制并排計算而產(chǎn)生的注意力圖。
4.2 Image Classification on ImageNet-1K
作者發(fā)現(xiàn)CBAM的參數(shù)和計算量都是較小的授账。
4.3 Network Visualization with Grad-CAM
Grad-CAM是一個可視化方法枯跑,它利用梯度來計算卷積層中空間位置的重要性。因為梯度會通過一個單獨的類來計算出來白热,所以Grad-CAM的結(jié)果能夠清楚展示受關(guān)注的區(qū)域敛助。通過觀察網(wǎng)絡(luò)在預(yù)測某個類時認為很重要的區(qū)域,作者試圖發(fā)現(xiàn)這個網(wǎng)絡(luò)是如何利用特征的屋确。