- 論文地址:
http://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Woo_Convolutional_Block_Attention_ECCV_2018_paper.pdf - 收錄:ECCV 2018 (European Conference on Computer Vision)
- 論文代碼: github-PyTorch
更多注意力機(jī)制相關(guān)文章尉辑,請(qǐng)看這篇論文總結(jié)RAM: Residual Attention Module for Single Image Super-Resolution
概述
- 為了提升CNNs(卷積神經(jīng)網(wǎng)絡(luò))效果此再,一些研究者嘗試從三個(gè)方面著手:
depth
筷狼、width
裕偿、cardinality
,各自典型代表:
- depth:VGGNet爪幻、ResNet
- width:GoogLeNet
- cardinality:Xception菱皆、ResNeXt
- 作者嘗試從另一個(gè)角度出發(fā)—
attention
须误,attention適用于很多計(jì)算機(jī)視覺(jué)任務(wù),例如圖片分類(lèi)仇轻、語(yǔ)義分割京痢、邊緣檢測(cè)、姿態(tài)估計(jì)等篷店。Attention可分為兩類(lèi):基于通道(channel)
和基于空間(spatial)
祭椰,前者關(guān)注更重要的特征(每個(gè)通道都是一種特征),后者留意在哪個(gè)位置關(guān)注疲陕,即作者所說(shuō)的learn ‘what’ and ‘where’
方淤。 - 作者組合這兩類(lèi)attention,提出
Convolutional Block Attention Module(CBAM)
蹄殃⌒基于主干網(wǎng)絡(luò)ResNet18、ResNet34诅岩、ResNet101讳苦、WideResNet18、ResNeXt50吩谦、ResNeXt101鸳谜、MobileNet、VGG16式廷,在數(shù)據(jù)集ImageNet-1K
上測(cè)試圖片分類(lèi)咐扭,在數(shù)據(jù)集MS COCO
和VOC 2007
上測(cè)試物體檢測(cè)。驗(yàn)證了CBAM不僅通用性強(qiáng)滑废,而且在不明顯增加參數(shù)量的情況下草描,能提升網(wǎng)絡(luò)效果。
CBAM結(jié)構(gòu)
在給定輸入特征F的情況下策严,CBAM模塊先學(xué)到1維的
通道注意力圖(Channel Attention map)
—Mc,再學(xué)到2維的空間注意力圖(Spatial Attention map)
—Ms饿敲,這個(gè)attention過(guò)程可用如下公式表達(dá):其中妻导,
-
通道注意力模塊(Channel attention module)
該模塊先利用全局平均池化(global average-pooling)
和全局最大值池化(global max-pooling)
操作同時(shí)抽取通道上的特征;然后通過(guò)共享一個(gè)多層感知機(jī)(multi-layer perceptron)
進(jìn)一步得到通道上的特征怀各;最終這兩種特征點(diǎn)加(element-wise summation)
倔韭,并使用sigmoid
激活后得到Channel Attention map。公式表達(dá)為:
-
空間注意力模塊(Spatial attention module)
該模塊同時(shí)在通道維度上取平均值和最大值瓢对,得到兩個(gè)二維空間特征寿酌;之后concatenate一起,經(jīng)過(guò)卷積得到最終的Spatial Attention map硕蛹。公式表達(dá)為:
這里的7x7代表卷積核大小醇疼。 -
如何組合通道和空間注意力模塊硕并?
后續(xù)實(shí)驗(yàn)證明:串聯(lián)比并聯(lián)效果好,通道模塊接空間模塊效果好
實(shí)驗(yàn)
- Ablation studies
數(shù)據(jù)集:ImageNet-1K
Baseline:ResNet50
在現(xiàn)有ResNet結(jié)構(gòu)中秧荆,CBAM可以添加到每個(gè)block的輸出特征之后:
作者針對(duì)Channel attention
倔毙、Spatial attention
以及二者如何組合
做了各個(gè)實(shí)驗(yàn):
-
Channel attention
該實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)綜合AvgPool和MaxPool效果比單一使用其中之一要好。
-
Spatial attention
該實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)綜合Avg和Max乙濒,并使用7x7卷積核效果最好陕赃。
-
二者如何組合
該實(shí)驗(yàn)結(jié)果表明:串聯(lián)比并聯(lián)效果要好;先通道注意力后空間注意力效果要更好颁股。
- Image Classification on ImageNet-1K
-
該實(shí)驗(yàn)基于主干網(wǎng)絡(luò):ResNet么库、WideResNet、ResNext甘有,驗(yàn)證了CBAM的有效性诉儒,而且參數(shù)量和計(jì)算量提升不明顯:
- 作者同時(shí)也對(duì)不同主干網(wǎng)絡(luò)的最后一層輸出特征做了可視化,并給出目標(biāo)分類(lèi)的softmax值(P):
發(fā)現(xiàn)添加CBAM之后梧疲,網(wǎng)絡(luò)能更加關(guān)注到目標(biāo)分類(lèi)的區(qū)域允睹。可視化方法來(lái)自:
Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D.: Grad- cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2017) 618–626
- Object Detection
-
MS COCO
目標(biāo)檢測(cè)采取方法Faster-RCNN幌氮,主干為帶預(yù)訓(xùn)練權(quán)重的 ResNet50和ResNet101:
實(shí)驗(yàn)證明:添加CBAM模塊后缭受,不同主干網(wǎng)絡(luò)的效果都有提升。
-
VOC 2007
目標(biāo)檢測(cè)采取方法StairNet该互,它又基于SSD米者,主干網(wǎng)絡(luò)有VGG16和MobileNet:
實(shí)驗(yàn)證明:添加CBAM模塊后,不同主干網(wǎng)絡(luò)的效果都有提升宇智,即使在輕量級(jí)網(wǎng)絡(luò)MobileNet下也有提升蔓搞。