SENet是對(duì)特征圖的通道注意力機(jī)制的研究,之前的CBAM提到了對(duì)特征圖空間注意力機(jī)制的研究洞焙。這里SKNet針對(duì)卷積核的注意力機(jī)制研究孝鹊。
不同大小的感受視野(卷積核)對(duì)于不同尺度(遠(yuǎn)近、大芯呕稹)的目標(biāo)會(huì)有不同的效果冈闭。盡管比如Inception這樣的增加了多個(gè)卷積核來適應(yīng)不同尺度圖像俱尼,但是一旦訓(xùn)練完成后,參數(shù)就固定了萎攒,這樣多尺度信息就會(huì)被全部使用了(每個(gè)卷積核的權(quán)重相同)遇八。
SKNet提出了一種機(jī)制,即卷積核的重要性耍休,即不同的圖像能夠得到具有不同重要性的卷積核刃永。
SKNet對(duì)不同圖像使用的卷積核權(quán)重不同,即一種針對(duì)不同尺度的圖像動(dòng)態(tài)生成卷積核羹应。整體結(jié)構(gòu)如下圖所示:
網(wǎng)絡(luò)主要由Split揽碘、Fuse、Select三部分組成园匹。
? Split部分是對(duì)原特征圖經(jīng)過不同大小的卷積核部分進(jìn)行卷積的過程雳刺,這里可以有多個(gè)分支。
對(duì)輸入X使用不同大小卷積核分別進(jìn)行卷積操作(圖中的卷積核size分別為3x3和5x5兩個(gè)分支裸违,但是可以有多個(gè)分支)掖桦。操作包括卷積、efficient grouped/depthwise convolutions供汛、BN枪汪。
? Fuse部分是計(jì)算每個(gè)卷積核權(quán)重的部分。
將兩部分的特征圖按元素求和
Fgp為全局平均池化操作
U通過全局平均池化(GAP)生成通道統(tǒng)計(jì)信息怔昨。得到的Sc維度為C * 1
經(jīng)過全連接生成緊湊的特征z(維度為d * 1)雀久, δ是RELU激活函數(shù),B表示批標(biāo)準(zhǔn)化(BN)趁舀,z的維度為卷積核的個(gè)數(shù)赖捌,W維度為d×C, d代表全連接后的特征維度矮烹,L在文中的值為32越庇,r為壓縮因子。
Ffc為先降維再升維的兩層奉狈,需要注意的是輸出的兩個(gè)矩陣a和b卤唉,其中矩陣b為冗余矩陣,在如圖兩個(gè)分支的情況下b=1-a仁期。
? Select部分是根據(jù)不同權(quán)重卷積核計(jì)算后得到的新的特征圖的過程桑驱。
softmax背景知識(shí):
image.pngimage.png
進(jìn)行softmax計(jì)算每個(gè)卷積核的權(quán)重竭恬,計(jì)算方式如下圖所示。如果是兩個(gè)卷積核熬的,則 ac + bc = 1萍聊。z的維度為(d * 1)A的維度為(C * d),B的維度為(C * d)悦析,則a = A x z的維度為1 * C。
Ac此衅、Bc為A强戴、B的第c行數(shù)據(jù)(1 * d)。ac為a的第c個(gè)元素挡鞍,這樣分別得到了每個(gè)卷積核的權(quán)重骑歹。
將權(quán)重應(yīng)用到特征圖上。其中V = [V1,V2,...,VC], Vc 維度為(H x W)
如果select中softmax部分可參考下圖(3個(gè)卷積核)