Squeeze-and-Excitation Networks(SENet)是由自動(dòng)駕駛公司Momenta在2017年公布的一種全新的圖像識(shí)別結(jié)構(gòu),它通過(guò)對(duì)特征通道間的相關(guān)性進(jìn)行建模片择,把重要的特征進(jìn)行強(qiáng)化來(lái)提升準(zhǔn)確率夸研。這個(gè)結(jié)構(gòu)是2017 ILSVR競(jìng)賽的冠軍,top5的錯(cuò)誤率達(dá)到了2.251%媳拴,比2016年的第一名還要低25%黄橘。
中心思想:對(duì)于每個(gè)輸出channel,預(yù)測(cè)一個(gè)常數(shù)權(quán)重屈溉,對(duì)每個(gè)channel加權(quán)一下塞关。
? 第一步每個(gè)通道HxW個(gè)數(shù)全局平均池化得到一個(gè)標(biāo)量,稱之為Squeeze,然后兩個(gè)FC得到01之間的一個(gè)權(quán)重值憋他,對(duì)原始的每個(gè)HxW的每個(gè)元素乘以對(duì)應(yīng)通道的權(quán)重孩饼,得到新的feature map,稱之為Excitation竹挡。任意的原始網(wǎng)絡(luò)結(jié)構(gòu)镀娶,都可以通過(guò)這個(gè)Squeeze-Excitation的方式進(jìn)行feature recalibration,采用了改方式的網(wǎng)絡(luò)揪罕,即SENet版本梯码。
? 上面的模塊很通用,也可以很容易地和現(xiàn)有網(wǎng)絡(luò)集成好啰,得到對(duì)應(yīng)地SENet版本轩娶,提升現(xiàn)有網(wǎng)絡(luò)性能,SENet泛指所有的采用了上述結(jié)構(gòu)地網(wǎng)絡(luò)框往。另外鳄抒,SENet也可以特指作者 ILSVRC 2017奪冠中采用的SE-ResNeXt-152 (64 × 4d)。
下面是SENet和Inception的結(jié)合:
下面是SENet和ResNet的結(jié)合:
可以看出椰弊,具體實(shí)現(xiàn)上就是一個(gè)Global Average Pooling-FC-ReLU-FC-Sigmoid许溅,第一層的FC會(huì)把通道降下來(lái),然后第二層FC再把通道升上去秉版,得到和通道數(shù)相同的C個(gè)權(quán)重贤重,每個(gè)權(quán)重用于給對(duì)應(yīng)的一個(gè)通道進(jìn)行加權(quán)。上圖中的r就是縮減系數(shù)清焕,實(shí)驗(yàn)確定選取16并蝗,可以得到較好的性能并且計(jì)算量相對(duì)較小。
全連接與全局均值池化:
假如耐朴,最后的一層的數(shù)據(jù)是10個(gè)66的特征圖借卧,global average pooling是將每一張?zhí)卣鲌D計(jì)算所有像素點(diǎn)的均值盹憎,輸出一個(gè)數(shù)據(jù)值筛峭,
這樣10 個(gè)特征圖就會(huì)輸出10個(gè)數(shù)據(jù)點(diǎn),將這些數(shù)據(jù)點(diǎn)組成一個(gè)110的向量的話陪每,就成為一個(gè)特征向量影晓,就可以送入到softmax的分類中計(jì)算了
兩者的感受野、參數(shù)量檩禾、特征信息提取對(duì)比:
1.而且全局平均池化操作挂签,從而使其具有全局的感受野,使得網(wǎng)絡(luò)低層也能利用全局信息盼产。
2.全連接的目的饵婆,因?yàn)閭鹘y(tǒng)的網(wǎng)絡(luò)我們的輸出都是幾個(gè)類別的概率,那么全連接層就是高度提純的特征了戏售,方便交給最后的分類器或者回歸侨核。但是全連接的參數(shù)實(shí)在是太多了草穆;GAP減少了參數(shù)的數(shù)量,可以減輕過(guò)擬合的發(fā)生.
3.FC會(huì)導(dǎo)致feature map損失空間位置信息搓译,而GAP則不會(huì).
(如果在圖像的某一位置有高響應(yīng)悲柱,則經(jīng)過(guò)FC之后,根據(jù)整個(gè)feature并不能分辨出刺激源于左上角還是右下角還是什么其他的地方些己,而通過(guò)GAP就可以豌鸡,因?yàn)槠浔A袅?strong>空間位置信息)
SENet一個(gè)很大的優(yōu)點(diǎn)就是可以很方便地集成到現(xiàn)有網(wǎng)絡(luò)中,提升網(wǎng)絡(luò)性能段标,并且代價(jià)很小涯冠。