1.論文地址:https://arxiv.org/abs/2012.13587
2.論文代碼:暫未開源
3.論文動(dòng)機(jī):
1.空洞卷積(Dilation convolution)是標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)的關(guān)鍵變體巩踏,可以控制有效的感受野并處理對(duì)象的大尺度方差,而無需引入額外的計(jì)算我衬。但是,在文獻(xiàn)中很少討論將有效感受野適合于具有卷積的數(shù)據(jù)。為了充分挖掘其潛力骡尽,作者提出了一種新的空洞卷積變體臂拓,即inception (dilated)卷積商乎,其中卷積在不同軸,通道和層之間具有獨(dú)立的空洞申尼。為了探索一種將復(fù)雜的初始卷積擬合到數(shù)據(jù)的實(shí)用方法垮卓,開發(fā)了一種基于統(tǒng)計(jì)優(yōu)化的簡單而高效的空洞搜索算法(EDO,effective dilation search)师幕。該搜索方法以零成本方式運(yùn)行粟按,該方法極其快速地應(yīng)用于大規(guī)模數(shù)據(jù)集。
2.在不同的任務(wù)中霹粥,由于輸入圖像的大小差異和感興趣對(duì)象的尺度范圍不同灭将,對(duì)ERF的要求也不同。例如后控,在圖像分類中庙曙,輸入的尺寸往往比較小(例如:而在目標(biāo)檢測中,輸入的尺寸要大得多浩淘,目標(biāo)尺度范圍也很大捌朴。即使對(duì)于固定網(wǎng)絡(luò)的同一任務(wù)吴攒,某一卷積層的最優(yōu)ERF也可能與標(biāo)準(zhǔn)卷積運(yùn)算不同。由于ERF的要求不斷變化砂蔽,需要針對(duì)不同的任務(wù)提出一種通用的洼怔、實(shí)用的ERF優(yōu)化算法。
4.論文創(chuàng)新:主要有兩個(gè)貢獻(xiàn):
1.首先左驾,希望有一個(gè)更靈活的搜索空間镣隶,可以使得模型能夠具備將ERFs擬合到不同數(shù)據(jù)集的能力。于是本文提出一種新的膨脹卷積突變體什荣,即Inception卷積矾缓,它包含盡可能多的膨脹模式
2.本文提出了一種簡單而高效的膨脹優(yōu)化算法(EDO)。在EDO中稻爬,超網(wǎng)絡(luò)的每一層都是一個(gè)標(biāo)準(zhǔn)的卷積操作嗜闻,其內(nèi)核覆蓋了所有可能的膨脹模式。在對(duì)超網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練后桅锄,通過求解一個(gè)統(tǒng)計(jì)優(yōu)化問題琉雳,為每個(gè)卷積層中的每個(gè)通道選擇膨脹模式。對(duì)于每一層友瘤,通過原始卷積層的輸出期望與裁剪出來的與所選膨脹模式的膨脹卷積的L1誤差最小翠肘,使用預(yù)先訓(xùn)練好的權(quán)值來解決選擇問題。
5.論文骨架網(wǎng)絡(luò)和數(shù)據(jù)集:ResNet-50和ResNet101,MS-COCO和COCO val2017辫秧。
6.實(shí)驗(yàn)算法比較和總結(jié)
1.在圖像識(shí)別上:
2.在目標(biāo)檢測上:
3.在實(shí)例分割上:
4.在人體姿態(tài)估計(jì)上:
6.算法對(duì)比
實(shí)證結(jié)果表明束倍,作者的方法在廣泛的Baseline測試中獲得了一致的性能提升。