本文是Facebook AI實(shí)驗(yàn)室17年物體檢測的新作围来,CVPR17年的文章,本文打破了何凱明他們自己之前Faster RCNN等系列作品的記錄,本文的突出貢獻(xiàn)是特征化金字塔網(wǎng)絡(luò)餐抢。
特征金字塔很久之前已經(jīng)出現(xiàn)霍转,但是由于網(wǎng)絡(luò)耗時(shí)太久所以一直未被應(yīng)用荐绝。下圖是4種特征利用方式。(a)圖像金字塔避消,即將圖像轉(zhuǎn)化成成不同的尺寸低滩,然后不同尺寸的圖像生成對應(yīng)的特征。這種方法就是傳統(tǒng)的圖像金字塔網(wǎng)絡(luò)岩喷,他的缺點(diǎn)在于增加了時(shí)間成本恕沫。有些算法會在測試時(shí)候采用圖像金字塔。 (b)SPP net纱意,F(xiàn)ast RCNN婶溯,F(xiàn)aster RCNN是采用這種方式,即將網(wǎng)絡(luò)進(jìn)行卷積僅采用網(wǎng)絡(luò)最后一層的特征。(c)SSD(Single Shot Detector)采用這種多尺度特征融合的方式迄委,沒有上采樣過程褐筛,即從網(wǎng)絡(luò)不同層抽取不同尺度的特征做預(yù)測,這種方式不會增加額外的計(jì)算量叙身。
作者認(rèn)為SSD算法中沒有用到足夠低層的特征渔扎,而足夠低層的特征對于檢測小物體是很有幫助的。
(d)是本文作者采用的方式信轿,頂層特征通過上采樣和低層特征做融合晃痴,而且每層都做獨(dú)立預(yù)測。
在16年的ECCV里有一種類似于上圖d的結(jié)構(gòu)虏两,運(yùn)用了特征金字塔和反卷積結(jié)構(gòu)愧旦,其結(jié)構(gòu)如下圖上部分,可以看出來與本文的區(qū)別的本文采取了獨(dú)立預(yù)測定罢,每一層都獨(dú)立預(yù)測出結(jié)果笤虫。這也是本文的創(chuàng)新點(diǎn)。
本文模型的基本架構(gòu)是Res-nets祖凫,結(jié)構(gòu)可以分成兩部分琼蚯,自上而下和自下而上。
自下而上是指的正向的卷積網(wǎng)絡(luò)惠况,2倍步長遭庶。自上而下指上采樣過程,2倍步長上采樣稠屠。最后用橫向連接將自下而上和自上而下的網(wǎng)絡(luò)連接起來峦睡,如下圖所示,采用卷積網(wǎng)絡(luò)每一階段最后一層網(wǎng)絡(luò)权埠,在Res-nets中就是每個階段最后的殘差塊榨了,C2、C3攘蔽、C4龙屉、C5,但是不含conv1满俗,因?yàn)檎加脙?nèi)存大转捕,經(jīng)過一個1*1的卷積層與自上而下的反卷積網(wǎng)絡(luò)結(jié)合,然后經(jīng)過一個3*3的卷積輸出每一層的預(yù)測結(jié)果唆垃。
本文所采用的結(jié)構(gòu)比較簡單五芝,作者也嘗試了復(fù)雜的結(jié)構(gòu),效果有提升辕万,但這不是文章的重點(diǎn)与柑。
應(yīng)用谤辜。
本文所提出來的特征金字塔網(wǎng)絡(luò)是一個通用的架構(gòu),所以應(yīng)用也很廣泛价捧,比如說用于RPN。本文將FPN結(jié)合RPN生成建議框涡戳,原始的RPN结蟋,比如fast rcnn里的是單尺度的特征圖生成anchor,而現(xiàn)在內(nèi)嵌FPN渔彰,就可以將不同尺度的特征圖生成對應(yīng)的1:2嵌屎、1:1、2:1大小的anchor恍涂,所以針對P2宝惰,P3,P4再沧,P5尼夺,P6一共5個不同像素值的特征圖可以生成15個anchor。
另外一個應(yīng)用是用于fast rcnn炒瘸,這里針對的是ROI池化層淤堵。Fast rcnn網(wǎng)絡(luò)本身ROI Pooling層的輸入是固定大小的特征,而這里將使用不同特征層作為ROI pooling層的輸入顷扩,大尺度ROI就用較深的金字塔層拐邪,小尺度就用較淺的特征金字塔輸入,而怎么定義是用深層金字塔特征還是淺層特征隘截,作者定義了一個函數(shù)扎阶,用于判別。
上式中婶芭,224是ImageNet的標(biāo)準(zhǔn)輸入东臀,k0是基準(zhǔn)值,設(shè)置為5雕擂,代表P5層的輸出(原圖大小就用P5層)啡邑,w和h是ROI區(qū)域的長和寬,假設(shè)ROI是112 * 112的大小井赌,那么k = k0-1 = 5-1 = 4谤逼,意味著該ROI應(yīng)該使用P4的特征層。k值應(yīng)該會做取整處理仇穗,防止結(jié)果不是整數(shù)流部。
實(shí)驗(yàn)。
區(qū)域建議與RPN實(shí)驗(yàn)纹坐。本實(shí)驗(yàn)在8個GPU同步的SGD進(jìn)行枝冀,IOU值大于0.7為正樣本,小于0.3為負(fù)樣本。下表為實(shí)驗(yàn)結(jié)果果漾,為了進(jìn)行對比球切,采用FPN的RPN與未采用的網(wǎng)絡(luò)采取相同的超參數(shù)∪拚希可以看出單獨(dú)使用conv4并沒有提升吨凑,但內(nèi)嵌FPN的網(wǎng)絡(luò)提升了8個百分點(diǎn)。為了驗(yàn)證自下而上和自上而下結(jié)構(gòu)的作用户辱,作者進(jìn)行了沒有自上而下結(jié)構(gòu)的實(shí)驗(yàn)鸵钝,結(jié)果如(d)。針對橫向連接庐镐,(e)是沒有進(jìn)行橫向連接的消融結(jié)果恩商。為了驗(yàn)證金字塔特征結(jié)構(gòu)的重要性,作者只采用P2層進(jìn)行實(shí)驗(yàn)必逆,結(jié)果如(f)所示怠堪。
Fast rcnn檢測實(shí)驗(yàn)。在coco數(shù)據(jù)集上進(jìn)行末患,實(shí)驗(yàn)結(jié)果如下表所示研叫,對應(yīng)實(shí)驗(yàn)與RPN實(shí)驗(yàn)一致。
下表是Faster R-CNN上實(shí)驗(yàn)的結(jié)果璧针。
對于coco數(shù)據(jù)集比賽各獲獎團(tuán)隊(duì)模型進(jìn)行比較嚷炉,如下表所示。
本文提出了一個簡單而有效的FPN框架探橱,可以嵌入到已有的模型中申屹,其亮點(diǎn)在于每一層都進(jìn)行融合,預(yù)測隧膏。FPN框架后也被應(yīng)用到目標(biāo)檢測哗讥,何凱明所提出的Mask RCNN網(wǎng)絡(luò)就是在Fater RCNN上增加了FPN,效果顯著胞枕。但FPN和Mask RCNN的代碼都未公開杆煞。