文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡(jiǎn)書(shū)
聲明:作者翻譯論文僅為學(xué)習(xí)表箭,如有侵權(quán)請(qǐng)聯(lián)系作者刪除博文掸宛,謝謝么抗!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
Feature Pyramid Networks for Object Detection
摘要
特征金字塔是識(shí)別系統(tǒng)中用于檢測(cè)不同尺度目標(biāo)的基本組件瓷胧。但最近的深度學(xué)習(xí)目標(biāo)檢測(cè)器已經(jīng)避免了金字塔表示衡蚂,部分原因是它們是計(jì)算和內(nèi)存密集型的泪喊。在本文中棕硫,我們利用深度卷積網(wǎng)絡(luò)內(nèi)在的多尺度、金字塔分級(jí)來(lái)構(gòu)造具有很少額外成本的特征金字塔袒啼。開(kāi)發(fā)了一種具有橫向連接的自頂向下架構(gòu)哈扮,用于在所有尺度上構(gòu)建高級(jí)語(yǔ)義特征映射。這種稱為特征金字塔網(wǎng)絡(luò)(FPN)的架構(gòu)在幾個(gè)應(yīng)用程序中作為通用特征提取器表現(xiàn)出了顯著的改進(jìn)蚓再。在一個(gè)基本的Faster R-CNN系統(tǒng)中使用FPN滑肉,沒(méi)有任何不必要的東西,我們的方法可以在COCO檢測(cè)基準(zhǔn)數(shù)據(jù)集上取得最先進(jìn)的單模型結(jié)果摘仅,結(jié)果超過(guò)了所有現(xiàn)有的單模型輸入靶庙,包括COCO 2016挑戰(zhàn)賽的獲獎(jiǎng)?wù)摺4送馔奘簦覀兊姆椒梢栽贕PU上以6FPS運(yùn)行六荒,因此是多尺度目標(biāo)檢測(cè)的實(shí)用和準(zhǔn)確的解決方案护姆。代碼將公開(kāi)發(fā)布。
1. 引言
識(shí)別不同尺度的目標(biāo)是計(jì)算機(jī)視覺(jué)中的一個(gè)基本挑戰(zhàn)恬吕。建立在圖像金字塔之上的特征金字塔(我們簡(jiǎn)稱為特征化圖像金字塔)構(gòu)成了標(biāo)準(zhǔn)解決方案的基礎(chǔ)[1](圖1(a))签则。這些金字塔是尺度不變的,因?yàn)槟繕?biāo)的尺度變化是通過(guò)在金字塔中移動(dòng)它的層級(jí)來(lái)抵消的铐料。直觀地說(shuō),該屬性使模型能夠通過(guò)在位置和金字塔等級(jí)上掃描模型來(lái)檢測(cè)大范圍尺度內(nèi)的目標(biāo)豺旬。
圖1钠惩。(a)使用圖像金字塔構(gòu)建特征金字塔。每個(gè)圖像尺度上的特征都是獨(dú)立計(jì)算的族阅,速度很慢篓跛。(b)最近的檢測(cè)系統(tǒng)選擇只使用單一尺度特征進(jìn)行更快的檢測(cè)。(c)另一種方法是重用ConvNet計(jì)算的金字塔特征層次結(jié)構(gòu)坦刀,就好像它是一個(gè)特征化的圖像金字塔愧沟。(d)我們提出的特征金字塔網(wǎng)絡(luò)(FPN)與(b)和(c)類(lèi)似,但更準(zhǔn)確鲤遥。在該圖中沐寺,特征映射用藍(lán)色輪廓表示,較粗的輪廓表示語(yǔ)義上較強(qiáng)的特征盖奈。
特征化圖像金字塔在手工設(shè)計(jì)的時(shí)代被大量使用[5混坞,25]。它們非常關(guān)鍵钢坦,以至于像DPM[7]這樣的目標(biāo)檢測(cè)器需要密集的尺度采樣才能獲得好的結(jié)果(例如每組10個(gè)尺度究孕,octave參考SIFT特征)。對(duì)于識(shí)別任務(wù)爹凹,工程特征大部分已經(jīng)被深度卷積網(wǎng)絡(luò)(ConvNets)[19厨诸,20]計(jì)算的特征所取代。除了能夠表示更高級(jí)別的語(yǔ)義禾酱,ConvNets對(duì)于尺度變化也更加魯棒微酬,從而有助于從單一輸入尺度上計(jì)算的特征進(jìn)行識(shí)別[15,11宇植,29](圖1(b))得封。但即使有這種魯棒性,金字塔仍然需要得到最準(zhǔn)確的結(jié)果指郁。在ImageNet[33]和COCO[21]檢測(cè)挑戰(zhàn)中忙上,最近的所有排名靠前的輸入都使用了針對(duì)特征化圖像金字塔的多尺度測(cè)試(例如[16,35])闲坎。對(duì)圖像金字塔的每個(gè)層次進(jìn)行特征化的主要優(yōu)勢(shì)在于它產(chǎn)生了多尺度的特征表示疫粥,其中所有層次上在語(yǔ)義上都很強(qiáng)茬斧,包括高分辨率層。
盡管如此梗逮,特征化圖像金字塔的每個(gè)層次都具有明顯的局限性项秉。推斷時(shí)間顯著增加(例如,四倍[11])慷彤,使得這種方法在實(shí)際應(yīng)用中不切實(shí)際娄蔼。此外,在圖像金字塔上端對(duì)端地訓(xùn)練深度網(wǎng)絡(luò)在內(nèi)存方面是不可行的底哗,所以如果被采用岁诉,圖像金字塔僅在測(cè)試時(shí)被使用[15,11跋选,16涕癣,35],這造成了訓(xùn)練/測(cè)試時(shí)推斷的不一致性前标。出于這些原因坠韩,F(xiàn)ast和Faster R-CNN[11,29]選擇在默認(rèn)設(shè)置下不使用特征化圖像金字塔炼列。
但是只搁,圖像金字塔并不是計(jì)算多尺度特征表示的唯一方法。深層ConvNet逐層計(jì)算特征層級(jí)唯鸭,而對(duì)于下采樣層须蜗,特征層級(jí)具有內(nèi)在的多尺度金字塔形狀。這種網(wǎng)內(nèi)特征層級(jí)產(chǎn)生不同空間分辨率的特征映射目溉,但引入了由不同深度引起的較大的語(yǔ)義差異明肮。高分辨率映射具有損害其目標(biāo)識(shí)別表示能力的低級(jí)特征。
單次檢測(cè)器(SSD)[22]是首先嘗試使用ConvNet的金字塔特征層級(jí)中的一個(gè)缭付,好像它是一個(gè)特征化的圖像金字塔(圖1(c))柿估。理想情況下,SSD風(fēng)格的金字塔將重用正向傳遞中從不同層中計(jì)算的多尺度特征映射陷猫,因此是零成本的秫舌。但為了避免使用低級(jí)特征,SSD放棄重用已經(jīng)計(jì)算好的圖層绣檬,而從網(wǎng)絡(luò)中的最高層開(kāi)始構(gòu)建金字塔(例如足陨,VGG網(wǎng)絡(luò)的conv4_3[36]),然后添加幾個(gè)新層娇未。因此它錯(cuò)過(guò)了重用特征層級(jí)的更高分辨率映射的機(jī)會(huì)墨缘。我們證明這些對(duì)于檢測(cè)小目標(biāo)很重要。
本文的目標(biāo)是自然地利用ConvNet特征層級(jí)的金字塔形狀,同時(shí)創(chuàng)建一個(gè)在所有尺度上都具有強(qiáng)大語(yǔ)義的特征金字塔镊讼。為了實(shí)現(xiàn)這個(gè)目標(biāo)宽涌,我們所依賴的架構(gòu)將低分辨率、強(qiáng)語(yǔ)義的特征與高分辨率蝶棋、弱語(yǔ)義的特征通過(guò)自頂向下的路徑和橫向連接相結(jié)合卸亮。(圖1(d))。其結(jié)果是一個(gè)特征金字塔玩裙,在所有級(jí)別都具有豐富的語(yǔ)義兼贸,并且可以從單個(gè)輸入圖像尺度上進(jìn)行快速構(gòu)建。換句話說(shuō)献酗,我們展示了如何創(chuàng)建網(wǎng)絡(luò)中的特征金字塔寝受,可以用來(lái)代替特征化的圖像金字塔,而不犧牲表示能力罕偎,速度或內(nèi)存。
最近的研究[28京闰,17颜及,8,26]中流行采用自頂向下和跳躍連接的類(lèi)似架構(gòu)蹂楣。他們的目標(biāo)是生成具有高分辨率的單個(gè)高級(jí)特征映射俏站,并在其上進(jìn)行預(yù)測(cè)(圖2頂部)。相反痊土,我們的方法利用這個(gè)架構(gòu)作為特征金字塔肄扎,其中預(yù)測(cè)(例如目標(biāo)檢測(cè))在每個(gè)級(jí)別上獨(dú)立進(jìn)行(圖2底部)。我們的模型反映了一個(gè)特征化的圖像金字塔赁酝,這在這些研究中還沒(méi)有探索過(guò)犯祠。
圖2。頂部:帶有跳躍連接的自頂向下的架構(gòu)酌呆,在最好的級(jí)別上進(jìn)行預(yù)測(cè)(例如衡载,[28])。底部:我們的模型具有類(lèi)似的結(jié)構(gòu)隙袁,但將其用作特征金字塔痰娱,并在各個(gè)層級(jí)上獨(dú)立進(jìn)行預(yù)測(cè)。
我們?cè)u(píng)估了我們稱為特征金字塔網(wǎng)絡(luò)(FPN)的方法菩收,其在各種系統(tǒng)中用于檢測(cè)和分割[11梨睁,29,27]娜饵。沒(méi)有任何不必要的東西坡贺,我們?cè)诰哂刑魬?zhàn)性的COCO檢測(cè)基準(zhǔn)數(shù)據(jù)集上報(bào)告了最新的單模型結(jié)果,僅僅基于FPN和基本的Faster R-CNN檢測(cè)器[29],就超過(guò)了競(jìng)賽獲獎(jiǎng)?wù)咚鞋F(xiàn)存的嚴(yán)重工程化的單模型競(jìng)賽輸入拴念。在消融實(shí)驗(yàn)中钧萍,我們發(fā)現(xiàn)對(duì)于邊界框提議,F(xiàn)PN將平均召回率(AR)顯著增加了8個(gè)百分點(diǎn)政鼠;對(duì)于目標(biāo)檢測(cè)风瘦,它將COCO型的平均精度(AP)提高了2.3個(gè)百分點(diǎn),PASCAL型AP提高了3.8個(gè)百分點(diǎn)公般,超過(guò)了ResNet[16]上Faster R-CNN強(qiáng)大的單尺度基準(zhǔn)線万搔。我們的方法也很容易擴(kuò)展掩模提議,改進(jìn)實(shí)例分隔AR官帘,加速嚴(yán)重依賴圖像金字塔的最先進(jìn)方法瞬雹。
另外,我們的金字塔結(jié)構(gòu)可以通過(guò)所有尺度進(jìn)行端對(duì)端培訓(xùn)刽虹,并且在訓(xùn)練/測(cè)試時(shí)一致地使用酗捌,這在使用圖像金字塔時(shí)是內(nèi)存不可行的。因此涌哲,F(xiàn)PN能夠比所有現(xiàn)有的最先進(jìn)方法獲得更高的準(zhǔn)確度胖缤。此外,這種改進(jìn)是在不增加單尺度基準(zhǔn)測(cè)試時(shí)間的情況下實(shí)現(xiàn)的阀圾。我們相信這些進(jìn)展將有助于未來(lái)的研究和應(yīng)用哪廓。我們的代碼將公開(kāi)發(fā)布。
2. 相關(guān)工作
手工設(shè)計(jì)特征和早期神經(jīng)網(wǎng)絡(luò)初烘。SIFT特征[25]最初是從尺度空間極值中提取的涡真,用于特征點(diǎn)匹配。HOG特征[5]肾筐,以及后來(lái)的SIFT特征哆料,都是在整個(gè)圖像金字塔上密集計(jì)算的。這些HOG和SIFT金字塔已在許多工作中得到了應(yīng)用局齿,用于圖像分類(lèi)剧劝,目標(biāo)檢測(cè),人體姿勢(shì)估計(jì)等抓歼。這對(duì)快速計(jì)算特征化圖像金字塔也很有意義讥此。Dollar等人[6]通過(guò)先計(jì)算一個(gè)稀疏采樣(尺度)金字塔,然后插入缺失的層級(jí)谣妻,從而演示了快速金字塔計(jì)算萄喳。在HOG和SIFT之前,使用ConvNet[38蹋半,32]的早期人臉檢測(cè)工作計(jì)算了圖像金字塔上的淺網(wǎng)絡(luò)他巨,以檢測(cè)跨尺度的人臉。
Deep ConvNet目標(biāo)檢測(cè)器。隨著現(xiàn)代深度卷積網(wǎng)絡(luò)[19]的發(fā)展染突,像OverFeat[34]和R-CNN[12]這樣的目標(biāo)檢測(cè)器在精度上顯示出了顯著的提高捻爷。OverFeat采用了一種類(lèi)似于早期神經(jīng)網(wǎng)絡(luò)人臉檢測(cè)器的策略,通過(guò)在圖像金字塔上應(yīng)用ConvNet作為滑動(dòng)窗口檢測(cè)器份企。R-CNN采用了基于區(qū)域提議的策略[37]也榄,其中每個(gè)提議在用ConvNet進(jìn)行分類(lèi)之前都進(jìn)行了尺度歸一化。SPPnet[15]表明司志,這種基于區(qū)域的檢測(cè)器可以更有效地應(yīng)用于在單個(gè)圖像尺度上提取的特征映射甜紫。最近更準(zhǔn)確的檢測(cè)方法,如Fast R-CNN[11]和Faster R-CNN[29]提倡使用從單一尺度計(jì)算出的特征骂远,因?yàn)樗峁┝司_度和速度之間的良好折衷囚霸。然而,多尺度檢測(cè)性能仍然更好激才,特別是對(duì)于小型目標(biāo)拓型。
使用多層的方法。一些最近的方法通過(guò)使用ConvNet中的不同層來(lái)改進(jìn)檢測(cè)和分割瘸恼。FCN[24]將多個(gè)尺度上的每個(gè)類(lèi)別的部分分?jǐn)?shù)相加以計(jì)算語(yǔ)義分割吨述。Hypercolumns[13]使用類(lèi)似的方法進(jìn)行目標(biāo)實(shí)例分割。在計(jì)算預(yù)測(cè)之前钞脂,其他幾種方法(HyperNet[18],ParseNet[23]和ION[2])將多個(gè)層的特征連接起來(lái)捕儒,這相當(dāng)于累加轉(zhuǎn)換后的特征冰啃。SSD[22]和MS-CNN[3]可預(yù)測(cè)特征層級(jí)中多個(gè)層的目標(biāo),而不需要組合特征或分?jǐn)?shù)刘莹。
最近有一些方法利用橫向/跳躍連接將跨分辨率和語(yǔ)義層次的低級(jí)特征映射關(guān)聯(lián)起來(lái)阎毅,包括用于分割的U-Net[31]和SharpMask[28],Recombinator網(wǎng)絡(luò)[17]用于人臉檢測(cè)以及Stacked Hourglass網(wǎng)絡(luò)[26]用于關(guān)鍵點(diǎn)估計(jì)点弯。Ghiasi等人[8]為FCN提出拉普拉斯金字塔表示扇调,以逐步細(xì)化分割。盡管這些方法采用的是金字塔形狀的架構(gòu)抢肛,但它們不同于特征化的圖像金字塔[5狼钮,7,34]捡絮,其中所有層次上的預(yù)測(cè)都是獨(dú)立進(jìn)行的熬芜,參見(jiàn)圖2。事實(shí)上福稳,對(duì)于圖2(頂部)中的金字塔結(jié)構(gòu)涎拉,圖像金字塔仍然需要跨多個(gè)尺度上識(shí)別目標(biāo)[28]。
3. 特征金字塔網(wǎng)絡(luò)
我們的目標(biāo)是利用ConvNet的金字塔特征層級(jí),該層次結(jié)構(gòu)具有從低到高的語(yǔ)義鼓拧,并在整個(gè)過(guò)程中構(gòu)建具有高級(jí)語(yǔ)義的特征金字塔半火。由此產(chǎn)生的特征金字塔網(wǎng)絡(luò)是通用的,在本文中季俩,我們側(cè)重于滑動(dòng)窗口提議(Region Proposal Network钮糖,簡(jiǎn)稱RPN)[29]和基于區(qū)域的檢測(cè)器(Fast R-CNN)[11]。在第6節(jié)中我們還將FPN泛化到實(shí)例細(xì)分提議种玛。
我們的方法以任意大小的單尺度圖像作為輸入藐鹤,并以全卷積的方式輸出多層適當(dāng)大小的特征映射。這個(gè)過(guò)程獨(dú)立于主卷積體系結(jié)構(gòu)(例如[19赂韵,36娱节,16]),在本文中祭示,我們呈現(xiàn)了使用ResNets[16]的結(jié)果肄满。如下所述,我們的金字塔結(jié)構(gòu)包括自下而上的路徑质涛,自上而下的路徑和橫向連接稠歉。
自下而上的路徑。自下向上的路徑是主ConvNet的前饋計(jì)算汇陆,其計(jì)算由尺度步長(zhǎng)為2的多尺度特征映射組成的特征層級(jí)怒炸。通常有許多層產(chǎn)生相同大小的輸出映射,并且我們認(rèn)為這些層位于相同的網(wǎng)絡(luò)階段毡代。對(duì)于我們的特征金字塔阅羹,我們?yōu)槊總€(gè)階段定義一個(gè)金字塔層。我們選擇每個(gè)階段的最后一層的輸出作為我們的特征映射參考集教寂,我們將豐富它來(lái)創(chuàng)建我們的金字塔捏鱼。這種選擇是自然的,因?yàn)槊總€(gè)階段的最深層應(yīng)具有最強(qiáng)大的特征酪耕。
具體而言导梆,對(duì)于ResNets[16],我們使用每個(gè)階段的最后一個(gè)殘差塊輸出的特征激活迂烁。對(duì)于conv2看尼,conv3,conv4和conv5輸出婚被,我們將這些最后殘差塊的輸出表示為狡忙,并注意相對(duì)于輸入圖像它們的步長(zhǎng)為{4,8址芯,16灾茁,32}個(gè)像素窜觉。由于其龐大的內(nèi)存占用,我們不會(huì)將conv1納入金字塔北专。
自頂向下的路徑和橫向連接禀挫。自頂向下的路徑通過(guò)上采樣空間上更粗糙但在語(yǔ)義上更強(qiáng)的來(lái)自較高金字塔等級(jí)的特征映射來(lái)幻化更高分辨率的特征。這些特征隨后通過(guò)來(lái)自自下而上路徑上的特征經(jīng)由橫向連接進(jìn)行增強(qiáng)拓颓。每個(gè)橫向連接合并來(lái)自自下而上路徑和自頂向下路徑的具有相同空間大小的特征映射语婴。自下而上的特征映射具有較低級(jí)別的語(yǔ)義,但其激活可以更精確地定位驶睦,因?yàn)樗幌虏蓸拥拇螖?shù)更少砰左。
圖3顯示了建造我們的自頂向下特征映射的構(gòu)建塊。使用較粗糙分辨率的特征映射场航,我們將空間分辨率上采樣為2倍(為了簡(jiǎn)單起見(jiàn)缠导,使用最近鄰上采樣)。然后通過(guò)按元素相加溉痢,將上采樣映射與相應(yīng)的自下而上映射(其經(jīng)過(guò)1×1卷積層來(lái)減少通道維度)合并僻造。迭代這個(gè)過(guò)程,直到生成最佳分辨率映射孩饼。為了開(kāi)始迭代髓削,我們只需在上添加一個(gè)1×1卷積層來(lái)生成最粗糙分辨率映射。最后镀娶,我們?cè)诿總€(gè)合并的映射上添加一個(gè)3×3卷積來(lái)生成最終的特征映射立膛,這是為了減少上采樣的混疊效應(yīng)。這個(gè)最終的特征映射集稱為梯码,對(duì)應(yīng)于旧巾,分別具有相同的空間大小。
圖3忍些。構(gòu)建模塊說(shuō)明了橫向連接和自頂向下路徑,通過(guò)加法合并坎怪。
由于金字塔的所有層都像傳統(tǒng)的特征圖像金字塔一樣使用共享分類(lèi)器/回歸器罢坝,因此我們?cè)谒刑卣饔成渲泄潭ㄌ卣骶S度(通道數(shù)記為)。我們?cè)诒疚闹性O(shè)置搅窿,因此所有額外的卷積層都有256個(gè)通道的輸出嘁酿。在這些額外的層中沒(méi)有非線性,我們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn)這些影響很小男应。
簡(jiǎn)潔性是我們?cè)O(shè)計(jì)的核心闹司,我們發(fā)現(xiàn)我們的模型對(duì)許多設(shè)計(jì)選擇都很魯棒。我們已經(jīng)嘗試了更復(fù)雜的塊(例如沐飘,使用多層殘差塊[16]作為連接)并觀察到稍微更好的結(jié)果游桩。設(shè)計(jì)更好的連接模塊并不是本文的重點(diǎn)牲迫,所以我們選擇上述的簡(jiǎn)單設(shè)計(jì)。
4. 應(yīng)用
我們的方法是在深度ConvNets內(nèi)部構(gòu)建特征金字塔的通用解決方案借卧。在下面盹憎,我們采用我們的方法在RPN[29]中進(jìn)行邊界框提議生成,并在Fast R-CNN[11]中進(jìn)行目標(biāo)檢測(cè)铐刘。為了證明我們方法的簡(jiǎn)潔性和有效性陪每,我們對(duì)[29,11]的原始系統(tǒng)進(jìn)行最小修改镰吵,使其適應(yīng)我們的特征金字塔檩禾。
4.1. RPN的特征金字塔網(wǎng)絡(luò)
RPN[29]是一個(gè)滑動(dòng)窗口類(lèi)不可知的目標(biāo)檢測(cè)器。在原始的RPN設(shè)計(jì)中疤祭,一個(gè)小型子網(wǎng)絡(luò)在密集的3×3滑動(dòng)窗口盼产,單尺度卷積特征映射上進(jìn)行評(píng)估,執(zhí)行目標(biāo)/非目標(biāo)的二分類(lèi)和邊界框回歸画株。這是通過(guò)一個(gè)3×3的卷積層實(shí)現(xiàn)的辆飘,后面跟著兩個(gè)用于分類(lèi)和回歸的1×1兄弟卷積,我們稱之為網(wǎng)絡(luò)頭部谓传。目標(biāo)/非目標(biāo)標(biāo)準(zhǔn)和邊界框回歸目標(biāo)的定義是關(guān)于一組稱為錨點(diǎn)的參考框的[29]蜈项。這些錨點(diǎn)具有多個(gè)預(yù)定義的尺度和長(zhǎng)寬比,以覆蓋不同形狀的目標(biāo)续挟。
我們通過(guò)用我們的FPN替換單尺度特征映射來(lái)適應(yīng)RPN紧卒。我們?cè)谖覀兊奶卣鹘鹱炙拿總€(gè)層級(jí)上附加一個(gè)相同設(shè)計(jì)的頭部(3x3 conv和兩個(gè)1x1兄弟convs)。由于頭部在所有金字塔等級(jí)上的所有位置密集滑動(dòng)诗祸,所以不需要在特定層級(jí)上具有多尺度錨點(diǎn)跑芳。相反,我們?yōu)槊總€(gè)層級(jí)分配單尺度的錨點(diǎn)直颅。在形式上博个,我們定義錨點(diǎn)分別具有個(gè)像素的面積。正如在[29]中功偿,我們?cè)诿總€(gè)層級(jí)上也使用了多個(gè)長(zhǎng)寬比的錨點(diǎn)盆佣。所以在金字塔上總共有十五個(gè)錨點(diǎn)。
如[29]械荷,我們根據(jù)錨點(diǎn)和實(shí)際邊界框的交并比(IoU)比例將訓(xùn)練標(biāo)簽分配給錨點(diǎn)共耍。形式上,如果一個(gè)錨點(diǎn)對(duì)于一個(gè)給定的實(shí)際邊界框具有最高的IoU或者與任何實(shí)際邊界框的IoU超過(guò)0.7吨瞎,則給其分配一個(gè)正標(biāo)簽痹兜,如果其與所有實(shí)際邊界框的IoU都低于0.3,則為其分配一個(gè)負(fù)標(biāo)簽颤诀。請(qǐng)注意字旭,實(shí)際邊界框的尺度并未明確用于將它們分配到金字塔的層級(jí)对湃;相反,實(shí)際邊界框與已經(jīng)分配給金字塔等級(jí)的錨點(diǎn)相關(guān)聯(lián)谐算。因此熟尉,除了[29]中的內(nèi)容外,我們不引入額外的規(guī)則洲脂。
我們注意到頭部的參數(shù)在所有特征金字塔層級(jí)上共享斤儿;我們也評(píng)估了替代方案凌受,沒(méi)有共享參數(shù)并且觀察到相似的準(zhǔn)確性逆害。共享參數(shù)的良好性能表明我們的金字塔的所有層級(jí)共享相似的語(yǔ)義級(jí)別。這個(gè)優(yōu)點(diǎn)類(lèi)似于使用特征圖像金字塔的優(yōu)點(diǎn)颓鲜,其中可以將常見(jiàn)頭部分類(lèi)器應(yīng)用于在任何圖像尺度下計(jì)算的特征一铅。
通過(guò)上述改編陕贮,RPN可以自然地通過(guò)我們的FPN進(jìn)行訓(xùn)練和測(cè)試,與[29]中的方式相同潘飘。我們?cè)趯?shí)驗(yàn)中詳細(xì)說(shuō)明實(shí)施細(xì)節(jié)肮之。
4.2. Fast R-CNN的特征金字塔網(wǎng)絡(luò)
Fast R-CNN[11]是一個(gè)基于區(qū)域的目標(biāo)檢測(cè)器,利用感興趣區(qū)域(RoI)池化來(lái)提取特征卜录。Fast R-CNN通常在單尺度特征映射上執(zhí)行戈擒。要將其與我們的FPN一起使用,我們需要為金字塔等級(jí)分配不同尺度的RoI艰毒。
我們將我們的特征金字塔看作是從圖像金字塔生成的筐高。因此,當(dāng)它們?cè)趫D像金字塔上運(yùn)行時(shí)丑瞧,我們可以適應(yīng)基于區(qū)域的檢測(cè)器的分配策略[15柑土,11]。在形式上绊汹,我們通過(guò)以下公式將寬度為和高度為(在網(wǎng)絡(luò)上的輸入圖像上)的RoI分配到特征金字塔的級(jí)別上: 這里是規(guī)范的ImageNet預(yù)訓(xùn)練大小稽屏,而是大小為的RoI應(yīng)該映射到的目標(biāo)級(jí)別。類(lèi)似于基于ResNet的Faster R-CNN系統(tǒng)[16]使用作為單尺度特征映射西乖,我們將設(shè)置為4诫欠。直覺(jué)上,方程(1)意味著如果RoI的尺寸變小了(比如224的1/2)浴栽,它應(yīng)該被映射到一個(gè)更精細(xì)的分辨率級(jí)別(比如)。
我們?cè)谒屑?jí)別的所有RoI中附加預(yù)測(cè)器頭部(在Fast R-CNN中轿偎,預(yù)測(cè)器頭部是特定類(lèi)別的分類(lèi)器和邊界框回歸器)典鸡。再次,預(yù)測(cè)器頭部都共享參數(shù)坏晦,不管他們?cè)谑裁磳蛹?jí)萝玷。在[16]中嫁乘,ResNet的conv5層(9層深的子網(wǎng)絡(luò))被用作conv4特征之上的頭部,但我們的方法已經(jīng)利用了conv5來(lái)構(gòu)建特征金字塔球碉。因此蜓斧,與[16]不同,我們只是采用RoI池化提取7×7特征睁冬,并在最終的分類(lèi)層和邊界框回歸層之前附加兩個(gè)隱藏單元為1024維的全連接()層(每層后都接ReLU層)挎春。這些層是隨機(jī)初始化的,因?yàn)镽esNets中沒(méi)有預(yù)先訓(xùn)練好的層豆拨。請(qǐng)注意直奋,與標(biāo)準(zhǔn)的conv5頭部相比,我們的2- MLP頭部更輕更快施禾。
基于這些改編脚线,我們可以在特征金字塔之上訓(xùn)練和測(cè)試Fast R-CNN。實(shí)現(xiàn)細(xì)節(jié)在實(shí)驗(yàn)部分給出弥搞。
5. 目標(biāo)檢測(cè)實(shí)驗(yàn)
我們?cè)?0類(lèi)的COCO檢測(cè)數(shù)據(jù)集[21]上進(jìn)行實(shí)驗(yàn)邮绿。我們訓(xùn)練使用80k張訓(xùn)練圖像和35k大小的驗(yàn)證圖像子集(trainval35k
[2])的聯(lián)合,并報(bào)告了在5k大小的驗(yàn)證圖像子集(minival
)上的消融實(shí)驗(yàn)攀例。我們還報(bào)告了在沒(méi)有公開(kāi)標(biāo)簽的標(biāo)準(zhǔn)測(cè)試集(test-std
)[21]上的最終結(jié)果船逮。
正如通常的做法[12],所有的網(wǎng)絡(luò)骨干都是在ImageNet1k分類(lèi)集[33]上預(yù)先訓(xùn)練好的肛度,然后在檢測(cè)數(shù)據(jù)集上進(jìn)行微調(diào)傻唾。我們使用公開(kāi)可用的預(yù)訓(xùn)練的ResNet-50和ResNet-101模型。我們的代碼是使用Caffe2重新實(shí)現(xiàn)py-faster-rcnn
承耿。
5.1. 區(qū)域提議與RPN
根據(jù)[21]中的定義冠骄,我們?cè)u(píng)估了COCO類(lèi)型的平均召回率(AR)和在小型,中型和大型目標(biāo)(AR, AR, and AR)上的AR加袋。我們報(bào)告了每張圖像使用100個(gè)提議和1000個(gè)提議的結(jié)果(AR and AR)凛辣。
實(shí)施細(xì)節(jié)。表1中的所有架構(gòu)都是端對(duì)端訓(xùn)練职烧。輸入圖像的大小調(diào)整為其較短邊有800像素扁誓。我們采用8個(gè)GPU進(jìn)行同步SGD訓(xùn)練。小批量數(shù)據(jù)包括每個(gè)GPU上2張圖像和每張圖像上256個(gè)錨點(diǎn)蚀之。我們使用0.0001的權(quán)重衰減和0.9的動(dòng)量蝗敢。前30k次小批量數(shù)據(jù)的學(xué)習(xí)率為0.02,而下一個(gè)10k次的學(xué)習(xí)率為0.002足删。對(duì)于所有的RPN實(shí)驗(yàn)(包括基準(zhǔn)數(shù)據(jù)集)寿谴,我們都包含了圖像外部的錨盒來(lái)進(jìn)行訓(xùn)練,這不同于[29]中的忽略這些錨盒失受。其它實(shí)現(xiàn)細(xì)節(jié)如[29]中所述讶泰。使用具有FPN的RPN在8個(gè)GPU上訓(xùn)練COCO數(shù)據(jù)集需要約8小時(shí)咏瑟。
表1。使用RPN[29]的邊界框提議結(jié)果痪署,在COCO的minival
數(shù)據(jù)集上進(jìn)行評(píng)估码泞。所有模型都是通過(guò)trainval35k
訓(xùn)練的。列“l(fā)ateral”和“top-down”分別表示橫向連接和自上而下連接的存在狼犯。列“feature”表示附著頭部的特征映射余寥。所有結(jié)果都是基于ResNet-50的并共享相同的超參數(shù)。
5.1.1 消融實(shí)驗(yàn)
與基線進(jìn)行比較辜王。為了與原始RPNs[29]進(jìn)行公平比較劈狐,我們使用(與[16]相同)或_5\lbrace 32^2, 64^2, 128^2, 256^2, 512^2\rbrace$。表1(b)顯示沒(méi)有優(yōu)于(a)汹来,這表明單個(gè)更高級(jí)別的特征映射是不夠的续膳,因?yàn)榇嬖谠谳^粗分辨率和較強(qiáng)語(yǔ)義之間的權(quán)衡。
將FPN放在RPN中可將AR提高到56.3(表1(c))收班,這比單尺度RPN基線(表1(a))增加了8.0個(gè)點(diǎn)坟岔。此外,在小型目標(biāo)(AR)上的性能也大幅上漲了12.9個(gè)點(diǎn)摔桦。我們的金字塔表示大大提高了RPN對(duì)目標(biāo)尺度變化的魯棒性社付。
自上而下改進(jìn)的重要性如何?表1(d)顯示了沒(méi)有自上而下路徑的特征金字塔的結(jié)果邻耕。通過(guò)這種修改鸥咖,將1×1橫向連接和后面的3×3卷積添加到自下而上的金字塔中。該架構(gòu)模擬了重用金字塔特征層次結(jié)構(gòu)的效果(圖1(b))兄世。
橫向連接有多重要啼辣?表1(e)顯示了沒(méi)有1×1橫向連接的自頂向下特征金字塔的消融結(jié)果。這個(gè)自頂向下的金字塔具有強(qiáng)大的語(yǔ)義特征和良好的分辨率御滩。但是我們認(rèn)為這些特征的位置并不精確鸥拧,因?yàn)檫@些映射已經(jīng)進(jìn)行了多次下采樣和上采樣。更精確的特征位置可以通過(guò)橫向連接直接從自下而上映射的更精細(xì)層級(jí)傳遞到自上而下的映射削解。因此富弦,F(xiàn)PN的AR的得分比表1(e)高10個(gè)點(diǎn)。
金字塔表示有多重要氛驮?可以將頭部附加到的最高分辨率的強(qiáng)語(yǔ)義特征映射上(即我們金字塔中的最好層級(jí))腕柜,而不采用金字塔表示。與單尺度基線類(lèi)似,我們將所有錨點(diǎn)分配給特征映射媳握。這個(gè)變體(表1(f))比基線要好,但不如我們的方法磷脯。RPN是一個(gè)具有固定窗口大小的滑動(dòng)窗口檢測(cè)器蛾找,因此在金字塔層級(jí)上掃描可以增加其對(duì)尺度變化的魯棒性。
另外赵誓,我們注意到由于較大的空間分辨率打毛,單獨(dú)使用會(huì)導(dǎo)致更多的錨點(diǎn)(750k,表1(f))俩功。這個(gè)結(jié)果表明幻枉,大量的錨點(diǎn)本身并不足以提高準(zhǔn)確率。
5.2. 使用Fast/Faster R-CNN的目標(biāo)檢測(cè)
接下來(lái)我們研究基于區(qū)域(非滑動(dòng)窗口)檢測(cè)器的FPN诡蜓。我們通過(guò)COCO類(lèi)型的平均精度(AP)和PASCAL類(lèi)型的AP(單個(gè)IoU閾值為0.5)來(lái)評(píng)估目標(biāo)檢測(cè)熬甫。我們還按照[21]中的定義報(bào)告了在小尺寸,中尺寸和大尺寸(即AP蔓罚,AP和AP)目標(biāo)上的COCO AP椿肩。
實(shí)現(xiàn)細(xì)節(jié)。調(diào)整大小輸入圖像豺谈,使其較短邊為800像素郑象。同步SGD用于在8個(gè)GPU上訓(xùn)練模型。每個(gè)小批量數(shù)據(jù)包括每個(gè)GPU2張圖像和每張圖像上512個(gè)RoI茬末。我們使用0.0001的權(quán)重衰減和0.9的動(dòng)量厂榛。前60k次小批量數(shù)據(jù)的學(xué)習(xí)率為0.02,而接下來(lái)的20k次迭代學(xué)習(xí)率為0.002丽惭。我們每張圖像使用2000個(gè)RoIs進(jìn)行訓(xùn)練击奶,1000個(gè)RoI進(jìn)行測(cè)試。使用FPN在COCO數(shù)據(jù)集上訓(xùn)練Fast R-CNN需要約10小時(shí)吐根。
5.2.1 Fast R-CNN(固定提議)
為了更好地調(diào)查FPN對(duì)僅基于區(qū)域的檢測(cè)器的影響正歼,我們?cè)?em>一組固定的提議上進(jìn)行Fast R-CNN的消融。我們選擇凍結(jié)RPN在FPN上計(jì)算的提議(表1(c))拷橘,因?yàn)樗谀鼙粰z測(cè)器識(shí)別的小目標(biāo)上具有良好的性能局义。為了簡(jiǎn)單起見(jiàn),我們不在Fast R-CNN和RPN之間共享特征冗疮,除非指定萄唇。
作為基于ResNet的Fast R-CNN基線,遵循[16]术幔,我們采用輸出尺寸為14×14的RoI池化另萤,并將所有conv5層作為頭部的隱藏層。這得到了31.9的AP,如表2(a)四敞。表2(b)是利用MLP頭部的基線泛源,其具有2個(gè)隱藏的fc層,類(lèi)似于我們的架構(gòu)中的頭部忿危。它得到了28.8的AP达箍,表明2-fc頭部沒(méi)有給我們帶來(lái)任何超過(guò)表2(a)中基線的正交優(yōu)勢(shì)。
表2铺厨。使用Fast R-CNN[11]在一組固定提議(RPN缎玫,{},表1(c))上的目標(biāo)檢測(cè)結(jié)果解滓,在COCO的minival
數(shù)據(jù)集上進(jìn)行評(píng)估赃磨。模型在trainval35k
數(shù)據(jù)集上訓(xùn)練。所有結(jié)果都基于ResNet-50并共享相同的超參數(shù)洼裤。
表2(c)顯示了Fast R-CNN中我們的FPN結(jié)果邻辉。與表2(a)中的基線相比,我們的方法將AP提高了2.0個(gè)點(diǎn)逸邦,小型目標(biāo)AP提高了2.1個(gè)點(diǎn)恩沛。與也采用2頭部的基線相比(表2(b)),我們的方法將AP提高了5.1個(gè)點(diǎn)缕减。這些比較表明雷客,對(duì)于基于區(qū)域的目標(biāo)檢測(cè)器,我們的特征金字塔優(yōu)于單尺度特征桥狡。
表2(d)和(e)表明搅裙,去除自上而下的連接或去除橫向連接會(huì)導(dǎo)致較差的結(jié)果,類(lèi)似于我們?cè)谏厦娴腞PN小節(jié)中觀察到的結(jié)果裹芝。值得注意的是部逮,去除自上而下的連接(表2(d))顯著降低了準(zhǔn)確性,表明Fast R-CNN在高分辨率映射中使用了低級(jí)特征嫂易。
在表2(f)中兄朋,我們?cè)?img class="math-inline" src="https://math.jianshu.com/math?formula=P%5C_2" alt="P\_2" mathimg="1">的單個(gè)最好的尺度特征映射上采用了Fast R-CNN。其結(jié)果(33.4 AP)略低于使用所有金字塔等級(jí)(33.9 AP怜械,表2(c))的結(jié)果颅和。我們認(rèn)為這是因?yàn)镽oI池化是一種扭曲式的操作,對(duì)區(qū)域尺度較不敏感缕允。盡管這個(gè)變體具有很好的準(zhǔn)確性峡扩,但它是基于{}的RPN提議的,因此已經(jīng)從金字塔表示中受益障本。
5.2.2 Faster R-CNN(一致提議)
在上面我們使用了一組固定的提議來(lái)研究檢測(cè)器教届。但是在Faster R-CNN系統(tǒng)中[29]响鹃,RPN和Fast R-CNN必須使用相同的骨干網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)特征共享。表3顯示了我們的方法和兩個(gè)基線之間的比較案训,所有這些RPN和Fast R-CNN都使用一致的骨干架構(gòu)买置。表3(a)顯示了我們?cè)佻F(xiàn)[16]中描述的Faster R-CNN系統(tǒng)的基線。在受控的環(huán)境下强霎,我們的FPN(表3(c))比這個(gè)強(qiáng)勁的基線要好2.3個(gè)點(diǎn)的AP和3.8個(gè)點(diǎn)的AP@0.5堕义。
表3。使用Faster R-CNN[29]在COCOminival
數(shù)據(jù)集上評(píng)估的目標(biāo)檢測(cè)結(jié)果脆栋。RPN與Fast R-CNN的骨干網(wǎng)絡(luò)是一致的。模型在trainval35k
數(shù)據(jù)集上訓(xùn)練并使用ResNet-50洒擦。由[16]的作者提供椿争。
請(qǐng)注意,表3(a)和(b)的基線比He等人[16]在表3()中提供的基線強(qiáng)大得多熟嫩。我們發(fā)現(xiàn)以下實(shí)現(xiàn)有助于縮小差距:(i)我們使用800像素的圖像尺度秦踪,而不是[11,16]中的600像素掸茅;(ii)與[11椅邓,16]中的64個(gè)ROI相比,我們訓(xùn)練時(shí)每張圖像有512個(gè)ROIs昧狮,可以加速收斂景馁;(iii)我們使用5個(gè)尺度的錨點(diǎn),而不是[16]中的4個(gè)(添加)逗鸣;(iv)在測(cè)試時(shí)合住,我們每張圖像使用1000個(gè)提議,而不是[16]中的300個(gè)撒璧。因此透葛,與表3()中的He等人的ResNet-50 Faster R-CNN基線相比,我們的方法將AP提高了7.6點(diǎn)個(gè)并且將AP@0.5提高了9.6個(gè)點(diǎn)卿樱。
共享特征僚害。在上面,為了簡(jiǎn)單起見(jiàn)繁调,我們不共享RPN和Fast R-CNN之間的特征萨蚕。在表5中,我們按照[29]中描述的4步訓(xùn)練評(píng)估了共享特征涉馁。與[29]類(lèi)似门岔,我們發(fā)現(xiàn)共享特征提高了一點(diǎn)準(zhǔn)確率。特征共享也縮短了測(cè)試時(shí)間烤送。
表5寒随。使用Faster R-CNN和我們的FPN在minival
上的更多目標(biāo)檢測(cè)結(jié)果。共享特征將訓(xùn)練時(shí)間增加了1.5倍(使用4步訓(xùn)練[29]),但縮短了測(cè)試時(shí)間妻往。
運(yùn)行時(shí)間互艾。通過(guò)特征共享,我們的基于FPN的Faster R-CNN系統(tǒng)使用ResNet-50在單個(gè)NVIDIA M40 GPU上每張圖像的推斷時(shí)間為0.148秒讯泣,使用ResNet-101的時(shí)間為0.172秒纫普。作為比較,表3(a)中的單尺度ResNet-50基線運(yùn)行時(shí)間為0.32秒好渠。我們的方法通過(guò)FPN中的額外層引入了較小的額外成本昨稼,但具有更輕的頭部∪總體而言假栓,我們的系統(tǒng)比對(duì)應(yīng)的基于ResNet的Faster R-CNN更快。我們相信我們方法的高效性和簡(jiǎn)潔性將有利于未來(lái)的研究和應(yīng)用霍掺。
5.2.3 與COCO競(jìng)賽獲勝者的比較
我們發(fā)現(xiàn)表5中我們的ResNet-101模型在默認(rèn)學(xué)習(xí)速率的情況下沒(méi)有進(jìn)行足夠的訓(xùn)練匾荆。因此,在訓(xùn)練Fast R-CNN步驟時(shí)杆烁,我們將每個(gè)學(xué)習(xí)速率的小批量數(shù)據(jù)的數(shù)量增加了2倍牙丽。這將minival
上的AP增加到了35.6,沒(méi)有共享特征兔魂。該模型是我們提交給COCO檢測(cè)排行榜的模型烤芦,如表4所示。由于時(shí)間有限析校,我們尚未評(píng)估其特征共享版本拍棕,這應(yīng)該稍微好一些,如表5所示勺良。
表4绰播。在COCO檢測(cè)基線上單模型結(jié)果的比較。一些在test-std
數(shù)據(jù)集上的結(jié)果是不可獲得的尚困,因此我們也包括了在test-dev
上的結(jié)果(和Multipath[40]在minival
上的結(jié)果)蠢箩。:[http://image-net.org/challenges/ talks/2016/GRMI-COCO-slidedeck.pdf](http://image-net.org/challenges/ talks/2016/GRMI-COCO-slidedeck.pdf)。:http://mscoco.org/dataset/#detections-leaderboard事甜。:AttractioNet[10]的輸入采用VGG-16進(jìn)行目標(biāo)提議谬泌,用Wide ResNet[39]進(jìn)行目標(biāo)檢測(cè),因此它不是嚴(yán)格意義上的單模型逻谦。
表4將我們方法的單模型結(jié)果與COCO競(jìng)賽獲勝者的結(jié)果進(jìn)行了比較掌实,其中包括2016年冠軍G-RMI和2015年冠軍Faster R-CNN+++。沒(méi)有添加額外的東西邦马,我們的單模型提交就已經(jīng)超越了這些強(qiáng)大的贱鼻,經(jīng)過(guò)嚴(yán)格設(shè)計(jì)的競(jìng)爭(zhēng)對(duì)手宴卖。在test-dev
數(shù)據(jù)集中,我們的方法在現(xiàn)有最佳結(jié)果上增加了0.5個(gè)點(diǎn)的AP(36.2 vs.35.7)和3.4個(gè)點(diǎn)的AP@0.5(59.1 vs. 55.7)邻悬。值得注意的是症昏,我們的方法不依賴圖像金字塔,只使用單個(gè)輸入圖像尺度父丰,但在小型目標(biāo)上仍然具有出色的AP肝谭。這只能通過(guò)使用前面方法的高分辨率圖像輸入來(lái)實(shí)現(xiàn)。
此外蛾扇,我們的方法沒(méi)有利用許多流行的改進(jìn)攘烛,如迭代回歸[9],難例挖掘[35]镀首,上下文建模[16]医寿,更強(qiáng)大的數(shù)據(jù)增強(qiáng)[22]等。這些改進(jìn)與FPN互補(bǔ)蘑斧,應(yīng)該會(huì)進(jìn)一步提高準(zhǔn)確度。
最近须眷,F(xiàn)PN在COCO競(jìng)賽的所有方面都取得了新的最佳結(jié)果竖瘾,包括檢測(cè),實(shí)例分割和關(guān)鍵點(diǎn)估計(jì)花颗。詳情請(qǐng)參閱[14]捕传。
6. 擴(kuò)展:分割提議
我們的方法是一種通用金字塔表示,可用于除目標(biāo)檢測(cè)之外的其他應(yīng)用扩劝。在本節(jié)中庸论,我們使用FPN生成分割建議,遵循DeepMask/SharpMask框架[27棒呛,28]聂示。
DeepMask/SharpMask在裁剪圖像上進(jìn)行訓(xùn)練,可以預(yù)測(cè)實(shí)例塊和目標(biāo)/非目標(biāo)分?jǐn)?shù)簇秒。在推斷時(shí)鱼喉,這些模型是卷積運(yùn)行的,以在圖像中生成密集的提議趋观。為了在多個(gè)尺度上生成分割塊扛禽,圖像金字塔是必要的[27,28]皱坛。
改編FPN生成掩碼提議很容易编曼。我們對(duì)訓(xùn)練和推斷都使用全卷積設(shè)置。我們?cè)?.1小節(jié)中構(gòu)造我們的特征金字塔并設(shè)置剩辟。在特征金字塔的每個(gè)層級(jí)上掐场,我們應(yīng)用一個(gè)小的5×5MLP以全卷積方式預(yù)測(cè)14×14掩碼和目標(biāo)分?jǐn)?shù)往扔,參見(jiàn)圖4。此外刻肄,由于在[27,28]的圖像金字塔中每組使用2個(gè)尺度瓤球,我們使用輸入大小為7×7的第二個(gè)MLP來(lái)處理半個(gè)組。這兩個(gè)MLP在RPN中扮演著類(lèi)似于錨點(diǎn)的角色敏弃。該架構(gòu)是端到端訓(xùn)練的卦羡,完整的實(shí)現(xiàn)細(xì)節(jié)在附錄中給出。
圖4麦到。目標(biāo)分割提議的FPN绿饵。特征金字塔的構(gòu)造結(jié)構(gòu)與目標(biāo)檢測(cè)相同。我們?cè)?x5窗口上應(yīng)用一個(gè)小的MLP來(lái)生成輸出尺寸為14x14的密集目標(biāo)塊瓶颠。以橙色顯示的掩碼是每個(gè)金字塔層級(jí)所對(duì)應(yīng)的圖像區(qū)域的大心馍蕖(此處顯示的是層級(jí) 7 \ approx 5 \ sqrt 2 $)處理桃移,此處未展示屋匕。詳情見(jiàn)附錄。
6.1. 分割提議結(jié)果
結(jié)果如表6所示借杰。我們報(bào)告了分割A(yù)R和在小型过吻,中型和大型目標(biāo)上的分割A(yù)R,都是對(duì)于1000個(gè)提議而言的蔗衡。我們的具有單個(gè)5×5MLP的基線FPN模型達(dá)到了43.4的AR纤虽。切換到稍大的7×7MLP,精度基本保持不變绞惦。同時(shí)使用兩個(gè)MLP將精度提高到了45.7的AR逼纸。將掩碼輸出尺寸從14×14增加到28×28會(huì)增加AR另一個(gè)點(diǎn)(更大的尺寸開(kāi)始降低準(zhǔn)確度)。最后济蝉,加倍訓(xùn)練迭代將AR增加到48.1樊展。
表6。在前5k張COCOval
圖像上評(píng)估的實(shí)例分割提議堆生。所有模型都是在train
數(shù)據(jù)集上訓(xùn)練的专缠。DeepMask,SharpMask和FPN使用ResNet-50淑仆,而Instance-FCN使用VGG-16涝婉。DeepMask和SharpMask性能計(jì)算的模型是從[https://github. com/facebookresearch/deepmask](https://github. com/facebookresearch/deepmask)上獲得的(都是‘zoom’變體)。運(yùn)行時(shí)間是在NVIDIA M40 GPU上測(cè)量的蔗怠,除了基于較慢的K40的InstanceFCN墩弯。
我們還報(bào)告了與DeepMask[27]吩跋,Sharp-Mask[28]和InstanceFCN[4]的比較,這是以前的掩模提議生成中的先進(jìn)方法渔工。我們的準(zhǔn)確度超過(guò)這些方法8.3個(gè)點(diǎn)的AR锌钮。尤其是我們幾乎將小目標(biāo)的精度提高了一倍。
現(xiàn)有的掩碼提議方法[27引矩,28梁丘,4]是基于密集采樣的圖像金字塔的(例如,[27旺韭,28]中的縮放為)氛谜,使得它們是計(jì)算昂貴的。我們的方法基于FPN区端,速度明顯加快(我們的模型運(yùn)行速度為6至7FPS)值漫。這些結(jié)果表明,我們的模型是一個(gè)通用的特征提取器织盼,可以替代圖像金字塔以用于其他多尺度檢測(cè)問(wèn)題杨何。
7. 結(jié)論
我們提出了一個(gè)干凈而簡(jiǎn)單的框架,用于在ConvNets內(nèi)部構(gòu)建特征金字塔沥邻。我們的方法比幾個(gè)強(qiáng)大的基線和競(jìng)賽獲勝者顯示出了顯著的改進(jìn)危虱。因此,它為特征金字塔的研究和應(yīng)用提供了一個(gè)實(shí)用的解決方案谋国,而不需要計(jì)算圖像金字塔。最后迁沫,我們的研究表明芦瘾,盡管深層ConvNets具有強(qiáng)大的表示能力以及它們對(duì)尺度變化的隱式魯棒性,但使用金字塔表示對(duì)于明確地解決多尺度問(wèn)題仍然至關(guān)重要集畅。
References
[1] E. H. Adelson, C. H. Anderson, J. R. Bergen, P. J. Burt, and J. M. Ogden. Pyramid methods in image processing. RCA engineer, 1984.
[2] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In CVPR, 2016.
[3] Z. Cai, Q. Fan, R. S. Feris, and N. Vasconcelos. A unified multi-scale deep convolutional neural network for fast object detection. In ECCV, 2016.
[4] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive fully convolutional networks. In ECCV, 2016.
[5] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
[6] P. Dollar, R. Appel, S. Belongie, and P. Perona. Fast feature pyramids for object detection. TPAMI, 2014.
[7] P.F.Felzenszwalb,R.B.Girshick,D.McAllester,andD.Ramanan. Object detection with discriminatively trained part-based models. TPAMI, 2010.
[8] G.GhiasiandC.C.Fowlkes.Laplacianpyramidreconstruction and refinement for semantic segmentation. In ECCV, 2016.
[9] S. Gidaris and N. Komodakis. Object detection via a multi-region & semantic segmentation-aware CNN model. In ICCV, 2015.
[10] S. Gidaris and N. Komodakis. Attend refine repeat: Active box proposal generation via in-out localization. In BMVC, 2016.
[11] R. Girshick. Fast R-CNN. In ICCV, 2015.
[12] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[13] B.Hariharan,P.Arbelaez,R.Girshick,andJ.Malik.Hypercolumns for object segmentation and fine-grained localization. In CVPR, 2015.
[14] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask r-cnn. arXiv:1703.06870, 2017.
[15] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV. 2014.
[16] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016.
[17] S. Honari, J. Yosinski, P. Vincent, and C. Pal. Recombinator networks: Learning coarse-to-fine feature aggregation. In CVPR, 2016.
[18] T. Kong, A. Yao, Y. Chen, and F. Sun. Hypernet: Towards accurate region proposal generation and joint object detection. In CVPR, 2016.
[19] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012.
[20] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.
[21] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV, 2014.
[22] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. SSD: Single shot multibox detector. In ECCV, 2016.
[23] W. Liu, A. Rabinovich, and A. C. Berg. ParseNet: Looking wider to see better. In ICLR workshop, 2016.
[24] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[25] D. G. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004.
[26] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.
[27] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015.
[28] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dolla?r. Learning to refine object segments. In ECCV, 2016.
[29] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.
[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. PAMI, 2016.
[31] O. Ronneberger, P. Fischer, and T. Brox. U-Net: Convolutional networks for biomedical image segmentation. In MIC- CAI, 2015.
[32] H. Rowley, S. Baluja, and T. Kanade. Human face detection in visual scenes. Technical Report CMU-CS-95-158R, Carnegie Mellon University, 1995.
[33] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. IJCV, 2015.
[34] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.
[35] A. Shrivastava, A. Gupta, and R. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016.
[36] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
[37] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. IJCV, 2013.
[38] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc. on Vision, Image, and Signal Processing, 1994.
[39] S. Zagoruyko and N. Komodakis. Wide residual networks. In BMVC, 2016.
[40] S. Zagoruyko, A. Lerer, T.-Y. Lin, P. O. Pinheiro, S. Gross, S. Chintala, and P. Dolla?r. A multipath network for object detection. In BMVC, 2016. 10