文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡書
聲明:作者翻譯論文僅為學(xué)習(xí)鳄乏,如有侵權(quán)請聯(lián)系作者刪除博文,謝謝喷斋!
翻譯論文匯總:https://github.com/SnailTyan/deep-learning-papers-translation
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
摘要
最先進(jìn)的目標(biāo)檢測網(wǎng)絡(luò)依靠區(qū)域提出算法來假設(shè)目標(biāo)的位置悍募。SPPnet[1]和Fast R-CNN[2]等研究已經(jīng)減少了這些檢測網(wǎng)絡(luò)的運(yùn)行時(shí)間,使得區(qū)域提出計(jì)算成為一個(gè)瓶頸常侦。在這項(xiàng)工作中浇冰,我們引入了一個(gè)區(qū)域提出網(wǎng)絡(luò)(RPN),該網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)共享全圖像的卷積特征聋亡,從而使近乎零成本的區(qū)域提出成為可能肘习。RPN是一個(gè)全卷積網(wǎng)絡(luò),可以同時(shí)在每個(gè)位置預(yù)測目標(biāo)邊界和目標(biāo)分?jǐn)?shù)坡倔。RPN經(jīng)過端到端的訓(xùn)練漂佩,可以生成高質(zhì)量的區(qū)域提出,由Fast R-CNN用于檢測罪塔。我們將RPN和Fast R-CNN通過共享卷積特征進(jìn)一步合并為一個(gè)單一的網(wǎng)絡(luò)——使用最近流行的具有“注意力”機(jī)制的神經(jīng)網(wǎng)絡(luò)術(shù)語投蝉,RPN組件告訴統(tǒng)一網(wǎng)絡(luò)在哪里尋找。對于非常深的VGG-16模型[3]垢袱,我們的檢測系統(tǒng)在GPU上的幀率為5fps(包括所有步驟)墓拜,同時(shí)在PASCAL VOC 2007,2012和MS COCO數(shù)據(jù)集上實(shí)現(xiàn)了最新的目標(biāo)檢測精度请契,每個(gè)圖像只有300個(gè)提出咳榜。在ILSVRC和COCO 2015競賽中,F(xiàn)aster R-CNN和RPN是多個(gè)比賽中獲得第一名輸入的基礎(chǔ)爽锥。代碼可公開獲得涌韩。
1. 引言
目標(biāo)檢測的最新進(jìn)展是由區(qū)域提出方法(例如[4])和基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)[5]的成功驅(qū)動(dòng)的。盡管在[5]中最初開發(fā)的基于區(qū)域的CNN計(jì)算成本很高氯夷,但是由于在各種提議中共享卷積臣樱,所以其成本已經(jīng)大大降低了[1][2]。忽略花費(fèi)在區(qū)域提議上的時(shí)間腮考,最新版本Fast R-CNN[2]利用非常深的網(wǎng)絡(luò)[3]實(shí)現(xiàn)了接近實(shí)時(shí)的速率」秃粒現(xiàn)在,提議是最新的檢測系統(tǒng)中測試時(shí)間的計(jì)算瓶頸踩蔚。
區(qū)域提議方法通常依賴廉價(jià)的特征和簡練的推斷方案棚放。選擇性搜索[4]是最流行的方法之一,它貪婪地合并基于設(shè)計(jì)的低級特征的超級像素馅闽。然而飘蚯,與有效的檢測網(wǎng)絡(luò)[2]相比馍迄,選擇性搜索速度慢了一個(gè)數(shù)量級,在CPU實(shí)現(xiàn)中每張圖像的時(shí)間為2秒局骤。EdgeBoxes[6]目前提供了在提議質(zhì)量和速度之間的最佳權(quán)衡攀圈,每張圖像0.2秒。盡管如此峦甩,區(qū)域提議步驟仍然像檢測網(wǎng)絡(luò)那樣消耗同樣多的運(yùn)行時(shí)間赘来。
有人可能會(huì)注意到,基于區(qū)域的快速CNN利用GPU穴店,而在研究中使用的區(qū)域提議方法在CPU上實(shí)現(xiàn)撕捍,使得運(yùn)行時(shí)間比較不公平拿穴。加速提議計(jì)算的一個(gè)顯而易見的方法是將其在GPU上重新實(shí)現(xiàn)泣洞。這可能是一個(gè)有效的工程解決方案,但重新實(shí)現(xiàn)忽略了下游檢測網(wǎng)絡(luò)默色,因此錯(cuò)過了共享計(jì)算的重要機(jī)會(huì)球凰。
在本文中,我們展示了算法的變化——用深度卷積神經(jīng)網(wǎng)絡(luò)計(jì)算區(qū)域提議——導(dǎo)致了一個(gè)優(yōu)雅和有效的解決方案腿宰,其中在給定檢測網(wǎng)絡(luò)計(jì)算的情況下區(qū)域提議計(jì)算接近領(lǐng)成本呕诉。為此,我們引入了新的區(qū)域提議網(wǎng)絡(luò)(RPN)吃度,它們共享最先進(jìn)目標(biāo)檢測網(wǎng)絡(luò)的卷積層[1]甩挫,[2]。通過在測試時(shí)共享卷積椿每,計(jì)算區(qū)域提議的邊際成本很幸琳摺(例如,每張圖像10ms)间护。
我們的觀察是亦渗,基于區(qū)域的檢測器所使用的卷積特征映射,如Fast R-CNN汁尺,也可以用于生成區(qū)域提議法精。在這些卷積特征之上,我們通過添加一些額外的卷積層來構(gòu)建RPN痴突,這些卷積層同時(shí)在規(guī)則網(wǎng)格上的每個(gè)位置上回歸區(qū)域邊界和目標(biāo)分?jǐn)?shù)搂蜓。因此RPN是一種全卷積網(wǎng)絡(luò)(FCN)[7],可以針對生成檢測區(qū)域建議的任務(wù)進(jìn)行端到端的訓(xùn)練辽装。
RPN旨在有效預(yù)測具有廣泛尺度和長寬比的區(qū)域提議帮碰。與使用圖像金字塔(圖1,a)或?yàn)V波器金字塔(圖1如迟,b)的流行方法[8]收毫,[9]攻走,[1]相比,我們引入新的“錨”盒作為多種尺度和長寬比的參考此再。我們的方案可以被認(rèn)為是回歸參考金字塔(圖1昔搂,c),它避免了枚舉多種比例或長寬比的圖像或?yàn)V波器输拇。這個(gè)模型在使用單尺度圖像進(jìn)行訓(xùn)練和測試時(shí)運(yùn)行良好摘符,從而有利于運(yùn)行速度。
圖1:解決多尺度和尺寸的不同方案策吠。(a)構(gòu)建圖像和特征映射金字塔逛裤,分類器以各種尺度運(yùn)行。(b)在特征映射上運(yùn)行具有多個(gè)比例/大小的濾波器的金字塔猴抹。(c)我們在回歸函數(shù)中使用參考邊界框金字塔带族。
為了將RPN與Fast R-CNN 2]目標(biāo)檢測網(wǎng)絡(luò)相結(jié)合,我們提出了一種訓(xùn)練方案蟀给,在微調(diào)區(qū)域提議任務(wù)和微調(diào)目標(biāo)檢測之間進(jìn)行交替蝙砌,同時(shí)保持區(qū)域提議的固定。該方案快速收斂跋理,并產(chǎn)生兩個(gè)任務(wù)之間共享的具有卷積特征的統(tǒng)一網(wǎng)絡(luò)择克。
我們在PASCAL VOC檢測基準(zhǔn)數(shù)據(jù)集上[11]綜合評估了我們的方法,其中具有Fast R-CNN的RPN產(chǎn)生的檢測精度優(yōu)于使用選擇性搜索的Fast R-CNN的強(qiáng)基準(zhǔn)前普。同時(shí)肚邢,我們的方法在測試時(shí)幾乎免除了選擇性搜索的所有計(jì)算負(fù)擔(dān)——區(qū)域提議的有效運(yùn)行時(shí)間僅為10毫秒。使用[3]的昂貴的非常深的模型拭卿,我們的檢測方法在GPU上仍然具有5fps的幀率(包括所有步驟)骡湖,因此在速度和準(zhǔn)確性方面是實(shí)用的目標(biāo)檢測系統(tǒng)。我們還報(bào)告了在MS COCO數(shù)據(jù)集上[12]的結(jié)果记劈,并使用COCO數(shù)據(jù)研究了在PASCAL VOC上的改進(jìn)勺鸦。代碼可公開獲得https://github.com/shaoqingren/faster_rcnn(在MATLAB中)和https://github.com/rbgirshick/py-faster-rcnn(在Python中)。
這個(gè)手稿的初步版本是以前發(fā)表的[10]目木。從那時(shí)起换途,RPN和Faster R-CNN的框架已經(jīng)被采用并推廣到其他方法,如3D目標(biāo)檢測[13]刽射,基于部件的檢測[14]军拟,實(shí)例分割[15]和圖像標(biāo)題[16]。我們快速和有效的目標(biāo)檢測系統(tǒng)也已經(jīng)在Pinterest[17]的商業(yè)系統(tǒng)中建立了誓禁,并報(bào)告了用戶參與度的提高懈息。
在ILSVRC和COCO 2015競賽中,F(xiàn)aster R-CNN和RPN是ImageNet檢測摹恰,ImageNet定位辫继,COCO檢測和COCO分割中幾個(gè)第一名參賽者[18]的基礎(chǔ)怒见。RPN完全從數(shù)據(jù)中學(xué)習(xí)提議區(qū)域,因此可以從更深入和更具表達(dá)性的特征(例如[18]中采用的101層殘差網(wǎng)絡(luò))中輕松獲益姑宽。Faster R-CNN和RPN也被這些比賽中的其他幾個(gè)主要參賽者所使用遣耍。這些結(jié)果表明,我們的方法不僅是一個(gè)實(shí)用合算的解決方案炮车,而且是一個(gè)提高目標(biāo)檢測精度的有效方法舵变。
2. 相關(guān)工作
目標(biāo)提議。目標(biāo)提議方法方面有大量的文獻(xiàn)瘦穆。目標(biāo)提議方法的綜合調(diào)查和比較可以在[19]纪隙,[20],[21]中找到扛或。廣泛使用的目標(biāo)提議方法包括基于超像素分組(例如绵咱,選擇性搜索[4],CPMC[22]告喊,MCG[23])和那些基于滑動(dòng)窗口的方法(例如窗口中的目標(biāo)[24]麸拄,EdgeBoxes[6])派昧。目標(biāo)提議方法被采用為獨(dú)立于檢測器(例如黔姜,選擇性搜索[4]目標(biāo)檢測器,R-CNN[5]和Fast R-CNN[2])的外部模塊蒂萎。
用于目標(biāo)檢測的深度網(wǎng)絡(luò)秆吵。R-CNN方法[5]端到端地對CNN進(jìn)行訓(xùn)練,將提議區(qū)域分類為目標(biāo)類別或背景五慈。R-CNN主要作為分類器纳寂,并不能預(yù)測目標(biāo)邊界(除了通過邊界框回歸進(jìn)行細(xì)化)。其準(zhǔn)確度取決于區(qū)域提議模塊的性能(參見[20]中的比較)泻拦。一些論文提出了使用深度網(wǎng)絡(luò)來預(yù)測目標(biāo)邊界框的方法[25]毙芜,[9],[26]争拐,[27]腋粥。在OverFeat方法[9]中,訓(xùn)練一個(gè)全連接層來預(yù)測假定單個(gè)目標(biāo)定位任務(wù)的邊界框坐標(biāo)架曹。然后將全連接層變成卷積層隘冲,用于檢測多個(gè)類別的目標(biāo)。MultiBox方法[26]绑雄,[27]從網(wǎng)絡(luò)中生成區(qū)域提議展辞,網(wǎng)絡(luò)最后的全連接層同時(shí)預(yù)測多個(gè)類別不相關(guān)的邊界框,并推廣到OverFeat的“單邊界框”方式万牺。這些類別不可知的邊界框框被用作R-CNN的提議區(qū)域[5]罗珍。與我們的全卷積方案相比洽腺,MultiBox提議網(wǎng)絡(luò)適用于單張裁剪圖像或多張大型裁剪圖像(例如224×224)。MultiBox在提議區(qū)域和檢測網(wǎng)絡(luò)之間不共享特征覆旱。稍后在我們的方法上下文中會(huì)討論OverFeat和MultiBox已脓。與我們的工作同時(shí)進(jìn)行的坤学,DeepMask方法[28]是為學(xué)習(xí)分割提議區(qū)域而開發(fā)的异袄。
卷積[9],[1]宙攻,[29]画舌,[7]堕担,[2]的共享計(jì)算已經(jīng)越來越受到人們的關(guān)注,因?yàn)樗梢杂行Ф鴾?zhǔn)確地進(jìn)行視覺識別曲聂。OverFeat論文[9]計(jì)算圖像金字塔的卷積特征用于分類霹购,定位和檢測。共享卷積特征映射的自適應(yīng)大小池化(SPP)[1]被開發(fā)用于有效的基于區(qū)域的目標(biāo)檢測[1]朋腋,[30]和語義分割[29]齐疙。Fast R-CNN[2]能夠?qū)蚕砭矸e特征進(jìn)行端到端的檢測器訓(xùn)練,并顯示出令人信服的準(zhǔn)確性和速度旭咽。
3. FASTER R-CNN
我們的目標(biāo)檢測系統(tǒng)贞奋,稱為Faster R-CNN,由兩個(gè)模塊組成穷绵。第一個(gè)模塊是提議區(qū)域的深度全卷積網(wǎng)絡(luò)轿塔,第二個(gè)模塊是使用提議區(qū)域的Fast R-CNN檢測器[2]。整個(gè)系統(tǒng)是一個(gè)單個(gè)的仲墨,統(tǒng)一的目標(biāo)檢測網(wǎng)絡(luò)(圖2)勾缭。使用最近流行的“注意力”[31]機(jī)制的神經(jīng)網(wǎng)絡(luò)術(shù)語,RPN模塊告訴Fast R-CNN模塊在哪里尋找目养。在第3.1節(jié)中俩由,我們介紹了區(qū)域提議網(wǎng)絡(luò)的設(shè)計(jì)和屬性。在第3.2節(jié)中癌蚁,我們開發(fā)了用于訓(xùn)練具有共享特征模塊的算法幻梯。
圖2:Faster R-CNN是一個(gè)單一,統(tǒng)一的目標(biāo)檢測網(wǎng)絡(luò)匈勋。RPN模塊作為這個(gè)統(tǒng)一網(wǎng)絡(luò)的“注意力”礼旅。
3.1 區(qū)域提議網(wǎng)絡(luò)
區(qū)域提議網(wǎng)絡(luò)(RPN)以任意大小的圖像作為輸入,輸出一組矩形的目標(biāo)提議洽洁,每個(gè)提議都有一個(gè)目標(biāo)得分痘系。我們用全卷積網(wǎng)絡(luò)[7]對這個(gè)過程進(jìn)行建模,我們將在本節(jié)進(jìn)行描述饿自。因?yàn)槲覀兊淖罱K目標(biāo)是與Fast R-CNN目標(biāo)檢測網(wǎng)絡(luò)[2]共享計(jì)算汰翠,所以我們假設(shè)兩個(gè)網(wǎng)絡(luò)共享一組共同的卷積層龄坪。在我們的實(shí)驗(yàn)中,我們研究了具有5個(gè)共享卷積層的Zeiler和Fergus模型[32](ZF)和具有13個(gè)共享卷積層的Simonyan和Zisserman模型[3](VGG-16)复唤。
為了生成區(qū)域提議健田,我們在最后的共享卷積層輸出的卷積特征映射上滑動(dòng)一個(gè)小網(wǎng)絡(luò)。這個(gè)小網(wǎng)絡(luò)將輸入卷積特征映射的$n×n$空間窗口作為輸入佛纫。每個(gè)滑動(dòng)窗口映射到一個(gè)低維特征(ZF為256維妓局,VGG為512維,后面是ReLU[33])呈宇。這個(gè)特征被輸入到兩個(gè)子全連接層——一個(gè)邊界框回歸層(reg)和一個(gè)邊界框分類層(cls)好爬。在本文中,我們使用$n=3$甥啄,注意輸入圖像上的有效感受野是大的(ZF和VGG分別為171和228個(gè)像素)存炮。圖3(左)顯示了這個(gè)小型網(wǎng)絡(luò)的一個(gè)位置。請注意蜈漓,因?yàn)樾【W(wǎng)絡(luò)以滑動(dòng)窗口方式運(yùn)行穆桂,所有空間位置共享全連接層。這種架構(gòu)通過一個(gè)n×n卷積層融虽,后面是兩個(gè)子1×1卷積層(分別用于reg和cls)自然地實(shí)現(xiàn)享完。
圖3:左:區(qū)域提議網(wǎng)絡(luò)(RPN)。右:在PASCAL VOC 2007測試集上使用RPN提議的示例檢測衣形。我們的方法可以檢測各種尺度和長寬比的目標(biāo)驼侠。
3.1.1 錨點(diǎn)
在每個(gè)滑動(dòng)窗口位置,我們同時(shí)預(yù)測多個(gè)區(qū)域提議谆吴,其中每個(gè)位置可能提議的最大數(shù)目表示為$k$。因此苛预,reg層具有$4k$個(gè)輸出句狼,編碼$k$個(gè)邊界框的坐標(biāo),cls層輸出$2k$個(gè)分?jǐn)?shù)热某,估計(jì)每個(gè)提議是目標(biāo)或不是目標(biāo)的概率腻菇。相對于我們稱之為錨點(diǎn)的$k$個(gè)參考邊界框,$k$個(gè)提議是參數(shù)化的昔馋。錨點(diǎn)位于所討論的滑動(dòng)窗口的中心筹吐,并與一個(gè)尺度和長寬比相關(guān)(圖3左)。默認(rèn)情況下秘遏,我們使用3個(gè)尺度和3個(gè)長寬比丘薛,在每個(gè)滑動(dòng)位置產(chǎn)生$k=9$個(gè)錨點(diǎn)。對于大小為W×H(通常約為2400)的卷積特征映射邦危,總共有$WHk$個(gè)錨點(diǎn)洋侨。
平移不變的錨點(diǎn)
我們的方法的一個(gè)重要特性是它是平移不變的舍扰,無論是在錨點(diǎn)還是計(jì)算相對于錨點(diǎn)的區(qū)域提議的函數(shù)。如果在圖像中平移目標(biāo)希坚,提議應(yīng)該平移边苹,并且同樣的函數(shù)應(yīng)該能夠在任一位置預(yù)測提議。這個(gè)平移不變的屬性是由我們的方法保證的裁僧。作為比較个束,MultiBox方法[27]使用k-means生成800個(gè)錨點(diǎn),這不是平移不變的聊疲。所以如果平移目標(biāo)播急,MultiBox不保證會(huì)生成相同的提議。
平移不變特性也減小了模型的大小售睹。MultiBox有$(4+1)\times 800$維的全連接輸出層桩警,而我們的方法在$k=9$個(gè)錨點(diǎn)的情況下有$(4+2)\times 9$維的卷積輸出層。因此昌妹,對于VGG-16捶枢,我們的輸出層具有$2.8\times104$個(gè)參數(shù)(對于VGG-16為$512\times(4+2)\times9$),比MultiBox輸出層的$6.1\times106$個(gè)參數(shù)少了兩個(gè)數(shù)量級(對于MultiBox [27]中的GoogleNet[34]為$1536\times(4+1)\times800$)飞崖。如果考慮到特征投影層烂叔,我們的提議層仍然比MultiBox少一個(gè)數(shù)量級。我們期望我們的方法在PASCAL VOC等小數(shù)據(jù)集上有更小的過擬合風(fēng)險(xiǎn)固歪。
多尺度錨點(diǎn)作為回歸參考
我們的錨點(diǎn)設(shè)計(jì)提出了一個(gè)新的方案來解決多尺度(和長寬比)蒜鸡。如圖1所示,多尺度預(yù)測有兩種流行的方法牢裳。第一種方法是基于圖像/特征金字塔逢防,例如DPM[8]和基于CNN的方法[9],[1]蒲讯,[2]中忘朝。圖像在多個(gè)尺度上進(jìn)行縮放,并且針對每個(gè)尺度(圖1(a))計(jì)算特征映射(HOG[8]或深卷積特征[9]判帮,[1]局嘁,[2])。這種方法通常是有用的晦墙,但是非常耗時(shí)悦昵。第二種方法是在特征映射上使用多尺度(和/或長寬比)的滑動(dòng)窗口。例如晌畅,在DPM[8]中但指,使用不同的濾波器大小(例如5×7和7×5)分別對不同長寬比的模型進(jìn)行訓(xùn)練。如果用這種方法來解決多尺度問題枚赡,可以把它看作是一個(gè)“濾波器金字塔”(圖1(b))氓癌。第二種方法通常與第一種方法聯(lián)合采用[8]。
作為比較贫橙,我們的基于錨點(diǎn)方法建立在錨點(diǎn)金字塔上贪婉,這是更具成本效益的。我們的方法參照多尺度和長寬比的錨盒來分類和回歸邊界框卢肃。它只依賴單一尺度的圖像和特征映射疲迂,并使用單一尺寸的濾波器(特征映射上的滑動(dòng)窗口)。我們通過實(shí)驗(yàn)來展示這個(gè)方案解決多尺度和尺寸的效果(表8)莫湘。
表8:Faster R-CNN在PAS-CAL VOC 2007測試數(shù)據(jù)集上使用不同錨點(diǎn)設(shè)置的檢測結(jié)果尤蒿。網(wǎng)絡(luò)是VGG-16。訓(xùn)練數(shù)據(jù)是VOC 2007訓(xùn)練集幅垮。使用3個(gè)尺度和3個(gè)長寬比($69.9%$)的默認(rèn)設(shè)置腰池,與表3中的相同。
由于這種基于錨點(diǎn)的多尺度設(shè)計(jì)忙芒,我們可以簡單地使用在單尺度圖像上計(jì)算的卷積特征示弓,F(xiàn)ast R-CNN檢測器也是這樣做的[2]。多尺度錨點(diǎn)設(shè)計(jì)是共享特征的關(guān)鍵組件呵萨,不需要額外的成本來處理尺度奏属。
3.1.2 損失函數(shù)
為了訓(xùn)練RPN,我們?yōu)槊總€(gè)錨點(diǎn)分配一個(gè)二值類別標(biāo)簽(是目標(biāo)或不是目標(biāo))潮峦。我們給兩種錨點(diǎn)分配一個(gè)正標(biāo)簽:(i)具有與實(shí)際邊界框的重疊最高交并比(IoU)的錨點(diǎn)囱皿,或者(ii)具有與實(shí)際邊界框的重疊超過0.7 IoU的錨點(diǎn)。注意忱嘹,單個(gè)真實(shí)邊界框可以為多個(gè)錨點(diǎn)分配正標(biāo)簽嘱腥。通常第二個(gè)條件足以確定正樣本;但我們?nèi)匀徊捎玫谝粋€(gè)條件德谅,因?yàn)樵谝恍O少數(shù)情況下爹橱,第二個(gè)條件可能找不到正樣本。對于所有的真實(shí)邊界框窄做,如果一個(gè)錨點(diǎn)的IoU比率低于0.3,我們給非正面的錨點(diǎn)分配一個(gè)負(fù)標(biāo)簽慰技。既不正面也不負(fù)面的錨點(diǎn)不會(huì)有助于訓(xùn)練目標(biāo)函數(shù)椭盏。
根據(jù)這些定義,我們對目標(biāo)函數(shù)Fast R-CNN[2]中的多任務(wù)損失進(jìn)行最小化吻商。我們對圖像的損失函數(shù)定義為:$$
L(\lbrace p_i \rbrace, \lbrace t_i \rbrace) = \frac{1}{N_{cls}}\sum_i L_{cls}(p_i, p^{*}_i) \\ + \lambda\frac{1}{N_{reg}}\sum_i p^{*}_i L_{reg}(t_i, t^{*}_i).
$$其中掏颊,$i$是一個(gè)小批量數(shù)據(jù)中錨點(diǎn)的索引,$p_i$是錨點(diǎn)$i$作為目標(biāo)的預(yù)測概率。如果錨點(diǎn)為正乌叶,真實(shí)標(biāo)簽$p{*}_i$為1盆偿,如果錨點(diǎn)為負(fù),則為0准浴。$t_i$是表示預(yù)測邊界框4個(gè)參數(shù)化坐標(biāo)的向量事扭,而$t{*}_i$是與正錨點(diǎn)相關(guān)的真實(shí)邊界框的向量。分類損失$L_{cls}$是兩個(gè)類別上(目標(biāo)或不是目標(biāo))的對數(shù)損失乐横。對于回歸損失求橄,我們使用$L_{reg}(t_i, t^{*}_i)=R(t_i - t{*}_i)$,其中$R$是在[2]中定義的魯棒損失函數(shù)(平滑$L_1$)葡公。項(xiàng)$p{*}_i L_{reg}$表示回歸損失僅對于正錨點(diǎn)激活罐农,否則被禁用($p^{*}_i=0$)。cls和reg層的輸出分別由${p_i}$和${t_i}$組成催什。
這兩個(gè)項(xiàng)用$N_{cls}$和$N_{reg}$進(jìn)行標(biāo)準(zhǔn)化涵亏,并由一個(gè)平衡參數(shù)$\lambda$加權(quán)。在我們目前的實(shí)現(xiàn)中(如在發(fā)布的代碼中)蒲凶,方程(1)中的$cls$項(xiàng)通過小批量數(shù)據(jù)的大衅睢(即$N_{cls}=256$)進(jìn)行歸一化,$reg$項(xiàng)根據(jù)錨點(diǎn)位置的數(shù)量(即豹爹,$N_{reg}\sim 24000$)進(jìn)行歸一化裆悄。默認(rèn)情況下,我們設(shè)置$\lambda=10$臂聋,因此cls和reg項(xiàng)的權(quán)重大致相等光稼。我們通過實(shí)驗(yàn)顯示,結(jié)果對寬范圍的$\lambda$值不敏感(表9)孩等。我們還注意到艾君,上面的歸一化不是必需的,可以簡化肄方。
表9:Faster R-CNN使用方程(1)中不同的$\lambda$值在PASCAL VOC 2007測試集上的檢測結(jié)果冰垄。網(wǎng)絡(luò)是VGG-16。訓(xùn)練數(shù)據(jù)是VOC 2007訓(xùn)練集权她。使用$\lambda = 10$($69.9%$)的默認(rèn)設(shè)置與表3中的相同虹茶。
對于邊界框回歸,我們采用[5]中的4個(gè)坐標(biāo)參數(shù)化:$$
t_{\textrm{x}} = (x - x_{\textrm{a}})/w_{\textrm{a}},\quad
t_{\textrm{y}} = (y - y_{\textrm{a}})/h_{\textrm{a}},\\
t_{\textrm{w}} = \log(w / w_{\textrm{a}}), \quad
t_{\textrm{h}} = \log(h / h_{\textrm{a}}),\\
t^{*}_{\textrm{x}} = (x^{*} - x_{\textrm{a}})/w_{\textrm{a}},\quad
t^{*}_{\textrm{y}} = (y^{*} - y_{\textrm{a}})/h_{\textrm{a}},\\
t^{*}_{\textrm{w}} = \log(w^{*} / w_{\textrm{a}}),\quad
t^{*}_{\textrm{h}} = \log(h^{*} / h_{\textrm{a}}),
$$ 其中隅要,$x$蝴罪,$y$,$w$和$h$表示邊界框的中心坐標(biāo)及其寬和高步清。變量$x$要门,$x_{\textrm{a}}$和$x^{*}$分別表示預(yù)測邊界框虏肾,錨盒和實(shí)際邊界框(類似于$y, w, h$)。這可以被認(rèn)為是從錨盒到鄰近的實(shí)際邊界框的回歸欢搜。
然而封豪,我們的方法通過與之前的基于RoI(感興趣區(qū)域)方法[1],[2]不同的方式來實(shí)現(xiàn)邊界框回歸炒瘟。在[1]吹埠,[2]中,對任意大小的RoI池化的特征執(zhí)行邊界框回歸唧领,并且回歸權(quán)重由所有區(qū)域大小共享藻雌。在我們的公式中,用于回歸的特征在特征映射上具有相同的空間大姓陡觥(3×3)胯杭。為了說明不同的大小,學(xué)習(xí)一組$k$個(gè)邊界框回歸器受啥。每個(gè)回歸器負(fù)責(zé)一個(gè)尺度和一個(gè)長寬比做个,而$k$個(gè)回歸器不共享權(quán)重。因此滚局,由于錨點(diǎn)的設(shè)計(jì)居暖,即使特征具有固定的尺度/比例,仍然可以預(yù)測各種尺寸的邊界框藤肢。
3.1.3 訓(xùn)練RPN
RPN可以通過反向傳播和隨機(jī)梯度下降(SGD)進(jìn)行端對端訓(xùn)練[35]太闺。我們遵循[2]的“以圖像為中心”的采樣策略來訓(xùn)練這個(gè)網(wǎng)絡(luò)。每個(gè)小批量數(shù)據(jù)都從包含許多正面和負(fù)面示例錨點(diǎn)的單張圖像中產(chǎn)生嘁圈。對所有錨點(diǎn)的損失函數(shù)進(jìn)行優(yōu)化是可能的省骂,但是這樣會(huì)偏向于負(fù)樣本,因?yàn)樗鼈兪钦贾鲗?dǎo)地位的最住。取而代之的是钞澳,我們在圖像中隨機(jī)采樣256個(gè)錨點(diǎn),計(jì)算一個(gè)小批量數(shù)據(jù)的損失函數(shù)涨缚,其中采樣的正錨點(diǎn)和負(fù)錨點(diǎn)的比率可達(dá)1:1轧粟。如果圖像中的正樣本少于128個(gè),我們使用負(fù)樣本填充小批量數(shù)據(jù)脓魏。
我們通過從標(biāo)準(zhǔn)方差為0.01的零均值高斯分布中提取權(quán)重來隨機(jī)初始化所有新層兰吟。所有其他層(即共享卷積層)通過預(yù)訓(xùn)練的ImageNet分類模型[36]來初始化,如同標(biāo)準(zhǔn)實(shí)踐[5]茂翔。我們調(diào)整ZF網(wǎng)絡(luò)的所有層揽祥,以及VGG網(wǎng)絡(luò)的conv3_1及其之上的層以節(jié)省內(nèi)存[2]。對于60k的小批量數(shù)據(jù)檩电,我們使用0.001的學(xué)習(xí)率,對于PASCAL VOC數(shù)據(jù)集中的下一個(gè)20k小批量數(shù)據(jù),使用0.0001俐末。我們使用0.9的動(dòng)量和0.0005的重量衰減[37]料按。我們的實(shí)現(xiàn)使用Caffe[38]。
3.2 RPN和Fast R-CNN共享特征
到目前為止卓箫,我們已經(jīng)描述了如何訓(xùn)練用于區(qū)域提議生成的網(wǎng)絡(luò)载矿,沒有考慮將利用這些提議的基于區(qū)域的目標(biāo)檢測CNN。對于檢測網(wǎng)絡(luò)烹卒,我們采用Fast R-CNN[2]闷盔。接下來我們介紹一些算法,學(xué)習(xí)由RPN和Fast R-CNN組成的具有共享卷積層的統(tǒng)一網(wǎng)絡(luò)(圖2)旅急。
獨(dú)立訓(xùn)練的RPN和Fast R-CNN將以不同的方式修改卷積層逢勾。因此,我們需要開發(fā)一種允許在兩個(gè)網(wǎng)絡(luò)之間共享卷積層的技術(shù)藐吮,而不是學(xué)習(xí)兩個(gè)獨(dú)立的網(wǎng)絡(luò)溺拱。我們討論三個(gè)方法來訓(xùn)練具有共享特征的網(wǎng)絡(luò):
(一)交替訓(xùn)練。在這個(gè)解決方案中谣辞,我們首先訓(xùn)練RPN迫摔,并使用這些提議來訓(xùn)練Fast R-CNN。由Fast R-CNN微調(diào)的網(wǎng)絡(luò)然后被用于初始化RPN泥从,并且重復(fù)這個(gè)過程句占。這是本文所有實(shí)驗(yàn)中使用的解決方案。
(二)近似聯(lián)合訓(xùn)練躯嫉。在這個(gè)解決方案中纱烘,RPN和Fast R-CNN網(wǎng)絡(luò)在訓(xùn)練期間合并成一個(gè)網(wǎng)絡(luò),如圖2所示和敬。在每次SGD迭代中凹炸,前向傳遞生成區(qū)域提議,在訓(xùn)練Fast R-CNN檢測器將這看作是固定的昼弟、預(yù)計(jì)算的提議啤它。反向傳播像往常一樣進(jìn)行,其中對于共享層舱痘,組合來自RPN損失和Fast R-CNN損失的反向傳播信號变骡。這個(gè)解決方案很容易實(shí)現(xiàn)。但是這個(gè)解決方案忽略了關(guān)于提議邊界框的坐標(biāo)(也是網(wǎng)絡(luò)響應(yīng))的導(dǎo)數(shù)芭逝,因此是近似的塌碌。在我們的實(shí)驗(yàn)中,我們實(shí)驗(yàn)發(fā)現(xiàn)這個(gè)求解器產(chǎn)生了相當(dāng)?shù)慕Y(jié)果旬盯,與交替訓(xùn)練相比台妆,訓(xùn)練時(shí)間減少了大約$25-50%$翎猛。這個(gè)求解器包含在我們發(fā)布的Python代碼中。
(三)非近似的聯(lián)合訓(xùn)練接剩。如上所述切厘,由RPN預(yù)測的邊界框也是輸入的函數(shù)。Fast R-CNN中的RoI池化層[2]接受卷積特征以及預(yù)測的邊界框作為輸入懊缺,所以理論上有效的反向傳播求解器也應(yīng)該包括關(guān)于邊界框坐標(biāo)的梯度疫稿。在上述近似聯(lián)合訓(xùn)練中,這些梯度被忽略鹃两。在一個(gè)非近似的聯(lián)合訓(xùn)練解決方案中遗座,我們需要一個(gè)關(guān)于邊界框坐標(biāo)可微分的RoI池化層。這是一個(gè)重要的問題俊扳,可以通過[15]中提出的“RoI扭曲”層給出解決方案途蒋,這超出了本文的范圍。
四步交替訓(xùn)練。在本文中,我們采用實(shí)用的四步訓(xùn)練算法透敌,通過交替優(yōu)化學(xué)習(xí)共享特征。在第一步中筋帖,我們按照3.1.3節(jié)的描述訓(xùn)練RPN。該網(wǎng)絡(luò)使用ImageNet的預(yù)訓(xùn)練模型進(jìn)行初始化冤馏,并針對區(qū)域提議任務(wù)進(jìn)行了端到端的微調(diào)日麸。在第二步中,我們使用由第一步RPN生成的提議逮光,由Fast R-CNN訓(xùn)練單獨(dú)的檢測網(wǎng)絡(luò)代箭。該檢測網(wǎng)絡(luò)也由ImageNet的預(yù)訓(xùn)練模型進(jìn)行初始化。此時(shí)兩個(gè)網(wǎng)絡(luò)不共享卷積層涕刚。在第三步中嗡综,我們使用檢測器網(wǎng)絡(luò)來初始化RPN訓(xùn)練,但是我們修正共享的卷積層杜漠,并且只對RPN特有的層進(jìn)行微調(diào)〖埃現(xiàn)在這兩個(gè)網(wǎng)絡(luò)共享卷積層。最后驾茴,保持共享卷積層的固定盼樟,我們對Fast R-CNN的獨(dú)有層進(jìn)行微調(diào)。因此锈至,兩個(gè)網(wǎng)絡(luò)共享相同的卷積層并形成統(tǒng)一的網(wǎng)絡(luò)晨缴。類似的交替訓(xùn)練可以運(yùn)行更多的迭代,但是我們只觀察到可以忽略的改進(jìn)峡捡。
3.3 實(shí)現(xiàn)細(xì)節(jié)
我們在單尺度圖像上訓(xùn)練和測試區(qū)域提議和目標(biāo)檢測網(wǎng)絡(luò)[1]击碗,[2]筑悴。我們重新縮放圖像,使得它們的短邊是$s=600$像素[2]延都。多尺度特征提壤字怼(使用圖像金字塔)可能會(huì)提高精度,但不會(huì)表現(xiàn)出速度與精度的良好折衷[2]晰房。在重新縮放的圖像上,最后卷積層上的ZF和VGG網(wǎng)絡(luò)的總步長為16個(gè)像素射沟,因此在調(diào)整大惺庹摺(?500×375)之前,典型的PASCAL圖像上的總步長為?10個(gè)像素验夯。即使如此大的步長也能提供良好的效果猖吴,盡管步幅更小,精度可能會(huì)進(jìn)一步提高挥转。
對于錨點(diǎn)海蔽,我們使用了3個(gè)尺度,邊界框面積分別為$1282$绑谣,$2562$和$512^2$個(gè)像素党窜,以及1:1,1:2和2:1的長寬比借宵。這些超參數(shù)不是針對特定數(shù)據(jù)集仔細(xì)選擇的幌衣,我們將在下一節(jié)中提供有關(guān)其作用的消融實(shí)驗(yàn)。如上所述壤玫,我們的解決方案不需要圖像金字塔或?yàn)V波器金字塔來預(yù)測多個(gè)尺度的區(qū)域豁护,節(jié)省了大量的運(yùn)行時(shí)間。圖3(右)顯示了我們的方法在廣泛的尺度和長寬比方面的能力欲间。表1顯示了使用ZF網(wǎng)絡(luò)的每個(gè)錨點(diǎn)學(xué)習(xí)到的平均提議大小楚里。我們注意到,我們的算法允許預(yù)測比基礎(chǔ)感受野更大猎贴。這樣的預(yù)測不是不可能的——如果只有目標(biāo)的中間部分是可見的班缎,那么仍然可以粗略地推斷出目標(biāo)的范圍。
表1:使用ZF網(wǎng)絡(luò)的每個(gè)錨點(diǎn)學(xué)習(xí)到的平均提議大兄瞿堋($s=600$的數(shù)字)吝梅。
跨越圖像邊界的錨盒需要小心處理。在訓(xùn)練過程中惹骂,我們忽略了所有的跨界錨點(diǎn)苏携,所以不會(huì)造成損失。對于一個(gè)典型的$1000 \times 600$的圖片对粪,總共將會(huì)有大約20000($\approx 60 \times 40 \times 9$)個(gè)錨點(diǎn)右冻∽芭睿跨界錨點(diǎn)被忽略,每張圖像約有6000個(gè)錨點(diǎn)用于訓(xùn)練纱扭。如果跨界異常值在訓(xùn)練中不被忽略牍帚,則會(huì)在目標(biāo)函數(shù)中引入大的,難以糾正的誤差項(xiàng)乳蛾,且訓(xùn)練不會(huì)收斂暗赶。但在測試過程中,我們?nèi)匀粚⑷矸eRPN應(yīng)用于整張圖像肃叶。這可能會(huì)產(chǎn)生跨邊界的提議邊界框蹂随,我們剪切到圖像邊界。
一些RPN提議互相之間高度重疊因惭。為了減少冗余岳锁,我們在提議區(qū)域根據(jù)他們的cls分?jǐn)?shù)采取非極大值抑制(NMS)。我們將NMS的IoU閾值固定為0.7蹦魔,這就給每張圖像留下了大約2000個(gè)提議區(qū)域激率。正如我們將要展示的那樣,NMS不會(huì)損害最終的檢測準(zhǔn)確性勿决,但會(huì)大大減少提議的數(shù)量乒躺。在NMS之后,我們使用前N個(gè)提議區(qū)域來進(jìn)行檢測剥险。接下來聪蘸,我們使用2000個(gè)RPN提議對Fast R-CNN進(jìn)行訓(xùn)練,但在測試時(shí)評估不同數(shù)量的提議表制。
4. 實(shí)驗(yàn)
4.1 PASCAL VOC上的實(shí)驗(yàn)
我們在PASCAL VOC 2007檢測基準(zhǔn)數(shù)據(jù)集[11]上全面評估了我們的方法健爬。這個(gè)數(shù)據(jù)集包含大約5000張訓(xùn)練評估圖像和在20個(gè)目標(biāo)類別上的5000張測試圖像。我們還提供了一些模型在PASCAL VOC 2012基準(zhǔn)數(shù)據(jù)集上的測試結(jié)果么介。對于ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)娜遵,我們使用具有5個(gè)卷積層和3個(gè)全連接層的ZF網(wǎng)絡(luò)[32]的“快速”版本以及具有13個(gè)卷積層和3個(gè)全連接層的公開的VGG-16模型[3]。我們主要評估檢測的平均精度均值(mAP)壤短,因?yàn)檫@是檢測目標(biāo)的實(shí)際指標(biāo)(而不是關(guān)注目標(biāo)提議代理度量)设拟。
表2(頂部)顯示了使用各種區(qū)域提議方法進(jìn)行訓(xùn)練和測試的Fast R-CNN結(jié)果。這些結(jié)果使用ZF網(wǎng)絡(luò)久脯。對于選擇性搜索(SS)[4]纳胧,我們通過“快速”模式生成約2000個(gè)提議。對于EdgeBoxes(EB)[6]帘撰,我們通過調(diào)整0.7 IoU的默認(rèn)EB設(shè)置生成提議跑慕。SS在Fast R-CNN框架下的mAP為$58.7%$,EB的mAP為$58.6%$。RPN與Fast R-CNN取得了有競爭力的結(jié)果核行,使用多達(dá)300個(gè)提議牢硅,mAP為$59.9%$。由于共享卷積計(jì)算芝雪,使用RPN比使用SS或EB產(chǎn)生了更快的檢測系統(tǒng)减余;較少的建議也減少了區(qū)域方面的全連接層成本(表5)。
表2:PASCAL VOC 2007測試集上的檢測結(jié)果(在VOC 2007訓(xùn)練評估集上進(jìn)行了訓(xùn)練)惩系。檢測器是帶有ZF的Fast R-CNN位岔,但使用各種提議方法進(jìn)行訓(xùn)練和測試。
表5:K40 GPU上的時(shí)間(ms)蛆挫,除了SS提議是在CPU上評估赃承。“區(qū)域方面”包括NMS悴侵,池化,全連接和softmax層拭嫁。查看我們發(fā)布的代碼來分析運(yùn)行時(shí)間可免。
RPN上的消融實(shí)驗(yàn)。為了研究RPN作為提議方法的性能做粤,我們進(jìn)行了幾項(xiàng)消融研究浇借。首先,我們顯示了RPN和Fast R-CNN檢測網(wǎng)絡(luò)共享卷積層的效果怕品。為此妇垢,我們在四步訓(xùn)練過程的第二步之后停止訓(xùn)練。使用單獨(dú)的網(wǎng)絡(luò)將結(jié)果略微減少到$58.7%$(RPN+ZF肉康,非共享闯估,表2)。我們觀察到吼和,這是因?yàn)樵诘谌街姓切剑?dāng)使用檢測器調(diào)整的特征來微調(diào)RPN時(shí),提議質(zhì)量得到了改善炫乓。
接下來刚夺,我們分析RPN對訓(xùn)練Fast R-CNN檢測網(wǎng)絡(luò)的影響。為此末捣,我們通過使用2000個(gè)SS提議和ZF網(wǎng)絡(luò)來訓(xùn)練Fast R-CNN模型侠姑。我們固定這個(gè)檢測器,并通過改變測試時(shí)使用的提議區(qū)域來評估檢測的mAP箩做。在這些消融實(shí)驗(yàn)中莽红,RPN不與檢測器共享特征。
在測試階段用300個(gè)RPN提議替換SS提議得到了$56.8%$的MAP卒茬。mAP的損失是因?yàn)橛?xùn)練/測試提議不一致船老。這個(gè)結(jié)果作為以下比較的基準(zhǔn)咖熟。
有些令人驚訝的是,RPN在測試時(shí)使用排名最高的100個(gè)提議仍然會(huì)導(dǎo)致有競爭力的結(jié)果($55.1%$)柳畔,表明排名靠前的RPN提議是準(zhǔn)確的馍管。相反的,使用排名靠前的6000個(gè)RPN提議(無NMS)具有相當(dāng)?shù)膍AP($55.2%$)薪韩,這表明NMS不會(huì)損害檢測mAP并可能減少誤報(bào)确沸。
接下來,我們通過在測試時(shí)分別關(guān)閉RPN的cls和reg輸出來調(diào)查RPN的作用俘陷。當(dāng)cls層在測試時(shí)被移除(因此不使用NMS/排名)罗捎,我們從未得分的區(qū)域中隨機(jī)采樣$N$個(gè)提議。當(dāng)$N=1000$($55.8
%$)時(shí)拉盾,mAP幾乎沒有變化桨菜,但是當(dāng)$N=100$時(shí),會(huì)大大降低到$44.6%$捉偏。這表明cls分?jǐn)?shù)考慮了排名最高的提議的準(zhǔn)確性倒得。
另一方面,當(dāng)在測試階段移除reg層(所以提議變成錨盒)時(shí)夭禽,mAP將下降到$52.1%$霞掺。這表明高質(zhì)量的提議主要是由于回歸的邊界框。錨盒雖然具有多個(gè)尺度和長寬比讹躯,但不足以進(jìn)行準(zhǔn)確的檢測菩彬。
我們還單獨(dú)評估了更強(qiáng)大的網(wǎng)絡(luò)對RPN提議質(zhì)量的影響。我們使用VGG-16來訓(xùn)練RPN潮梯,仍然使用上述的SS+ZF檢測器骗灶。mAP從$56.8%$(使用RPN+ZF)提高到$59.2%$(使用RPN+VGG)。這是一個(gè)很有希望的結(jié)果酷麦,因?yàn)檫@表明RPN+VGG的提議質(zhì)量要好于RPN+ZF矿卑。由于RPN+ZF的提議與SS具有競爭性(當(dāng)一致用于訓(xùn)練和測試時(shí),都是$58.7%$)沃饶,所以我們可以預(yù)期RPN+VGG比SS更好母廷。以下實(shí)驗(yàn)驗(yàn)證了這個(gè)假設(shè)。
VGG-16的性能糊肤。表3顯示了VGG-16的提議和檢測結(jié)果琴昆。使用RPN+VGG,非共享特征的結(jié)果是$68.5%$馆揉,略高于SS的基準(zhǔn)业舍。如上所示,這是因?yàn)镽PN+VGG生成的提議比SS更準(zhǔn)確。與預(yù)先定義的SS不同舷暮,RPN是主動(dòng)訓(xùn)練的并從更好的網(wǎng)絡(luò)中受益态罪。對于特性共享的變種,結(jié)果是$69.9%$——比強(qiáng)壯的SS基準(zhǔn)更好下面,但幾乎是零成本的提議复颈。我們在PASCAL VOC 2007和2012的訓(xùn)練評估數(shù)據(jù)集上進(jìn)一步訓(xùn)練RPN和檢測網(wǎng)絡(luò)。該mAP是$73.2%$沥割。圖5顯示了PASCAL VOC 2007測試集的一些結(jié)果耗啦。在PASCAL VOC 2012測試集(表4)中,我們的方法在VOC 2007的trainval+test
和VOC 2012的trainval
的聯(lián)合數(shù)據(jù)集上訓(xùn)練的模型取得了$70.4%$的mAP机杜。表6和表7顯示了詳細(xì)的數(shù)字帜讲。
表3:PASCAL VOC 2007測試集的檢測結(jié)果。檢測器是Fast R-CNN和VGG-16椒拗。訓(xùn)練數(shù)據(jù):“07”:VOC 2007 trainval似将,“07 + 12”:VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓(xùn)練集。對于RPN蚀苛,訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000玩郊。?:[2]中報(bào)道的數(shù)字;使用本文提供的倉庫枉阵,這個(gè)結(jié)果更高(68.1)。
表4:PASCAL VOC 2012測試集的檢測結(jié)果预茄。檢測器是Fast R-CNN和VGG-16兴溜。訓(xùn)練數(shù)據(jù):“07”:VOC 2007 trainval,“07 + 12”:VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓(xùn)練集耻陕。對于RPN拙徽,訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000。?:http://host.robots.ox.ac.uk:8080/anonymous/HZJTQA.html诗宣。?:http://host.robots.ox.ac.uk:8080/anonymous/YNPLXB.html膘怕。§:http://host.robots.ox.ac.uk:8080/anonymous/XEDH10.html召庞。
表6:使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果岛心。對于RPN,訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000篮灼。${RPN}^*$表示沒有共享特征的版本忘古。
表7:使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果。對于RPN诅诱,訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000髓堪。
圖5:使用Faster R-CNN系統(tǒng)在PASCAL VOC 2007測試集上選擇的目標(biāo)檢測結(jié)果示例。該模型是VGG-16,訓(xùn)練數(shù)據(jù)是07+12 trainval(2007年測試集中$73.2%$的mAP)干旁。我們的方法檢測廣泛的尺度和長寬比目標(biāo)驶沼。每個(gè)輸出框都與類別標(biāo)簽和[0,1]之間的softmax分?jǐn)?shù)相關(guān)聯(lián)争群。使用0.6的分?jǐn)?shù)閾值來顯示這些圖像回怜。獲得這些結(jié)果的運(yùn)行時(shí)間為每張圖像198ms,包括所有步驟祭阀。
在表5中我們總結(jié)了整個(gè)目標(biāo)檢測系統(tǒng)的運(yùn)行時(shí)間鹉戚。根據(jù)內(nèi)容(平均大約1.5s),SS需要1-2秒专控,而使用VGG-16的Fast R-CNN在2000個(gè)SS提議上需要320ms(如果在全連接層上使用SVD[2]抹凳,則需要223ms)。我們的VGG-16系統(tǒng)在提議和檢測上總共需要198ms伦腐。在共享卷積特征的情況下赢底,單獨(dú)RPN只需要10ms計(jì)算附加層。我們的區(qū)域計(jì)算也較低柏蘑,這要?dú)w功于較少的提議(每張圖片300個(gè))幸冻。我們的采用ZF網(wǎng)絡(luò)的系統(tǒng),幀速率為17fps咳焚。
對超參數(shù)的敏感度洽损。在表8中,我們調(diào)查錨點(diǎn)的設(shè)置革半。默認(rèn)情況下碑定,我們使用3個(gè)尺度和3個(gè)長寬比(表8中$69.9%$的mAP)。如果在每個(gè)位置只使用一個(gè)錨點(diǎn)又官,那么mAP的下降幅度將是$3-4%$延刘。如果使用3個(gè)尺度(1個(gè)長寬比)或3個(gè)長寬比(1個(gè)尺度),則mAP更高六敬,表明使用多種尺寸的錨點(diǎn)作為回歸參考是有效的解決方案碘赖。在這個(gè)數(shù)據(jù)集上,僅使用具有1個(gè)長寬比($69.8%$)的3個(gè)尺度與使用具有3個(gè)長寬比的3個(gè)尺度一樣好外构,這表明尺度和長寬比不是檢測準(zhǔn)確度的解決維度普泡。但我們?nèi)匀辉谠O(shè)計(jì)中采用這兩個(gè)維度來保持我們的系統(tǒng)靈活性。
在表9中典勇,我們比較了公式(1)中$\lambda$的不同值劫哼。默認(rèn)情況下,我們使用$\lambda=10$割笙,這使方程(1)中的兩個(gè)項(xiàng)在歸一化之后大致相等地加權(quán)权烧。表9顯示眯亦,當(dāng)$\lambda$在大約兩個(gè)數(shù)量級(1到100)的范圍內(nèi)時(shí),我們的結(jié)果只是稍微受到影響($\sim 1%$)般码。這表明結(jié)果對寬范圍內(nèi)的$\lambda$不敏感妻率。
分析IoU召回率。接下來板祝,我們使用實(shí)際邊界框來計(jì)算不同IoU比率的提議召回率宫静。值得注意的是,Recall-to-IoU度量與最終的檢測精度的相關(guān)性是松散的[19券时,20孤里,21]。使用這個(gè)指標(biāo)來診斷提議方法比評估提議方法更合適橘洞。
在圖4中捌袜,我們顯示了使用300,1000和2000個(gè)提議的結(jié)果炸枣。我們與SS和EB進(jìn)行比較虏等,根據(jù)這些方法產(chǎn)生的置信度,N個(gè)提議是排名前N的提議适肠。從圖中可以看出霍衫,當(dāng)提議數(shù)量從2000個(gè)減少到300個(gè)時(shí),RPN方法表現(xiàn)優(yōu)雅侯养。這就解釋了為什么RPN在使用300個(gè)提議時(shí)具有良好的最終檢測mAP敦跌。正如我們之前分析過的,這個(gè)屬性主要?dú)w因于RPN的cls項(xiàng)逛揩。當(dāng)提議較少時(shí)峰髓,SS和EB的召回率下降的比RPN更快。
圖4:PASCAL VOC 2007測試集上的召回率和IoU重疊率息尺。
一階段檢測與兩階段提議+檢測。OverFeat論文[9]提出了一種在卷積特征映射的滑動(dòng)窗口上使用回歸器和分類器的檢測方法疾掰。OverFeat是一個(gè)一階段搂誉,類別特定的檢測流程,而我們的是兩階段級聯(lián)静檬,包括類不可知的提議和類別特定的檢測炭懊。在OverFeat中,區(qū)域特征來自一個(gè)尺度金字塔上一個(gè)長寬比的滑動(dòng)窗口拂檩。這些特征用于同時(shí)確定目標(biāo)的位置和類別侮腹。在RPN中,這些特征來自正方形($3\times 3$)滑動(dòng)窗口稻励,并且預(yù)測相對于錨點(diǎn)具有不同尺度和長寬比的提議父阻。雖然這兩種方法都使用滑動(dòng)窗口愈涩,但區(qū)域提議任務(wù)只是Faster R-CNN的第一階段——下游的Fast R-CNN檢測器會(huì)致力于對提議進(jìn)行細(xì)化。在我們級聯(lián)的第二階段加矛,在更忠實(shí)覆蓋區(qū)域特征的提議框中履婉,區(qū)域特征自適應(yīng)地聚集[1],[2]斟览。我們相信這些功能會(huì)帶來更準(zhǔn)確的檢測結(jié)果毁腿。
為了比較一階段和兩階段系統(tǒng),我們通過一階段Fast R-CNN來模擬OverFeat系統(tǒng)(從而也規(guī)避了實(shí)現(xiàn)細(xì)節(jié)的其他差異)苛茂。在這個(gè)系統(tǒng)中已烤,“提議”是3個(gè)尺度(128,256妓羊,512)和3個(gè)長寬比(1:1胯究,1:2,2:1)的密集滑動(dòng)窗口侍瑟。訓(xùn)練Fast R-CNN來預(yù)測類別特定的分?jǐn)?shù)唐片,并從這些滑動(dòng)窗口中回歸邊界框位置。由于OverFeat系統(tǒng)采用圖像金字塔涨颜,我們也使用從5個(gè)尺度中提取的卷積特征進(jìn)行評估费韭。我們使用[1],[2]中5個(gè)尺度庭瑰。
表10比較了兩階段系統(tǒng)和一階段系統(tǒng)的兩個(gè)變種星持。使用ZF模型绞绒,一階段系統(tǒng)具有$53.9%$的mAP缀遍。這比兩階段系統(tǒng)($58.7%$)低$4.8%$础浮。這個(gè)實(shí)驗(yàn)驗(yàn)證了級聯(lián)區(qū)域提議和目標(biāo)檢測的有效性蝙昙。在文獻(xiàn)[2]遵蚜,[39]中報(bào)道了類似的觀察結(jié)果宣增,在這兩篇論文中龙填,用滑動(dòng)窗取代SS區(qū)域提議會(huì)導(dǎo)致$\sim 6%$的退化氧急。我們也注意到捡鱼,一階段系統(tǒng)更慢八回,因?yàn)樗a(chǎn)生了更多的提議。
表10:一階段檢測與兩階段提議+檢測驾诈。使用ZF模型和Fast R-CNN在PASCAL VOC 2007測試集上的檢測結(jié)果缠诅。RPN使用未共享的功能。
4.2 在MS COCO上的實(shí)驗(yàn)
我們在Microsoft COCO目標(biāo)檢測數(shù)據(jù)集[12]上提供了更多的結(jié)果乍迄。這個(gè)數(shù)據(jù)集包含80個(gè)目標(biāo)類別管引。我們用訓(xùn)練集上的8萬張圖像,驗(yàn)證集上的4萬張圖像以及測試開發(fā)集上的2萬張圖像進(jìn)行實(shí)驗(yàn)闯两。我們評估了$IoU \in [0.5:0.05:0.95]$的平均mAP(COCO標(biāo)準(zhǔn)度量褥伴,簡稱為mAP@[.5,.95])和mAP@0.5(PASCAL VOC度量)谅将。
我們的系統(tǒng)對這個(gè)數(shù)據(jù)集做了一些小的改動(dòng)。我們在8 GPU實(shí)現(xiàn)上訓(xùn)練我們的模型噩翠,RPN(每個(gè)GPU 1個(gè))和Fast R-CNN(每個(gè)GPU 2個(gè))的有效最小批大小為8個(gè)戏自。RPN步驟和Fast R-CNN步驟都以24萬次迭代進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.003伤锚,然后以0.0003的學(xué)習(xí)率進(jìn)行8萬次迭代擅笔。我們修改了學(xué)習(xí)率(從0.003而不是0.001開始),因?yàn)樾∨繑?shù)據(jù)的大小發(fā)生了變化屯援。對于錨點(diǎn)猛们,我們使用3個(gè)長寬比和4個(gè)尺度(加上$64^2$),這主要是通過處理這個(gè)數(shù)據(jù)集上的小目標(biāo)來激發(fā)的狞洋。此外弯淘,在我們的Fast R-CNN步驟中,負(fù)樣本定義為與實(shí)際邊界框的最大IOU在[0吉懊,0.5)區(qū)間內(nèi)的樣本庐橙,而不是[1],[2]中使用的[0.1,0.5)之間借嗽。我們注意到态鳖,在SPPnet系統(tǒng)[1]中,在[0.1恶导,0.5)中的負(fù)樣本用于網(wǎng)絡(luò)微調(diào)浆竭,但[0,0.5)中的負(fù)樣本仍然在具有難例挖掘SVM步驟中被訪問。但是Fast R-CNN系統(tǒng)[2]放棄了SVM步驟惨寿,所以[0,0.1]中的負(fù)樣本都不會(huì)被訪問邦泄。包括這些[0,0.1)的樣本,在Fast R-CNN和Faster R-CNN系統(tǒng)在COCO數(shù)據(jù)集上改進(jìn)了mAP@0.5(但對PASCAL VOC的影響可以忽略不計(jì))裂垦。
其余的實(shí)現(xiàn)細(xì)節(jié)與PASCAL VOC相同顺囊。特別的是蕉拢,我們繼續(xù)使用300個(gè)提議和單一尺度($s=600$)測試企量。COCO數(shù)據(jù)集上的測試時(shí)間仍然是大約200ms處理一張圖像。
在表11中亡电,我們首先報(bào)告了使用本文實(shí)現(xiàn)的Fast R-CNN系統(tǒng)[2]的結(jié)果。我們的Fast R-CNN基準(zhǔn)在test-dev
數(shù)據(jù)集上有$39.3%$的mAP@0.5恕汇,比[2]中報(bào)告的更高腕唧。我們推測造成這種差距的原因主要是由于負(fù)樣本的定義以及小批量大小的變化。我們也注意到mAP@[.5枣接,.95]恰好相當(dāng)但惶。
表11:在MS COCO數(shù)據(jù)集上的目標(biāo)檢測結(jié)果(%)湿蛔。模型是VGG-16阳啥。
接下來我們評估我們的Faster R-CNN系統(tǒng)察迟。使用COCO訓(xùn)練集訓(xùn)練扎瓶,在COCO測試開發(fā)集上Faster R-CNNN有$42.1%$的mAP@0.5和$21.5%$的mAP@[0.5,0.95]污筷。與相同協(xié)議下的Fast R-CNN相比瓣蛀,mAP@0.5要高$2.8%$惋增,mAP@[.5, .95]要高$2.2%$(表11)改鲫。這表明像棘,在更高的IoU閾值上缕题,RPN對提高定位精度表現(xiàn)出色烟零。使用COCO訓(xùn)練集訓(xùn)練咸作,在COCO測試開發(fā)集上Faster R-CNN有$42.7%$的mAP@0.5和$21.9%$的mAP@[.5, .95]记罚。圖6顯示了MS COCO測試開發(fā)數(shù)據(jù)集中的一些結(jié)果桐智。
圖6:使用Faster R-CNN系統(tǒng)在MS COCO test-dev數(shù)據(jù)集上選擇的目標(biāo)檢測結(jié)果示例酵使。該模型是VGG-16口渔,訓(xùn)練數(shù)據(jù)是COCO訓(xùn)練數(shù)據(jù)(在測試開發(fā)數(shù)據(jù)集上為$42.7%$的mAP@0.5)缺脉。每個(gè)輸出框都與一個(gè)類別標(biāo)簽和[0, 1]之間的softmax分?jǐn)?shù)相關(guān)聯(lián)悦穿。使用0.6的分?jǐn)?shù)閾值來顯示這些圖像栗柒。對于每張圖像瞬沦,一種顏色表示該圖像中的一個(gè)目標(biāo)類別逛钻。
在ILSVRC和COCO 2015比賽中的Faster R-CNN曙痘。我們已經(jīng)證明,由于RPN通過神經(jīng)網(wǎng)絡(luò)完全學(xué)習(xí)了提議區(qū)域名扛,F(xiàn)aster R-CNN從更好的特征中受益更多肮韧。即使將深度增加到100層以上惹苗,這種觀察仍然是有效的[18]桩蓉。僅用101層殘差網(wǎng)絡(luò)(ResNet-101)代替VGG-16院究,F(xiàn)aster R-CNN系統(tǒng)就將mAP從$41.5
%/21.2%$(VGG-16)增加到$48.4%/27.2%$(ResNet-101)业汰。與其他改進(jìn)正交于Faster R-CNN菩颖,何等人[18]在COCO測試開發(fā)數(shù)據(jù)集上獲得了單模型$55.7%/34.9%$的結(jié)果和$59.0%/37.4%$的組合結(jié)果晦闰,在COCO 2015目標(biāo)檢測競賽中獲得了第一名呻右。同樣的系統(tǒng)[18]也在ILSVRC 2015目標(biāo)檢測競賽中獲得了第一名声滥,超過第二名絕對的$8.5%$落塑。RPN也是ILSVRC2015定位和COCO2015分割競賽第一名獲獎(jiǎng)輸入的基石芜赌,詳情請分別參見[18]和[15]缠沈。
4.3 從MS COCO到PASCAL VOC
大規(guī)模數(shù)據(jù)對改善深度神經(jīng)網(wǎng)絡(luò)至關(guān)重要洲愤。接下來,我們調(diào)查MS COCO數(shù)據(jù)集如何幫助改進(jìn)在PASCAL VOC上的檢測性能亡问。
作為一個(gè)簡單的基準(zhǔn)數(shù)據(jù)州藕,我們直接在PASCAL VOC數(shù)據(jù)集上評估COCO檢測模型床玻,而無需在任何PASCAL VOC數(shù)據(jù)上進(jìn)行微調(diào)锈死。這種評估是可能的待牵,因?yàn)镃OCO類別是PASCAL VOC上類別的超集缨该。在這個(gè)實(shí)驗(yàn)中忽略COCO專有的類別压彭,softmax層僅在20個(gè)類別和背景上執(zhí)行壮不。這種設(shè)置下PASCAL VOC 2007測試集上的mAP為$76.1%$(表12)询一。即使沒有利用PASCAL VOC的數(shù)據(jù)健蕊,這個(gè)結(jié)果也好于在VOC07+12($73.2%$)上訓(xùn)練的模型的結(jié)果缩功。
然后我們在VOC數(shù)據(jù)集上對COCO檢測模型進(jìn)行微調(diào)。在這個(gè)實(shí)驗(yàn)中虑稼,COCO模型代替了ImageNet的預(yù)訓(xùn)練模型(用于初始化網(wǎng)絡(luò)權(quán)重)蛛倦,F(xiàn)aster R-CNN系統(tǒng)按3.2節(jié)所述進(jìn)行微調(diào)溯壶。這樣做在PASCAL VOC 2007測試集上可以達(dá)到$78.8%$的mAP且改。來自COCO集合的額外數(shù)據(jù)增加了$5.6%$的mAP又跛。表6顯示效扫,在PASCAL VOC 2007上菌仁,使用COCO+VOC訓(xùn)練的模型在每個(gè)類別上具有最好的AP值济丘。在PASCAL VOC 2012測試集(表12和表7)中也觀察到類似的改進(jìn)摹迷。我們注意到獲得這些強(qiáng)大結(jié)果的測試時(shí)間速度仍然是每張圖像200ms左右峡碉。
表6:Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果鲫寄。對于RPN地来,F(xiàn)ast R-CNN的訓(xùn)練時(shí)的提議數(shù)量是2000未斑。$RPN^*$表示取消共享特征的版本蜡秽。
表12:使用不同的訓(xùn)練數(shù)據(jù)在PASCAL VOC 2007測試集和2012測試集上檢測Faster R-CNN的檢測mAP(%)载城。模型是VGG-16诉瓦〔窃瑁“COCO”表示COCOtrainval
數(shù)據(jù)集用于訓(xùn)練煞聪。另見表6和表7昔脯。
表7:Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果隧饼。對于RPN燕雁,F(xiàn)ast R-CNN的訓(xùn)練時(shí)的提議數(shù)量是2000拐格。
5. 結(jié)論
我們已經(jīng)提出了RPN來生成高效捏浊,準(zhǔn)確的區(qū)域提議呛伴。通過與下游檢測網(wǎng)絡(luò)共享卷積特征热康,區(qū)域提議步驟幾乎是零成本的姐军。我們的方法使統(tǒng)一的奕锌,基于深度學(xué)習(xí)的目標(biāo)檢測系統(tǒng)能夠以接近實(shí)時(shí)的幀率運(yùn)行惊暴。學(xué)習(xí)到的RPN也提高了區(qū)域提議的質(zhì)量辽话,從而提高了整體的目標(biāo)檢測精度油啤。
REFERENCES
[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.
[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.
[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.
[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International
Journal of Computer Vision (IJCV), 2013.
[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[6] C. L. Zitnick and P. Dolla?r, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision(ECCV),2014.
[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010.
[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.
[10] S. Ren, K. He, R. Girshick, and J. Sun, “FasterR-CNN: Towards real-time object detection with region proposal networks,” in
Neural Information Processing Systems (NIPS), 2015.
[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.
[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer Vision (ECCV), 2014.
[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.
[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.
[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.
[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” arXiv:1511.07571, 2015.
[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.
[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.
[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.
[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.
[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv: 1505.05836, 2015.
[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.
[23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.
[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.
[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.
[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, high-quality object detection,” arXiv:1412.1441 (v1), 2015.
[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.
[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,” arXiv:1504.06066, 2015.
[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Neural Information Processing Systems (NIPS), 2015.
[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.
[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.
[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.
[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” in International Journal of Computer Vision (IJCV), 2015.
[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.
[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.
[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015.