Faster R-CNN論文翻譯——中文版

文章作者：Tyan
博客：noahsnail.com ?|? CSDN ?|? 簡書

聲明：作者翻譯論文僅為學(xué)習(xí)鳄乏，如有侵權(quán)請聯(lián)系作者刪除博文，謝謝喷斋！

翻譯論文匯總：https://github.com/SnailTyan/deep-learning-papers-translation

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

摘要

最先進(jìn)的目標(biāo)檢測網(wǎng)絡(luò)依靠區(qū)域提出算法來假設(shè)目標(biāo)的位置悍募。SPPnet[1]和Fast R-CNN[2]等研究已經(jīng)減少了這些檢測網(wǎng)絡(luò)的運(yùn)行時(shí)間，使得區(qū)域提出計(jì)算成為一個(gè)瓶頸常侦。在這項(xiàng)工作中浇冰，我們引入了一個(gè)區(qū)域提出網(wǎng)絡(luò)（RPN），該網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)共享全圖像的卷積特征聋亡，從而使近乎零成本的區(qū)域提出成為可能肘习。RPN是一個(gè)全卷積網(wǎng)絡(luò)，可以同時(shí)在每個(gè)位置預(yù)測目標(biāo)邊界和目標(biāo)分?jǐn)?shù)坡倔。RPN經(jīng)過端到端的訓(xùn)練漂佩，可以生成高質(zhì)量的區(qū)域提出，由Fast R-CNN用于檢測罪塔。我們將RPN和Fast R-CNN通過共享卷積特征進(jìn)一步合并為一個(gè)單一的網(wǎng)絡(luò)——使用最近流行的具有“注意力”機(jī)制的神經(jīng)網(wǎng)絡(luò)術(shù)語投蝉，RPN組件告訴統(tǒng)一網(wǎng)絡(luò)在哪里尋找。對于非常深的VGG-16模型[3]垢袱，我們的檢測系統(tǒng)在GPU上的幀率為5fps（包括所有步驟）墓拜，同時(shí)在PASCAL VOC 2007，2012和MS COCO數(shù)據(jù)集上實(shí)現(xiàn)了最新的目標(biāo)檢測精度请契，每個(gè)圖像只有300個(gè)提出咳榜。在ILSVRC和COCO 2015競賽中，F(xiàn)aster R-CNN和RPN是多個(gè)比賽中獲得第一名輸入的基礎(chǔ)爽锥。代碼可公開獲得涌韩。

1. 引言

目標(biāo)檢測的最新進(jìn)展是由區(qū)域提出方法（例如[4]）和基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)（R-CNN）[5]的成功驅(qū)動(dòng)的。盡管在[5]中最初開發(fā)的基于區(qū)域的CNN計(jì)算成本很高氯夷，但是由于在各種提議中共享卷積臣樱，所以其成本已經(jīng)大大降低了[1][2]。忽略花費(fèi)在區(qū)域提議上的時(shí)間腮考，最新版本Fast R-CNN[2]利用非常深的網(wǎng)絡(luò)[3]實(shí)現(xiàn)了接近實(shí)時(shí)的速率」秃粒現(xiàn)在，提議是最新的檢測系統(tǒng)中測試時(shí)間的計(jì)算瓶頸踩蔚。

區(qū)域提議方法通常依賴廉價(jià)的特征和簡練的推斷方案棚放。選擇性搜索[4]是最流行的方法之一，它貪婪地合并基于設(shè)計(jì)的低級特征的超級像素馅闽。然而飘蚯，與有效的檢測網(wǎng)絡(luò)[2]相比馍迄，選擇性搜索速度慢了一個(gè)數(shù)量級，在CPU實(shí)現(xiàn)中每張圖像的時(shí)間為2秒局骤。EdgeBoxes[6]目前提供了在提議質(zhì)量和速度之間的最佳權(quán)衡攀圈，每張圖像0.2秒。盡管如此峦甩，區(qū)域提議步驟仍然像檢測網(wǎng)絡(luò)那樣消耗同樣多的運(yùn)行時(shí)間赘来。

有人可能會(huì)注意到，基于區(qū)域的快速CNN利用GPU穴店，而在研究中使用的區(qū)域提議方法在CPU上實(shí)現(xiàn)撕捍，使得運(yùn)行時(shí)間比較不公平拿穴。加速提議計(jì)算的一個(gè)顯而易見的方法是將其在GPU上重新實(shí)現(xiàn)泣洞。這可能是一個(gè)有效的工程解決方案，但重新實(shí)現(xiàn)忽略了下游檢測網(wǎng)絡(luò)默色，因此錯(cuò)過了共享計(jì)算的重要機(jī)會(huì)球凰。

在本文中，我們展示了算法的變化——用深度卷積神經(jīng)網(wǎng)絡(luò)計(jì)算區(qū)域提議——導(dǎo)致了一個(gè)優(yōu)雅和有效的解決方案腿宰，其中在給定檢測網(wǎng)絡(luò)計(jì)算的情況下區(qū)域提議計(jì)算接近領(lǐng)成本呕诉。為此，我們引入了新的區(qū)域提議網(wǎng)絡(luò)（RPN）吃度，它們共享最先進(jìn)目標(biāo)檢測網(wǎng)絡(luò)的卷積層[1]甩挫，[2]。通過在測試時(shí)共享卷積椿每，計(jì)算區(qū)域提議的邊際成本很幸琳摺（例如，每張圖像10ms）间护。

我們的觀察是亦渗，基于區(qū)域的檢測器所使用的卷積特征映射，如Fast R-CNN汁尺，也可以用于生成區(qū)域提議法精。在這些卷積特征之上，我們通過添加一些額外的卷積層來構(gòu)建RPN痴突，這些卷積層同時(shí)在規(guī)則網(wǎng)格上的每個(gè)位置上回歸區(qū)域邊界和目標(biāo)分?jǐn)?shù)搂蜓。因此RPN是一種全卷積網(wǎng)絡(luò)（FCN）[7]，可以針對生成檢測區(qū)域建議的任務(wù)進(jìn)行端到端的訓(xùn)練辽装。

RPN旨在有效預(yù)測具有廣泛尺度和長寬比的區(qū)域提議帮碰。與使用圖像金字塔（圖1，a）或?yàn)V波器金字塔（圖1如迟，b）的流行方法[8]收毫，[9]攻走，[1]相比，我們引入新的“錨”盒作為多種尺度和長寬比的參考此再。我們的方案可以被認(rèn)為是回歸參考金字塔（圖1昔搂，c），它避免了枚舉多種比例或長寬比的圖像或?yàn)V波器输拇。這個(gè)模型在使用單尺度圖像進(jìn)行訓(xùn)練和測試時(shí)運(yùn)行良好摘符，從而有利于運(yùn)行速度。

Figure 1

圖1：解決多尺度和尺寸的不同方案策吠。（a）構(gòu)建圖像和特征映射金字塔逛裤，分類器以各種尺度運(yùn)行。（b）在特征映射上運(yùn)行具有多個(gè)比例/大小的濾波器的金字塔猴抹。（c）我們在回歸函數(shù)中使用參考邊界框金字塔带族。

為了將RPN與Fast R-CNN 2]目標(biāo)檢測網(wǎng)絡(luò)相結(jié)合，我們提出了一種訓(xùn)練方案蟀给，在微調(diào)區(qū)域提議任務(wù)和微調(diào)目標(biāo)檢測之間進(jìn)行交替蝙砌，同時(shí)保持區(qū)域提議的固定。該方案快速收斂跋理，并產(chǎn)生兩個(gè)任務(wù)之間共享的具有卷積特征的統(tǒng)一網(wǎng)絡(luò)择克。

我們在PASCAL VOC檢測基準(zhǔn)數(shù)據(jù)集上[11]綜合評估了我們的方法，其中具有Fast R-CNN的RPN產(chǎn)生的檢測精度優(yōu)于使用選擇性搜索的Fast R-CNN的強(qiáng)基準(zhǔn)前普。同時(shí)肚邢，我們的方法在測試時(shí)幾乎免除了選擇性搜索的所有計(jì)算負(fù)擔(dān)——區(qū)域提議的有效運(yùn)行時(shí)間僅為10毫秒。使用[3]的昂貴的非常深的模型拭卿，我們的檢測方法在GPU上仍然具有5fps的幀率（包括所有步驟）骡湖，因此在速度和準(zhǔn)確性方面是實(shí)用的目標(biāo)檢測系統(tǒng)。我們還報(bào)告了在MS COCO數(shù)據(jù)集上[12]的結(jié)果记劈，并使用COCO數(shù)據(jù)研究了在PASCAL VOC上的改進(jìn)勺鸦。代碼可公開獲得https://github.com/shaoqingren/faster_rcnn（在MATLAB中）和https://github.com/rbgirshick/py-faster-rcnn（在Python中）。

這個(gè)手稿的初步版本是以前發(fā)表的[10]目木。從那時(shí)起换途，RPN和Faster R-CNN的框架已經(jīng)被采用并推廣到其他方法，如3D目標(biāo)檢測[13]刽射，基于部件的檢測[14]军拟，實(shí)例分割[15]和圖像標(biāo)題[16]。我們快速和有效的目標(biāo)檢測系統(tǒng)也已經(jīng)在Pinterest[17]的商業(yè)系統(tǒng)中建立了誓禁，并報(bào)告了用戶參與度的提高懈息。

在ILSVRC和COCO 2015競賽中，F(xiàn)aster R-CNN和RPN是ImageNet檢測摹恰，ImageNet定位辫继，COCO檢測和COCO分割中幾個(gè)第一名參賽者[18]的基礎(chǔ)怒见。RPN完全從數(shù)據(jù)中學(xué)習(xí)提議區(qū)域，因此可以從更深入和更具表達(dá)性的特征（例如[18]中采用的101層殘差網(wǎng)絡(luò)）中輕松獲益姑宽。Faster R-CNN和RPN也被這些比賽中的其他幾個(gè)主要參賽者所使用遣耍。這些結(jié)果表明，我們的方法不僅是一個(gè)實(shí)用合算的解決方案炮车，而且是一個(gè)提高目標(biāo)檢測精度的有效方法舵变。

2. 相關(guān)工作

目標(biāo)提議。目標(biāo)提議方法方面有大量的文獻(xiàn)瘦穆。目標(biāo)提議方法的綜合調(diào)查和比較可以在[19]纪隙，[20]，[21]中找到扛或。廣泛使用的目標(biāo)提議方法包括基于超像素分組（例如绵咱，選擇性搜索[4]，CPMC[22]告喊，MCG[23]）和那些基于滑動(dòng)窗口的方法（例如窗口中的目標(biāo)[24]麸拄，EdgeBoxes[6]）派昧。目標(biāo)提議方法被采用為獨(dú)立于檢測器（例如黔姜，選擇性搜索[4]目標(biāo)檢測器，R-CNN[5]和Fast R-CNN[2]）的外部模塊蒂萎。

用于目標(biāo)檢測的深度網(wǎng)絡(luò)秆吵。R-CNN方法[5]端到端地對CNN進(jìn)行訓(xùn)練，將提議區(qū)域分類為目標(biāo)類別或背景五慈。R-CNN主要作為分類器纳寂，并不能預(yù)測目標(biāo)邊界（除了通過邊界框回歸進(jìn)行細(xì)化）。其準(zhǔn)確度取決于區(qū)域提議模塊的性能（參見[20]中的比較）泻拦。一些論文提出了使用深度網(wǎng)絡(luò)來預(yù)測目標(biāo)邊界框的方法[25]毙芜，[9]，[26]争拐，[27]腋粥。在OverFeat方法[9]中，訓(xùn)練一個(gè)全連接層來預(yù)測假定單個(gè)目標(biāo)定位任務(wù)的邊界框坐標(biāo)架曹。然后將全連接層變成卷積層隘冲，用于檢測多個(gè)類別的目標(biāo)。MultiBox方法[26]绑雄，[27]從網(wǎng)絡(luò)中生成區(qū)域提議展辞，網(wǎng)絡(luò)最后的全連接層同時(shí)預(yù)測多個(gè)類別不相關(guān)的邊界框，并推廣到OverFeat的“單邊界框”方式万牺。這些類別不可知的邊界框框被用作R-CNN的提議區(qū)域[5]罗珍。與我們的全卷積方案相比洽腺，MultiBox提議網(wǎng)絡(luò)適用于單張裁剪圖像或多張大型裁剪圖像（例如224×224）。MultiBox在提議區(qū)域和檢測網(wǎng)絡(luò)之間不共享特征覆旱。稍后在我們的方法上下文中會(huì)討論OverFeat和MultiBox已脓。與我們的工作同時(shí)進(jìn)行的坤学，DeepMask方法[28]是為學(xué)習(xí)分割提議區(qū)域而開發(fā)的异袄。

卷積[9]，[1]宙攻，[29]画舌，[7]堕担，[2]的共享計(jì)算已經(jīng)越來越受到人們的關(guān)注，因?yàn)樗梢杂行Ф鴾?zhǔn)確地進(jìn)行視覺識別曲聂。OverFeat論文[9]計(jì)算圖像金字塔的卷積特征用于分類霹购，定位和檢測。共享卷積特征映射的自適應(yīng)大小池化（SPP）[1]被開發(fā)用于有效的基于區(qū)域的目標(biāo)檢測[1]朋腋，[30]和語義分割[29]齐疙。Fast R-CNN[2]能夠?qū)蚕砭矸e特征進(jìn)行端到端的檢測器訓(xùn)練，并顯示出令人信服的準(zhǔn)確性和速度旭咽。

3. FASTER R-CNN

我們的目標(biāo)檢測系統(tǒng)贞奋，稱為Faster R-CNN，由兩個(gè)模塊組成穷绵。第一個(gè)模塊是提議區(qū)域的深度全卷積網(wǎng)絡(luò)轿塔，第二個(gè)模塊是使用提議區(qū)域的Fast R-CNN檢測器[2]。整個(gè)系統(tǒng)是一個(gè)單個(gè)的仲墨，統(tǒng)一的目標(biāo)檢測網(wǎng)絡(luò)（圖2）勾缭。使用最近流行的“注意力”[31]機(jī)制的神經(jīng)網(wǎng)絡(luò)術(shù)語，RPN模塊告訴Fast R-CNN模塊在哪里尋找目养。在第3.1節(jié)中俩由，我們介紹了區(qū)域提議網(wǎng)絡(luò)的設(shè)計(jì)和屬性。在第3.2節(jié)中癌蚁，我們開發(fā)了用于訓(xùn)練具有共享特征模塊的算法幻梯。

Figure 2

圖2：Faster R-CNN是一個(gè)單一，統(tǒng)一的目標(biāo)檢測網(wǎng)絡(luò)匈勋。RPN模塊作為這個(gè)統(tǒng)一網(wǎng)絡(luò)的“注意力”礼旅。

3.1 區(qū)域提議網(wǎng)絡(luò)

區(qū)域提議網(wǎng)絡(luò)（RPN）以任意大小的圖像作為輸入，輸出一組矩形的目標(biāo)提議洽洁，每個(gè)提議都有一個(gè)目標(biāo)得分痘系。我們用全卷積網(wǎng)絡(luò)[7]對這個(gè)過程進(jìn)行建模，我們將在本節(jié)進(jìn)行描述饿自。因?yàn)槲覀兊淖罱K目標(biāo)是與Fast R-CNN目標(biāo)檢測網(wǎng)絡(luò)[2]共享計(jì)算汰翠，所以我們假設(shè)兩個(gè)網(wǎng)絡(luò)共享一組共同的卷積層龄坪。在我們的實(shí)驗(yàn)中，我們研究了具有5個(gè)共享卷積層的Zeiler和Fergus模型[32]（ZF）和具有13個(gè)共享卷積層的Simonyan和Zisserman模型[3]（VGG-16）复唤。

為了生成區(qū)域提議健田，我們在最后的共享卷積層輸出的卷積特征映射上滑動(dòng)一個(gè)小網(wǎng)絡(luò)。這個(gè)小網(wǎng)絡(luò)將輸入卷積特征映射的$n×n$空間窗口作為輸入佛纫。每個(gè)滑動(dòng)窗口映射到一個(gè)低維特征（ZF為256維妓局，VGG為512維，后面是ReLU[33]）呈宇。這個(gè)特征被輸入到兩個(gè)子全連接層——一個(gè)邊界框回歸層（reg）和一個(gè)邊界框分類層（cls）好爬。在本文中，我們使用$n=3$甥啄，注意輸入圖像上的有效感受野是大的（ZF和VGG分別為171和228個(gè)像素）存炮。圖3（左）顯示了這個(gè)小型網(wǎng)絡(luò)的一個(gè)位置。請注意蜈漓，因?yàn)樾【W(wǎng)絡(luò)以滑動(dòng)窗口方式運(yùn)行穆桂，所有空間位置共享全連接層。這種架構(gòu)通過一個(gè)n×n卷積層融虽，后面是兩個(gè)子1×1卷積層（分別用于reg和cls）自然地實(shí)現(xiàn)享完。

Figure 3

圖3：左：區(qū)域提議網(wǎng)絡(luò)（RPN）。右：在PASCAL VOC 2007測試集上使用RPN提議的示例檢測衣形。我們的方法可以檢測各種尺度和長寬比的目標(biāo)驼侠。

3.1.1 錨點(diǎn)

在每個(gè)滑動(dòng)窗口位置，我們同時(shí)預(yù)測多個(gè)區(qū)域提議谆吴，其中每個(gè)位置可能提議的最大數(shù)目表示為$k$。因此苛预，reg層具有$4k$個(gè)輸出句狼，編碼$k$個(gè)邊界框的坐標(biāo)，cls層輸出$2k$個(gè)分?jǐn)?shù)热某，估計(jì)每個(gè)提議是目標(biāo)或不是目標(biāo)的概率腻菇。相對于我們稱之為錨點(diǎn)的$k$個(gè)參考邊界框，$k$個(gè)提議是參數(shù)化的昔馋。錨點(diǎn)位于所討論的滑動(dòng)窗口的中心筹吐，并與一個(gè)尺度和長寬比相關(guān)（圖3左）。默認(rèn)情況下秘遏，我們使用3個(gè)尺度和3個(gè)長寬比丘薛，在每個(gè)滑動(dòng)位置產(chǎn)生$k=9$個(gè)錨點(diǎn)。對于大小為W×H（通常約為2400）的卷積特征映射邦危，總共有$WHk$個(gè)錨點(diǎn)洋侨。

平移不變的錨點(diǎn)

我們的方法的一個(gè)重要特性是它是平移不變的舍扰，無論是在錨點(diǎn)還是計(jì)算相對于錨點(diǎn)的區(qū)域提議的函數(shù)。如果在圖像中平移目標(biāo)希坚，提議應(yīng)該平移边苹，并且同樣的函數(shù)應(yīng)該能夠在任一位置預(yù)測提議。這個(gè)平移不變的屬性是由我們的方法保證的裁僧。作為比較个束，MultiBox方法[27]使用k-means生成800個(gè)錨點(diǎn)，這不是平移不變的聊疲。所以如果平移目標(biāo)播急，MultiBox不保證會(huì)生成相同的提議。

平移不變特性也減小了模型的大小售睹。MultiBox有$(4+1)\times 800$維的全連接輸出層桩警，而我們的方法在$k=9$個(gè)錨點(diǎn)的情況下有$(4+2)\times 9$維的卷積輸出層。因此昌妹，對于VGG-16捶枢，我們的輸出層具有$2.8\times10^{4$個(gè)參數(shù)（對于VGG-16為$512\times(4+2)\times9$），比MultiBox輸出層的$6.1\times10}6$個(gè)參數(shù)少了兩個(gè)數(shù)量級（對于MultiBox [27]中的GoogleNet[34]為$1536\times(4+1)\times800$）飞崖。如果考慮到特征投影層烂叔，我們的提議層仍然比MultiBox少一個(gè)數(shù)量級。我們期望我們的方法在PASCAL VOC等小數(shù)據(jù)集上有更小的過擬合風(fēng)險(xiǎn)固歪。

多尺度錨點(diǎn)作為回歸參考

我們的錨點(diǎn)設(shè)計(jì)提出了一個(gè)新的方案來解決多尺度（和長寬比）蒜鸡。如圖1所示，多尺度預(yù)測有兩種流行的方法牢裳。第一種方法是基于圖像/特征金字塔逢防，例如DPM[8]和基于CNN的方法[9]，[1]蒲讯，[2]中忘朝。圖像在多個(gè)尺度上進(jìn)行縮放，并且針對每個(gè)尺度（圖1（a））計(jì)算特征映射（HOG[8]或深卷積特征[9]判帮，[1]局嘁，[2]）。這種方法通常是有用的晦墙，但是非常耗時(shí)悦昵。第二種方法是在特征映射上使用多尺度（和/或長寬比）的滑動(dòng)窗口。例如晌畅，在DPM[8]中但指，使用不同的濾波器大小（例如5×7和7×5）分別對不同長寬比的模型進(jìn)行訓(xùn)練。如果用這種方法來解決多尺度問題枚赡，可以把它看作是一個(gè)“濾波器金字塔”（圖1（b））氓癌。第二種方法通常與第一種方法聯(lián)合采用[8]。

作為比較贫橙，我們的基于錨點(diǎn)方法建立在錨點(diǎn)金字塔上贪婉，這是更具成本效益的。我們的方法參照多尺度和長寬比的錨盒來分類和回歸邊界框卢肃。它只依賴單一尺度的圖像和特征映射疲迂，并使用單一尺寸的濾波器（特征映射上的滑動(dòng)窗口）。我們通過實(shí)驗(yàn)來展示這個(gè)方案解決多尺度和尺寸的效果（表8）莫湘。

表8：Faster R-CNN在PAS-CAL VOC 2007測試數(shù)據(jù)集上使用不同錨點(diǎn)設(shè)置的檢測結(jié)果尤蒿。網(wǎng)絡(luò)是VGG-16。訓(xùn)練數(shù)據(jù)是VOC 2007訓(xùn)練集幅垮。使用3個(gè)尺度和3個(gè)長寬比（$69.9%$）的默認(rèn)設(shè)置腰池，與表3中的相同。

Table 8

由于這種基于錨點(diǎn)的多尺度設(shè)計(jì)忙芒，我們可以簡單地使用在單尺度圖像上計(jì)算的卷積特征示弓，F(xiàn)ast R-CNN檢測器也是這樣做的[2]。多尺度錨點(diǎn)設(shè)計(jì)是共享特征的關(guān)鍵組件呵萨，不需要額外的成本來處理尺度奏属。

3.1.2 損失函數(shù)

為了訓(xùn)練RPN，我們?yōu)槊總€(gè)錨點(diǎn)分配一個(gè)二值類別標(biāo)簽（是目標(biāo)或不是目標(biāo)）潮峦。我們給兩種錨點(diǎn)分配一個(gè)正標(biāo)簽：（i）具有與實(shí)際邊界框的重疊最高交并比（IoU）的錨點(diǎn)囱皿，或者（ii）具有與實(shí)際邊界框的重疊超過0.7 IoU的錨點(diǎn)。注意忱嘹，單個(gè)真實(shí)邊界框可以為多個(gè)錨點(diǎn)分配正標(biāo)簽嘱腥。通常第二個(gè)條件足以確定正樣本；但我們?nèi)匀徊捎玫谝粋€(gè)條件德谅，因?yàn)樵谝恍O少數(shù)情況下爹橱，第二個(gè)條件可能找不到正樣本。對于所有的真實(shí)邊界框窄做，如果一個(gè)錨點(diǎn)的IoU比率低于0.3，我們給非正面的錨點(diǎn)分配一個(gè)負(fù)標(biāo)簽慰技。既不正面也不負(fù)面的錨點(diǎn)不會(huì)有助于訓(xùn)練目標(biāo)函數(shù)椭盏。

根據(jù)這些定義，我們對目標(biāo)函數(shù)Fast R-CNN[2]中的多任務(wù)損失進(jìn)行最小化吻商。我們對圖像的損失函數(shù)定義為：$$
L(\lbrace p_i \rbrace, \lbrace t_i \rbrace) = \frac{1}{N_{cls}}\sum_i L_{cls}(p_i, p^{*}_i) \\ + \lambda\frac{1}{N_{reg}}\sum_i p^{*}_i L_{reg}(t_i, t^{*}_i).
$$其中掏颊，$i$是一個(gè)小批量數(shù)據(jù)中錨點(diǎn)的索引，$p_i$是錨點(diǎn)$i$作為目標(biāo)的預(yù)測概率。如果錨點(diǎn)為正乌叶，真實(shí)標(biāo)簽$p^{{*}_i$為1盆偿，如果錨點(diǎn)為負(fù)，則為0准浴。$t_i$是表示預(yù)測邊界框4個(gè)參數(shù)化坐標(biāo)的向量事扭，而$t}{*}_i$是與正錨點(diǎn)相關(guān)的真實(shí)邊界框的向量。分類損失$L_{cls}$是兩個(gè)類別上（目標(biāo)或不是目標(biāo)）的對數(shù)損失乐横。對于回歸損失求橄，我們使用$L_{reg}(t_i, t^{*}_i)=R(t_i - t^{{*}_i)$，其中$R$是在[2]中定義的魯棒損失函數(shù)（平滑$L_1$）葡公。項(xiàng)$p}{*}_i L_{reg}$表示回歸損失僅對于正錨點(diǎn)激活罐农，否則被禁用（$p^{*}_i=0$）。cls和reg層的輸出分別由${p_i}$和${t_i}$組成催什。

這兩個(gè)項(xiàng)用$N_{cls}$和$N_{reg}$進(jìn)行標(biāo)準(zhǔn)化涵亏，并由一個(gè)平衡參數(shù)$\lambda$加權(quán)。在我們目前的實(shí)現(xiàn)中（如在發(fā)布的代碼中）蒲凶，方程（1）中的$cls$項(xiàng)通過小批量數(shù)據(jù)的大衅睢（即$N_{cls}=256$）進(jìn)行歸一化，$reg$項(xiàng)根據(jù)錨點(diǎn)位置的數(shù)量（即豹爹，$N_{reg}\sim 24000$）進(jìn)行歸一化裆悄。默認(rèn)情況下，我們設(shè)置$\lambda=10$臂聋，因此cls和reg項(xiàng)的權(quán)重大致相等光稼。我們通過實(shí)驗(yàn)顯示，結(jié)果對寬范圍的$\lambda$值不敏感(表9)孩等。我們還注意到艾君，上面的歸一化不是必需的，可以簡化肄方。

表9：Faster R-CNN使用方程(1)中不同的$\lambda$值在PASCAL VOC 2007測試集上的檢測結(jié)果冰垄。網(wǎng)絡(luò)是VGG-16。訓(xùn)練數(shù)據(jù)是VOC 2007訓(xùn)練集权她。使用$\lambda = 10$（$69.9%$）的默認(rèn)設(shè)置與表3中的相同虹茶。

Table 9

對于邊界框回歸，我們采用[5]中的4個(gè)坐標(biāo)參數(shù)化：$$
t_{\textrm{x}} = (x - x_{\textrm{a}})/w_{\textrm{a}},\quad
t_{\textrm{y}} = (y - y_{\textrm{a}})/h_{\textrm{a}},\\
t_{\textrm{w}} = \log(w / w_{\textrm{a}}), \quad
t_{\textrm{h}} = \log(h / h_{\textrm{a}}),\\
t^{*}_{\textrm{x}} = (x^{*} - x_{\textrm{a}})/w_{\textrm{a}},\quad
t^{*}_{\textrm{y}} = (y^{*} - y_{\textrm{a}})/h_{\textrm{a}},\\
t^{*}_{\textrm{w}} = \log(w^{*} / w_{\textrm{a}}),\quad
t^{*}_{\textrm{h}} = \log(h^{*} / h_{\textrm{a}}),
$$ 其中隅要，$x$蝴罪，$y$，$w$和$h$表示邊界框的中心坐標(biāo)及其寬和高步清。變量$x$要门，$x_{\textrm{a}}$和$x^{*}$分別表示預(yù)測邊界框虏肾，錨盒和實(shí)際邊界框（類似于$y, w, h$）。這可以被認(rèn)為是從錨盒到鄰近的實(shí)際邊界框的回歸欢搜。

然而封豪，我們的方法通過與之前的基于RoI（感興趣區(qū)域）方法[1]，[2]不同的方式來實(shí)現(xiàn)邊界框回歸炒瘟。在[1]吹埠，[2]中，對任意大小的RoI池化的特征執(zhí)行邊界框回歸唧领，并且回歸權(quán)重由所有區(qū)域大小共享藻雌。在我們的公式中，用于回歸的特征在特征映射上具有相同的空間大姓陡觥（3×3）胯杭。為了說明不同的大小，學(xué)習(xí)一組$k$個(gè)邊界框回歸器受啥。每個(gè)回歸器負(fù)責(zé)一個(gè)尺度和一個(gè)長寬比做个，而$k$個(gè)回歸器不共享權(quán)重。因此滚局，由于錨點(diǎn)的設(shè)計(jì)居暖，即使特征具有固定的尺度/比例，仍然可以預(yù)測各種尺寸的邊界框藤肢。

3.1.3 訓(xùn)練RPN

RPN可以通過反向傳播和隨機(jī)梯度下降（SGD）進(jìn)行端對端訓(xùn)練[35]太闺。我們遵循[2]的“以圖像為中心”的采樣策略來訓(xùn)練這個(gè)網(wǎng)絡(luò)。每個(gè)小批量數(shù)據(jù)都從包含許多正面和負(fù)面示例錨點(diǎn)的單張圖像中產(chǎn)生嘁圈。對所有錨點(diǎn)的損失函數(shù)進(jìn)行優(yōu)化是可能的省骂，但是這樣會(huì)偏向于負(fù)樣本，因?yàn)樗鼈兪钦贾鲗?dǎo)地位的最住。取而代之的是钞澳，我們在圖像中隨機(jī)采樣256個(gè)錨點(diǎn)，計(jì)算一個(gè)小批量數(shù)據(jù)的損失函數(shù)涨缚，其中采樣的正錨點(diǎn)和負(fù)錨點(diǎn)的比率可達(dá)1:1轧粟。如果圖像中的正樣本少于128個(gè)，我們使用負(fù)樣本填充小批量數(shù)據(jù)脓魏。

我們通過從標(biāo)準(zhǔn)方差為0.01的零均值高斯分布中提取權(quán)重來隨機(jī)初始化所有新層兰吟。所有其他層（即共享卷積層）通過預(yù)訓(xùn)練的ImageNet分類模型[36]來初始化，如同標(biāo)準(zhǔn)實(shí)踐[5]茂翔。我們調(diào)整ZF網(wǎng)絡(luò)的所有層揽祥，以及VGG網(wǎng)絡(luò)的conv3_1及其之上的層以節(jié)省內(nèi)存[2]。對于60k的小批量數(shù)據(jù)檩电，我們使用0.001的學(xué)習(xí)率，對于PASCAL VOC數(shù)據(jù)集中的下一個(gè)20k小批量數(shù)據(jù)，使用0.0001俐末。我們使用0.9的動(dòng)量和0.0005的重量衰減[37]料按。我們的實(shí)現(xiàn)使用Caffe[38]。

3.2 RPN和Fast R-CNN共享特征

到目前為止卓箫，我們已經(jīng)描述了如何訓(xùn)練用于區(qū)域提議生成的網(wǎng)絡(luò)载矿，沒有考慮將利用這些提議的基于區(qū)域的目標(biāo)檢測CNN。對于檢測網(wǎng)絡(luò)烹卒，我們采用Fast R-CNN[2]闷盔。接下來我們介紹一些算法，學(xué)習(xí)由RPN和Fast R-CNN組成的具有共享卷積層的統(tǒng)一網(wǎng)絡(luò)（圖2）旅急。

獨(dú)立訓(xùn)練的RPN和Fast R-CNN將以不同的方式修改卷積層逢勾。因此，我們需要開發(fā)一種允許在兩個(gè)網(wǎng)絡(luò)之間共享卷積層的技術(shù)藐吮，而不是學(xué)習(xí)兩個(gè)獨(dú)立的網(wǎng)絡(luò)溺拱。我們討論三個(gè)方法來訓(xùn)練具有共享特征的網(wǎng)絡(luò)：

（一）交替訓(xùn)練。在這個(gè)解決方案中谣辞，我們首先訓(xùn)練RPN迫摔，并使用這些提議來訓(xùn)練Fast R-CNN。由Fast R-CNN微調(diào)的網(wǎng)絡(luò)然后被用于初始化RPN泥从，并且重復(fù)這個(gè)過程句占。這是本文所有實(shí)驗(yàn)中使用的解決方案。

（二）近似聯(lián)合訓(xùn)練躯嫉。在這個(gè)解決方案中纱烘，RPN和Fast R-CNN網(wǎng)絡(luò)在訓(xùn)練期間合并成一個(gè)網(wǎng)絡(luò)，如圖2所示和敬。在每次SGD迭代中凹炸，前向傳遞生成區(qū)域提議，在訓(xùn)練Fast R-CNN檢測器將這看作是固定的昼弟、預(yù)計(jì)算的提議啤它。反向傳播像往常一樣進(jìn)行，其中對于共享層舱痘，組合來自RPN損失和Fast R-CNN損失的反向傳播信號变骡。這個(gè)解決方案很容易實(shí)現(xiàn)。但是這個(gè)解決方案忽略了關(guān)于提議邊界框的坐標(biāo)（也是網(wǎng)絡(luò)響應(yīng)）的導(dǎo)數(shù)芭逝，因此是近似的塌碌。在我們的實(shí)驗(yàn)中，我們實(shí)驗(yàn)發(fā)現(xiàn)這個(gè)求解器產(chǎn)生了相當(dāng)?shù)慕Y(jié)果旬盯，與交替訓(xùn)練相比台妆，訓(xùn)練時(shí)間減少了大約$25-50%$翎猛。這個(gè)求解器包含在我們發(fā)布的Python代碼中。

（三）非近似的聯(lián)合訓(xùn)練接剩。如上所述切厘，由RPN預(yù)測的邊界框也是輸入的函數(shù)。Fast R-CNN中的RoI池化層[2]接受卷積特征以及預(yù)測的邊界框作為輸入懊缺，所以理論上有效的反向傳播求解器也應(yīng)該包括關(guān)于邊界框坐標(biāo)的梯度疫稿。在上述近似聯(lián)合訓(xùn)練中，這些梯度被忽略鹃两。在一個(gè)非近似的聯(lián)合訓(xùn)練解決方案中遗座，我們需要一個(gè)關(guān)于邊界框坐標(biāo)可微分的RoI池化層。這是一個(gè)重要的問題俊扳，可以通過[15]中提出的“RoI扭曲”層給出解決方案途蒋，這超出了本文的范圍。

四步交替訓(xùn)練。在本文中，我們采用實(shí)用的四步訓(xùn)練算法透敌，通過交替優(yōu)化學(xué)習(xí)共享特征。在第一步中筋帖，我們按照3.1.3節(jié)的描述訓(xùn)練RPN。該網(wǎng)絡(luò)使用ImageNet的預(yù)訓(xùn)練模型進(jìn)行初始化冤馏，并針對區(qū)域提議任務(wù)進(jìn)行了端到端的微調(diào)日麸。在第二步中，我們使用由第一步RPN生成的提議逮光，由Fast R-CNN訓(xùn)練單獨(dú)的檢測網(wǎng)絡(luò)代箭。該檢測網(wǎng)絡(luò)也由ImageNet的預(yù)訓(xùn)練模型進(jìn)行初始化。此時(shí)兩個(gè)網(wǎng)絡(luò)不共享卷積層涕刚。在第三步中嗡综，我們使用檢測器網(wǎng)絡(luò)來初始化RPN訓(xùn)練，但是我們修正共享的卷積層杜漠，并且只對RPN特有的層進(jìn)行微調(diào)〖埃現(xiàn)在這兩個(gè)網(wǎng)絡(luò)共享卷積層。最后驾茴，保持共享卷積層的固定盼樟，我們對Fast R-CNN的獨(dú)有層進(jìn)行微調(diào)。因此锈至，兩個(gè)網(wǎng)絡(luò)共享相同的卷積層并形成統(tǒng)一的網(wǎng)絡(luò)晨缴。類似的交替訓(xùn)練可以運(yùn)行更多的迭代，但是我們只觀察到可以忽略的改進(jìn)峡捡。

3.3 實(shí)現(xiàn)細(xì)節(jié)

我們在單尺度圖像上訓(xùn)練和測試區(qū)域提議和目標(biāo)檢測網(wǎng)絡(luò)[1]击碗，[2]筑悴。我們重新縮放圖像，使得它們的短邊是$s=600$像素[2]延都。多尺度特征提壤字怼（使用圖像金字塔）可能會(huì)提高精度，但不會(huì)表現(xiàn)出速度與精度的良好折衷[2]晰房。在重新縮放的圖像上，最后卷積層上的ZF和VGG網(wǎng)絡(luò)的總步長為16個(gè)像素射沟，因此在調(diào)整大惺庹摺（?500×375）之前，典型的PASCAL圖像上的總步長為?10個(gè)像素验夯。即使如此大的步長也能提供良好的效果猖吴，盡管步幅更小，精度可能會(huì)進(jìn)一步提高挥转。

對于錨點(diǎn)海蔽，我們使用了3個(gè)尺度，邊界框面積分別為$128^{2$绑谣，$256}2$和$512^2$個(gè)像素党窜，以及1:1，1:2和2:1的長寬比借宵。這些超參數(shù)不是針對特定數(shù)據(jù)集仔細(xì)選擇的幌衣，我們將在下一節(jié)中提供有關(guān)其作用的消融實(shí)驗(yàn)。如上所述壤玫，我們的解決方案不需要圖像金字塔或?yàn)V波器金字塔來預(yù)測多個(gè)尺度的區(qū)域豁护，節(jié)省了大量的運(yùn)行時(shí)間。圖3（右）顯示了我們的方法在廣泛的尺度和長寬比方面的能力欲间。表1顯示了使用ZF網(wǎng)絡(luò)的每個(gè)錨點(diǎn)學(xué)習(xí)到的平均提議大小楚里。我們注意到，我們的算法允許預(yù)測比基礎(chǔ)感受野更大猎贴。這樣的預(yù)測不是不可能的——如果只有目標(biāo)的中間部分是可見的班缎，那么仍然可以粗略地推斷出目標(biāo)的范圍。

表1：使用ZF網(wǎng)絡(luò)的每個(gè)錨點(diǎn)學(xué)習(xí)到的平均提議大兄瞿堋（$s=600$的數(shù)字）吝梅。

Table 1

跨越圖像邊界的錨盒需要小心處理。在訓(xùn)練過程中惹骂，我們忽略了所有的跨界錨點(diǎn)苏携，所以不會(huì)造成損失。對于一個(gè)典型的$1000 \times 600$的圖片对粪，總共將會(huì)有大約20000（$\approx 60 \times 40 \times 9$）個(gè)錨點(diǎn)右冻∽芭睿跨界錨點(diǎn)被忽略，每張圖像約有6000個(gè)錨點(diǎn)用于訓(xùn)練纱扭。如果跨界異常值在訓(xùn)練中不被忽略牍帚，則會(huì)在目標(biāo)函數(shù)中引入大的，難以糾正的誤差項(xiàng)乳蛾，且訓(xùn)練不會(huì)收斂暗赶。但在測試過程中，我們?nèi)匀粚⑷矸eRPN應(yīng)用于整張圖像肃叶。這可能會(huì)產(chǎn)生跨邊界的提議邊界框蹂随，我們剪切到圖像邊界。

一些RPN提議互相之間高度重疊因惭。為了減少冗余岳锁，我們在提議區(qū)域根據(jù)他們的cls分?jǐn)?shù)采取非極大值抑制（NMS）。我們將NMS的IoU閾值固定為0.7蹦魔，這就給每張圖像留下了大約2000個(gè)提議區(qū)域激率。正如我們將要展示的那樣，NMS不會(huì)損害最終的檢測準(zhǔn)確性勿决，但會(huì)大大減少提議的數(shù)量乒躺。在NMS之后，我們使用前N個(gè)提議區(qū)域來進(jìn)行檢測剥险。接下來聪蘸，我們使用2000個(gè)RPN提議對Fast R-CNN進(jìn)行訓(xùn)練，但在測試時(shí)評估不同數(shù)量的提議表制。

4. 實(shí)驗(yàn)

4.1 PASCAL VOC上的實(shí)驗(yàn)

我們在PASCAL VOC 2007檢測基準(zhǔn)數(shù)據(jù)集[11]上全面評估了我們的方法健爬。這個(gè)數(shù)據(jù)集包含大約5000張訓(xùn)練評估圖像和在20個(gè)目標(biāo)類別上的5000張測試圖像。我們還提供了一些模型在PASCAL VOC 2012基準(zhǔn)數(shù)據(jù)集上的測試結(jié)果么介。對于ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)娜遵，我們使用具有5個(gè)卷積層和3個(gè)全連接層的ZF網(wǎng)絡(luò)[32]的“快速”版本以及具有13個(gè)卷積層和3個(gè)全連接層的公開的VGG-16模型[3]。我們主要評估檢測的平均精度均值（mAP）壤短，因?yàn)檫@是檢測目標(biāo)的實(shí)際指標(biāo)（而不是關(guān)注目標(biāo)提議代理度量）设拟。

表2（頂部）顯示了使用各種區(qū)域提議方法進(jìn)行訓(xùn)練和測試的Fast R-CNN結(jié)果。這些結(jié)果使用ZF網(wǎng)絡(luò)久脯。對于選擇性搜索（SS）[4]纳胧，我們通過“快速”模式生成約2000個(gè)提議。對于EdgeBoxes（EB）[6]帘撰，我們通過調(diào)整0.7 IoU的默認(rèn)EB設(shè)置生成提議跑慕。SS在Fast R-CNN框架下的mAP為$58.7%$，EB的mAP為$58.6%$。RPN與Fast R-CNN取得了有競爭力的結(jié)果核行，使用多達(dá)300個(gè)提議牢硅，mAP為$59.9%$。由于共享卷積計(jì)算芝雪，使用RPN比使用SS或EB產(chǎn)生了更快的檢測系統(tǒng)减余；較少的建議也減少了區(qū)域方面的全連接層成本（表5）。

表2：PASCAL VOC 2007測試集上的檢測結(jié)果（在VOC 2007訓(xùn)練評估集上進(jìn)行了訓(xùn)練）惩系。檢測器是帶有ZF的Fast R-CNN位岔，但使用各種提議方法進(jìn)行訓(xùn)練和測試。

Table 2

表5：K40 GPU上的時(shí)間（ms）蛆挫，除了SS提議是在CPU上評估赃承。“區(qū)域方面”包括NMS悴侵，池化，全連接和softmax層拭嫁。查看我們發(fā)布的代碼來分析運(yùn)行時(shí)間可免。

Table 5

RPN上的消融實(shí)驗(yàn)。為了研究RPN作為提議方法的性能做粤，我們進(jìn)行了幾項(xiàng)消融研究浇借。首先，我們顯示了RPN和Fast R-CNN檢測網(wǎng)絡(luò)共享卷積層的效果怕品。為此妇垢，我們在四步訓(xùn)練過程的第二步之后停止訓(xùn)練。使用單獨(dú)的網(wǎng)絡(luò)將結(jié)果略微減少到$58.7%$（RPN+ZF肉康，非共享闯估，表2）。我們觀察到吼和，這是因?yàn)樵诘谌街姓切剑?dāng)使用檢測器調(diào)整的特征來微調(diào)RPN時(shí)，提議質(zhì)量得到了改善炫乓。

接下來刚夺，我們分析RPN對訓(xùn)練Fast R-CNN檢測網(wǎng)絡(luò)的影響。為此末捣，我們通過使用2000個(gè)SS提議和ZF網(wǎng)絡(luò)來訓(xùn)練Fast R-CNN模型侠姑。我們固定這個(gè)檢測器，并通過改變測試時(shí)使用的提議區(qū)域來評估檢測的mAP箩做。在這些消融實(shí)驗(yàn)中莽红，RPN不與檢測器共享特征。

在測試階段用300個(gè)RPN提議替換SS提議得到了$56.8%$的MAP卒茬。mAP的損失是因?yàn)橛?xùn)練/測試提議不一致船老。這個(gè)結(jié)果作為以下比較的基準(zhǔn)咖熟。

有些令人驚訝的是，RPN在測試時(shí)使用排名最高的100個(gè)提議仍然會(huì)導(dǎo)致有競爭力的結(jié)果（$55.1%$）柳畔，表明排名靠前的RPN提議是準(zhǔn)確的馍管。相反的，使用排名靠前的6000個(gè)RPN提議（無NMS）具有相當(dāng)?shù)膍AP（$55.2%$）薪韩，這表明NMS不會(huì)損害檢測mAP并可能減少誤報(bào)确沸。

接下來，我們通過在測試時(shí)分別關(guān)閉RPN的cls和reg輸出來調(diào)查RPN的作用俘陷。當(dāng)cls層在測試時(shí)被移除（因此不使用NMS/排名）罗捎，我們從未得分的區(qū)域中隨機(jī)采樣$N$個(gè)提議。當(dāng)$N=1000$($55.8
%$)時(shí)拉盾，mAP幾乎沒有變化桨菜，但是當(dāng)$N=100$時(shí)，會(huì)大大降低到$44.6%$捉偏。這表明cls分?jǐn)?shù)考慮了排名最高的提議的準(zhǔn)確性倒得。

另一方面，當(dāng)在測試階段移除reg層（所以提議變成錨盒）時(shí)夭禽，mAP將下降到$52.1%$霞掺。這表明高質(zhì)量的提議主要是由于回歸的邊界框。錨盒雖然具有多個(gè)尺度和長寬比讹躯，但不足以進(jìn)行準(zhǔn)確的檢測菩彬。

我們還單獨(dú)評估了更強(qiáng)大的網(wǎng)絡(luò)對RPN提議質(zhì)量的影響。我們使用VGG-16來訓(xùn)練RPN潮梯，仍然使用上述的SS+ZF檢測器骗灶。mAP從$56.8%$（使用RPN+ZF）提高到$59.2%$（使用RPN+VGG）。這是一個(gè)很有希望的結(jié)果酷麦，因?yàn)檫@表明RPN+VGG的提議質(zhì)量要好于RPN+ZF矿卑。由于RPN+ZF的提議與SS具有競爭性（當(dāng)一致用于訓(xùn)練和測試時(shí)，都是$58.7%$）沃饶，所以我們可以預(yù)期RPN+VGG比SS更好母廷。以下實(shí)驗(yàn)驗(yàn)證了這個(gè)假設(shè)。

VGG-16的性能糊肤。表3顯示了VGG-16的提議和檢測結(jié)果琴昆。使用RPN+VGG，非共享特征的結(jié)果是$68.5%$馆揉，略高于SS的基準(zhǔn)业舍。如上所示，這是因?yàn)镽PN+VGG生成的提議比SS更準(zhǔn)確。與預(yù)先定義的SS不同舷暮，RPN是主動(dòng)訓(xùn)練的并從更好的網(wǎng)絡(luò)中受益态罪。對于特性共享的變種，結(jié)果是$69.9%$——比強(qiáng)壯的SS基準(zhǔn)更好下面，但幾乎是零成本的提議复颈。我們在PASCAL VOC 2007和2012的訓(xùn)練評估數(shù)據(jù)集上進(jìn)一步訓(xùn)練RPN和檢測網(wǎng)絡(luò)。該mAP是$73.2%$沥割。圖5顯示了PASCAL VOC 2007測試集的一些結(jié)果耗啦。在PASCAL VOC 2012測試集（表4）中，我們的方法在VOC 2007的trainval+test和VOC 2012的trainval的聯(lián)合數(shù)據(jù)集上訓(xùn)練的模型取得了$70.4%$的mAP机杜。表6和表7顯示了詳細(xì)的數(shù)字帜讲。

表3：PASCAL VOC 2007測試集的檢測結(jié)果。檢測器是Fast R-CNN和VGG-16椒拗。訓(xùn)練數(shù)據(jù)：“07”：VOC 2007 trainval似将，“07 + 12”：VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓(xùn)練集。對于RPN蚀苛，訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000玩郊。?：[2]中報(bào)道的數(shù)字；使用本文提供的倉庫枉阵，這個(gè)結(jié)果更高（68.1）。

Table 3

表4：PASCAL VOC 2012測試集的檢測結(jié)果预茄。檢測器是Fast R-CNN和VGG-16兴溜。訓(xùn)練數(shù)據(jù)：“07”：VOC 2007 trainval，“07 + 12”：VOC 2007 trainval和VOC 2012 trainval的聯(lián)合訓(xùn)練集耻陕。對于RPN拙徽，訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000。?：http://host.robots.ox.ac.uk:8080/anonymous/HZJTQA.html诗宣。?：http://host.robots.ox.ac.uk:8080/anonymous/YNPLXB.html膘怕。§：http://host.robots.ox.ac.uk:8080/anonymous/XEDH10.html召庞。

Table 4

表6：使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果岛心。對于RPN，訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000篮灼。${RPN}^*$表示沒有共享特征的版本忘古。

Table 6

表7：使用Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果。對于RPN诅诱，訓(xùn)練時(shí)Fast R-CNN的提議數(shù)量為2000髓堪。

Table 7

Figure 5

圖5：使用Faster R-CNN系統(tǒng)在PASCAL VOC 2007測試集上選擇的目標(biāo)檢測結(jié)果示例。該模型是VGG-16，訓(xùn)練數(shù)據(jù)是07+12 trainval（2007年測試集中$73.2%$的mAP）干旁。我們的方法檢測廣泛的尺度和長寬比目標(biāo)驶沼。每個(gè)輸出框都與類別標(biāo)簽和[0，1]之間的softmax分?jǐn)?shù)相關(guān)聯(lián)争群。使用0.6的分?jǐn)?shù)閾值來顯示這些圖像回怜。獲得這些結(jié)果的運(yùn)行時(shí)間為每張圖像198ms，包括所有步驟祭阀。

在表5中我們總結(jié)了整個(gè)目標(biāo)檢測系統(tǒng)的運(yùn)行時(shí)間鹉戚。根據(jù)內(nèi)容（平均大約1.5s），SS需要1-2秒专控，而使用VGG-16的Fast R-CNN在2000個(gè)SS提議上需要320ms（如果在全連接層上使用SVD[2]抹凳，則需要223ms）。我們的VGG-16系統(tǒng)在提議和檢測上總共需要198ms伦腐。在共享卷積特征的情況下赢底，單獨(dú)RPN只需要10ms計(jì)算附加層。我們的區(qū)域計(jì)算也較低柏蘑，這要?dú)w功于較少的提議（每張圖片300個(gè)）幸冻。我們的采用ZF網(wǎng)絡(luò)的系統(tǒng)，幀速率為17fps咳焚。

對超參數(shù)的敏感度洽损。在表8中，我們調(diào)查錨點(diǎn)的設(shè)置革半。默認(rèn)情況下碑定，我們使用3個(gè)尺度和3個(gè)長寬比（表8中$69.9%$的mAP）。如果在每個(gè)位置只使用一個(gè)錨點(diǎn)又官，那么mAP的下降幅度將是$3-4%$延刘。如果使用3個(gè)尺度（1個(gè)長寬比）或3個(gè)長寬比（1個(gè)尺度），則mAP更高六敬，表明使用多種尺寸的錨點(diǎn)作為回歸參考是有效的解決方案碘赖。在這個(gè)數(shù)據(jù)集上，僅使用具有1個(gè)長寬比（$69.8%$）的3個(gè)尺度與使用具有3個(gè)長寬比的3個(gè)尺度一樣好外构，這表明尺度和長寬比不是檢測準(zhǔn)確度的解決維度普泡。但我們?nèi)匀辉谠O(shè)計(jì)中采用這兩個(gè)維度來保持我們的系統(tǒng)靈活性。

在表9中典勇，我們比較了公式（1）中$\lambda$的不同值劫哼。默認(rèn)情況下，我們使用$\lambda=10$割笙，這使方程（1）中的兩個(gè)項(xiàng)在歸一化之后大致相等地加權(quán)权烧。表9顯示眯亦，當(dāng)$\lambda$在大約兩個(gè)數(shù)量級（1到100）的范圍內(nèi)時(shí)，我們的結(jié)果只是稍微受到影響（$\sim 1%$）般码。這表明結(jié)果對寬范圍內(nèi)的$\lambda$不敏感妻率。

分析IoU召回率。接下來板祝，我們使用實(shí)際邊界框來計(jì)算不同IoU比率的提議召回率宫静。值得注意的是，Recall-to-IoU度量與最終的檢測精度的相關(guān)性是松散的[19券时，20孤里，21]。使用這個(gè)指標(biāo)來診斷提議方法比評估提議方法更合適橘洞。

在圖4中捌袜，我們顯示了使用300，1000和2000個(gè)提議的結(jié)果炸枣。我們與SS和EB進(jìn)行比較虏等，根據(jù)這些方法產(chǎn)生的置信度，N個(gè)提議是排名前N的提議适肠。從圖中可以看出霍衫，當(dāng)提議數(shù)量從2000個(gè)減少到300個(gè)時(shí)，RPN方法表現(xiàn)優(yōu)雅侯养。這就解釋了為什么RPN在使用300個(gè)提議時(shí)具有良好的最終檢測mAP敦跌。正如我們之前分析過的，這個(gè)屬性主要?dú)w因于RPN的cls項(xiàng)逛揩。當(dāng)提議較少時(shí)峰髓，SS和EB的召回率下降的比RPN更快。

Figure 4

圖4：PASCAL VOC 2007測試集上的召回率和IoU重疊率息尺。

一階段檢測與兩階段提議+檢測。OverFeat論文[9]提出了一種在卷積特征映射的滑動(dòng)窗口上使用回歸器和分類器的檢測方法疾掰。OverFeat是一個(gè)一階段搂誉，類別特定的檢測流程，而我們的是兩階段級聯(lián)静檬，包括類不可知的提議和類別特定的檢測炭懊。在OverFeat中，區(qū)域特征來自一個(gè)尺度金字塔上一個(gè)長寬比的滑動(dòng)窗口拂檩。這些特征用于同時(shí)確定目標(biāo)的位置和類別侮腹。在RPN中，這些特征來自正方形（$3\times 3$）滑動(dòng)窗口稻励，并且預(yù)測相對于錨點(diǎn)具有不同尺度和長寬比的提議父阻。雖然這兩種方法都使用滑動(dòng)窗口愈涩，但區(qū)域提議任務(wù)只是Faster R-CNN的第一階段——下游的Fast R-CNN檢測器會(huì)致力于對提議進(jìn)行細(xì)化。在我們級聯(lián)的第二階段加矛，在更忠實(shí)覆蓋區(qū)域特征的提議框中履婉，區(qū)域特征自適應(yīng)地聚集[1]，[2]斟览。我們相信這些功能會(huì)帶來更準(zhǔn)確的檢測結(jié)果毁腿。

為了比較一階段和兩階段系統(tǒng)，我們通過一階段Fast R-CNN來模擬OverFeat系統(tǒng)（從而也規(guī)避了實(shí)現(xiàn)細(xì)節(jié)的其他差異）苛茂。在這個(gè)系統(tǒng)中已烤，“提議”是3個(gè)尺度（128，256妓羊，512）和3個(gè)長寬比（1:1胯究，1:2，2:1）的密集滑動(dòng)窗口侍瑟。訓(xùn)練Fast R-CNN來預(yù)測類別特定的分?jǐn)?shù)唐片，并從這些滑動(dòng)窗口中回歸邊界框位置。由于OverFeat系統(tǒng)采用圖像金字塔涨颜，我們也使用從5個(gè)尺度中提取的卷積特征進(jìn)行評估费韭。我們使用[1]，[2]中5個(gè)尺度庭瑰。

表10比較了兩階段系統(tǒng)和一階段系統(tǒng)的兩個(gè)變種星持。使用ZF模型绞绒，一階段系統(tǒng)具有$53.9%$的mAP缀遍。這比兩階段系統(tǒng)（$58.7%$）低$4.8%$础浮。這個(gè)實(shí)驗(yàn)驗(yàn)證了級聯(lián)區(qū)域提議和目標(biāo)檢測的有效性蝙昙。在文獻(xiàn)[2]遵蚜，[39]中報(bào)道了類似的觀察結(jié)果宣增，在這兩篇論文中龙填，用滑動(dòng)窗取代SS區(qū)域提議會(huì)導(dǎo)致$\sim 6%$的退化氧急。我們也注意到捡鱼，一階段系統(tǒng)更慢八回，因?yàn)樗a(chǎn)生了更多的提議。

表10：一階段檢測與兩階段提議+檢測驾诈。使用ZF模型和Fast R-CNN在PASCAL VOC 2007測試集上的檢測結(jié)果缠诅。RPN使用未共享的功能。

Table 10

4.2 在MS COCO上的實(shí)驗(yàn)

我們在Microsoft COCO目標(biāo)檢測數(shù)據(jù)集[12]上提供了更多的結(jié)果乍迄。這個(gè)數(shù)據(jù)集包含80個(gè)目標(biāo)類別管引。我們用訓(xùn)練集上的8萬張圖像，驗(yàn)證集上的4萬張圖像以及測試開發(fā)集上的2萬張圖像進(jìn)行實(shí)驗(yàn)闯两。我們評估了$IoU \in [0.5:0.05:0.95]$的平均mAP（COCO標(biāo)準(zhǔn)度量褥伴，簡稱為mAP@[.5,.95]）和mAP@0.5（PASCAL VOC度量）谅将。

我們的系統(tǒng)對這個(gè)數(shù)據(jù)集做了一些小的改動(dòng)。我們在8 GPU實(shí)現(xiàn)上訓(xùn)練我們的模型噩翠，RPN（每個(gè)GPU 1個(gè)）和Fast R-CNN（每個(gè)GPU 2個(gè)）的有效最小批大小為8個(gè)戏自。RPN步驟和Fast R-CNN步驟都以24萬次迭代進(jìn)行訓(xùn)練，學(xué)習(xí)率為0.003伤锚，然后以0.0003的學(xué)習(xí)率進(jìn)行8萬次迭代擅笔。我們修改了學(xué)習(xí)率（從0.003而不是0.001開始），因?yàn)樾∨繑?shù)據(jù)的大小發(fā)生了變化屯援。對于錨點(diǎn)猛们，我們使用3個(gè)長寬比和4個(gè)尺度（加上$64^2$），這主要是通過處理這個(gè)數(shù)據(jù)集上的小目標(biāo)來激發(fā)的狞洋。此外弯淘，在我們的Fast R-CNN步驟中，負(fù)樣本定義為與實(shí)際邊界框的最大IOU在[0吉懊，0.5)區(qū)間內(nèi)的樣本庐橙，而不是[1]，[2]中使用的[0.1,0.5)之間借嗽。我們注意到态鳖，在SPPnet系統(tǒng)[1]中，在[0.1恶导，0.5)中的負(fù)樣本用于網(wǎng)絡(luò)微調(diào)浆竭，但[0,0.5)中的負(fù)樣本仍然在具有難例挖掘SVM步驟中被訪問。但是Fast R-CNN系統(tǒng)[2]放棄了SVM步驟惨寿，所以[0,0.1]中的負(fù)樣本都不會(huì)被訪問邦泄。包括這些[0,0.1)的樣本，在Fast R-CNN和Faster R-CNN系統(tǒng)在COCO數(shù)據(jù)集上改進(jìn)了mAP@0.5（但對PASCAL VOC的影響可以忽略不計(jì)）裂垦。

其余的實(shí)現(xiàn)細(xì)節(jié)與PASCAL VOC相同顺囊。特別的是蕉拢，我們繼續(xù)使用300個(gè)提議和單一尺度（$s=600$）測試企量。COCO數(shù)據(jù)集上的測試時(shí)間仍然是大約200ms處理一張圖像。

在表11中亡电，我們首先報(bào)告了使用本文實(shí)現(xiàn)的Fast R-CNN系統(tǒng)[2]的結(jié)果。我們的Fast R-CNN基準(zhǔn)在test-dev數(shù)據(jù)集上有$39.3%$的mAP@0.5恕汇，比[2]中報(bào)告的更高腕唧。我們推測造成這種差距的原因主要是由于負(fù)樣本的定義以及小批量大小的變化。我們也注意到mAP@[.5枣接，.95]恰好相當(dāng)但惶。

表11：在MS COCO數(shù)據(jù)集上的目標(biāo)檢測結(jié)果(%)湿蛔。模型是VGG-16阳啥。

Table 11

接下來我們評估我們的Faster R-CNN系統(tǒng)察迟。使用COCO訓(xùn)練集訓(xùn)練扎瓶，在COCO測試開發(fā)集上Faster R-CNNN有$42.1%$的mAP@0.5和$21.5%$的mAP@[0.5，0.95]污筷。與相同協(xié)議下的Fast R-CNN相比瓣蛀，mAP@0.5要高$2.8%$惋增，mAP@[.5, .95]要高$2.2%$（表11）改鲫。這表明像棘，在更高的IoU閾值上缕题，RPN對提高定位精度表現(xiàn)出色烟零。使用COCO訓(xùn)練集訓(xùn)練咸作，在COCO測試開發(fā)集上Faster R-CNN有$42.7%$的mAP@0.5和$21.9%$的mAP@[.5, .95]记罚。圖6顯示了MS COCO測試開發(fā)數(shù)據(jù)集中的一些結(jié)果桐智。

Figure 6

圖6：使用Faster R-CNN系統(tǒng)在MS COCO test-dev數(shù)據(jù)集上選擇的目標(biāo)檢測結(jié)果示例酵使。該模型是VGG-16口渔，訓(xùn)練數(shù)據(jù)是COCO訓(xùn)練數(shù)據(jù)（在測試開發(fā)數(shù)據(jù)集上為$42.7%$的mAP@0.5）缺脉。每個(gè)輸出框都與一個(gè)類別標(biāo)簽和[0, 1]之間的softmax分?jǐn)?shù)相關(guān)聯(lián)悦穿。使用0.6的分?jǐn)?shù)閾值來顯示這些圖像栗柒。對于每張圖像瞬沦，一種顏色表示該圖像中的一個(gè)目標(biāo)類別逛钻。

在ILSVRC和COCO 2015比賽中的Faster R-CNN曙痘。我們已經(jīng)證明，由于RPN通過神經(jīng)網(wǎng)絡(luò)完全學(xué)習(xí)了提議區(qū)域名扛，F(xiàn)aster R-CNN從更好的特征中受益更多肮韧。即使將深度增加到100層以上惹苗，這種觀察仍然是有效的[18]桩蓉。僅用101層殘差網(wǎng)絡(luò)（ResNet-101）代替VGG-16院究，F(xiàn)aster R-CNN系統(tǒng)就將mAP從$41.5
%/21.2%$（VGG-16）增加到$48.4%/27.2%$（ResNet-101）业汰。與其他改進(jìn)正交于Faster R-CNN菩颖，何等人[18]在COCO測試開發(fā)數(shù)據(jù)集上獲得了單模型$55.7%/34.9%$的結(jié)果和$59.0%/37.4%$的組合結(jié)果晦闰，在COCO 2015目標(biāo)檢測競賽中獲得了第一名呻右。同樣的系統(tǒng)[18]也在ILSVRC 2015目標(biāo)檢測競賽中獲得了第一名声滥，超過第二名絕對的$8.5%$落塑。RPN也是ILSVRC2015定位和COCO2015分割競賽第一名獲獎(jiǎng)輸入的基石芜赌，詳情請分別參見[18]和[15]缠沈。

4.3 從MS COCO到PASCAL VOC

大規(guī)模數(shù)據(jù)對改善深度神經(jīng)網(wǎng)絡(luò)至關(guān)重要洲愤。接下來，我們調(diào)查MS COCO數(shù)據(jù)集如何幫助改進(jìn)在PASCAL VOC上的檢測性能亡问。

作為一個(gè)簡單的基準(zhǔn)數(shù)據(jù)州藕，我們直接在PASCAL VOC數(shù)據(jù)集上評估COCO檢測模型床玻，而無需在任何PASCAL VOC數(shù)據(jù)上進(jìn)行微調(diào)锈死。這種評估是可能的待牵，因?yàn)镃OCO類別是PASCAL VOC上類別的超集缨该。在這個(gè)實(shí)驗(yàn)中忽略COCO專有的類別压彭，softmax層僅在20個(gè)類別和背景上執(zhí)行壮不。這種設(shè)置下PASCAL VOC 2007測試集上的mAP為$76.1%$（表12）询一。即使沒有利用PASCAL VOC的數(shù)據(jù)健蕊，這個(gè)結(jié)果也好于在VOC07+12($73.2%$)上訓(xùn)練的模型的結(jié)果缩功。

然后我們在VOC數(shù)據(jù)集上對COCO檢測模型進(jìn)行微調(diào)。在這個(gè)實(shí)驗(yàn)中虑稼，COCO模型代替了ImageNet的預(yù)訓(xùn)練模型（用于初始化網(wǎng)絡(luò)權(quán)重）蛛倦，F(xiàn)aster R-CNN系統(tǒng)按3.2節(jié)所述進(jìn)行微調(diào)溯壶。這樣做在PASCAL VOC 2007測試集上可以達(dá)到$78.8%$的mAP且改。來自COCO集合的額外數(shù)據(jù)增加了$5.6%$的mAP又跛。表6顯示效扫，在PASCAL VOC 2007上菌仁，使用COCO+VOC訓(xùn)練的模型在每個(gè)類別上具有最好的AP值济丘。在PASCAL VOC 2012測試集（表12和表7）中也觀察到類似的改進(jìn)摹迷。我們注意到獲得這些強(qiáng)大結(jié)果的測試時(shí)間速度仍然是每張圖像200ms左右峡碉。

表6：Fast R-CNN檢測器和VGG-16在PASCAL VOC 2007測試集上的結(jié)果鲫寄。對于RPN地来，F(xiàn)ast R-CNN的訓(xùn)練時(shí)的提議數(shù)量是2000未斑。$RPN^*$表示取消共享特征的版本蜡秽。

Table 6

表12：使用不同的訓(xùn)練數(shù)據(jù)在PASCAL VOC 2007測試集和2012測試集上檢測Faster R-CNN的檢測mAP（％）载城。模型是VGG-16诉瓦〔窃瑁“COCO”表示COCOtrainval數(shù)據(jù)集用于訓(xùn)練煞聪。另見表6和表7昔脯。

Table 12

表7：Fast R-CNN檢測器和VGG-16在PASCAL VOC 2012測試集上的結(jié)果隧饼。對于RPN燕雁，F(xiàn)ast R-CNN的訓(xùn)練時(shí)的提議數(shù)量是2000拐格。

Table 7

5. 結(jié)論

我們已經(jīng)提出了RPN來生成高效捏浊，準(zhǔn)確的區(qū)域提議呛伴。通過與下游檢測網(wǎng)絡(luò)共享卷積特征热康，區(qū)域提議步驟幾乎是零成本的姐军。我們的方法使統(tǒng)一的奕锌，基于深度學(xué)習(xí)的目標(biāo)檢測系統(tǒng)能夠以接近實(shí)時(shí)的幀率運(yùn)行惊暴。學(xué)習(xí)到的RPN也提高了區(qū)域提議的質(zhì)量辽话，從而提高了整體的目標(biāo)檢測精度油啤。

REFERENCES

[1] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial pyramid pooling in deep convolutional networks for visual recognition,” in European Conference on Computer Vision (ECCV), 2014.

[2] R. Girshick, “Fast R-CNN,” in IEEE International Conference on Computer Vision (ICCV), 2015.

[3] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015.

[4] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders, “Selective search for object recognition,” International
Journal of Computer Vision (IJCV), 2013.

[5] R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[6] C. L. Zitnick and P. Dolla?r, “Edge boxes: Locating object proposals from edges,” in European Conference on Computer Vision(ECCV),2014.

[7] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[8] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan, “Object detection with discriminatively trained part-based models,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2010.

[9] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun, “Overfeat: Integrated recognition, localization and detection using convolutional networks,” in International Conference on Learning Representations (ICLR), 2014.

[10] S. Ren, K. He, R. Girshick, and J. Sun, “FasterR-CNN: Towards real-time object detection with region proposal networks,” in
Neural Information Processing Systems (NIPS), 2015.

[11] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman, “The PASCAL Visual Object Classes Challenge 2007 (VOC2007) Results,” 2007.

[12] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dolla?r, and C. L. Zitnick, “Microsoft COCO: Common Objects in Context,” in European Conference on Computer Vision (ECCV), 2014.

[13] S. Song and J. Xiao, “Deep sliding shapes for amodal 3d object detection in rgb-d images,” arXiv:1511.02300, 2015.

[14] J. Zhu, X. Chen, and A. L. Yuille, “DeePM: A deep part-based model for object detection and semantic part localization,” arXiv:1511.07131, 2015.

[15] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” arXiv:1512.04412, 2015.

[16] J. Johnson, A. Karpathy, and L. Fei-Fei, “Densecap: Fully convolutional localization networks for dense captioning,” arXiv:1511.07571, 2015.

[17] D. Kislyuk, Y. Liu, D. Liu, E. Tzeng, and Y. Jing, “Human curation and convnets: Powering item-to-item recommendations on pinterest,” arXiv:1511.04003, 2015.

[18] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385, 2015.

[19] J. Hosang, R. Benenson, and B. Schiele, “How good are detection proposals, really?” in British Machine Vision Conference (BMVC), 2014.

[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele, “What makes for effective detection proposals?” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2015.

[21] N. Chavali, H. Agrawal, A. Mahendru, and D. Batra, “Object-Proposal Evaluation Protocol is ’Gameable’,” arXiv: 1505.05836, 2015.

[22] J. Carreira and C. Sminchisescu, “CPMC: Automatic object segmentation using constrained parametric min-cuts,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[23] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and J. Malik, “Multiscale combinatorial grouping,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[24] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2012.

[25] C. Szegedy, A. Toshev, and D. Erhan, “Deep neural networks for object detection,” in Neural Information Processing Systems (NIPS), 2013.

[26] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014.

[27] C. Szegedy, S. Reed, D. Erhan, and D. Anguelov, “Scalable, high-quality object detection,” arXiv:1412.1441 (v1), 2015.

[28] P. O. Pinheiro, R. Collobert, and P. Dollar, “Learning to segment object candidates,” in Neural Information Processing Systems (NIPS), 2015.

[29] J. Dai, K. He, and J. Sun, “Convolutional feature masking for joint object and stuff segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[30] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun, “Object detection networks on convolutional feature maps,” arXiv:1504.06066, 2015.

[31] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio, “Attention-based models for speech recognition,” in Neural Information Processing Systems (NIPS), 2015.

[32] M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014.

[33] V. Nair and G. E. Hinton, “Rectified linear units improve restricted boltzmann machines,” in International Conference on Machine Learning (ICML), 2010.

[34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, and A. Rabinovich, “Going deeper with convolutions,” in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[35] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, “Backpropagation applied to handwritten zip code recognition,” Neural computation, 1989.

[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei, “ImageNet Large Scale Visual Recognition Challenge,” in International Journal of Computer Vision (IJCV), 2015.

[37] A. Krizhevsky, I. Sutskever, and G. Hinton, “Imagenet classification with deep convolutional neural networks,” in Neural Information Processing Systems (NIPS), 2012.

[38] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell, “Caffe: Convolutional architecture for fast feature embedding,” arXiv:1408.5093, 2014.

[39] K. Lenc and A. Vedaldi, “R-CNN minus R,” in British Machine Vision Conference (BMVC), 2015.

最后編輯于：2018.03.19 18:32:37

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市帘瞭，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌芋绸，老刑警劉巖摔敛，帶你破解...
沈念sama閱讀 216,470評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件马昙，死亡現(xiàn)場離奇詭異行楞，居然都是意外死亡子房，警方通過查閱死者的電腦和手機(jī)证杭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,393評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來送讲，“玉大人李茫，你說我怎么就攤上這事魄宏〕杌ィ” “怎么了予跌？”我有些...
開封第一講書人閱讀 162,577評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵券册，是天一觀的道長烁焙。經(jīng)常有香客問我骄蝇，道長九火，這世上最難降的妖魔是什么岔激？我笑而不...
開封第一講書人閱讀 58,176評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任虑鼎，我火速辦了婚禮震叙，結(jié)果婚禮上媒楼，老公的妹妹穿的比我還像新娘划址。我一直安慰自己，他們只是感情好胁勺，可當(dāng)我...
茶點(diǎn)故事閱讀 67,189評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著案疲，像睡著了一般褐啡。火紅的嫁衣襯著肌膚如雪备畦。梳的紋絲不亂的頭發(fā)上懂盐，一...
開封第一講書人閱讀 51,155評論 1贊 299
城市分裂傳說
那天崭倘，我揣著相機(jī)與錄音，去河邊找鬼琅坡。笑死榆俺，一個(gè)胖子當(dāng)著我的面吹牛茴晋，可吹牛的內(nèi)容都是我干的诺擅。我是一名探鬼主播烁涌，決...
沈念sama閱讀 40,041評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼微峰，長吁一口氣：“原來是場噩夢啊……” “哼蜓肆！你這毒婦竟也來了症杏？” 一聲冷哼從身側(cè)響起厉颤，我...
開封第一講書人閱讀 38,903評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤逼友，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后黎烈，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體照棋，經(jīng)...
沈念sama閱讀 45,319評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡烈炭，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,539評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了霹疫。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片更米。...
茶點(diǎn)故事閱讀 39,703評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡迟几，死狀恐怖类腮，靈堂內(nèi)的尸體忽然破棺而出蚜枢，到底是詐尸還是另有隱情针饥，我是刑警寧澤厂抽，帶...
沈念sama閱讀 35,417評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站丁眼，受9級特大地震影響筷凤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜苞七，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,013評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望蹂风。院中可真熱鬧卢厂，春花似錦、人聲如沸惠啄。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,664評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽撵渡。三九已至融柬，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間姥闭，已是汗流浹背丹鸿。一陣腳步聲響...
開封第一講書人閱讀 32,818評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工越走，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棚品，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,711評論 2贊 368
代替公主和親
正文我出身青樓廊敌，卻偏偏與公主長得像铜跑，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子骡澈，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,601評論 2贊 353