what is Faster-RCNN|Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

參考其他文章惊窖，在此表示感謝，文章僅用于學習伞插，侵權(quán)請聯(lián)系闯睹，感謝

https://arxiv.org/pdf/1506.01497.pdf
https://blog.csdn.net/quincuntial/article/details/79132243

主要貢獻：提出RPN網(wǎng)絡

論文翻譯

Abstract

最先進的目標檢測網(wǎng)絡依靠區(qū)域提出算法來假設目標的位置。SPPnet[1]和Fast R-CNN[2]等研究已經(jīng)減少了這些檢測網(wǎng)絡的運行時間梧奢，使得區(qū)域提出計算成為一個瓶頸狱掂。在這項工作中，我們引入了一個區(qū)域提出網(wǎng)絡（RPN）亲轨，該網(wǎng)絡與檢測網(wǎng)絡共享全圖像的卷積特征趋惨，從而使近乎零成本的區(qū)域提出成為可能。RPN是一個全卷積網(wǎng)絡惦蚊，可以同時在每個位置預測目標邊界和目標分數(shù)器虾。RPN經(jīng)過端到端的訓練讯嫂，可以生成高質(zhì)量的區(qū)域提出，由Fast R-CNN用于檢測兆沙。我們將RPN和Fast R-CNN通過共享卷積特征進一步合并為一個單一的網(wǎng)絡——使用最近流行的具有“注意力”機制的神經(jīng)網(wǎng)絡術(shù)語欧芽，RPN組件告訴統(tǒng)一網(wǎng)絡在哪里尋找。對于非常深的VGG-16模型[3]葛圃，我們的檢測系統(tǒng)在GPU上的幀率為5fps（包括所有步驟）千扔，同時在PASCAL VOC 2007，2012和MS COCO數(shù)據(jù)集上實現(xiàn)了最新的目標檢測精度库正，每個圖像只有300個提出曲楚。在ILSVRC和COCO 2015競賽中，F(xiàn)aster R-CNN和RPN是多個比賽中獲得第一名輸入的基礎褥符。代碼可公開獲得龙誊。

1.introduction

目標檢測的最新進展是由區(qū)域提出方法（例如[4]）和基于區(qū)域的卷積神經(jīng)網(wǎng)絡（R-CNN）[5]的成功驅(qū)動的。盡管在[5]中最初開發(fā)的基于區(qū)域的CNN計算成本很高喷楣，但是由于在各種提議中共享卷積趟大，所以其成本已經(jīng)大大降低了[1]，[2]铣焊。忽略花費在區(qū)域提議上的時間逊朽，最新版本Fast R-CNN[2]利用非常深的網(wǎng)絡[3]實現(xiàn)了接近實時的速率。現(xiàn)在粗截，proposals是最新的檢測系統(tǒng)中測試時間的計算瓶頸惋耙。

區(qū)域提議方法通常依賴廉價的特征和簡練的推斷方案。選擇性搜索[4]是最流行的方法之一熊昌，它貪婪地合并基于設計的低級特征的超級像素绽榛。然而，與有效的檢測網(wǎng)絡[2]相比婿屹，選擇性搜索速度慢了一個數(shù)量級灭美，在CPU實現(xiàn)中每張圖像的時間為2秒。EdgeBoxes[6]目前提供了在提議質(zhì)量和速度之間的最佳權(quán)衡昂利，每張圖像0.2秒届腐。盡管如此，區(qū)域提議步驟仍然像檢測網(wǎng)絡那樣消耗同樣多的運行時間蜂奸。

有人可能會注意到犁苏，基于區(qū)域的快速CNN利用GPU，而在研究中使用的區(qū)域提議方法在CPU上實現(xiàn)扩所，使得運行時間比較不公平围详。加速區(qū)域提議計算的一個顯而易見的方法是將其在GPU上重新實現(xiàn)。這可能是一個有效的工程解決方案，但重新實現(xiàn)忽略了下游檢測網(wǎng)絡助赞，因此錯過了共享計算的重要機會买羞。

在本文中，我們展示了算法的變化——用深度卷積神經(jīng)網(wǎng)絡計算區(qū)域提議——導致了一個優(yōu)雅和有效的解決方案雹食，其中在給定檢測網(wǎng)絡計算的情況下區(qū)域提議計算接近領(lǐng)成本畜普。為此，我們引入了新的區(qū)域提議網(wǎng)絡（RPN）群叶，它們共享最先進目標檢測網(wǎng)絡的卷積層[1]吃挑，[2]。通過在測試時共享卷積盖呼，計算區(qū)域提議的邊際成本很腥迓埂（例如化撕，每張圖像10ms）几晤。

我們的觀察是，基于區(qū)域的檢測器所使用的卷積特征映射植阴，如Fast R-CNN蟹瘾，也可以用于生成區(qū)域提議。在這些卷積特征之上掠手，我們通過添加一些額外的卷積層來構(gòu)建RPN憾朴，這些卷積層同時在規(guī)則網(wǎng)格上的每個位置上回歸區(qū)域邊界和目標分數(shù)。因此RPN是一種全卷積網(wǎng)絡（FCN）[7]喷鸽，可以針對生成檢測區(qū)域建議的任務進行端到端的訓練众雷。

圖1：解決多尺度和尺寸的不同方案。（a）構(gòu)建圖像和特征映射金字塔做祝，分類器以各種尺度運行砾省。（b）在特征映射上運行具有多個比例/大小的濾波器的金字塔。（c）我們在回歸函數(shù)中使用參考邊界框金字塔混槐。

RPN旨在有效預測具有廣泛尺度和長寬比的區(qū)域提議编兄。與使用圖像金字塔（圖1，a）或濾波器金字塔（圖1声登，b）的流行方法[8]狠鸳，[9]，[1]相比悯嗓，我們引入新的“錨（anchor）”盒作為多種尺度和長寬比的參考件舵。我們的方案可以被認為是回歸參考金字塔（圖1，c）脯厨，它避免了枚舉多種比例或長寬比的圖像或濾波器铅祸。這個模型在使用單尺度圖像進行訓練和測試時運行良好，從而有利于運行速度俄认。

為了將RPN與Fast R-CNN 目標檢測網(wǎng)絡相結(jié)合个少，我們提出了一種訓練方案洪乍，在微調(diào)區(qū)域提議任務和微調(diào)目標檢測之間進行交替，同時保持區(qū)域提議的固定夜焦。該方案快速收斂壳澳，并產(chǎn)生兩個任務之間共享的具有卷積特征的統(tǒng)一網(wǎng)絡。

我們在PASCAL VOC檢測基準數(shù)據(jù)集上[11]綜合評估了我們的方法茫经，其中具有Fast R-CNN的RPN產(chǎn)生的檢測精度優(yōu)于使用選擇性搜索的Fast R-CNN的強基準巷波。同時，我們的方法在測試時幾乎免除了選擇性搜索的所有計算負擔——區(qū)域提議的有效運行時間僅為10毫秒卸伞。使用[3]的昂貴的非常深的模型抹镊，我們的檢測方法在GPU上仍然具有5fps的幀率（包括所有步驟），因此在速度和準確性方面是實用的目標檢測系統(tǒng)荤傲。我們還報告了在MS COCO數(shù)據(jù)集上[12]的結(jié)果垮耳，并使用COCO數(shù)據(jù)研究了在PASCAL VOC上的改進。代碼可公開獲得https://github.com/shaoqingren/faster_rcnn（在MATLAB中）和https://github.com/rbgirshick/py-faster-rcnn（在Python中）遂黍。

這個手稿的初步版本是以前發(fā)表的[10]终佛。從那時起，RPN和Faster R-CNN的框架已經(jīng)被采用并推廣到其他方法雾家，如3D目標檢測[13]铃彰，基于部件的檢測[14]，實例分割[15]和圖像標題[16]芯咧。我們快速和有效的目標檢測系統(tǒng)也已經(jīng)在Pinterest[17]的商業(yè)系統(tǒng)中建立了牙捉，并報告了用戶參與度的提高。

在ILSVRC和COCO 2015競賽中敬飒，F(xiàn)aster R-CNN和RPN是ImageNet檢測邪铲，ImageNet定位，COCO檢測和COCO分割中幾個第一名參賽者[18]的基礎驶拱。RPN完全從數(shù)據(jù)中學習提議區(qū)域霜浴，因此可以從更深入和更具表達性的特征（例如[18]中采用的101層殘差網(wǎng)絡）中輕松獲益。Faster R-CNN和RPN也被這些比賽中的其他幾個主要參賽者所使用蓝纲。這些結(jié)果表明阴孟，我們的方法不僅是一個實用合算的解決方案，而且是一個提高目標檢測精度的有效方法税迷。

2.related work

目標提議永丝。目標提議方法方面有大量的文獻。目標提議方法的綜合調(diào)查和比較可以在[19]箭养，[20]慕嚷，[21]中找到。廣泛使用的目標提議方法包括基于超像素分組（例如，選擇性搜索[4]喝检，CPMC[22]嗅辣，MCG[23]）和那些基于滑動窗口的方法（例如窗口中的目標[24]，EdgeBoxes[6]）挠说。目標提議方法被采用為獨立于檢測器（例如澡谭，選擇性搜索[4]目標檢測器，R-CNN[5]和Fast R-CNN[2]）的外部模塊损俭。

用于目標檢測的深度網(wǎng)絡蛙奖。R-CNN方法[5]端到端地對CNN進行訓練，將提議區(qū)域分類為目標類別或背景杆兵。R-CNN主要作為分類器雁仲，并不能預測目標邊界（除了通過邊界框回歸進行細化）。其準確度取決于區(qū)域提議模塊的性能（參見[20]中的比較）琐脏。一些論文提出了使用深度網(wǎng)絡來預測目標邊界框的方法[25]攒砖，[9]，[26]骆膝，[27]祭衩。在OverFeat方法[9]中灶体，訓練一個全連接層來預測假定單個目標定位任務的邊界框坐標阅签。然后將全連接層變成卷積層，用于檢測多個類別的目標蝎抽。MultiBox方法[26]政钟，[27]從網(wǎng)絡中生成區(qū)域提議，網(wǎng)絡最后的全連接層同時預測多個類別不相關(guān)的邊界框樟结，并推廣到OverFeat的“單邊界框”方式养交。這些類別不可知的邊界框框被用作R-CNN的提議區(qū)域[5]。與我們的全卷積方案相比瓢宦，MultiBox提議網(wǎng)絡適用于單張裁剪圖像或多張大型裁剪圖像（例如224×224）碎连。MultiBox在提議區(qū)域和檢測網(wǎng)絡之間不共享特征。稍后在我們的方法上下文中會討論OverFeat和MultiBox驮履。與我們的工作同時進行的鱼辙，DeepMask方法[28]是為學習分割提議區(qū)域而開發(fā)的。

卷積[9]玫镐，[1]倒戏，[29]，[7]恐似，[2]的共享計算已經(jīng)越來越受到人們的關(guān)注杜跷，因為它可以有效而準確地進行視覺識別。OverFeat論文[9]計算圖像金字塔的卷積特征用于分類，定位和檢測葛闷。共享卷積特征映射的自適應大小池化（SPP）[1]被開發(fā)用于有效的基于區(qū)域的目標檢測[1]憋槐，[30]和語義分割[29]。Fast R-CNN[2]能夠?qū)蚕砭矸e特征進行端到端的檢測器訓練淑趾，并顯示出令人信服的準確性和速度秦陋。

3.faster R-CNN

圖2：Faster R-CNN是一個單一，統(tǒng)一的目標檢測網(wǎng)絡治笨。RPN模塊作為這個統(tǒng)一網(wǎng)絡的“注意力”驳概。

我們的目標檢測系統(tǒng)，稱為Faster R-CNN旷赖，由兩個模塊組成顺又。第一個模塊是提議區(qū)域的深度全卷積網(wǎng)絡，第二個模塊是使用提議區(qū)域的Fast R-CNN檢測器[2]等孵。整個系統(tǒng)是一個單個的稚照，統(tǒng)一的目標檢測網(wǎng)絡（圖2）。使用最近流行的“注意力”[31]機制的神經(jīng)網(wǎng)絡術(shù)語俯萌，RPN模塊告訴Fast R-CNN模塊在哪里尋找果录。在第3.1節(jié)中，我們介紹了區(qū)域提議網(wǎng)絡的設計和屬性咐熙。在第3.2節(jié)中弱恒，我們開發(fā)了用于訓練具有共享特征模塊的算法。

3.1 RPN

區(qū)域提議網(wǎng)絡（RPN）以任意大小的圖像作為輸入棋恼，輸出一組矩形的目標提議返弹，每個提議都有一個目標得分。我們用全卷積網(wǎng)絡[7]對這個過程進行建模爪飘，我們將在本節(jié)進行描述义起。因為我們的最終目標是與Fast R-CNN目標檢測網(wǎng)絡[2]共享計算，所以我們假設兩個網(wǎng)絡共享一組共同的卷積層师崎。在我們的實驗中默终，我們研究了具有5個共享卷積層的Zeiler和Fergus模型[32]（ZF）和具有13個共享卷積層的Simonyan和Zisserman模型[3]（VGG-16）。

為了生成區(qū)域提議犁罩，我們在最后的共享卷積層輸出的卷積特征映射上滑動一個小網(wǎng)絡齐蔽。這個小網(wǎng)絡將輸入卷積特征映射的n×n空間窗口作為輸入。每個滑動窗口映射到一個低維特征（ZF為256維昼汗，VGG為512維肴熏，后面是ReLU[33]）。這個特征被輸入到兩個子全連接層——一個邊界框回歸層（reg）和一個邊界框分類層（cls）顷窒。在本文中蛙吏，我們使用n=3源哩，注意輸入圖像上的有效感受野是大的（ZF和VGG分別為171和228個像素）。圖3（左）顯示了這個小型網(wǎng)絡的一個位置鸦做。請注意励烦，因為小網(wǎng)絡以滑動窗口方式運行，所有空間位置共享全連接層泼诱。這種架構(gòu)通過一個n×n卷積層坛掠，后面是兩個子1×1卷積層（分別用于reg和cls）自然地實現(xiàn)。

圖3：左：區(qū)域提議網(wǎng)絡（RPN）治筒。右：在PASCAL VOC 2007測試集上使用RPN提議的示例檢測屉栓。我們的方法可以檢測各種尺度和長寬比的目標。

3.1.1 anchors

在每個滑動窗口位置耸袜，我們同時預測多個區(qū)域提議友多，其中每個位置可能提議的最大數(shù)目表示為k。因此堤框，reg層具有4k個輸出域滥，編碼k個邊界框的坐標，cls層輸出2k個分數(shù)蜈抓，估計每個提議是目標或不是目標的概率启绰。相對于我們稱之為錨點的k個參考邊界框，k個提議是參數(shù)化的沟使。錨點位于所討論的滑動窗口的中心委可，并與一個尺度和長寬比相關(guān)（圖3左）。默認情況下格带，我們使用3個尺度和3個長寬比撤缴，在每個滑動位置產(chǎn)生k=9個錨點。對于大小為W×H（通常約為2400）的卷積特征映射叽唱，總共有WHk個錨點。

feature map上的anchor是原圖上的一個區(qū)域

平移不變的錨點

我們的方法的一個重要特性是它是平移不變的微宝，無論是在錨點還是計算相對于錨點的區(qū)域提議的函數(shù)棺亭。如果在圖像中平移目標钦购，提議應該平移绩聘，并且同樣的函數(shù)應該能夠在任一位置預測提議。平移不變特性是由我們的方法保證的兔乞。作為比較岳守，MultiBox方法[27]使用k-means生成800個錨點凄敢，這不是平移不變的。所以如果平移目標湿痢，MultiBox不保證會生成相同的提議涝缝。

平移不變特性也減小了模型的大小扑庞。MultiBox有(4+1)×800(4+1)×800維的全連接輸出層，而我們的方法在k=9k=9個錨點的情況下有(4+2)×9(4+2)×9維的卷積輸出層拒逮。因此罐氨，對于VGG-16，我們的輸出層具有2.8×1042.8×104個參數(shù)（對于VGG-16為512×(4+2)×9512×(4+2)×9）滩援，比MultiBox輸出層的6.1×1066.1×106個參數(shù)少了兩個數(shù)量級（對于MultiBox [27]中的GoogleNet[34]為1536×(4+1)×8001536×(4+1)×800）栅隐。如果考慮到特征投影層，我們的提議層仍然比MultiBox少一個數(shù)量級玩徊。我們期望我們的方法在PASCAL VOC等小數(shù)據(jù)集上有更小的過擬合風險租悄。

（4+2）是cls和loc編碼后的維度

多尺度錨點作為回歸參考

我們的錨點設計提出了一個新的方案來解決多尺度（和長寬比）。如圖1所示恩袱，多尺度預測有兩種流行的方法恰矩。第一種方法是基于圖像/特征金字塔，例如DPM[8]和基于CNN的方法[9]憎蛤，[1]外傅，[2]中。圖像在多個尺度上進行縮放俩檬，并且針對每個尺度（圖1（a））計算特征映射（HOG[8]或深卷積特征[9]萎胰，[1]，[2]）棚辽。這種方法通常是有用的技竟，但是非常耗時。第二種方法是在特征映射上使用多尺度（和/或長寬比）的滑動窗口屈藐。例如榔组，在DPM[8]中，使用不同的濾波器大辛摺（例如5×7和7×5）分別對不同長寬比的模型進行訓練搓扯。如果用這種方法來解決多尺度問題，可以把它看作是一個“濾波器金字塔”（圖1（b））包归。第二種方法通常與第一種方法聯(lián)合采用[8]锨推。

3.1.2 損失函數(shù)

為了訓練RPN，我們?yōu)槊總€錨點分配一個二值類別標簽（是目標或不是目標）公壤。我們給兩種錨點分配一個正標簽：（i）具有與實際邊界框的重疊最高交并比（IoU）的錨點换可，或者（ii）具有與實際邊界框的重疊超過0.7 IoU的錨點。注意厦幅，單個真實邊界框可以為多個錨點分配正標簽沾鳄。通常第二個條件足以確定正樣本；但我們?nèi)匀徊捎玫谝粋€條件确憨，因為在一些極少數(shù)情況下译荞，第二個條件可能找不到正樣本瓤的。對于所有的真實邊界框，如果一個錨點的IoU比率低于0.3磁椒，我們給非正面的錨點分配一個負標簽堤瘤。既不正面也不負面的錨點不會有助于訓練目標函數(shù)。

根據(jù)這些定義浆熔，我們對目標函數(shù)Fast R-CNN[2]中的多任務損失進行最小化本辐。我們對圖像的損失函數(shù)定義為：

這兩個項用Ncls和Nreg進行標準化，并由一個平衡參數(shù)λ加權(quán)医增。在我們目前的實現(xiàn)中（如在發(fā)布的代碼中）慎皱，方程（1）中的cls項通過小批量數(shù)據(jù)的大小（即Ncls=256）進行歸一化叶骨，regreg項根據(jù)錨點位置的數(shù)量（即茫多，Nreg～24000）進行歸一化。默認情況下忽刽，我們設置λ=10天揖，因此cls和reg項的權(quán)重大致相等。我們通過實驗顯示跪帝，結(jié)果對寬范圍的λλ值不敏感(表9)今膊。我們還注意到，上面的歸一化不是必需的伞剑，可以簡化斑唬。

表9：Faster R-CNN使用方程(1)中不同的λλ值在PASCAL VOC 2007測試集上的檢測結(jié)果。網(wǎng)絡是VGG-16黎泣。訓練數(shù)據(jù)是VOC 2007訓練集恕刘。使用λ=10λ=10（69.9%69.9%）的默認設置與表3中的相同。

對于邊界框回歸抒倚，我們采用[5]中的4個坐標參數(shù)化：

其中褐着，x，y衡便，w和h表示邊界框的中心坐標及其寬和高献起。變量x，xa和x\*分別表示預測邊界框镣陕，錨盒和實際邊界框（類似于y,w,h）。這可以被認為是從錨盒到鄰近的實際邊界框的回歸姻政。

然而呆抑，我們的方法通過與之前的基于RoI（感興趣區(qū)域）方法[1]，[2]不同的方式來實現(xiàn)邊界框回歸汁展。在[1]鹊碍，[2]中厌殉，對任意大小的RoI池化的特征執(zhí)行邊界框回歸，并且回歸權(quán)重由所有區(qū)域大小共享侈咕。在我們的公式中公罕，用于回歸的特征在特征映射上具有相同的空間大小（3×3）耀销。為了說明不同的大小楼眷，學習一組k個邊界框回歸器。每個回歸器負責一個尺度和一個長寬比熊尉，而k個回歸器不共享權(quán)重罐柳。因此，由于錨點的設計狰住，即使特征具有固定的尺度/比例张吉，仍然可以預測各種尺寸的邊界框。

3.1.3 訓練RPN

RPN可以通過反向傳播和隨機梯度下降（SGD）進行端對端訓練[35]催植。我們遵循[2]的“以圖像為中心”的采樣策略來訓練這個網(wǎng)絡肮蛹。每個小批量數(shù)據(jù)都從包含許多正面和負面示例錨點的單張圖像中產(chǎn)生。對所有錨點的損失函數(shù)進行優(yōu)化是可能的创南，但是這樣會偏向于負樣本伦忠，因為它們是占主導地位的。取而代之的是扰藕，我們在圖像中隨機采樣256個錨點缓苛，計算一個小批量數(shù)據(jù)的損失函數(shù)，其中采樣的正錨點和負錨點的比率可達1:1邓深。如果圖像中的正樣本少于128個未桥，我們使用負樣本填充小批量數(shù)據(jù)。

我們通過從標準方差為0.01的零均值高斯分布中提取權(quán)重來隨機初始化所有新層芥备。所有其他層（即共享卷積層）通過預訓練的ImageNet分類模型[36]來初始化冬耿，如同標準實踐[5]。我們調(diào)整ZF網(wǎng)絡的所有層萌壳，以及VGG網(wǎng)絡的conv3_1及其之上的層以節(jié)省內(nèi)存[2]亦镶。對于60k的小批量數(shù)據(jù)，我們使用0.001的學習率袱瓮，對于PASCAL VOC數(shù)據(jù)集中的下一個20k小批量數(shù)據(jù)缤骨，使用0.0001。我們使用0.9的動量和0.0005的重量衰減[37]尺借。我們的實現(xiàn)使用Caffe[38]绊起。

3.2 RPN和Fast R-CNN共享特征

到目前為止，我們已經(jīng)描述了如何訓練用于區(qū)域提議生成的網(wǎng)絡燎斩，沒有考慮將利用這些提議的基于區(qū)域的目標檢測CNN虱歪。對于檢測網(wǎng)絡蜂绎，我們采用Fast R-CNN[2]。接下來我們介紹一些算法笋鄙，學習由RPN和Fast R-CNN組成的具有共享卷積層的統(tǒng)一網(wǎng)絡（圖2）师枣。

獨立訓練的RPN和Fast R-CNN將以不同的方式修改卷積層。因此萧落，我們需要開發(fā)一種允許在兩個網(wǎng)絡之間共享卷積層的技術(shù)践美，而不是學習兩個獨立的網(wǎng)絡。我們討論三個方法來訓練具有共享特征的網(wǎng)絡：

（一）交替訓練铐尚。在這個解決方案中拨脉，我們首先訓練RPN，并使用這些提議來訓練Fast R-CNN宣增。由Fast R-CNN微調(diào)的網(wǎng)絡然后被用于初始化RPN玫膀，并且重復這個過程。這是本文所有實驗中使用的解決方案爹脾。

（二）近似聯(lián)合訓練帖旨。在這個解決方案中，RPN和Fast R-CNN網(wǎng)絡在訓練期間合并成一個網(wǎng)絡灵妨，如圖2所示解阅。在每次SGD迭代中，前向傳遞生成區(qū)域提議泌霍，在訓練Fast R-CNN檢測器將這看作是固定的货抄、預計算的提議。反向傳播像往常一樣進行朱转，其中對于共享層蟹地，組合來自RPN損失和Fast R-CNN損失的反向傳播信號。這個解決方案很容易實現(xiàn)藤为。但是這個解決方案忽略了關(guān)于提議邊界框的坐標（也是網(wǎng)絡響應）的導數(shù)怪与，因此是近似的。在我們的實驗中缅疟，我們實驗發(fā)現(xiàn)這個求解器產(chǎn)生了相當?shù)慕Y(jié)果分别，與交替訓練相比，訓練時間減少了大約25?50%25?50%存淫。這個求解器包含在我們發(fā)布的Python代碼中耘斩。

（三）非近似的聯(lián)合訓練。如上所述桅咆，由RPN預測的邊界框也是輸入的函數(shù)煌往。Fast R-CNN中的RoI池化層[2]接受卷積特征以及預測的邊界框作為輸入，所以理論上有效的反向傳播求解器也應該包括關(guān)于邊界框坐標的梯度轧邪。在上述近似聯(lián)合訓練中刽脖，這些梯度被忽略。在一個非近似的聯(lián)合訓練解決方案中忌愚，我們需要一個關(guān)于邊界框坐標可微分的RoI池化層曲管。這是一個重要的問題，可以通過[15]中提出的“RoI扭曲”層給出解決方案硕糊，這超出了本文的范圍院水。

四步交替訓練。在本文中简十，我們采用實用的四步訓練算法檬某，通過交替優(yōu)化學習共享特征。在第一步中螟蝙，我們按照3.1.3節(jié)的描述訓練RPN恢恼。該網(wǎng)絡使用ImageNet的預訓練模型進行初始化，并針對區(qū)域提議任務進行了端到端的微調(diào)胰默。在第二步中场斑，我們使用由第一步RPN生成的提議，由Fast R-CNN訓練單獨的檢測網(wǎng)絡牵署。該檢測網(wǎng)絡也由ImageNet的預訓練模型進行初始化漏隐。此時兩個網(wǎng)絡不共享卷積層。在第三步中奴迅，我們使用檢測器網(wǎng)絡來初始化RPN訓練青责，但是我們修正共享的卷積層，并且只對RPN特有的層進行微調(diào)∪【撸現(xiàn)在這兩個網(wǎng)絡共享卷積層脖隶。最后，保持共享卷積層的固定者填，我們對Fast R-CNN的獨有層進行微調(diào)浩村。因此，兩個網(wǎng)絡共享相同的卷積層并形成統(tǒng)一的網(wǎng)絡占哟。類似的交替訓練可以運行更多的迭代心墅，但是我們只觀察到可以忽略的改進。

最后編輯于：2019.06.10 10:04:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末榨乎，一起剝皮案震驚了整個濱河市怎燥，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌蜜暑，老刑警劉巖铐姚，帶你破解...
沈念sama閱讀 218,755評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡隐绵，警方通過查閱死者的電腦和手機之众，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來依许，“玉大人棺禾，你說我怎么就攤上這事∏吞” “怎么了膘婶？”我有些...
開封第一講書人閱讀 165,138評論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長蛀醉。經(jīng)常有香客問我悬襟，道長，這世上最難降的妖魔是什么拯刁？我笑而不...
開封第一講書人閱讀 58,791評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任脊岳，我火速辦了婚禮，結(jié)果婚禮上筛璧，老公的妹妹穿的比我還像新娘逸绎。我一直安慰自己，他們只是感情好夭谤，可當我...
茶點故事閱讀 67,794評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布棺牧。她就那樣靜靜地躺著，像睡著了一般朗儒。火紅的嫁衣襯著肌膚如雪颊乘。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,631評論 1贊 305
城市分裂傳說
那天醉锄，我揣著相機與錄音乏悄，去河邊找鬼。笑死恳不，一個胖子當著我的面吹牛檩小，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播烟勋，決...
沈念sama閱讀 40,362評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼规求，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了卵惦？” 一聲冷哼從身側(cè)響起阻肿，我...
開封第一講書人閱讀 39,264評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎沮尿，沒想到半個月后丛塌，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,724評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,900評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年赴邻，在試婚紗的時候發(fā)現(xiàn)自己被綠了印衔。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,040評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡乍楚，死狀恐怖当编，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情徒溪，我是刑警寧澤，帶...
沈念sama閱讀 35,742評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布金顿，位于F島的核電站臊泌，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏揍拆。R本人自食惡果不足惜渠概，卻給世界環(huán)境...
茶點故事閱讀 41,364評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望嫂拴。院中可真熱鬧播揪，春花似錦、人聲如沸筒狠。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,944評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽辩恼。三九已至雇庙，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間灶伊，已是汗流浹背疆前。一陣腳步聲響...
開封第一講書人閱讀 33,060評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留聘萨，地道東北人竹椒。一個月前我還...
沈念sama閱讀 48,247評論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長得像米辐，于是被迫代替她去往敵國和親胸完。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 44,979評論 2贊 355