參考其他文章惊窖,在此表示感謝,文章僅用于學習伞插,侵權(quán)請聯(lián)系闯睹,感謝
https://arxiv.org/pdf/1506.01497.pdf
https://blog.csdn.net/quincuntial/article/details/79132243
主要貢獻:提出RPN網(wǎng)絡
論文翻譯
Abstract
最先進的目標檢測網(wǎng)絡依靠區(qū)域提出算法來假設目標的位置。SPPnet[1]和Fast R-CNN[2]等研究已經(jīng)減少了這些檢測網(wǎng)絡的運行時間梧奢,使得區(qū)域提出計算成為一個瓶頸狱掂。在這項工作中,我們引入了一個區(qū)域提出網(wǎng)絡(RPN)亲轨,該網(wǎng)絡與檢測網(wǎng)絡共享全圖像的卷積特征趋惨,從而使近乎零成本的區(qū)域提出成為可能。RPN是一個全卷積網(wǎng)絡惦蚊,可以同時在每個位置預測目標邊界和目標分數(shù)器虾。RPN經(jīng)過端到端的訓練讯嫂,可以生成高質(zhì)量的區(qū)域提出,由Fast R-CNN用于檢測兆沙。我們將RPN和Fast R-CNN通過共享卷積特征進一步合并為一個單一的網(wǎng)絡——使用最近流行的具有“注意力”機制的神經(jīng)網(wǎng)絡術(shù)語欧芽,RPN組件告訴統(tǒng)一網(wǎng)絡在哪里尋找。對于非常深的VGG-16模型[3]葛圃,我們的檢測系統(tǒng)在GPU上的幀率為5fps(包括所有步驟)千扔,同時在PASCAL VOC 2007,2012和MS COCO數(shù)據(jù)集上實現(xiàn)了最新的目標檢測精度库正,每個圖像只有300個提出曲楚。在ILSVRC和COCO 2015競賽中,F(xiàn)aster R-CNN和RPN是多個比賽中獲得第一名輸入的基礎褥符。代碼可公開獲得龙誊。
1.introduction
目標檢測的最新進展是由區(qū)域提出方法(例如[4])和基于區(qū)域的卷積神經(jīng)網(wǎng)絡(R-CNN)[5]的成功驅(qū)動的。盡管在[5]中最初開發(fā)的基于區(qū)域的CNN計算成本很高喷楣,但是由于在各種提議中共享卷積趟大,所以其成本已經(jīng)大大降低了[1],[2]铣焊。忽略花費在區(qū)域提議上的時間逊朽,最新版本Fast R-CNN[2]利用非常深的網(wǎng)絡[3]實現(xiàn)了接近實時的速率。現(xiàn)在粗截,proposals是最新的檢測系統(tǒng)中測試時間的計算瓶頸惋耙。
區(qū)域提議方法通常依賴廉價的特征和簡練的推斷方案。選擇性搜索[4]是最流行的方法之一熊昌,它貪婪地合并基于設計的低級特征的超級像素绽榛。然而,與有效的檢測網(wǎng)絡[2]相比婿屹,選擇性搜索速度慢了一個數(shù)量級灭美,在CPU實現(xiàn)中每張圖像的時間為2秒。EdgeBoxes[6]目前提供了在提議質(zhì)量和速度之間的最佳權(quán)衡昂利,每張圖像0.2秒届腐。盡管如此,區(qū)域提議步驟仍然像檢測網(wǎng)絡那樣消耗同樣多的運行時間蜂奸。
有人可能會注意到犁苏,基于區(qū)域的快速CNN利用GPU,而在研究中使用的區(qū)域提議方法在CPU上實現(xiàn)扩所,使得運行時間比較不公平围详。加速區(qū)域提議計算的一個顯而易見的方法是將其在GPU上重新實現(xiàn)。這可能是一個有效的工程解決方案,但重新實現(xiàn)忽略了下游檢測網(wǎng)絡助赞,因此錯過了共享計算的重要機會买羞。
在本文中,我們展示了算法的變化——用深度卷積神經(jīng)網(wǎng)絡計算區(qū)域提議——導致了一個優(yōu)雅和有效的解決方案雹食,其中在給定檢測網(wǎng)絡計算的情況下區(qū)域提議計算接近領(lǐng)成本畜普。為此,我們引入了新的區(qū)域提議網(wǎng)絡(RPN)群叶,它們共享最先進目標檢測網(wǎng)絡的卷積層[1]吃挑,[2]。通過在測試時共享卷積盖呼,計算區(qū)域提議的邊際成本很腥迓埂(例如化撕,每張圖像10ms)几晤。
我們的觀察是,基于區(qū)域的檢測器所使用的卷積特征映射植阴,如Fast R-CNN蟹瘾,也可以用于生成區(qū)域提議。在這些卷積特征之上掠手,我們通過添加一些額外的卷積層來構(gòu)建RPN憾朴,這些卷積層同時在規(guī)則網(wǎng)格上的每個位置上回歸區(qū)域邊界和目標分數(shù)。因此RPN是一種全卷積網(wǎng)絡(FCN)[7]喷鸽,可以針對生成檢測區(qū)域建議的任務進行端到端的訓練众雷。
RPN旨在有效預測具有廣泛尺度和長寬比的區(qū)域提議编兄。與使用圖像金字塔(圖1,a)或濾波器金字塔(圖1声登,b)的流行方法[8]狠鸳,[9],[1]相比悯嗓,我們引入新的“錨(anchor)”盒作為多種尺度和長寬比的參考件舵。我們的方案可以被認為是回歸參考金字塔(圖1,c)脯厨,它避免了枚舉多種比例或長寬比的圖像或濾波器铅祸。這個模型在使用單尺度圖像進行訓練和測試時運行良好,從而有利于運行速度俄认。
為了將RPN與Fast R-CNN 目標檢測網(wǎng)絡相結(jié)合个少,我們提出了一種訓練方案洪乍,在微調(diào)區(qū)域提議任務和微調(diào)目標檢測之間進行交替,同時保持區(qū)域提議的固定夜焦。該方案快速收斂壳澳,并產(chǎn)生兩個任務之間共享的具有卷積特征的統(tǒng)一網(wǎng)絡。
我們在PASCAL VOC檢測基準數(shù)據(jù)集上[11]綜合評估了我們的方法茫经,其中具有Fast R-CNN的RPN產(chǎn)生的檢測精度優(yōu)于使用選擇性搜索的Fast R-CNN的強基準巷波。同時,我們的方法在測試時幾乎免除了選擇性搜索的所有計算負擔——區(qū)域提議的有效運行時間僅為10毫秒卸伞。使用[3]的昂貴的非常深的模型抹镊,我們的檢測方法在GPU上仍然具有5fps的幀率(包括所有步驟),因此在速度和準確性方面是實用的目標檢測系統(tǒng)荤傲。我們還報告了在MS COCO數(shù)據(jù)集上[12]的結(jié)果垮耳,并使用COCO數(shù)據(jù)研究了在PASCAL VOC上的改進。代碼可公開獲得https://github.com/shaoqingren/faster_rcnn(在MATLAB中)和https://github.com/rbgirshick/py-faster-rcnn(在Python中)遂黍。
這個手稿的初步版本是以前發(fā)表的[10]终佛。從那時起,RPN和Faster R-CNN的框架已經(jīng)被采用并推廣到其他方法雾家,如3D目標檢測[13]铃彰,基于部件的檢測[14],實例分割[15]和圖像標題[16]芯咧。我們快速和有效的目標檢測系統(tǒng)也已經(jīng)在Pinterest[17]的商業(yè)系統(tǒng)中建立了牙捉,并報告了用戶參與度的提高。
在ILSVRC和COCO 2015競賽中敬飒,F(xiàn)aster R-CNN和RPN是ImageNet檢測邪铲,ImageNet定位,COCO檢測和COCO分割中幾個第一名參賽者[18]的基礎驶拱。RPN完全從數(shù)據(jù)中學習提議區(qū)域霜浴,因此可以從更深入和更具表達性的特征(例如[18]中采用的101層殘差網(wǎng)絡)中輕松獲益。Faster R-CNN和RPN也被這些比賽中的其他幾個主要參賽者所使用蓝纲。這些結(jié)果表明阴孟,我們的方法不僅是一個實用合算的解決方案,而且是一個提高目標檢測精度的有效方法税迷。
2.related work
目標提議永丝。目標提議方法方面有大量的文獻。目標提議方法的綜合調(diào)查和比較可以在[19]箭养,[20]慕嚷,[21]中找到。廣泛使用的目標提議方法包括基于超像素分組(例如,選擇性搜索[4]喝检,CPMC[22]嗅辣,MCG[23])和那些基于滑動窗口的方法(例如窗口中的目標[24],EdgeBoxes[6])挠说。目標提議方法被采用為獨立于檢測器(例如澡谭,選擇性搜索[4]目標檢測器,R-CNN[5]和Fast R-CNN[2])的外部模塊损俭。
用于目標檢測的深度網(wǎng)絡蛙奖。R-CNN方法[5]端到端地對CNN進行訓練,將提議區(qū)域分類為目標類別或背景杆兵。R-CNN主要作為分類器雁仲,并不能預測目標邊界(除了通過邊界框回歸進行細化)。其準確度取決于區(qū)域提議模塊的性能(參見[20]中的比較)琐脏。一些論文提出了使用深度網(wǎng)絡來預測目標邊界框的方法[25]攒砖,[9],[26]骆膝,[27]祭衩。在OverFeat方法[9]中灶体,訓練一個全連接層來預測假定單個目標定位任務的邊界框坐標阅签。然后將全連接層變成卷積層,用于檢測多個類別的目標蝎抽。MultiBox方法[26]政钟,[27]從網(wǎng)絡中生成區(qū)域提議,網(wǎng)絡最后的全連接層同時預測多個類別不相關(guān)的邊界框樟结,并推廣到OverFeat的“單邊界框”方式养交。這些類別不可知的邊界框框被用作R-CNN的提議區(qū)域[5]。與我們的全卷積方案相比瓢宦,MultiBox提議網(wǎng)絡適用于單張裁剪圖像或多張大型裁剪圖像(例如224×224)碎连。MultiBox在提議區(qū)域和檢測網(wǎng)絡之間不共享特征。稍后在我們的方法上下文中會討論OverFeat和MultiBox驮履。與我們的工作同時進行的鱼辙,DeepMask方法[28]是為學習分割提議區(qū)域而開發(fā)的。
卷積[9]玫镐,[1]倒戏,[29],[7]恐似,[2]的共享計算已經(jīng)越來越受到人們的關(guān)注杜跷,因為它可以有效而準確地進行視覺識別。OverFeat論文[9]計算圖像金字塔的卷積特征用于分類,定位和檢測葛闷。共享卷積特征映射的自適應大小池化(SPP)[1]被開發(fā)用于有效的基于區(qū)域的目標檢測[1]憋槐,[30]和語義分割[29]。Fast R-CNN[2]能夠?qū)蚕砭矸e特征進行端到端的檢測器訓練淑趾,并顯示出令人信服的準確性和速度秦陋。
3.faster R-CNN
我們的目標檢測系統(tǒng),稱為Faster R-CNN旷赖,由兩個模塊組成顺又。第一個模塊是提議區(qū)域的深度全卷積網(wǎng)絡,第二個模塊是使用提議區(qū)域的Fast R-CNN檢測器[2]等孵。整個系統(tǒng)是一個單個的稚照,統(tǒng)一的目標檢測網(wǎng)絡(圖2)。使用最近流行的“注意力”[31]機制的神經(jīng)網(wǎng)絡術(shù)語俯萌,RPN模塊告訴Fast R-CNN模塊在哪里尋找果录。在第3.1節(jié)中,我們介紹了區(qū)域提議網(wǎng)絡的設計和屬性咐熙。在第3.2節(jié)中弱恒,我們開發(fā)了用于訓練具有共享特征模塊的算法。
3.1 RPN
區(qū)域提議網(wǎng)絡(RPN)以任意大小的圖像作為輸入棋恼,輸出一組矩形的目標提議返弹,每個提議都有一個目標得分。我們用全卷積網(wǎng)絡[7]對這個過程進行建模爪飘,我們將在本節(jié)進行描述义起。因為我們的最終目標是與Fast R-CNN目標檢測網(wǎng)絡[2]共享計算,所以我們假設兩個網(wǎng)絡共享一組共同的卷積層师崎。在我們的實驗中默终,我們研究了具有5個共享卷積層的Zeiler和Fergus模型[32](ZF)和具有13個共享卷積層的Simonyan和Zisserman模型[3](VGG-16)。
為了生成區(qū)域提議犁罩,我們在最后的共享卷積層輸出的卷積特征映射上滑動一個小網(wǎng)絡齐蔽。這個小網(wǎng)絡將輸入卷積特征映射的n×n空間窗口作為輸入。每個滑動窗口映射到一個低維特征(ZF為256維昼汗,VGG為512維肴熏,后面是ReLU[33])。這個特征被輸入到兩個子全連接層——一個邊界框回歸層(reg)和一個邊界框分類層(cls)顷窒。在本文中蛙吏,我們使用n=3源哩,注意輸入圖像上的有效感受野是大的(ZF和VGG分別為171和228個像素)。圖3(左)顯示了這個小型網(wǎng)絡的一個位置鸦做。請注意励烦,因為小網(wǎng)絡以滑動窗口方式運行,所有空間位置共享全連接層泼诱。這種架構(gòu)通過一個n×n卷積層坛掠,后面是兩個子1×1卷積層(分別用于reg和cls)自然地實現(xiàn)。
3.1.1 anchors
在每個滑動窗口位置耸袜,我們同時預測多個區(qū)域提議友多,其中每個位置可能提議的最大數(shù)目表示為k。因此堤框,reg層具有4k個輸出域滥,編碼k個邊界框的坐標,cls層輸出2k個分數(shù)蜈抓,估計每個提議是目標或不是目標的概率启绰。相對于我們稱之為錨點的k個參考邊界框,k個提議是參數(shù)化的沟使。錨點位于所討論的滑動窗口的中心委可,并與一個尺度和長寬比相關(guān)(圖3左)。默認情況下格带,我們使用3個尺度和3個長寬比撤缴,在每個滑動位置產(chǎn)生k=9個錨點。對于大小為W×H(通常約為2400)的卷積特征映射叽唱,總共有WHk個錨點。
feature map上的anchor是原圖上的一個區(qū)域
平移不變的錨點
我們的方法的一個重要特性是它是平移不變的微宝,無論是在錨點還是計算相對于錨點的區(qū)域提議的函數(shù)棺亭。如果在圖像中平移目標钦购,提議應該平移绩聘,并且同樣的函數(shù)應該能夠在任一位置預測提議。平移不變特性是由我們的方法保證的兔乞。作為比較岳守,MultiBox方法[27]使用k-means生成800個錨點凄敢,這不是平移不變的。所以如果平移目標湿痢,MultiBox不保證會生成相同的提議涝缝。
平移不變特性也減小了模型的大小扑庞。MultiBox有(4+1)×800(4+1)×800維的全連接輸出層,而我們的方法在k=9k=9個錨點的情況下有(4+2)×9(4+2)×9維的卷積輸出層拒逮。因此罐氨,對于VGG-16,我們的輸出層具有2.8×1042.8×104個參數(shù)(對于VGG-16為512×(4+2)×9512×(4+2)×9)滩援,比MultiBox輸出層的6.1×1066.1×106個參數(shù)少了兩個數(shù)量級(對于MultiBox [27]中的GoogleNet[34]為1536×(4+1)×8001536×(4+1)×800)栅隐。如果考慮到特征投影層,我們的提議層仍然比MultiBox少一個數(shù)量級玩徊。我們期望我們的方法在PASCAL VOC等小數(shù)據(jù)集上有更小的過擬合風險租悄。
(4+2)是cls和loc編碼后的維度
多尺度錨點作為回歸參考
我們的錨點設計提出了一個新的方案來解決多尺度(和長寬比)。如圖1所示恩袱,多尺度預測有兩種流行的方法恰矩。第一種方法是基于圖像/特征金字塔,例如DPM[8]和基于CNN的方法[9]憎蛤,[1]外傅,[2]中。圖像在多個尺度上進行縮放俩檬,并且針對每個尺度(圖1(a))計算特征映射(HOG[8]或深卷積特征[9]萎胰,[1],[2])棚辽。這種方法通常是有用的技竟,但是非常耗時。第二種方法是在特征映射上使用多尺度(和/或長寬比)的滑動窗口屈藐。例如榔组,在DPM[8]中,使用不同的濾波器大辛摺(例如5×7和7×5)分別對不同長寬比的模型進行訓練搓扯。如果用這種方法來解決多尺度問題,可以把它看作是一個“濾波器金字塔”(圖1(b))包归。第二種方法通常與第一種方法聯(lián)合采用[8]锨推。
3.1.2 損失函數(shù)
為了訓練RPN,我們?yōu)槊總€錨點分配一個二值類別標簽(是目標或不是目標)公壤。我們給兩種錨點分配一個正標簽:(i)具有與實際邊界框的重疊最高交并比(IoU)的錨點换可,或者(ii)具有與實際邊界框的重疊超過0.7 IoU的錨點。注意厦幅,單個真實邊界框可以為多個錨點分配正標簽沾鳄。通常第二個條件足以確定正樣本;但我們?nèi)匀徊捎玫谝粋€條件确憨,因為在一些極少數(shù)情況下译荞,第二個條件可能找不到正樣本瓤的。對于所有的真實邊界框,如果一個錨點的IoU比率低于0.3磁椒,我們給非正面的錨點分配一個負標簽堤瘤。既不正面也不負面的錨點不會有助于訓練目標函數(shù)。
根據(jù)這些定義浆熔,我們對目標函數(shù)Fast R-CNN[2]中的多任務損失進行最小化本辐。我們對圖像的損失函數(shù)定義為:
這兩個項用Ncls和Nreg進行標準化,并由一個平衡參數(shù)λ加權(quán)医增。在我們目前的實現(xiàn)中(如在發(fā)布的代碼中)慎皱,方程(1)中的cls項通過小批量數(shù)據(jù)的大小(即Ncls=256)進行歸一化叶骨,regreg項根據(jù)錨點位置的數(shù)量(即茫多,Nreg~24000)進行歸一化。默認情況下忽刽,我們設置λ=10天揖,因此cls和reg項的權(quán)重大致相等。我們通過實驗顯示跪帝,結(jié)果對寬范圍的λλ值不敏感(表9)今膊。我們還注意到,上面的歸一化不是必需的伞剑,可以簡化斑唬。
對于邊界框回歸抒倚,我們采用[5]中的4個坐標參數(shù)化:
其中褐着,x,y衡便,w和h表示邊界框的中心坐標及其寬和高献起。變量x,xa和x\*分別表示預測邊界框镣陕,錨盒和實際邊界框(類似于y,w,h)。這可以被認為是從錨盒到鄰近的實際邊界框的回歸姻政。
然而呆抑,我們的方法通過與之前的基于RoI(感興趣區(qū)域)方法[1],[2]不同的方式來實現(xiàn)邊界框回歸汁展。在[1]鹊碍,[2]中厌殉,對任意大小的RoI池化的特征執(zhí)行邊界框回歸,并且回歸權(quán)重由所有區(qū)域大小共享侈咕。在我們的公式中公罕,用于回歸的特征在特征映射上具有相同的空間大小(3×3)耀销。為了說明不同的大小楼眷,學習一組k個邊界框回歸器。每個回歸器負責一個尺度和一個長寬比熊尉,而k個回歸器不共享權(quán)重罐柳。因此,由于錨點的設計狰住,即使特征具有固定的尺度/比例张吉,仍然可以預測各種尺寸的邊界框。
3.1.3 訓練RPN
RPN可以通過反向傳播和隨機梯度下降(SGD)進行端對端訓練[35]催植。我們遵循[2]的“以圖像為中心”的采樣策略來訓練這個網(wǎng)絡肮蛹。每個小批量數(shù)據(jù)都從包含許多正面和負面示例錨點的單張圖像中產(chǎn)生。對所有錨點的損失函數(shù)進行優(yōu)化是可能的创南,但是這樣會偏向于負樣本伦忠,因為它們是占主導地位的。取而代之的是扰藕,我們在圖像中隨機采樣256個錨點缓苛,計算一個小批量數(shù)據(jù)的損失函數(shù),其中采樣的正錨點和負錨點的比率可達1:1邓深。如果圖像中的正樣本少于128個未桥,我們使用負樣本填充小批量數(shù)據(jù)。
我們通過從標準方差為0.01的零均值高斯分布中提取權(quán)重來隨機初始化所有新層芥备。所有其他層(即共享卷積層)通過預訓練的ImageNet分類模型[36]來初始化冬耿,如同標準實踐[5]。我們調(diào)整ZF網(wǎng)絡的所有層萌壳,以及VGG網(wǎng)絡的conv3_1及其之上的層以節(jié)省內(nèi)存[2]亦镶。對于60k的小批量數(shù)據(jù),我們使用0.001的學習率袱瓮,對于PASCAL VOC數(shù)據(jù)集中的下一個20k小批量數(shù)據(jù)缤骨,使用0.0001。我們使用0.9的動量和0.0005的重量衰減[37]尺借。我們的實現(xiàn)使用Caffe[38]绊起。
3.2 RPN和Fast R-CNN共享特征
到目前為止,我們已經(jīng)描述了如何訓練用于區(qū)域提議生成的網(wǎng)絡燎斩,沒有考慮將利用這些提議的基于區(qū)域的目標檢測CNN虱歪。對于檢測網(wǎng)絡蜂绎,我們采用Fast R-CNN[2]。接下來我們介紹一些算法笋鄙,學習由RPN和Fast R-CNN組成的具有共享卷積層的統(tǒng)一網(wǎng)絡(圖2)师枣。
獨立訓練的RPN和Fast R-CNN將以不同的方式修改卷積層。因此萧落,我們需要開發(fā)一種允許在兩個網(wǎng)絡之間共享卷積層的技術(shù)践美,而不是學習兩個獨立的網(wǎng)絡。我們討論三個方法來訓練具有共享特征的網(wǎng)絡:
(一)交替訓練铐尚。在這個解決方案中拨脉,我們首先訓練RPN,并使用這些提議來訓練Fast R-CNN宣增。由Fast R-CNN微調(diào)的網(wǎng)絡然后被用于初始化RPN玫膀,并且重復這個過程。這是本文所有實驗中使用的解決方案爹脾。
(二)近似聯(lián)合訓練帖旨。在這個解決方案中,RPN和Fast R-CNN網(wǎng)絡在訓練期間合并成一個網(wǎng)絡灵妨,如圖2所示解阅。在每次SGD迭代中,前向傳遞生成區(qū)域提議泌霍,在訓練Fast R-CNN檢測器將這看作是固定的货抄、預計算的提議。反向傳播像往常一樣進行朱转,其中對于共享層蟹地,組合來自RPN損失和Fast R-CNN損失的反向傳播信號。這個解決方案很容易實現(xiàn)藤为。但是這個解決方案忽略了關(guān)于提議邊界框的坐標(也是網(wǎng)絡響應)的導數(shù)怪与,因此是近似的。在我們的實驗中缅疟,我們實驗發(fā)現(xiàn)這個求解器產(chǎn)生了相當?shù)慕Y(jié)果分别,與交替訓練相比,訓練時間減少了大約25?50%25?50%存淫。這個求解器包含在我們發(fā)布的Python代碼中耘斩。
(三)非近似的聯(lián)合訓練。如上所述桅咆,由RPN預測的邊界框也是輸入的函數(shù)煌往。Fast R-CNN中的RoI池化層[2]接受卷積特征以及預測的邊界框作為輸入,所以理論上有效的反向傳播求解器也應該包括關(guān)于邊界框坐標的梯度轧邪。在上述近似聯(lián)合訓練中刽脖,這些梯度被忽略。在一個非近似的聯(lián)合訓練解決方案中忌愚,我們需要一個關(guān)于邊界框坐標可微分的RoI池化層曲管。這是一個重要的問題,可以通過[15]中提出的“RoI扭曲”層給出解決方案硕糊,這超出了本文的范圍院水。
四步交替訓練。在本文中简十,我們采用實用的四步訓練算法檬某,通過交替優(yōu)化學習共享特征。在第一步中螟蝙,我們按照3.1.3節(jié)的描述訓練RPN恢恼。該網(wǎng)絡使用ImageNet的預訓練模型進行初始化,并針對區(qū)域提議任務進行了端到端的微調(diào)胰默。在第二步中场斑,我們使用由第一步RPN生成的提議,由Fast R-CNN訓練單獨的檢測網(wǎng)絡牵署。該檢測網(wǎng)絡也由ImageNet的預訓練模型進行初始化漏隐。此時兩個網(wǎng)絡不共享卷積層。在第三步中奴迅,我們使用檢測器網(wǎng)絡來初始化RPN訓練青责,但是我們修正共享的卷積層,并且只對RPN特有的層進行微調(diào)∪【撸現(xiàn)在這兩個網(wǎng)絡共享卷積層脖隶。最后,保持共享卷積層的固定者填,我們對Fast R-CNN的獨有層進行微調(diào)浩村。因此,兩個網(wǎng)絡共享相同的卷積層并形成統(tǒng)一的網(wǎng)絡占哟。類似的交替訓練可以運行更多的迭代心墅,但是我們只觀察到可以忽略的改進。