姓名:崔少杰 ? ? ? 學(xué)號:16040510021
轉(zhuǎn)載自:http://www.reibang.com/p/3c448a02f6a8=有修改
【嵌牛導(dǎo)讀】:論文針對two-stage的目標(biāo)檢測框架中篮撑,回歸坐標(biāo)和分類的子網(wǎng)絡(luò)進(jìn)行優(yōu)化赦抖,主要結(jié)合Faster RCNN和RFCN兩個網(wǎng)絡(luò)有點,同時提出自己的改進(jìn)胸嘴,最終在Accuracy和Speed上都取得了state-of-the-art的表現(xiàn)盾戴。
【嵌牛鼻子】:Introduction寄锐、Related works、Our Approach、Experiments
【嵌牛提問】:對比試驗R-CNN subnet是什么橄仆?
【嵌牛正文】:1.Introduction
一般來說Two-Stage的檢測框架剩膘,第一步是產(chǎn)生足夠多的候選框,作者稱之為Body盆顾;第二步是對候選框進(jìn)行識別援雇,作者稱為Head,像大腦做出判斷椎扬。通常惫搏,想要取得最好的準(zhǔn)確率,Head的設(shè)計一般比較Heavy蚕涤,就是計算量參數(shù)較多筐赔,計算量比較大。作者發(fā)現(xiàn)揖铜,像Faster RCNN和R-FCN都有共同點茴丰,就是一個非常Heavy的Head接到主體框架上。Faster RCNN就接了兩個全連接層在ResNet 的第5個Stage后面天吓。并且贿肩,ROI Pooling后的特征非常大,所以第一個全連接層非常耗內(nèi)存龄寞,并且影響速度汰规。并且,每個Region Proposal都要經(jīng)過兩個全連接層物邑,計算量非常大溜哮。而在R-FCN中,雖然少了兩個全連接層色解,但是茂嗓,需要構(gòu)建一個Classes×p×p大小的Score Map,也是需要非常大的內(nèi)存和計算量科阎。所以本文結(jié)合兩者優(yōu)點述吸,提出一些改進(jìn),主要如下兩點:
使用Large-Kernel Seperable Convolution來產(chǎn)生一個“Thin”的Score Map锣笨,Score Map只有a×p×p通道蝌矛。在論文中,作者用了a=10票唆。
在ROI Pooling后接上一個全連接層朴读。為什么要接上這個全連接層呢?因為原來的R-FCN的Score Map是Classes×p×p通道走趋,正好對應(yīng)Classes的預(yù)測衅金,現(xiàn)在沒有這么多個通道了,沒辦法用原來的投票方法了,所以接上一個全連接層也是為了后面能夠接上Faster RCNN的回歸和分類氮唯。
2.Related works
這個沒啥好說的鉴吹,就是大體說了下目標(biāo)檢測的近況。挺全面的惩琉。
3.Our Approach
橋黑板豆励!劃重點!
事實上瞒渠,論文的一張彩圖已經(jīng)說明了一切良蒸。好像已經(jīng)不用費口舌去解釋。
網(wǎng)絡(luò)對比2
不過伍玖,作者還是做了些解釋嫩痰。
從Accuracy角度來看,F(xiàn)aster R-CNN為了減少第一層全連接層的計算量窍箍,引入global average pooling串纺,雖然對ROI的分類有好處,但是損失了空間信息椰棘,對目標(biāo)回歸不好纺棺。而R-FCN直接對position-sensetive pooling后的結(jié)果進(jìn)行Pooling,沒有ROI-Wise層邪狞,所以效果沒有Faster RCNN好祷蝌。
從速度來看,F(xiàn)aster RCNN的每個Roi都要經(jīng)過R-CNN子網(wǎng)絡(luò)(R-CNN subnet)外恕,見圖杆逗,所以計算量非常大乡翅。R-FCN雖然R-CNN subnet很小鳞疲,但是他要生成一個非常大的Score Map,整個網(wǎng)絡(luò)依然很消耗時間和內(nèi)存蠕蚜。
3.2Light-Head R-CNN
文章使用“L”表示用一個大的主體網(wǎng)絡(luò)尚洽,用“S”表示用一個小的主體網(wǎng)絡(luò)。
Basic feature extractor
對于“L”網(wǎng)絡(luò)靶累,文章使用ResNet101作為基礎(chǔ)的特征提取網(wǎng)絡(luò)腺毫,對于“S”,文章使用類似于Xception的小網(wǎng)絡(luò)挣柬。上面圖中的“conv layes”表示基礎(chǔ)網(wǎng)絡(luò)潮酒。“S” 網(wǎng)絡(luò)如下表格邪蛔。
S網(wǎng)絡(luò)
Thin feature maps
作者使用large separable convolution急黎,接在基礎(chǔ)網(wǎng)絡(luò)的C5上。如下所示,k=15,對于S網(wǎng)絡(luò)勃教,Cmid=64淤击,對于L網(wǎng)絡(luò),Cmid=256故源。Cout=10×p×p污抬。
large separable convolution
R-CCN subnet
這里作者接了一個2048通道的全連接層,沒有使用dropout绳军。
RPN
RPN使用C4層的特征印机。ratios 取{1:2, 2:1}并且有五個scales {32 , 64 , 128 , 256 , 512 }门驾。NMS閾值取0.7.
4.Experiments
作者在COCO數(shù)據(jù)集上做實驗耳贬,訓(xùn)練集115K,測試集5K猎唁。當(dāng)然還有些細(xì)節(jié)咒劲,OHEM,data augment之類不扯了诫隅。
4.2.1Baselines
B1:是R-FCN腐魂,直接用R-FCN跑出來的結(jié)果。
B2:也是R-FCN逐纬,不過做了些改進(jìn)蛔屹,
1.圖片resize成最短邊800,最長邊1200,5個anchors {32 , 64 , 128 , 256 , 512 }
2.對位置回歸的loss比分類的小豁生,所以訓(xùn)練時兔毒,對回歸的loss進(jìn)行了double
3.訓(xùn)練時將box的loss排序,將loss表較大的前256個box作為反向傳播的loss甸箱。并且訓(xùn)練時每張圖像用了2000個ROIs育叁,測試時用1000個Rois。這樣mmAP提高了3個點芍殖。事實上我不太確定這個mmAP是啥意思豪嗽。文章說,“We use mmAP to indicate results of mAP@[0.5:0.95]”難道是說對PR曲線積分時豌骏,積分范圍是0.5-0.95龟梦?有懂得請在下方評論,讓咱們學(xué)習(xí)學(xué)習(xí)窃躲。
Baseline
4.2.2Thin Feature maps for RoI warping
這里作者想對比计贰,Thin Feature會帶來什么影響。作者設(shè)計了對比試驗蒂窒。網(wǎng)絡(luò)如下圖躁倒。
輸出的Feature maps的通道數(shù)減少為490(1077)
由于修改了輸出Feature map的通道數(shù)赎婚,所以R-FCN不能通過投票的方式進(jìn)行預(yù)測,所以作者加了一個全連接層樱溉。(這里挣输,其實我是有點不明白的「U辏看這里的描述撩嚼,下圖如果和上面的網(wǎng)絡(luò)對比圖2是一樣的話,那么后面4.2.3的對比試驗R-CNN subnet是什么挖帘?4.2.3節(jié)改進(jìn)了什么完丽。)
reduce Feature map
可以看到,這樣修改后拇舀,效果略微下降了逻族。作者指出如果將PSROI Pooling改為ROI Pooling會獲得0.3的增益。但是計算量增加了49倍骄崩。
large separable convolution
上一步中使用的是普通的1*1的卷積聘鳞,這里作者改用large separable convolution,k = 15, Cmid = 256, Cout = 490要拂。這樣子抠璃,相比B2提升了0.7個點。
large separable
4.2.3 RCNN subnet
文中提到的Figure3呢脱惰?并沒有看到搏嗡,這里應(yīng)該有錯誤。文章這里再次提到加入一個額外的全連接層拉一。(我就奇怪了采盒,上面一節(jié)在說thin featrue的時候不是加了嗎?)
然后這里效果突然就飛起來了蔚润。我表示很困惑磅氨。
R-CNN subnet
4.3 Light-Head R-CNN: High Accuracy
這一節(jié)作者提到一些技巧。比如PSROI Pooling換成 RoIAlign 抽碌,多尺度訓(xùn)練悍赢,NMS的閾值改為0.5之類。
技巧
當(dāng)然货徙,因為Thin Feature,就有可能使用FPN了皮胡。下面對比了和其他one stage和two stage的方法痴颊。都是state-of-the-art。
image.png
4.4 Light-Head R-CNN: High Accuracy
然后是對比速度屡贺。
使用上面提到的S網(wǎng)絡(luò)蠢棱。
將RPN網(wǎng)絡(luò)的卷積改成原來的Faster RCNN的一般锌杀,256.
使用large separable convolution其中kernel size = 15, C mid = 64, C out = 490 (10 × 7 × 7)
使用PSPooling with alignment
然后結(jié)果如下,完虐一切one stage和two stage的方法泻仙。YOLO糕再,SSD不在話下。好厲害的樣子玉转。
速度對比