[Paper Share - 3]Light-Head R-CNN: In Defense of Two-Stage Object Detector

導(dǎo)讀
本文是曠視科技和清華大學(xué)的聯(lián)合作品。論文針對two-stage的目標(biāo)檢測框架中,回歸坐標(biāo)和分類的子網(wǎng)絡(luò)進(jìn)行優(yōu)化,主要結(jié)合Faster RCNN和RFCN兩個(gè)網(wǎng)絡(luò)有點(diǎn)击碗,同時(shí)提出自己的改進(jìn),最終在Accuracy和Speed上都取得了state-of-the-art的表現(xiàn)们拙。

1.Introduction

一般來說Two-Stage的檢測框架稍途,第一步是產(chǎn)生足夠多的候選框,作者稱之為Body砚婆;第二步是對候選框進(jìn)行識別械拍,作者稱為Head,像大腦做出判斷射沟。通常殊者,想要取得最好的準(zhǔn)確率,Head的設(shè)計(jì)一般比較Heavy验夯,就是計(jì)算量參數(shù)較多猖吴,計(jì)算量比較大。作者發(fā)現(xiàn)挥转,像Faster RCNN和R-FCN都有共同點(diǎn)海蔽,就是一個(gè)非常Heavy的Head接到主體框架上。Faster RCNN就接了兩個(gè)全連接層在ResNet 的第5個(gè)Stage后面绑谣。并且党窜,ROI Pooling后的特征非常大,所以第一個(gè)全連接層非常耗內(nèi)存借宵,并且影響速度幌衣。并且,每個(gè)Region Proposal都要經(jīng)過兩個(gè)全連接層壤玫,計(jì)算量非常大豁护。而在R-FCN中,雖然少了兩個(gè)全連接層欲间,但是楚里,需要構(gòu)建一個(gè)Classes×p×p大小的Score Map,也是需要非常大的內(nèi)存和計(jì)算量猎贴。所以本文結(jié)合兩者優(yōu)點(diǎn)班缎,提出一些改進(jìn)蝴光,主要如下兩點(diǎn):

  • 使用Large-Kernel Seperable Convolution來產(chǎn)生一個(gè)“Thin”的Score Map,Score Map只有a×p×p通道达址。在論文中蔑祟,作者用了a=10。
  • 在ROI Pooling后接上一個(gè)全連接層沉唠。為什么要接上這個(gè)全連接層呢做瞪?因?yàn)樵瓉淼腞-FCN的Score Map是Classes×p×p通道,正好對應(yīng)Classes的預(yù)測右冻,現(xiàn)在沒有這么多個(gè)通道了,沒辦法用原來的投票方法了著拭,所以接上一個(gè)全連接層也是為了后面能夠接上Faster RCNN的回歸和分類纱扭。

2.Related works

這個(gè)沒啥好說的,就是大體說了下目標(biāo)檢測的近況儡遮。挺全面的乳蛾。

3.Our Approach

橋黑板!劃重點(diǎn)鄙币!
事實(shí)上肃叶,論文的一張彩圖已經(jīng)說明了一切。好像已經(jīng)不用費(fèi)口舌去解釋十嘿。


網(wǎng)絡(luò)對比2

不過因惭,作者還是做了些解釋。
從Accuracy角度來看绩衷,F(xiàn)aster R-CNN為了減少第一層全連接層的計(jì)算量蹦魔,引入global average pooling,雖然對ROI的分類有好處咳燕,但是損失了空間信息勿决,對目標(biāo)回歸不好。而R-FCN直接對position-sensetive pooling后的結(jié)果進(jìn)行Pooling招盲,沒有ROI-Wise層低缩,所以效果沒有Faster RCNN好。
從速度來看曹货,F(xiàn)aster RCNN的每個(gè)Roi都要經(jīng)過R-CNN子網(wǎng)絡(luò)(R-CNN subnet)咆繁,見圖,所以計(jì)算量非常大控乾。R-FCN雖然R-CNN subnet很小么介,但是他要生成一個(gè)非常大的Score Map,整個(gè)網(wǎng)絡(luò)依然很消耗時(shí)間和內(nèi)存蜕衡。

3.2Light-Head R-CNN

文章使用“L”表示用一個(gè)大的主體網(wǎng)絡(luò)壤短,用“S”表示用一個(gè)小的主體網(wǎng)絡(luò)设拟。
Basic feature extractor
對于“L”網(wǎng)絡(luò),文章使用ResNet101作為基礎(chǔ)的特征提取網(wǎng)絡(luò)久脯,對于“S”纳胧,文章使用類似于Xception的小網(wǎng)絡(luò)。上面圖中的“conv layes”表示基礎(chǔ)網(wǎng)絡(luò)帘撰∨苣剑“S” 網(wǎng)絡(luò)如下表格。

S網(wǎng)絡(luò)

Thin feature maps
作者使用large separable convolution摧找,接在基礎(chǔ)網(wǎng)絡(luò)的C5上核行。如下所示,k=15,對于S網(wǎng)絡(luò)蹬耘,Cmid=64芝雪,對于L網(wǎng)絡(luò),Cmid=256综苔。Cout=10×p×p惩系。
large separable convolution

R-CCN subnet
這里作者接了一個(gè)2048通道的全連接層,沒有使用dropout如筛。
RPN
RPN使用C4層的特征堡牡。ratios 取{1:2, 2:1}并且有五個(gè)scales {32 , 64 , 128 , 256 , 512 }杨刨。NMS閾值取0.7.

4.Experiments

作者在COCO數(shù)據(jù)集上做實(shí)驗(yàn)晤柄,訓(xùn)練集115K,測試集5K拭嫁。當(dāng)然還有些細(xì)節(jié)可免,OHEM,data augment之類不扯了做粤。

4.2.1Baselines

B1:是R-FCN浇借,直接用R-FCN跑出來的結(jié)果。
B2:也是R-FCN怕品,不過做了些改進(jìn)妇垢,
1.圖片resize成最短邊800,最長邊1200,5個(gè)anchors {32 , 64 , 128 , 256 , 512 }
2.對位置回歸的loss比分類的小肉康,所以訓(xùn)練時(shí)闯估,對回歸的loss進(jìn)行了double
3.訓(xùn)練時(shí)將box的loss排序,將loss表較大的前256個(gè)box作為反向傳播的loss吼和。并且訓(xùn)練時(shí)每張圖像用了2000個(gè)ROIs涨薪,測試時(shí)用1000個(gè)Rois。這樣mmAP提高了3個(gè)點(diǎn)炫乓。事實(shí)上我不太確定這個(gè)mmAP是啥意思刚夺。文章說献丑,“We use mmAP to indicate results of mAP@[0.5:0.95]”難道是說對PR曲線積分時(shí),積分范圍是0.5-0.95侠姑?有懂得請?jiān)谙路皆u論创橄,讓咱們學(xué)習(xí)學(xué)習(xí)。


Baseline
4.2.2Thin Feature maps for RoI warping

這里作者想對比莽红,Thin Feature會帶來什么影響妥畏。作者設(shè)計(jì)了對比試驗(yàn)。網(wǎng)絡(luò)如下圖安吁。

  • 輸出的Feature maps的通道數(shù)減少為490(1077)
  • 由于修改了輸出Feature map的通道數(shù)醉蚁,所以R-FCN不能通過投票的方式進(jìn)行預(yù)測,所以作者加了一個(gè)全連接層鬼店。(這里馍管,其實(shí)我是有點(diǎn)不明白的⌒胶看這里的描述,下圖如果和上面的網(wǎng)絡(luò)對比圖2是一樣的話捌锭,那么后面4.2.3的對比試驗(yàn)R-CNN subnet是什么俘陷?4.2.3節(jié)改進(jìn)了什么。)
    reduce Feature map

    可以看到观谦,這樣修改后拉盾,效果略微下降了。作者指出如果將PSROI Pooling改為ROI Pooling會獲得0.3的增益豁状。但是計(jì)算量增加了49倍捉偏。
    large separable convolution
    上一步中使用的是普通的1*1的卷積,這里作者改用large separable convolution泻红,k = 15, Cmid = 256, Cout = 490夭禽。這樣子,相比B2提升了0.7個(gè)點(diǎn)谊路。
    large separable
4.2.3 RCNN subnet

文中提到的Figure3呢讹躯?并沒有看到,這里應(yīng)該有錯(cuò)誤缠劝。文章這里再次提到加入一個(gè)額外的全連接層潮梯。(我就奇怪了,上面一節(jié)在說thin featrue的時(shí)候不是加了嗎惨恭?)
然后這里效果突然就飛起來了秉馏。我表示很困惑。


R-CNN subnet
4.3 Light-Head R-CNN: High Accuracy

這一節(jié)作者提到一些技巧脱羡。比如PSROI Pooling換成 RoIAlign 萝究,多尺度訓(xùn)練入撒,NMS的閾值改為0.5之類。


技巧

當(dāng)然脊奋,因?yàn)門hin Feature啰扛,就有可能使用FPN了。下面對比了和其他one stage和two stage的方法馆揉。都是state-of-the-art业舍。


image.png
4.4 Light-Head R-CNN: High Accuracy

然后是對比速度。

  • 使用上面提到的S網(wǎng)絡(luò)升酣。
  • 將RPN網(wǎng)絡(luò)的卷積改成原來的Faster RCNN的一般舷暮,256.
  • 使用large separable convolution其中kernel size = 15, C mid = 64, C out = 490 (10 × 7 × 7)
  • 使用PSPooling with alignment
    然后結(jié)果如下,完虐一切one stage和two stage的方法噩茄。YOLO下面,SSD不在話下。好厲害的樣子绩聘。


    速度對比

整體上感覺還不錯(cuò)沥割,雖然有些不太明白的地方。論文的寫作不是很好凿菩,有些地方的表達(dá)可能有錯(cuò)机杜。


好了,今天的Paper Share分享到這里衅谷。下次會分享上面的提到的R-FCN椒拗,1605.06409-R-FCN: Object Detection via Region-based Fully Convolutional Networks。敬請期待哦获黔。

------少俠阿朱 2017.11.30 于深圳蚀苛。

轉(zhuǎn)載注明下出處唄。http://www.reibang.com/p/3c448a02f6a8

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末玷氏,一起剝皮案震驚了整個(gè)濱河市堵未,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌盏触,老刑警劉巖兴溜,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異耻陕,居然都是意外死亡拙徽,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進(jìn)店門诗宣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來膘怕,“玉大人,你說我怎么就攤上這事召庞〉盒模” “怎么了来破?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長忘古。 經(jīng)常有香客問我徘禁,道長,這世上最難降的妖魔是什么髓堪? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任送朱,我火速辦了婚禮,結(jié)果婚禮上干旁,老公的妹妹穿的比我還像新娘驶沼。我一直安慰自己,他們只是感情好争群,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布回怜。 她就那樣靜靜地躺著,像睡著了一般换薄。 火紅的嫁衣襯著肌膚如雪玉雾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天轻要,我揣著相機(jī)與錄音抹凳,去河邊找鬼。 笑死伦腐,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的失都。 我是一名探鬼主播柏蘑,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼粹庞!你這毒婦竟也來了咳焚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤庞溜,失蹤者是張志新(化名)和其女友劉穎革半,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體流码,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡又官,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了漫试。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片六敬。...
    茶點(diǎn)故事閱讀 39,711評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖驾荣,靈堂內(nèi)的尸體忽然破棺而出外构,到底是詐尸還是另有隱情普泡,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布审编,位于F島的核電站撼班,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏垒酬。R本人自食惡果不足惜砰嘁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望伤溉。 院中可真熱鬧般码,春花似錦、人聲如沸乱顾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽走净。三九已至券时,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伏伯,已是汗流浹背橘洞。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留说搅,地道東北人炸枣。 一個(gè)月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像弄唧,于是被迫代替她去往敵國和親适肠。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評論 2 353