【目標(biāo)檢測(cè)】Fast R-CNN論文詳解（Fast R-CNN）

image

2014年R-CNN橫空出世箍土，首次將卷積神經(jīng)網(wǎng)絡(luò)帶入目標(biāo)檢測(cè)領(lǐng)域。受SPPnet啟發(fā)葵硕，rbg在15年發(fā)表Fast R-CNN眉抬，它的構(gòu)思精巧，流程更為緊湊懈凹，大幅提高目標(biāo)檢測(cè)速度蜀变。

在同樣的最大規(guī)模網(wǎng)絡(luò)上，F(xiàn)ast R-CNN和R-CNN相比介评，訓(xùn)練時(shí)間從84小時(shí)減少為9.5小時(shí)库北，測(cè)試時(shí)間從47秒減少為0.32秒爬舰。在PASCAL VOC 2007上的準(zhǔn)確率相差無(wú)幾，約在66%-67%之間寒瓦。

一.Fast R-CNN所解決R-CNN的三個(gè)問(wèn)題

關(guān)于R-CNN的一些總結(jié)見(jiàn)我另一篇文章 http://www.reibang.com/p/c1696c27abf8

1.測(cè)試速度慢

R-CNN中用CNN對(duì)每一個(gè)候選區(qū)域反復(fù)提取特征情屹，而一張圖片的2000個(gè)候選區(qū)域之間有大量重疊部分，這一設(shè)定造成特征提取操作浪費(fèi)大量計(jì)算杂腰。

Fast R-CNN將整個(gè)圖像歸一化后直接送入CNN網(wǎng)絡(luò)屁商，卷積層不進(jìn)行候選區(qū)的特征提取，而是在最后一個(gè)池化層加入候選區(qū)域坐標(biāo)信息颈墅，進(jìn)行特征提取的計(jì)算。

2.訓(xùn)練速度慢

同上

3.訓(xùn)練所需空間大

R-CNN中目標(biāo)分類(lèi)與候選框的回歸是獨(dú)立的兩個(gè)操作雾袱，并且需要大量特征作為訓(xùn)練樣本恤筛。

Fast R-CNN將目標(biāo)分類(lèi)與候選框回歸統(tǒng)一到CNN網(wǎng)絡(luò)中來(lái)，不需要額外存儲(chǔ)特征芹橡。

二.Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)

image

相比R-CNN最大的區(qū)別毒坛，在于RoI池化層和全連接層中目標(biāo)分類(lèi)與檢測(cè)框回歸微調(diào)的統(tǒng)一。

1.RoI池化層

RoI池化層可以說(shuō)是SPP（spatial pyramid pooling）的簡(jiǎn)化版林说，關(guān)于SPPnet的總結(jié)見(jiàn)我的另一篇文章 http://www.reibang.com/p/90f9d41c6436煎殷。RoI池化層去掉了SPP的多尺度池化，直接用MxN的網(wǎng)格腿箩，將每個(gè)候選區(qū)域均勻分成M×N塊豪直，對(duì)每個(gè)塊進(jìn)行max pooling。從而將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的特征向量珠移，送入下一層弓乙。

2.特征提取方式

Fast R-CNN在特征提取上可以說(shuō)很大程度借鑒了SPPnet，首先將圖片用選擇搜索算法（selective search）得到2000個(gè)候選區(qū)域（region proposals）的坐標(biāo)信息钧惧。另一方面暇韧，直接將圖片歸一化到CNN需要的格式，整張圖片送入CNN（本文選擇的網(wǎng)絡(luò)是VGG）浓瞪，將第五層的普通池化層替換為RoI池化層懈玻，圖片然后經(jīng)過(guò)5層卷積操作后，得到一張?zhí)卣鲌D（feature maps）乾颁，開(kāi)始得到的坐標(biāo)信息通過(guò)一定的映射關(guān)系轉(zhuǎn)換為對(duì)應(yīng)特征圖的坐標(biāo)涂乌，截取對(duì)應(yīng)的候選區(qū)域，經(jīng)過(guò)RoI層后提取到固定長(zhǎng)度的特征向量钮孵，送入全連接層骂倘。

3.聯(lián)合候選框回歸與目標(biāo)分類(lèi)的全連接層

image

在R-CNN中的流程是先提proposal，然后CNN提取特征巴席，之后用SVM分類(lèi)器历涝，最后再做bbox regression進(jìn)行候選框的微調(diào)；Fast R-CNN則是將候選框目標(biāo)分類(lèi)與bbox regression并列放入全連接層，形成一個(gè)multi-task模型荧库。

cls_ score層用于分類(lèi)堰塌，輸出K+1維數(shù)組p，表示屬于K類(lèi)和背景的概率分衫。 bbox_predict層用于調(diào)整候選區(qū)域位置场刑，輸出4*K維數(shù)組t，表示分別屬于K類(lèi)時(shí)蚪战，應(yīng)該平移縮放的參數(shù)牵现。

網(wǎng)絡(luò)的代價(jià)函數(shù)細(xì)節(jié)如下圖所示：

image

三.Fast R-CNN的訓(xùn)練與測(cè)試

1.訓(xùn)練

首先用ILSVRC 20XX數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，預(yù)訓(xùn)練是進(jìn)行有監(jiān)督的分類(lèi)的訓(xùn)練邀桑。然后在PASCAL VOC樣本上進(jìn)行特定調(diào)優(yōu)（fine tunning）瞎疼，調(diào)優(yōu)的數(shù)據(jù)集中25%的正樣本（與真實(shí)框IoU在0.5-1的候選框）、75%的負(fù)樣本（與真實(shí)框IoU在0.1-0.5的候選框）壁畸。PASCAL VOC數(shù)據(jù)集中既有物體類(lèi)別標(biāo)簽贼急，也有物體位置標(biāo)簽，有20種物體捏萍；正樣本僅表示前景太抓，負(fù)樣本僅表示背景；回歸操作僅針對(duì)正樣本進(jìn)行令杈。

在調(diào)優(yōu)訓(xùn)練時(shí)走敌，每一個(gè)mini-batch中首先加入N張完整圖片，而后加入從N張圖片中選取的R個(gè)候選框这揣。這R個(gè)候選框可以復(fù)用N張圖片前5個(gè)階段的網(wǎng)絡(luò)特征悔常，文章中N=2,R=128。微調(diào)前给赞，需要對(duì)有監(jiān)督預(yù)訓(xùn)練后的模型進(jìn)行3步轉(zhuǎn)化：

RoI池化層取代有監(jiān)督預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)最后一層池化層机打；
兩個(gè)并行層取代上述VGG-16網(wǎng)絡(luò)的最后一層全連接層和softmax層，并行層之一是新全連接層1+原softmax層1000個(gè)分類(lèi)輸出修改為21個(gè)分類(lèi)輸出【20種類(lèi)+背景】片迅，并行層之二是新全連接層2+候選區(qū)域窗口回歸層残邀；
上述網(wǎng)絡(luò)由原來(lái)單輸入：一系列圖像修改為雙輸入：一系列圖像和這些圖像中的一系列候選區(qū)域；

2.測(cè)試

image

四.其他亮點(diǎn)

1.SVD全連接層加速網(wǎng)絡(luò)

圖像分類(lèi)任務(wù)中柑蛇，用于卷積層計(jì)算的時(shí)間比用于全連接層計(jì)算的時(shí)間多芥挣，而在目標(biāo)檢測(cè)任務(wù)中，selective search算法提取的建議框比較多【約2k】耻台，幾乎有一半的前向計(jì)算時(shí)間被花費(fèi)于全連接層空免，就Fast R-CNN而言，RoI池化層后的全連接層需要進(jìn)行約2k次【每個(gè)建議框都要計(jì)算】盆耽，因此在Fast R-CNN中可以采用SVD分解加速全連接層計(jì)算,具體實(shí)現(xiàn)如下：

① 物體分類(lèi)和窗口回歸都是通過(guò)全連接層實(shí)現(xiàn)的蹋砚，假設(shè)全連接層輸入數(shù)據(jù)為x扼菠，輸出數(shù)據(jù)為y，全連接層參數(shù)為W坝咐，尺寸為u×v循榆，那么該層全連接計(jì)算為:

y=Wx(計(jì)算復(fù)雜度為u×v)

② 若將W進(jìn)行SVD分解，并用前t個(gè)特征值近似代替墨坚，即:

W=U∑VT≈U(u,1:t)?∑(1:t,1:t)?V(v,1:t)T

那么原來(lái)的前向傳播分解成兩步:

y=Wx=U?(∑?VT)?x=U?z

計(jì)算復(fù)雜度為u×t+v×t秧饮，若t<min(u,v)，則這種分解會(huì)大大減少計(jì)算量泽篮；

在實(shí)現(xiàn)時(shí)盗尸，相當(dāng)于把一個(gè)全連接層拆分為兩個(gè)全連接層，第一個(gè)全連接層不含偏置帽撑，第二個(gè)全連接層含偏置振劳；實(shí)驗(yàn)表明，SVD分解全連接層能使mAP只下降0.3%的情況下提升30%的速度油狂，同時(shí)該方法也不必再執(zhí)行額外的微調(diào)操作。

image

2.圖片中心化采樣image-centric sampling

R-CNN和SPPnet中采用RoI-centric sampling：從所有圖片的所有候選區(qū)域中均勻取樣寸癌，這樣每個(gè)SGD的mini-batch中包含了不同圖像的樣本专筷，不同圖像之間不能共享卷積計(jì)算和內(nèi)存，運(yùn)算開(kāi)銷(xiāo)大蒸苇。

Fast R-CNN中采用image-centric sampling： mini-batch采用層次采樣磷蛹，即先對(duì)圖像采樣【N個(gè)】，再在采樣到的圖像中對(duì)候選區(qū)域采樣【每個(gè)圖像中采樣R/N個(gè)溪烤，一個(gè)mini-batch共計(jì)R個(gè)候選區(qū)域樣本】味咳，同一圖像的候選區(qū)域卷積共享計(jì)算和內(nèi)存，降低了運(yùn)算開(kāi)銷(xiāo)檬嘀。

image-centric sampling方式采樣的候選區(qū)域來(lái)自于同一圖像槽驶，相互之間存在相關(guān)性，可能會(huì)減慢訓(xùn)練收斂的速度鸳兽，但是作者在實(shí)際實(shí)驗(yàn)中并沒(méi)有出現(xiàn)這樣的擔(dān)憂掂铐，反而使用N=2，R=128的image-centric sampling方式比R-CNN收斂更快揍异。

這里解釋一下為什么SPPnet不能更新spatial pyramid pooling層前面的卷積層全陨，而只能更新后面的全連接層？一種說(shuō)法解釋卷積特征是線下計(jì)算的衷掷，從而無(wú)法在微調(diào)階段反向傳播誤差辱姨；另一種解釋是，反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層梯度戚嗅，通常所有RoI會(huì)覆蓋整個(gè)圖像雨涛，如果用RoI-centric sampling方式會(huì)由于計(jì)算too much整幅圖像梯度而變得又慢又耗內(nèi)存枢舶。

五.小結(jié)

有的時(shí)候，好的成果并不一定全都是首創(chuàng)镜悉，F(xiàn)ast R-CNN就是一個(gè)很好的說(shuō)明祟辟，SPPnet的池化思想在Fast上得到了簡(jiǎn)化與發(fā)揚(yáng)，同時(shí)作者rbg在R-CNN的基礎(chǔ)上進(jìn)一步將檢測(cè)框回歸整合到了神經(jīng)網(wǎng)絡(luò)中來(lái)侣肄，使得Fast的訓(xùn)練測(cè)試速率得到非常大的提升旧困。

論文原文：
https://www.semanticscholar.org/paper/Fast-R-CNN-Girshick/3dd2f70f48588e9bb89f1e5eec7f0d8750dd920a

參考文章：
https://blog.csdn.net/shenxiaolu1984/article/details/51036677

最后編輯于：2018.10.25 15:15:49

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市稼锅，隨后出現(xiàn)的幾起案子吼具，更是在濱河造成了極大的恐慌，老刑警劉巖矩距，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件拗盒，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡锥债，警方通過(guò)查閱死者的電腦和手機(jī)陡蝇，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)哮肚，“玉大人登夫，你說(shuō)我怎么就攤上這事≡侍耍” “怎么了恼策？”我有些...
開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)潮剪。經(jīng)常有香客問(wèn)我涣楷，道長(zhǎng)，這世上最難降的妖魔是什么抗碰？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任狮斗，我火速辦了婚禮，結(jié)果婚禮上弧蝇，老公的妹妹穿的比我還像新娘情龄。我一直安慰自己，他們只是感情好捍壤，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布骤视。她就那樣靜靜地躺著，像睡著了一般鹃觉。火紅的嫁衣襯著肌膚如雪专酗。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說(shuō)
那天盗扇，我揣著相機(jī)與錄音祷肯，去河邊找鬼沉填。笑死，一個(gè)胖子當(dāng)著我的面吹牛佑笋，可吹牛的內(nèi)容都是我干的翼闹。我是一名探鬼主播，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼蒋纬，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼猎荠！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起蜀备，我...
開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤关摇，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后碾阁，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體输虱，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年脂凶，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宪睹。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蚕钦，死狀恐怖横堡，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情冠桃，我是刑警寧澤，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布道宅，位于F島的核電站食听，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏污茵。R本人自食惡果不足惜樱报，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望泞当。院中可真熱鬧迹蛤，春花似錦、人聲如沸襟士。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)陋桂。三九已至逆趣，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間嗜历，已是汗流浹背宣渗。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工抖所，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人痕囱。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓田轧，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親鞍恢。傳聞我的和親對(duì)象是個(gè)殘疾皇子傻粘，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

【目標(biāo)檢測(cè)】Fast R-CNN論文詳解（Fast R-CNN）

一.Fast R-CNN所解決R-CNN的三個(gè)問(wèn)題

1.測(cè)試速度慢

2.訓(xùn)練速度慢

3.訓(xùn)練所需空間大

二.Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)

1.RoI池化層

2.特征提取方式

3.聯(lián)合候選框回歸與目標(biāo)分類(lèi)的全連接層

三.Fast R-CNN的訓(xùn)練與測(cè)試

1.訓(xùn)練

2.測(cè)試

四.其他亮點(diǎn)

1.SVD全連接層加速網(wǎng)絡(luò)

2.圖片中心化采樣image-centric sampling

五.小結(jié)

推薦閱讀更多精彩內(nèi)容