【目標(biāo)檢測(cè)】Fast R-CNN論文詳解(Fast R-CNN)

image

2014年R-CNN橫空出世箍土,首次將卷積神經(jīng)網(wǎng)絡(luò)帶入目標(biāo)檢測(cè)領(lǐng)域。受SPPnet啟發(fā)葵硕,rbg在15年發(fā)表Fast R-CNN眉抬,它的構(gòu)思精巧,流程更為緊湊懈凹,大幅提高目標(biāo)檢測(cè)速度蜀变。

在同樣的最大規(guī)模網(wǎng)絡(luò)上,F(xiàn)ast R-CNN和R-CNN相比介评,訓(xùn)練時(shí)間從84小時(shí)減少為9.5小時(shí)库北,測(cè)試時(shí)間從47秒減少為0.32秒爬舰。在PASCAL VOC 2007上的準(zhǔn)確率相差無(wú)幾,約在66%-67%之間寒瓦。

一.Fast R-CNN所解決R-CNN的三個(gè)問(wèn)題

關(guān)于R-CNN的一些總結(jié)見(jiàn)我另一篇文章 http://www.reibang.com/p/c1696c27abf8

1.測(cè)試速度慢

R-CNN中用CNN對(duì)每一個(gè)候選區(qū)域反復(fù)提取特征情屹,而一張圖片的2000個(gè)候選區(qū)域之間有大量重疊部分,這一設(shè)定造成特征提取操作浪費(fèi)大量計(jì)算杂腰。

Fast R-CNN將整個(gè)圖像歸一化后直接送入CNN網(wǎng)絡(luò)屁商,卷積層不進(jìn)行候選區(qū)的特征提取,而是在最后一個(gè)池化層加入候選區(qū)域坐標(biāo)信息颈墅,進(jìn)行特征提取的計(jì)算。

2.訓(xùn)練速度慢

同上

3.訓(xùn)練所需空間大

R-CNN中目標(biāo)分類(lèi)與候選框的回歸是獨(dú)立的兩個(gè)操作雾袱,并且需要大量特征作為訓(xùn)練樣本恤筛。

Fast R-CNN將目標(biāo)分類(lèi)與候選框回歸統(tǒng)一到CNN網(wǎng)絡(luò)中來(lái),不需要額外存儲(chǔ)特征芹橡。

二.Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)

image

相比R-CNN最大的區(qū)別毒坛,在于RoI池化層和全連接層中目標(biāo)分類(lèi)與檢測(cè)框回歸微調(diào)的統(tǒng)一。

1.RoI池化層

RoI池化層可以說(shuō)是SPP(spatial pyramid pooling)的簡(jiǎn)化版林说,關(guān)于SPPnet的總結(jié)見(jiàn)我的另一篇文章 http://www.reibang.com/p/90f9d41c6436煎殷。RoI池化層去掉了SPP的多尺度池化,直接用MxN的網(wǎng)格腿箩,將每個(gè)候選區(qū)域均勻分成M×N塊豪直,對(duì)每個(gè)塊進(jìn)行max pooling。從而將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的特征向量珠移,送入下一層弓乙。

2.特征提取方式

Fast R-CNN在特征提取上可以說(shuō)很大程度借鑒了SPPnet,首先將圖片用選擇搜索算法(selective search)得到2000個(gè)候選區(qū)域(region proposals)的坐標(biāo)信息钧惧。另一方面暇韧,直接將圖片歸一化到CNN需要的格式,整張圖片送入CNN(本文選擇的網(wǎng)絡(luò)是VGG)浓瞪,將第五層的普通池化層替換為RoI池化層懈玻,圖片然后經(jīng)過(guò)5層卷積操作后,得到一張?zhí)卣鲌D(feature maps)乾颁,開(kāi)始得到的坐標(biāo)信息通過(guò)一定的映射關(guān)系轉(zhuǎn)換為對(duì)應(yīng)特征圖的坐標(biāo)涂乌,截取對(duì)應(yīng)的候選區(qū)域,經(jīng)過(guò)RoI層后提取到固定長(zhǎng)度的特征向量钮孵,送入全連接層骂倘。

3.聯(lián)合候選框回歸與目標(biāo)分類(lèi)的全連接層

image

在R-CNN中的流程是先提proposal,然后CNN提取特征巴席,之后用SVM分類(lèi)器历涝,最后再做bbox regression進(jìn)行候選框的微調(diào);Fast R-CNN則是將候選框目標(biāo)分類(lèi)與bbox regression并列放入全連接層,形成一個(gè)multi-task模型荧库。

cls_ score層用于分類(lèi)堰塌,輸出K+1維數(shù)組p,表示屬于K類(lèi)和背景的概率分衫。 bbox_predict層用于調(diào)整候選區(qū)域位置场刑,輸出4*K維數(shù)組t,表示分別屬于K類(lèi)時(shí)蚪战,應(yīng)該平移縮放的參數(shù)牵现。

網(wǎng)絡(luò)的代價(jià)函數(shù)細(xì)節(jié)如下圖所示:
image

三.Fast R-CNN的訓(xùn)練與測(cè)試

1.訓(xùn)練

首先用ILSVRC 20XX數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練是進(jìn)行有監(jiān)督的分類(lèi)的訓(xùn)練邀桑。然后在PASCAL VOC樣本上進(jìn)行特定調(diào)優(yōu)(fine tunning)瞎疼,調(diào)優(yōu)的數(shù)據(jù)集中25%的正樣本(與真實(shí)框IoU在0.5-1的候選框)、75%的負(fù)樣本(與真實(shí)框IoU在0.1-0.5的候選框)壁畸。PASCAL VOC數(shù)據(jù)集中既有物體類(lèi)別標(biāo)簽贼急,也有物體位置標(biāo)簽,有20種物體捏萍;正樣本僅表示前景太抓,負(fù)樣本僅表示背景;回歸操作僅針對(duì)正樣本進(jìn)行令杈。

在調(diào)優(yōu)訓(xùn)練時(shí)走敌,每一個(gè)mini-batch中首先加入N張完整圖片,而后加入從N張圖片中選取的R個(gè)候選框这揣。這R個(gè)候選框可以復(fù)用N張圖片前5個(gè)階段的網(wǎng)絡(luò)特征悔常,文章中N=2,R=128。微調(diào)前给赞,需要對(duì)有監(jiān)督預(yù)訓(xùn)練后的模型進(jìn)行3步轉(zhuǎn)化:

  1. RoI池化層取代有監(jiān)督預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)最后一層池化層机打;

  2. 兩個(gè)并行層取代上述VGG-16網(wǎng)絡(luò)的最后一層全連接層和softmax層,并行層之一是新全連接層1+原softmax層1000個(gè)分類(lèi)輸出修改為21個(gè)分類(lèi)輸出【20種類(lèi)+背景】片迅,并行層之二是新全連接層2+候選區(qū)域窗口回歸層残邀;

  3. 上述網(wǎng)絡(luò)由原來(lái)單輸入:一系列圖像修改為雙輸入:一系列圖像和這些圖像中的一系列候選區(qū)域;

2.測(cè)試

image

四.其他亮點(diǎn)

1.SVD全連接層加速網(wǎng)絡(luò)

圖像分類(lèi)任務(wù)中柑蛇,用于卷積層計(jì)算的時(shí)間比用于全連接層計(jì)算的時(shí)間多芥挣,而在目標(biāo)檢測(cè)任務(wù)中,selective search算法提取的建議框比較多【約2k】耻台,幾乎有一半的前向計(jì)算時(shí)間被花費(fèi)于全連接層空免,就Fast R-CNN而言,RoI池化層后的全連接層需要進(jìn)行約2k次【每個(gè)建議框都要計(jì)算】盆耽,因此在Fast R-CNN中可以采用SVD分解加速全連接層計(jì)算,具體實(shí)現(xiàn)如下:

① 物體分類(lèi)和窗口回歸都是通過(guò)全連接層實(shí)現(xiàn)的蹋砚,假設(shè)全連接層輸入數(shù)據(jù)為x扼菠,輸出數(shù)據(jù)為y,全連接層參數(shù)為W坝咐,尺寸為u×v循榆,那么該層全連接計(jì)算為:

y=Wx(計(jì)算復(fù)雜度為u×v)

② 若將W進(jìn)行SVD分解,并用前t個(gè)特征值近似代替墨坚,即:

W=U∑VT≈U(u,1:t)?∑(1:t,1:t)?V(v,1:t)T

那么原來(lái)的前向傳播分解成兩步:

y=Wx=U?(∑?VT)?x=U?z

計(jì)算復(fù)雜度為u×t+v×t秧饮,若t<min(u,v),則這種分解會(huì)大大減少計(jì)算量泽篮;

在實(shí)現(xiàn)時(shí)盗尸,相當(dāng)于把一個(gè)全連接層拆分為兩個(gè)全連接層,第一個(gè)全連接層不含偏置帽撑,第二個(gè)全連接層含偏置振劳;實(shí)驗(yàn)表明,SVD分解全連接層能使mAP只下降0.3%的情況下提升30%的速度油狂,同時(shí)該方法也不必再執(zhí)行額外的微調(diào)操作。


image

2.圖片中心化采樣image-centric sampling

R-CNN和SPPnet中采用RoI-centric sampling:從所有圖片的所有候選區(qū)域中均勻取樣寸癌,這樣每個(gè)SGD的mini-batch中包含了不同圖像的樣本专筷,不同圖像之間不能共享卷積計(jì)算和內(nèi)存,運(yùn)算開(kāi)銷(xiāo)大蒸苇。

Fast R-CNN中采用image-centric sampling: mini-batch采用層次采樣磷蛹,即先對(duì)圖像采樣【N個(gè)】,再在采樣到的圖像中對(duì)候選區(qū)域采樣【每個(gè)圖像中采樣R/N個(gè)溪烤,一個(gè)mini-batch共計(jì)R個(gè)候選區(qū)域樣本】味咳,同一圖像的候選區(qū)域卷積共享計(jì)算和內(nèi)存,降低了運(yùn)算開(kāi)銷(xiāo)檬嘀。

image-centric sampling方式采樣的候選區(qū)域來(lái)自于同一圖像槽驶,相互之間存在相關(guān)性,可能會(huì)減慢訓(xùn)練收斂的速度鸳兽,但是作者在實(shí)際實(shí)驗(yàn)中并沒(méi)有出現(xiàn)這樣的擔(dān)憂掂铐,反而使用N=2,R=128的image-centric sampling方式比R-CNN收斂更快揍异。

這里解釋一下為什么SPPnet不能更新spatial pyramid pooling層前面的卷積層全陨,而只能更新后面的全連接層? 一種說(shuō)法解釋卷積特征是線下計(jì)算的衷掷,從而無(wú)法在微調(diào)階段反向傳播誤差辱姨;另一種解釋是,反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層梯度戚嗅,通常所有RoI會(huì)覆蓋整個(gè)圖像雨涛,如果用RoI-centric sampling方式會(huì)由于計(jì)算too much整幅圖像梯度而變得又慢又耗內(nèi)存枢舶。

五.小結(jié)

有的時(shí)候,好的成果并不一定全都是首創(chuàng)镜悉,F(xiàn)ast R-CNN就是一個(gè)很好的說(shuō)明祟辟,SPPnet的池化思想在Fast上得到了簡(jiǎn)化與發(fā)揚(yáng),同時(shí)作者rbg在R-CNN的基礎(chǔ)上進(jìn)一步將檢測(cè)框回歸整合到了神經(jīng)網(wǎng)絡(luò)中來(lái)侣肄,使得Fast的訓(xùn)練測(cè)試速率得到非常大的提升旧困。

論文原文:
https://www.semanticscholar.org/paper/Fast-R-CNN-Girshick/3dd2f70f48588e9bb89f1e5eec7f0d8750dd920a

參考文章:
https://blog.csdn.net/shenxiaolu1984/article/details/51036677

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市稼锅,隨后出現(xiàn)的幾起案子吼具,更是在濱河造成了極大的恐慌,老刑警劉巖矩距,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拗盒,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡锥债,警方通過(guò)查閱死者的電腦和手機(jī)陡蝇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)哮肚,“玉大人登夫,你說(shuō)我怎么就攤上這事≡侍耍” “怎么了恼策?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)潮剪。 經(jīng)常有香客問(wèn)我涣楷,道長(zhǎng),這世上最難降的妖魔是什么抗碰? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任狮斗,我火速辦了婚禮,結(jié)果婚禮上弧蝇,老公的妹妹穿的比我還像新娘情龄。我一直安慰自己,他們只是感情好捍壤,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布骤视。 她就那樣靜靜地躺著,像睡著了一般鹃觉。 火紅的嫁衣襯著肌膚如雪专酗。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1 284
  • 那天盗扇,我揣著相機(jī)與錄音祷肯,去河邊找鬼沉填。 笑死,一個(gè)胖子當(dāng)著我的面吹牛佑笋,可吹牛的內(nèi)容都是我干的翼闹。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼蒋纬,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼猎荠!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起蜀备,我...
    開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤关摇,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后碾阁,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體输虱,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年脂凶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了宪睹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蚕钦,死狀恐怖横堡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情冠桃,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布道宅,位于F島的核電站食听,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏污茵。R本人自食惡果不足惜樱报,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望泞当。 院中可真熱鬧迹蛤,春花似錦、人聲如沸襟士。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)陋桂。三九已至逆趣,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間嗜历,已是汗流浹背宣渗。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工抖所, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人痕囱。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓田轧,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親鞍恢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子傻粘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容