2014年R-CNN橫空出世箍土,首次將卷積神經(jīng)網(wǎng)絡(luò)帶入目標(biāo)檢測(cè)領(lǐng)域。受SPPnet啟發(fā)葵硕,rbg在15年發(fā)表Fast R-CNN眉抬,它的構(gòu)思精巧,流程更為緊湊懈凹,大幅提高目標(biāo)檢測(cè)速度蜀变。
在同樣的最大規(guī)模網(wǎng)絡(luò)上,F(xiàn)ast R-CNN和R-CNN相比介评,訓(xùn)練時(shí)間從84小時(shí)減少為9.5小時(shí)库北,測(cè)試時(shí)間從47秒減少為0.32秒爬舰。在PASCAL VOC 2007上的準(zhǔn)確率相差無(wú)幾,約在66%-67%之間寒瓦。
一.Fast R-CNN所解決R-CNN的三個(gè)問(wèn)題
關(guān)于R-CNN的一些總結(jié)見(jiàn)我另一篇文章 http://www.reibang.com/p/c1696c27abf8
1.測(cè)試速度慢
R-CNN中用CNN對(duì)每一個(gè)候選區(qū)域反復(fù)提取特征情屹,而一張圖片的2000個(gè)候選區(qū)域之間有大量重疊部分,這一設(shè)定造成特征提取操作浪費(fèi)大量計(jì)算杂腰。
Fast R-CNN將整個(gè)圖像歸一化后直接送入CNN網(wǎng)絡(luò)屁商,卷積層不進(jìn)行候選區(qū)的特征提取,而是在最后一個(gè)池化層加入候選區(qū)域坐標(biāo)信息颈墅,進(jìn)行特征提取的計(jì)算。
2.訓(xùn)練速度慢
同上
3.訓(xùn)練所需空間大
R-CNN中目標(biāo)分類(lèi)與候選框的回歸是獨(dú)立的兩個(gè)操作雾袱,并且需要大量特征作為訓(xùn)練樣本恤筛。
Fast R-CNN將目標(biāo)分類(lèi)與候選框回歸統(tǒng)一到CNN網(wǎng)絡(luò)中來(lái),不需要額外存儲(chǔ)特征芹橡。
二.Fast R-CNN網(wǎng)絡(luò)結(jié)構(gòu)
相比R-CNN最大的區(qū)別毒坛,在于RoI池化層和全連接層中目標(biāo)分類(lèi)與檢測(cè)框回歸微調(diào)的統(tǒng)一。
1.RoI池化層
RoI池化層可以說(shuō)是SPP(spatial pyramid pooling)的簡(jiǎn)化版林说,關(guān)于SPPnet的總結(jié)見(jiàn)我的另一篇文章 http://www.reibang.com/p/90f9d41c6436煎殷。RoI池化層去掉了SPP的多尺度池化,直接用MxN的網(wǎng)格腿箩,將每個(gè)候選區(qū)域均勻分成M×N塊豪直,對(duì)每個(gè)塊進(jìn)行max pooling。從而將特征圖上大小不一的候選區(qū)域轉(zhuǎn)變?yōu)榇笮〗y(tǒng)一的特征向量珠移,送入下一層弓乙。
2.特征提取方式
Fast R-CNN在特征提取上可以說(shuō)很大程度借鑒了SPPnet,首先將圖片用選擇搜索算法(selective search)得到2000個(gè)候選區(qū)域(region proposals)的坐標(biāo)信息钧惧。另一方面暇韧,直接將圖片歸一化到CNN需要的格式,整張圖片送入CNN(本文選擇的網(wǎng)絡(luò)是VGG)浓瞪,將第五層的普通池化層替換為RoI池化層懈玻,圖片然后經(jīng)過(guò)5層卷積操作后,得到一張?zhí)卣鲌D(feature maps)乾颁,開(kāi)始得到的坐標(biāo)信息通過(guò)一定的映射關(guān)系轉(zhuǎn)換為對(duì)應(yīng)特征圖的坐標(biāo)涂乌,截取對(duì)應(yīng)的候選區(qū)域,經(jīng)過(guò)RoI層后提取到固定長(zhǎng)度的特征向量钮孵,送入全連接層骂倘。
3.聯(lián)合候選框回歸與目標(biāo)分類(lèi)的全連接層
在R-CNN中的流程是先提proposal,然后CNN提取特征巴席,之后用SVM分類(lèi)器历涝,最后再做bbox regression進(jìn)行候選框的微調(diào);Fast R-CNN則是將候選框目標(biāo)分類(lèi)與bbox regression并列放入全連接層,形成一個(gè)multi-task模型荧库。
cls_ score層用于分類(lèi)堰塌,輸出K+1維數(shù)組p,表示屬于K類(lèi)和背景的概率分衫。 bbox_predict層用于調(diào)整候選區(qū)域位置场刑,輸出4*K維數(shù)組t,表示分別屬于K類(lèi)時(shí)蚪战,應(yīng)該平移縮放的參數(shù)牵现。
網(wǎng)絡(luò)的代價(jià)函數(shù)細(xì)節(jié)如下圖所示:三.Fast R-CNN的訓(xùn)練與測(cè)試
1.訓(xùn)練
首先用ILSVRC 20XX數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練是進(jìn)行有監(jiān)督的分類(lèi)的訓(xùn)練邀桑。然后在PASCAL VOC樣本上進(jìn)行特定調(diào)優(yōu)(fine tunning)瞎疼,調(diào)優(yōu)的數(shù)據(jù)集中25%的正樣本(與真實(shí)框IoU在0.5-1的候選框)、75%的負(fù)樣本(與真實(shí)框IoU在0.1-0.5的候選框)壁畸。PASCAL VOC數(shù)據(jù)集中既有物體類(lèi)別標(biāo)簽贼急,也有物體位置標(biāo)簽,有20種物體捏萍;正樣本僅表示前景太抓,負(fù)樣本僅表示背景;回歸操作僅針對(duì)正樣本進(jìn)行令杈。
在調(diào)優(yōu)訓(xùn)練時(shí)走敌,每一個(gè)mini-batch中首先加入N張完整圖片,而后加入從N張圖片中選取的R個(gè)候選框这揣。這R個(gè)候選框可以復(fù)用N張圖片前5個(gè)階段的網(wǎng)絡(luò)特征悔常,文章中N=2,R=128。微調(diào)前给赞,需要對(duì)有監(jiān)督預(yù)訓(xùn)練后的模型進(jìn)行3步轉(zhuǎn)化:
RoI池化層取代有監(jiān)督預(yù)訓(xùn)練后的VGG-16網(wǎng)絡(luò)最后一層池化層机打;
兩個(gè)并行層取代上述VGG-16網(wǎng)絡(luò)的最后一層全連接層和softmax層,并行層之一是新全連接層1+原softmax層1000個(gè)分類(lèi)輸出修改為21個(gè)分類(lèi)輸出【20種類(lèi)+背景】片迅,并行層之二是新全連接層2+候選區(qū)域窗口回歸層残邀;
上述網(wǎng)絡(luò)由原來(lái)單輸入:一系列圖像修改為雙輸入:一系列圖像和這些圖像中的一系列候選區(qū)域;
2.測(cè)試
四.其他亮點(diǎn)
1.SVD全連接層加速網(wǎng)絡(luò)
圖像分類(lèi)任務(wù)中柑蛇,用于卷積層計(jì)算的時(shí)間比用于全連接層計(jì)算的時(shí)間多芥挣,而在目標(biāo)檢測(cè)任務(wù)中,selective search算法提取的建議框比較多【約2k】耻台,幾乎有一半的前向計(jì)算時(shí)間被花費(fèi)于全連接層空免,就Fast R-CNN而言,RoI池化層后的全連接層需要進(jìn)行約2k次【每個(gè)建議框都要計(jì)算】盆耽,因此在Fast R-CNN中可以采用SVD分解加速全連接層計(jì)算,具體實(shí)現(xiàn)如下:
① 物體分類(lèi)和窗口回歸都是通過(guò)全連接層實(shí)現(xiàn)的蹋砚,假設(shè)全連接層輸入數(shù)據(jù)為x扼菠,輸出數(shù)據(jù)為y,全連接層參數(shù)為W坝咐,尺寸為u×v循榆,那么該層全連接計(jì)算為:
y=Wx(計(jì)算復(fù)雜度為u×v)
② 若將W進(jìn)行SVD分解,并用前t個(gè)特征值近似代替墨坚,即:
W=U∑VT≈U(u,1:t)?∑(1:t,1:t)?V(v,1:t)T
那么原來(lái)的前向傳播分解成兩步:
y=Wx=U?(∑?VT)?x=U?z
計(jì)算復(fù)雜度為u×t+v×t秧饮,若t<min(u,v),則這種分解會(huì)大大減少計(jì)算量泽篮;
在實(shí)現(xiàn)時(shí)盗尸,相當(dāng)于把一個(gè)全連接層拆分為兩個(gè)全連接層,第一個(gè)全連接層不含偏置帽撑,第二個(gè)全連接層含偏置振劳;實(shí)驗(yàn)表明,SVD分解全連接層能使mAP只下降0.3%的情況下提升30%的速度油狂,同時(shí)該方法也不必再執(zhí)行額外的微調(diào)操作。
2.圖片中心化采樣image-centric sampling
R-CNN和SPPnet中采用RoI-centric sampling:從所有圖片的所有候選區(qū)域中均勻取樣寸癌,這樣每個(gè)SGD的mini-batch中包含了不同圖像的樣本专筷,不同圖像之間不能共享卷積計(jì)算和內(nèi)存,運(yùn)算開(kāi)銷(xiāo)大蒸苇。
Fast R-CNN中采用image-centric sampling: mini-batch采用層次采樣磷蛹,即先對(duì)圖像采樣【N個(gè)】,再在采樣到的圖像中對(duì)候選區(qū)域采樣【每個(gè)圖像中采樣R/N個(gè)溪烤,一個(gè)mini-batch共計(jì)R個(gè)候選區(qū)域樣本】味咳,同一圖像的候選區(qū)域卷積共享計(jì)算和內(nèi)存,降低了運(yùn)算開(kāi)銷(xiāo)檬嘀。
image-centric sampling方式采樣的候選區(qū)域來(lái)自于同一圖像槽驶,相互之間存在相關(guān)性,可能會(huì)減慢訓(xùn)練收斂的速度鸳兽,但是作者在實(shí)際實(shí)驗(yàn)中并沒(méi)有出現(xiàn)這樣的擔(dān)憂掂铐,反而使用N=2,R=128的image-centric sampling方式比R-CNN收斂更快揍异。
這里解釋一下為什么SPPnet不能更新spatial pyramid pooling層前面的卷積層全陨,而只能更新后面的全連接層? 一種說(shuō)法解釋卷積特征是線下計(jì)算的衷掷,從而無(wú)法在微調(diào)階段反向傳播誤差辱姨;另一種解釋是,反向傳播需要計(jì)算每一個(gè)RoI感受野的卷積層梯度戚嗅,通常所有RoI會(huì)覆蓋整個(gè)圖像雨涛,如果用RoI-centric sampling方式會(huì)由于計(jì)算too much整幅圖像梯度而變得又慢又耗內(nèi)存枢舶。
五.小結(jié)
有的時(shí)候,好的成果并不一定全都是首創(chuàng)镜悉,F(xiàn)ast R-CNN就是一個(gè)很好的說(shuō)明祟辟,SPPnet的池化思想在Fast上得到了簡(jiǎn)化與發(fā)揚(yáng),同時(shí)作者rbg在R-CNN的基礎(chǔ)上進(jìn)一步將檢測(cè)框回歸整合到了神經(jīng)網(wǎng)絡(luò)中來(lái)侣肄,使得Fast的訓(xùn)練測(cè)試速率得到非常大的提升旧困。
論文原文:
https://www.semanticscholar.org/paper/Fast-R-CNN-Girshick/3dd2f70f48588e9bb89f1e5eec7f0d8750dd920a
參考文章:
https://blog.csdn.net/shenxiaolu1984/article/details/51036677