RCNN
卷積神經(jīng)網(wǎng)絡(luò)的物體檢測(cè)奠基之作斟赚,核心思想是對(duì)每張圖片選取多個(gè)區(qū)域,然后對(duì)每個(gè)區(qū)域樣本進(jìn)行卷積神經(jīng)網(wǎng)絡(luò),來(lái)抽取特征映之,最后使用分類(lèi)器來(lái)對(duì)齊分類(lèi)和一個(gè)回歸器來(lái)得到準(zhǔn)確的邊框。
框的選擇采用啟發(fā)式搜索(selective search)婉陷,此處的卷積神經(jīng)網(wǎng)絡(luò)主要用來(lái)提取特征,SVM用于對(duì)每一個(gè)框進(jìn)行分類(lèi)仇参。
Fast R-CNN
改進(jìn):
- 考慮到R-CNN中含有大量相互重疊的選取的框,針對(duì)每一個(gè)框都需要做卷積比較浪費(fèi)嫩絮,因此Fast-RCNN先對(duì)輸入圖片抽取特征丛肢,然后再選取區(qū)域。
- 用單個(gè)的多類(lèi)邏輯回歸代(softmax)替多個(gè)SVM進(jìn)行分類(lèi)剿干。
每個(gè)區(qū)域都是不同的大小摔踱,不方便分類(lèi),可選用resize將框變到同一大小怨愤,然后實(shí)現(xiàn)分類(lèi)派敷,但是resize無(wú)法求導(dǎo)。此處采用ROI pooling 將框變到同一大小撰洗,方便后邊網(wǎng)絡(luò)進(jìn)入全連接層篮愉,實(shí)現(xiàn)分類(lèi)。
ROI pooling 解釋?zhuān)簩⒔?jīng)過(guò)卷積之后的特征加上建議的方框差导,對(duì)每一個(gè)框劃分成n×m大小的格子试躏,然后對(duì)每一個(gè)小塊選取最大值保留,最終實(shí)現(xiàn)將所有建議框變成同樣大小的框n×m设褐。
Faster R-CNN
selective research 比較慢颠蕴,屬于傳統(tǒng)目標(biāo)檢測(cè)中方法,不容易實(shí)現(xiàn)助析,而且不好說(shuō)明原理犀被,解釋。
改進(jìn):將這部分變成RPN(region proposal network)
以任意一個(gè)像素為中心生成n個(gè)大小形狀不同的框外冀,錨框anchor box。(不同的長(zhǎng)寬比雪隧,不同大小)此處n=9脑沿,三種不同的大小,和三種長(zhǎng)寬比(3×3)共9個(gè)庄拇。
每個(gè)錨框抽取特征,然后做bounding box regression 判斷與真實(shí)框距離。
同時(shí)判斷框內(nèi)是否有物體仍秤,將初步判斷有物體的框送入ROI Pooling,然后送入softmax判斷是什么物體可很,同時(shí)再做refine,生成更準(zhǔn)確的BBox诗力。
RPN只負(fù)責(zé)產(chǎn)生一些邊框。特征來(lái)自Conv我抠。
總體:分兩步苇本,先生成box,然后與特征結(jié)合菜拓,做分類(lèi)瓣窄。
只是自己做的一個(gè)筆記,具體可看沐神視頻https://www.bilibili.com/video/av42355860/?p=8