摘要:
SPPNET 和 FAST RCNN 較少了檢測網(wǎng)絡(luò)的時間菜皂,但是 region proposal 還是耗費很多時間古今。FASTER RCNN 解決了這個問題货邓,提出了Region Proposal Network(RPN)代替selective search部分岗照,同時輸出bbox和每一類的scores⊥げ。可以與FAST RCNN結(jié)合實現(xiàn)端到端的網(wǎng)絡(luò)鹅很,可以共享卷積特征。速度是5fps罪帖,在VOC2007的結(jié)果是mAP 73.2%.
整個FASTER RCNN的結(jié)構(gòu)圖如下所示:
Region Proposal Networks
PRN以任意尺寸的圖片作為輸入促煮,輸出一系列矩形的region proposals以及每個對應(yīng)的scores。為了使PRN和fast rcnn 分享卷積特征整袁,所以這兩個網(wǎng)絡(luò)要使用同樣的卷積層菠齿。本文使用了ZF和VGG19兩個網(wǎng)絡(luò)的卷積層,作為共享卷積層坐昙。
如圖1所示绳匀,為了生成region proposals 在最后一個卷積層上,用一個n*n(n=3)的小窗口(卷積層)滑動每個位置炸客,把特征降為256維疾棵。把這256為特征分別輸入兩個全連接層cls和reg。
Translation-Invariant Anchors
在每個滑窗的位置預(yù)測k個region proposals(k=9)叫作anchor痹仙,3種尺度和3種長寬比是尔。reg layer 有4k個輸出對應(yīng)BBox的坐標(biāo),cls layer有2k個scores輸出對應(yīng)是否有目標(biāo)的概率开仰。若一個最后一個特征層大小是W*H,那么總共有WHk個anchors拟枚。
A Loss Function for Learning Region Proposals
為了訓(xùn)練PRNs薪铜,賦予anchors二值的類標(biāo)對應(yīng)是否包含object。以下兩種anchors賦予正類標(biāo):
- 與某個ground truth 的IOU最大的anchors恩溅。
- 與任何GT的IOU大于0.7的anchors隔箍。
賦予與任何GT的iou小于0.3的anchors作為負(fù)例,其余的anchors棄之不用脚乡。
損失函數(shù)如下:
Optimization
一個mini-batch從一幅圖像中采樣256個anchors蜒滩,正負(fù)樣本比例為1:1. 如果正樣本數(shù)量不夠128,就用負(fù)樣本填充每窖。
Sharing Convolutional Features for Region Proposal and Object Detection
- 先訓(xùn)練PRNs帮掉。通過在imagenet上訓(xùn)練好的分類模型弦悉,端到端的在Region Proposal任務(wù)上fine-tune窒典。
- 訓(xùn)練FAST RCNN網(wǎng)絡(luò)通過step1中PRNs生成的region proposals。FAST RCNN也通過預(yù)訓(xùn)練網(wǎng)絡(luò)初始化稽莉。
- 用dectetion 網(wǎng)絡(luò)初始化PRNs網(wǎng)絡(luò)瀑志,固定共享層,只fine-tunePRNS獨有的層污秆。
- 最后劈猪,固定共享層,fine-tune FAST RANN的全連接層良拼。
最后要進(jìn)行非最大值抑制战得,刪除重復(fù)的bbox。在NMS 之后庸推,選擇得分最高的N個區(qū)域作為結(jié)果常侦。