1.物體檢測最直觀的方法:滑框(sliding window),滑框法幾乎是通過枚舉的方式提供了框的位置,本質是把檢測問題轉換成了圖片分類問題夜惭。
2.選擇搜索法(selective search)
代表作:Selective Search for Object Recognition
3.R-CNN
避免滑窗法窮盡量大弊端以及使用CNN自動提取特征
第一步)對輸入的圖片進行區(qū)域提取岖食,R-CNN用的selective search
第二步)對每一塊提取出來的區(qū)域縮放到統(tǒng)一的大小莹妒,輸入CNN中使之輸出一個Nx1的特征向量名船,然后用分類器(文中使用SVM,討論了softmax的可行性)判斷該區(qū)域是不是某類物體旨怠,接著分類完成之后對選出的區(qū)域做了一個框回歸(bounding box regression)渠驼,最后的結果:物體種類和框的位置。
4.Fast R-CNN錨點機制
錨點鉴腻。理解RPN的關鍵也就在錨點上迷扇。錨點,字面理解就是標定位置的固定的點爽哎。在提框機制中蜓席,是預先設定好一些固定的點(anchor)和框(anchor box)的意思。如上圖倦青,假設在原來的圖像上設定4個錨點(2x2),那么原圖就可以看作分成2x2的格子盹舞,每個格子的中心叫做一個錨點产镐。以錨點為中心,給定倆個寬高比(1:2, 2:1)踢步,確定一個寬度或者高度(100px)癣亚,畫倆個框,綠色和紅色的框就是錨點框(anchor box)获印。也就是說述雾,我們看作每一個錨點都可以產(chǎn)生倆個錨點框,這些框就是固定在這里存在的兼丰,不會變也不會動玻孟。
Faster-RCNN由RPN和Fast-RCNN組成,RPN負責尋找proposal鳍征,F(xiàn)ast-RCNN負責對RPN的結果進一步優(yōu)化黍翎。其實RPN已經(jīng)可以找到圖片中每個物體的種類和位置,如果更注重速度而不是精度的話完全可以只使用RPN艳丛。
https://zhuanlan.zhihu.com/p/44670184