簡介
這是一種把目標定位和檢測合起來做的算法洒宝,據(jù)作者測試可以達到45fps(復雜模型)和155fps(精簡模型)县匠。
算法簡介
Paste_Image.png
(1)把縮放成統(tǒng)一大小的圖片分割成S×S的單元格
(2)每一個單元格負責輸出B個矩形框九府,每一個框帶四個位置信息(x, y, w, h)靶橱,與一個該框是物體的概率隘弊,用Pr(Object)表示
(3)每一個單元格再負責輸出C個類別的概率糕再,用Pr(Class∣Object)表示
所以最終輸出層應有S×S×(B?5+C)個單元拱镐。最終輸出時艘款,是物體的概率乘以類別概率,才是整體識別到是一個物體的概率:
![][1]
[1]: http://latex.codecogs.com/gif.latex?\Pr(class)=Pr(Class|Object){\cdot}Pr(Object)
在論文You Only Look Once: Unified, Real-Time Object Detection中沃琅,S = 7哗咆,B = 2,C = 20益眉。 所以輸出的單元數(shù)為7×7×30晌柬。
所用到的神經(jīng)網(wǎng)絡結構:
從上圖的結構可以看到,倒數(shù)第二層是一個全連接層郭脂,所以最終的單元輸出整合了全局信息年碘,更好地預測圖像區(qū)域。
神經(jīng)網(wǎng)絡空間分析原理
p.png
![][2]
[2]: http://latex.codecogs.com/gif.latex?OutputSize=\frac{N+2P-F}{stride}+1
此時所用參數(shù):
![][3]
[3]: http://latex.codecogs.com/gif.latex?Parameters=F{\cdot}F+1
Generally,
如果輸入是一個![][4]
[4]: http://latex.codecogs.com/gif.latex?W_1{\times}H_1{\times}D_1
卷積需要4個參數(shù):
(1)濾波器數(shù)量K
(2)濾波器大小F
(3)濾波器滑動步長S
(4)補零大小P
則產生的下一層“圖像”大姓辜Α:
![][5]
[5]: http://latex.codecogs.com/gif.latex?W_2{\times}H_2{\times}D_2
其中
![][6]
[6]: http://latex.codecogs.com/gif.latex?W_2=\frac{W_1+2P-F}{S}+1
![][7]
[7]: http://latex.codecogs.com/gif.latex?H_2=\frac{H_1+2P-F}{S}+1
![][8]
[8]: http://latex.codecogs.com/gif.latex?D_2{=}K
這一共需要的參數(shù)數(shù)量為:
![][9]
[9]: http://latex.codecogs.com/gif.latex?Parameters=F^2{\times}D_1{\times}K+K
對于Pooling
如果輸入是一個![][4]
池化需要2個參數(shù):
(1)池化大小F
(2)滑動步長S
則產生的下一層“圖像”大杏煨啤:
![][5]
其中
![][10]
[10]: http://latex.codecogs.com/gif.latex?W_2=\frac{W_1-F}{S}+1
![][11]
[11]: http://latex.codecogs.com/gif.latex?H_2=\frac{H_1-F}{S}+1
![][12]
[12]: http://latex.codecogs.com/gif.latex?D_2{=}D_1
Darknet空間分析
http://www.reibang.com/writer#/notebooks/6424478/notes/5940397/preview
訓練
整個網(wǎng)絡最后一層為線性激活,其它層都為Leaky Rectified Linear激活方式
123.png
第一項確定(x莹弊,y)
第二項確定(w涤久,h)涡尘,之所以用平方根,是因為這樣可以減小Object大小不同造成的影響
第三四五項確定評分响迂,這樣的形式適用于稀疏矩陣考抄。
Disadvantage
(1)異常縮放比會檢測不出來
(2)物體很小時很難檢測(一個方塊只檢測一個物體)
(3)定位相對不準確