CVPR2016: You Only Look Once:Unified, Real-Time Object Detection
轉(zhuǎn)載請注明作者:夢里茶
YOLO繁涂,You Only Look Once,摒棄了RCNN系列方法中的region proposal步驟榛鼎,將detection問題轉(zhuǎn)為一個回歸問題
網(wǎng)絡(luò)結(jié)構(gòu)
輸入圖片:resize到448x448
整張圖片輸入卷積神經(jīng)網(wǎng)絡(luò)(24層卷積+2層全連接司致,下面這張示意圖是Fast YOLO的)
- 將圖片劃分為SxS個格子瑟蜈,S=7
- 輸出一個SxS大小的class probability map爽哎,為圖片上每個格子所屬的分類
- 輸出為每個格子輸出B個bounding box,每個bounding box由x,y,w,h表示衷旅,為每個bounding box輸出一個confidence捐腿,即屬于前景的置信度
于是輸出可以表示為一個SxSx(B*(4+1)+C)的tensor,訓(xùn)練只需要根據(jù)數(shù)據(jù)集準(zhǔn)備好這樣的tensor進(jìn)行regression就行
- 對所有bounding box按照confidence做非極大抑制柿顶,得到檢測結(jié)果
訓(xùn)練
Loss
- 前兩行為定位loss茄袖,λcoord為定位loss的權(quán)重,論文中取5
- 第三行為一個bounding box屬于前景時的置信度回歸loss嘁锯,
- 當(dāng)格子中有對象出現(xiàn)時宪祥,真實(shí)Ci為1,
- 1ijobj是一個條件表達(dá)式家乘,當(dāng)bounding box“負(fù)責(zé)(is responsible for)”圖中一個真實(shí)對象時為1蝗羊,否則為0,
- 所謂“負(fù)責(zé)”仁锯,指的是在當(dāng)前這個格子的所有bounding box中耀找,這個bounding box與真實(shí)的bounding box重疊率最大
- 第四行為一個bounding box屬于背景時的置信度回歸loss,
- 為了避免負(fù)樣本過多導(dǎo)致模型跑偏业崖, λnoobj=0.5涯呻,
- 1ijnoobj是一個條件表達(dá)式凉驻,為1ijobj取反
- 于是我們可以發(fā)現(xiàn)一個格子的兩個bounding box的分工:一個貢獻(xiàn)前景l(fā)oss,一個貢獻(xiàn)背景l(fā)oss 复罐,不論是前景背景box涝登,我們都希望它們的confidence接近真實(shí)confidence,實(shí)際上效诅,如果 λnoobj=1胀滚, 第四五行可以合并為一項求和,但由于背景box太多乱投,所以才單獨(dú)拆開加了權(quán)重約束
- 第五行為分類loss咽笼,1iobj是一個條件表達(dá)式,當(dāng)有對象出現(xiàn)在這個格子中戚炫,取1剑刑,否則取0
YOLO里最核心的東西就講完了,其實(shí)可以把YOLO看作固定region proposal的Faster RCNN双肤,于是可以省掉Faster RCNN里region proposal部分施掏,分類和bounding box regression跟Faster RCNN是差不多的
細(xì)節(jié)
Leaky Relu
網(wǎng)絡(luò)中只有最后的全連接層用了線性的激活函數(shù),其他層用了leaky Relu:f(x)=max(x, 0.1x)
對比Relu和leaky Relu
在x小于0的時候茅糜,用了0.1x七芭,避免使用relu的時候有些單元永遠(yuǎn)得不到激活(Dead ReLU Problem)
Fast YOLO
卷積層更少,只有9層卷積+2層全連接蔑赘,每層filters也更少狸驳,于是速度更快
實(shí)驗效果
- 對比當(dāng)前最好方法:
Fast YOLO速度最快,準(zhǔn)確率不太高缩赛,但還是比傳統(tǒng)方法好耙箍,YOLO則比較中庸,速度不慢酥馍,準(zhǔn)確率也不太高究西,但也還行。
- 再看看具體是在哪些類型的圖片上出錯的:
主要是定位不準(zhǔn)(畢竟沒有精細(xì)的region proposal)物喷,但是在背景上出錯較少(不容易把背景當(dāng)成對象)
缺點(diǎn)
- 固定的格子是一種很強(qiáng)的空間限制卤材,7x7的格子決定了整張圖片最多預(yù)測98個對象,對于對象數(shù)量很多的圖片(比如鳥群)無能為力
- 難以泛化到其他形狀或角度的物體上
- 損失函數(shù)沒有考慮不同尺寸物體的error權(quán)重峦失,大box權(quán)重和小box權(quán)重一樣
Summary
Anyway扇丛,YOLO結(jié)構(gòu)還是挺優(yōu)雅的,比Faster RCNN黑科技少多了尉辑,更重要的是帆精,它是當(dāng)時最快的深度學(xué)習(xí)檢測模型,也是很值得肯定的。