??什么叫一個物體的中心落在某網(wǎng)格內(nèi)切省,則相應網(wǎng)格負責檢測該物體
答:意思是指如果某個groundtruth的中心點落在該網(wǎng)格,則該網(wǎng)格負責對該物體的boundingbox進行回歸
區(qū)別于之前目標檢測的R-CNN系列乖阵,通過region proposal+分類的方式實現(xiàn)檢測的功能巾钉,YOLO沒有選擇滑動窗口或提取proposal的方式來訓練網(wǎng)絡,而是直接選用整張圖的訓練模式贤徒。其一次性預測多個Box位置和類別,實現(xiàn)端到端到目標檢測和識別汇四,其最大的優(yōu)勢在于其速度很快接奈,但精度上有所損失。相比于R-CNN系列通孽,其能更好地區(qū)分出目標和背景區(qū)域序宦。另外,YOLO相當于是一個實現(xiàn)回歸功能的CNN網(wǎng)絡背苦,其預測出boundingbox的位置及confidence以及所屬類別的概率互捌。
總體思路:將整張圖片劃分成n*n個單元潘明,每個單元通過回歸產(chǎn)生B個boundingbox,對每個單元中的boundingbox進行篩選是通過IOU值的大小進行的,保留IOU值最大的那個boundingbox秕噪,最后對于整幅圖像上的boundingbox通過非極大值抑制的方式篩選出目標的檢測框钳降。
訓練過程:
Step1:將圖片劃分成單元格
將整張圖片劃分成s*s個單元格(文中設(shè)置s=7),若有待檢測物體的中心落入該單元格中腌巾,則該單元格負責對該物體的檢測(遂填??如何判斷物體中心是否落入該單元格)澈蝙。每個單元格產(chǎn)生類別預測結(jié)果(文中為20類)吓坚,每個單元格回歸產(chǎn)生B個boundingbox,每個boundingbox共享該單元格中的類別預測值灯荧。
每個預測的boundingbox包含5個參數(shù)——boundingbox的中心坐標(x,y)以及boundingbox的(width礁击,height)以及一個confidence,其計算方式為:
此處的IOU表示的是該boundingbox與若干個groundtruth的IOU中值最大的那個逗载。
注:class信息是針對每個單元格而言的哆窿,confidence信息是針對每個boundingbox而言的。下圖說明了所有預測值參數(shù)的計算方式:
其實現(xiàn)的網(wǎng)絡結(jié)構(gòu)如下圖所示:(厉斟?挚躯?最后如何從4096轉(zhuǎn)換成7*7*30)
Step2:損失函數(shù)設(shè)計
測試階段:
性能評估