yolov3 spp的更新
Mosaic圖像增強
- 將多張圖片進行拼接輸入網(wǎng)絡進行訓練,源碼中是將四張圖片進行拼接
- 優(yōu)點:
- 增加了數(shù)據(jù)的多樣性;
- 增加了檢測目標個數(shù)粒褒;
- BN能一次統(tǒng)計多張圖片的參數(shù),BN層的作用是求每個特征層的均值和方差,如果我們選取的batchsize(每批數(shù)據(jù)量的大信ⅰ)越大,則BN層計算出來的均值和方差就和整個數(shù)據(jù)集的均值和方差更接近茧泪。因為我們將圖像進行拼接蜓氨,所以使得batchsize變相增大了
SPP模塊
-
四個通道在深度方向進行拼接,由16 * 16 * 512變成了16 * 16 * 1024队伟,因為padding是1穴吹,所以不改變特征矩陣的高和寬
CIoU Loss
-
相同的L2損失卻對應了不同的IoU
-IoU Loss
-
GIoU Loss(增加了重疊面積信息)
綠色為真是目標邊界框,紅色為網(wǎng)絡預測邊界框嗜侮,藍色(Ac)為將這兩個邊界框框住所需的最小邊界框港令,u紅綠兩個邊界框的并集
-
GIoU Loss的缺點:當兩個邊界框并列時就退化成初始的IoU
-
DIoU Loss(增加了中心點距離信息)
黑色為先驗框,綠色為真實目標邊界框锈颗,藍色為預測框
-
CIoU Loss(增加了長寬比信息)
Focal Loss(為了解決正負樣本數(shù)量相差太大的問題)
CE為交叉熵
α并不是正負樣本的比例顷霹,而是一個超參數(shù),是一個用來平衡正負樣本的權重宜猜,從圖中可以看出α取0.75時得到的效果最好
引入新的權重(1-pt)的γ次方泼返,對α進行替換
最終的FL損失計算公式,又引入了一個超參數(shù)αt
-
結果對比
p(網(wǎng)絡預測其為目標的概率)這里可以理解為預測的難易程度姨拥,當為正樣本時绅喉,其值越大越易于區(qū)分渠鸽,當為負樣本時,其值越小越易語區(qū)分柴罐。當一個樣本更易于區(qū)分的時候徽缚,我們希望給它小的權重
y表示樣本的正負,1為正樣本