姓名:李澤銘? ? ? ? ? 學(xué)號:22011210787? ? ? ? ? 通信工程學(xué)院
轉(zhuǎn)載自:YOLO v3 詳解_*青云*的博客-CSDN博客_yolov3介紹
【嵌牛導(dǎo)讀】YOLO v3 是目前工業(yè)界用的非常多的目標(biāo)檢測的算法。YOLO v3 沒有太多的創(chuàng)新琴锭,主要是借鑒一些好的方案融合到 YOLO v2 里面力奋。不過效果還是不錯的掰读,在保持速度優(yōu)勢的前提下采盒,提升了預(yù)測精度软免,尤其是加強(qiáng)了對小物體的識別能力贰军。
【嵌牛鼻子】Yolo V3植兰;卷積神經(jīng)網(wǎng)絡(luò)份帐;
【嵌牛提問】? ? Yolo V3相比其他類型的卷積神經(jīng)網(wǎng)絡(luò),優(yōu)勢具體體現(xiàn)在哪里楣导?
【嵌牛正文】
一废境、核心思想
? ? ?YOLO v3 的核心思想就是用 3 種不同的網(wǎng)格來劃分原始圖像。其中 13 * 13 的網(wǎng)格劃分的每一塊最大筒繁,用于預(yù)測大物體彬坏。26 * 26 的網(wǎng)格劃分的每一塊中等大小,用于預(yù)測中等物體膝晾。52 * 52 的網(wǎng)格劃分的每一塊最小栓始,用于預(yù)測小物體。
二血当、Darknet-53
YOLO v3 的 backbone 采用了自己設(shè)計的 Darknet-53 的網(wǎng)絡(luò)結(jié)構(gòu)(含有53個卷積層)幻赚,它借鑒了殘差網(wǎng)絡(luò) residual network 的做法禀忆,在一些層之間設(shè)置了快捷鏈路(shortcut connections)。
??上圖的 Darknet-53 網(wǎng)絡(luò)采用 256 * 256 * 3 作為輸入落恼,最左側(cè)那一列的 1箩退、2、8 等數(shù)字表示多少個重復(fù)的殘差組件佳谦。每個殘差組件有兩個卷積層和一個快捷鏈路戴涝,示意圖如下:
三、網(wǎng)絡(luò)結(jié)構(gòu)
YOLO v2 曾采用 passthrough 結(jié)構(gòu)來檢測細(xì)粒度特征钻蔑,在 YOLO v3 更進(jìn)一步采用了 3 個不同尺度的特征圖來進(jìn)行對象檢測啥刻。
??結(jié)合上圖看,卷積網(wǎng)絡(luò)在 79 層后咪笑,經(jīng)過下方幾個黃色的卷積層得到一種尺度的檢測結(jié)果可帽。相比輸入圖像,這里用于檢測的特征圖有 32 倍的下采樣窗怒。比如輸入是 416 * 416 的話映跟,這里的特征圖就是 13 * 13 了。由于下采樣倍數(shù)高扬虚,這里特征圖的感受野比較大努隙,因此適合檢測圖像中尺寸比較大的對象。
??為了實現(xiàn)細(xì)粒度的檢測辜昵,第 79 層的特征圖又開始作上采樣(從 79 層往右開始上采樣卷積)荸镊,然后與第 61 層特征圖融合(Concatenation),這樣得到第 91 層較細(xì)粒度的特征圖路鹰,同樣經(jīng)過幾個卷積層后得到相對輸入圖像 16 倍下采樣的特征圖。它具有中等尺度的感受野收厨,適合檢測中等尺度的對象晋柱。
??最后,第 91 層特征圖再次上采樣诵叁,并與第 36 層特征圖融合(Concatenation)雁竞,最后得到相對輸入圖像 8 倍下采樣的特征圖。它的感受野最小拧额,適合檢測小尺寸的對象碑诉。
四、9 種尺度先驗框
隨著輸出的特征圖的數(shù)量和尺度的變化侥锦,先驗框的尺寸也需要相應(yīng)的調(diào)整进栽。YOLO v2 已經(jīng)開始采用 K-means 聚類得到先驗框的尺寸,YOLO v3 延續(xù)了這種方法恭垦,為每種下采樣尺度設(shè)定 3 種先驗框快毛,總共聚類出 9 種尺寸的先驗框格嗅。在 COCO 數(shù)據(jù)集這 9 個先驗框是:(10x13),(16x30)唠帝,(33x23)屯掖,(30x61),(62x45)襟衰,(59x119)贴铜,(116x90),(156x198)瀑晒,(373x326)绍坝。
??分配上,在最小的 13 * 13 特征圖上(有最大的感受野)應(yīng)用較大的先驗框(116x90)瑰妄,(156x198)陷嘴,(373x326),適合檢測較大的對象间坐。中等的 26 * 26 特征圖上(中等感受野)應(yīng)用中等的先驗框(30x61)灾挨,(62x45),(59x119)竹宋,適合檢測中等大小的對象劳澄。較大的 52 * 52 特征圖上(較小的感受野)應(yīng)用較小的先驗框(10x13),(16x30)蜈七,(33x23)秒拔,適合檢測較小的對象。
我們可以通過下面的圖片來感受一下先驗框的大小和 feature map 大小的關(guān)系飒硅。其中藍(lán)色框為聚類得到的先驗框砂缩。黃色框式 ground truth,紅框是對象中心點(diǎn)所在的網(wǎng)格三娩。
五庵芭、輸入與輸出
不考慮神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)的話,總的來說雀监,對于一個輸入圖像双吆,YOLO v3 將其映射到 3 個尺度的輸出張量,代表圖像各個位置存在各種對象的概率会前。
??我們看一下 YOLO v3 共進(jìn)行了多少個預(yù)測好乐。對于一個 416 * 416 的輸入圖像,在每個尺度的特征圖的每個網(wǎng)格設(shè)置 3 個先驗框瓦宜,總共有 13 * 13 * 3 + 26 * 26 * 3 + 52 * 52 * 3 = 10647 個預(yù)測蔚万。每一個預(yù)測是一個 (4 + 1 + 80) = 85 維向量,這個 85 維向量包含邊框坐標(biāo)(4 個數(shù)值)临庇,邊框置信度(1 個數(shù)值)笛坦,對象類別的概率(對于 COCO 數(shù)據(jù)集区转,有 80 種對象)。
??對比一下版扩,YOLO v2 采用 13 * 13 * 5 = 845 個預(yù)測废离,YOLO v3 的嘗試預(yù)測邊框數(shù)量增加了 10 多倍,而且是在不同分辨率上進(jìn)行礁芦,所以 mAP 以及對小物體的檢測效果有一定的提升蜻韭。
六、檢測效果
如果采用 COCO mAP-50 做評估指標(biāo)(不是太介意預(yù)測框的準(zhǔn)確性的話)柿扣,YOLO v3 的表現(xiàn)相當(dāng)驚人肖方,如下圖所示,在精確度相當(dāng)?shù)那闆r下未状,YOLO v3 的速度是其它模型的 3俯画、4 倍。
不過如果要求更精準(zhǔn)的預(yù)測邊框司草,采用 COCO AP 做評估標(biāo)準(zhǔn)的話艰垂,YOLO v3 在精確率上的表現(xiàn)就弱了一些。如下圖所示埋虹。