YOLO9000: Better, Faster, Stronger論文筆記

論文地址:YOLO9000: Better, Faster, Stronger
項目地址:YOLO: Real-Time Object Detection

Abstract

時隔一年须眷,YOLO從v1版本進化到了v2版本伐脖,在YOLO的基礎(chǔ)上做了比較大的改進朴爬,在保持原有速度的同時提升精度得到Y(jié)OLOv2败潦,可以匹敵Faster-RCNNSSD

YOLO9000 FPS mAp
VOC 2007 67 76.8
VOC 2007 40 78.6

同時推盛,作者還提出了一種目標分類與檢測的聯(lián)合訓(xùn)練方法,同時在COCO和ImageNet數(shù)據(jù)集中進行訓(xùn)練得到Y(jié)OLO9000挽绩,實現(xiàn)9000多種物體的實時檢測汁果。

YOLO簡單示意

1. Introduction

目前的檢測數(shù)據(jù)集(Detection Datasets)有很多限制,分類標簽的信息太少疼电,圖片的數(shù)量小于分類數(shù)據(jù)集(Classi?cation Datasets)嚼锄,而且檢測數(shù)據(jù)集的成本太高,使其無法當作分類數(shù)據(jù)集進行使用蔽豺。而現(xiàn)在的分類數(shù)據(jù)集卻有著大量的圖片和十分豐富分類信息区丑。
  文章提出了一種新的訓(xùn)練方法–聯(lián)合訓(xùn)練。這種算法可以把這兩種的數(shù)據(jù)集混合到一起修陡。使用一種分層的觀點對物體進行分類沧侥,用巨量的分類數(shù)據(jù)集數(shù)據(jù)來擴充檢測數(shù)據(jù)集,從而把兩種不同的數(shù)據(jù)集混合起來魄鸦。 聯(lián)合訓(xùn)練算法的基本思路就是:同時在檢測數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測器(`Object Detectors` )宴杀,用監(jiān)測數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準確位置,用分類數(shù)據(jù)集的數(shù)據(jù)來增加分類的類別量拾因、提升健壯性旺罢。
  YOLO9000就是使用聯(lián)合訓(xùn)練算法訓(xùn)練出來的,他擁有9000類的分類信息绢记,這些分類信息學(xué)習(xí)自ImageNet分類數(shù)據(jù)集扁达,而物體位置檢測則學(xué)習(xí)自COCO檢測數(shù)據(jù)集。


2. Better

YOLO相比于Faster-RCNN庭惜,定位誤差比較大罩驻。與region proposal-based的方法相比穗酥,recall也較低护赊。所以作者旨在在保持分類準確率 的同時提高recall,同時降低localization誤差惠遏。
目前計算機視覺的趨勢是更大更深的網(wǎng)絡(luò),更好的性能表現(xiàn)通常依賴于訓(xùn)練更大的網(wǎng)絡(luò)或者把多種model綜合到一起骏啰。但是YOLO v2則著力于簡化網(wǎng)絡(luò)节吮。具體的改進見下圖:

Batch Normalization

使用Batch Normalization對網(wǎng)絡(luò)進行優(yōu)化,讓網(wǎng)絡(luò)提高了收斂性判耕,同時還消除了對其他形式的正則化(regularization)的依賴透绩。通過對YOLO的每一個卷積層增加Batch Normalization,最終使得mAP提高了2%(見上圖)壁熄,同時還使model正則化帚豪。使用Batch Normalization可以從model中去掉Dropout,而不會產(chǎn)生過擬合草丧。
 參考文章:Batch_Normalization

High Resolution Classi?er

所有state-of-the-art的檢測方法基本上都會使用ImageNet進行預(yù)訓(xùn)練狸臣。從Alexnet開始,大多數(shù)的分類器都運行在小于256*256的圖片上昌执。而現(xiàn)在YOLO從224*224增加到了448*448烛亦,這就意味著網(wǎng)絡(luò)需要適應(yīng)新的輸入分辨率。

為了適應(yīng)新的分辨率懂拾,YOLO v2的分類網(wǎng)絡(luò)以448*448的分辨率先在ImageNet上進行Fine Tune煤禽,F(xiàn)ine Tune10個epochs,讓網(wǎng)絡(luò)有時間調(diào)整他的濾波器(filters)岖赋,好讓其能更好的運行在新分辨率上檬果,還需要調(diào)優(yōu)用于檢測的Resulting Network。最終通過使用高分辨率唐断,mAP提升了4%汁汗。

Convolutional With Anchor Boxes.

YOLO使用全連接進行bounding box預(yù)測(要把1470*1的全鏈接層reshape為7730的最終特征),這會丟失較多的空間信息定位不準栗涂。YOLOv2借鑒了Faster R-CNN中的anchor思想: 簡單理解為卷積特征圖上進行滑窗采樣知牌,每個中心預(yù)測9種不同大小和比例的建議框。由于都是卷積不需要reshape斤程,很好的保留的空間信息角寸,最終特征圖的每個特征點和原圖的每個cell一一對應(yīng)。
 Faster R-CNN的方法只用卷積層與Region Proposal Network來預(yù)測Anchor Box的偏移值與置信度忿墅,而不是直接預(yù)測坐標值扁藕。作者發(fā)現(xiàn)通過預(yù)測偏移量而不是坐標值能夠簡化問題,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)起來更容易疚脐。

為了引入anchor boxes來預(yù)測bounding boxes,具體實現(xiàn)如下:

  • 移除最后的池化層確保輸出的卷積特征圖有更高的分辨率亿柑。
  • 縮減網(wǎng)絡(luò),讓圖片輸入分辨率為416 * 416棍弄,目的是讓后面產(chǎn)生的卷積特征圖寬高都為奇數(shù)望薄,這樣就可以產(chǎn)生一個center cell疟游。因為作者觀察到,大物體通常占據(jù)了圖像的中間位置痕支,可以只用一個中心的cell來預(yù)測這些物體的位置颁虐,否則就要用中間的4個cell來進行預(yù)測。
  • 使用卷積層降采樣(factor 為32)卧须,使得輸入卷積網(wǎng)絡(luò)的416 * 416圖片最終得到13 * 13的卷積特征圖另绩。( (416-32+0)/32+1=13 )
  • 把預(yù)測類別的機制從空間位置(cell)中解耦,由anchor box同時預(yù)測類別和坐標花嘶。因為YOLO是由每個cell來負責預(yù)測類別笋籽,每個cell對應(yīng)的2個bounding box 負責預(yù)測坐標 。YOLOv2中椭员,不再讓類別的預(yù)測與每個cell(空間位置)綁定一起干签,而是讓全部放到anchor box中。下面是特征維度示意圖(圖片來自知乎專欄)

 使用Anchor Box會讓精確度稍微下降拆撼,但用了它能讓YOLO能預(yù)測出大于一千個框容劳,同時recall達到88%,mAP達到69.2%闸度。

Dimension Clusters(維度聚類)

作者在使用anchor boxes的時候遇到了兩個問題竭贩,第一個是anchor boxes的寬高維度往往是精選的先驗框(hand-picked priors),雖說在訓(xùn)練過程中網(wǎng)絡(luò)也會學(xué)習(xí)調(diào)整boxes的寬高維度莺禁,最終得到準確的bounding boxes留量。但是,如果一開始就選擇了更好的哟冬、更有代表性的先驗boxes維度楼熄,那么網(wǎng)絡(luò)就更容易學(xué)到準確的預(yù)測位置。
 和以前的精選boxes維度不同浩峡,作者使用了K-means聚類方法訓(xùn)練bounding boxes可岂,可以自動找到更好的boxes寬高維度。傳統(tǒng)的K-means聚類方法使用的是歐氏距離函數(shù)翰灾,也就意味著較大的boxes會比較小的boxes產(chǎn)生更多的error缕粹,聚類結(jié)果可能會偏離。為此纸淮,作者采用的評判標準是IOU得分(也就是boxes之間的交集除以并集)平斩,這樣的話,error就和box的尺度無關(guān)了:
![](http://www.forkosh.com/mathtex.cgi? \Large
d(box,centroid) = 1 - IOU(box,centroid)
)
 下面左圖: 隨著k的增大咽块,IOU也在增大(高召回率)绘面,但是復(fù)雜度也在增加。所以平衡復(fù)雜度和IOU之后,最終得到k值為5揭璃。下面右圖:5聚類的中心與手動精選的boxes是完全不同的晚凿,扁長的框較少瘦高的框較多。


 當然塘辅,作者也做了實驗來對比兩種策略的優(yōu)劣,如下圖皆撩,使用聚類方法扣墩,僅僅5種boxes的召回率就和Faster R-CNN(61.0)的9種相當。說明K-means方法的引入使得生成的boxes更具有代表性扛吞,為后面的檢測任務(wù)提供了便利呻惕。


Direct location prediction

用Anchor Box時遇到的第二個問題就是,Anchor 會讓model變得不穩(wěn)定滥比,尤其是在最開始的幾次迭代的時候亚脆。大多數(shù)不穩(wěn)定因素產(chǎn)生自預(yù)測Box的(x,y)位置的時候。在RPN網(wǎng)絡(luò)中盲泛,預(yù)測值tx,ty,和中心坐標(x,y)是這樣計算的:
![x 是坐標預(yù)測值濒持,xa 是anchor坐標(預(yù)設(shè)固定值),y,w,h類似](http://www.forkosh.com/mathtex.cgi? \Large
x=(t_xw_a)-x_a \
y=(t_x
h_a)-y_a
)
 舉個例子,預(yù)測值tx=1時寺滚,box就會往右邊移動一個寬度柑营,tx= -1時,box就會往左邊移動一個寬度村视。
 這個公式?jīng)]有任何限制官套,無論在什么位置進行預(yù)測,任何anchor boxes可以在圖像中任意一點蚁孔。模型隨機初始化之后將需要很長一段時間才能穩(wěn)定預(yù)測敏感的物體偏移奶赔。因此作者沒有采用這種方法,而是預(yù)測相對于grid cell的坐標位置杠氢,同時把ground truth限制在0到1之間(利用logistic激活函數(shù)約束網(wǎng)絡(luò)的預(yù)測值來達到此限制)站刑。
  網(wǎng)絡(luò)在每一個網(wǎng)格單元中預(yù)測出5個Bounding Boxes,每個Bounding Boxes有五個坐標值tx鼻百,ty笛钝,tw,th愕宋,t0玻靡,他們的關(guān)系見下圖。假設(shè)一個網(wǎng)格單元對于圖片左上角的偏移量是cx中贝,cy囤捻,Bounding Boxes Prior的寬度和高度是pw,ph邻寿,那么預(yù)測的結(jié)果見下圖的公式:


 由于我們約束預(yù)測位置蝎土,參數(shù)更容易學(xué)習(xí)视哑,這使網(wǎng)絡(luò)更加穩(wěn)定。使用Dimension Clusters以及直接預(yù)測邊界框中心位置將YOLO比使用anchor
boxes的版本提高了近5%誊涯。

Fine-Grained Features(細粒度特征)

表示不懂 TUT
 YOLO修改后的Feature Map大小為13*13挡毅,這個尺寸對檢測圖片中尺寸大物體來說足夠了,同時使用這種細粒度的特征對定位小物體的位置可能也有好處暴构。Faster F-CNN跪呈、SSD都使用不同尺寸的Feature Map來取得不同范圍的分辨率,而YOLO采取了不同的方法取逾,YOLO加上了一個Passthrough Layer來取得之前的某個26*26分辨率的層的特征耗绿。這個Passthrough layer能夠把高分辨率特征與低分辨率特征聯(lián)系在一起,聯(lián)系起來的方法是把相鄰的特征堆積在不同的Channel之中砾隅,這一方法類似與Resnet的Identity Mapping误阻,從而把26*26*512變成13*13*2048。YOLO中的檢測器位于擴展后(expanded )的Feature Map的上方晴埂,所以他能取得細粒度的特征信息究反,這提升了YOLO 1%的性能。

Multi-ScaleTraining

原始YOLO網(wǎng)絡(luò)使用固定的448 * 448的圖片作為輸入儒洛,加入anchor boxes后輸入變成416 * 416奴紧,由于網(wǎng)絡(luò)只用到了卷積層和池化層,就可以進行動態(tài)調(diào)整(檢測任意大小圖片)晶丘。為了讓YOLOv2對不同尺寸圖片的具有魯棒性黍氮,在訓(xùn)練的時候也考慮了這一點。

不同于固定網(wǎng)絡(luò)輸入圖片尺寸的方法浅浮,每經(jīng)過10批訓(xùn)練(10 batches)就會隨機選擇新的圖片尺寸沫浆。網(wǎng)絡(luò)使用的降采樣參數(shù)為32,于是使用32的倍數(shù){320,352滚秩,…专执,608},最小的尺寸為320 * 320郁油,最大的尺寸為608 * 608本股。 調(diào)整網(wǎng)絡(luò)到相應(yīng)維度然后繼續(xù)進行訓(xùn)練。

這種機制使得網(wǎng)絡(luò)可以更好地預(yù)測不同尺寸的圖片桐腌,同一個網(wǎng)絡(luò)可以進行不同分辨率的檢測任務(wù)拄显,在小尺寸圖片上YOLOv2運行更快,在速度和精度上達到了平衡案站。

在低分辨率圖片檢測中躬审,YOLOv2是檢測速度快(計算消耗低),精度較高的檢測器。輸入為228 * 228的時候承边,幀率達到90FPS遭殉,mAP幾乎和Faster R-CNN的水準相同。使得其更加適用于低性能GPU博助、高幀率視頻和多路視頻場景险污。

在高分辨率圖片檢測中,YOLOv2達到了先進水平(state-of-the-art)富岳,VOC2007 上mAP為78.6%蛔糯,而且超過實時速度要求。下圖是YOLOv2和其他網(wǎng)絡(luò)在VOC2007上的對比:


3. Faster

YOLO一向是速度和精度并重城瞎,作者為了改善檢測速度渤闷,也作了一些相關(guān)工作疾瓮。

大多數(shù)檢測網(wǎng)絡(luò)有賴于VGG-16作為特征提取部分脖镀,VGG-16的確是一個強大而準確的分類網(wǎng)絡(luò),但是復(fù)雜度有些冗余狼电。224 * 224的圖片進行一次前向傳播蜒灰,其卷積層就需要多達306.9億次浮點數(shù)運算。

YOLOv2使用的是基于Googlenet的定制網(wǎng)絡(luò)肩碟,比VGG-16更快强窖,一次前向傳播僅需85.2億次運算∠髌恚可是它的精度要略低于VGG-16翅溺,單張224 * 224取前五個預(yù)測概率的對比成績?yōu)?8%和90%。

Darknet-19

YOLOv2使用了一個新的分類網(wǎng)絡(luò)作為特征提取部分髓抑,參考了前人的先進經(jīng)驗咙崎,比如類似于VGG,作者使用了較多的3 * 3卷積核吨拍,在每一次池化操作后把通道數(shù)翻倍褪猛。借鑒了network in network的思想,網(wǎng)絡(luò)使用了全局平均池化(global average pooling)羹饰,把1 * 1的卷積核置于3 * 3的卷積核之間伊滋,用來壓縮特征。也用了batch normalization(前面介紹過)穩(wěn)定模型訓(xùn)練队秩。

最終得出的基礎(chǔ)模型就是Darknet-19笑旺,如下圖,其包含19個卷積層馍资、5個最大值池化層(maxpooling layers )燥撞,下圖展示網(wǎng)絡(luò)具體結(jié)構(gòu)。Darknet-19運算次數(shù)為55.8億次,imagenet圖片分類top-1準確率72.9%物舒,top-5準確率91.2%色洞。


Darknet-19
Training for classi?cation

網(wǎng)絡(luò)訓(xùn)練在 ImageNet 1000類分類數(shù)據(jù)集,訓(xùn)練了160epochs冠胯,使用隨機梯度下降火诸,初始學(xué)習(xí)率為0.1, polynomial rate decay with a power of 4, weight decay of 0.0005 and momentum of 0.9 荠察。訓(xùn)練期間使用標準的數(shù)據(jù)擴大方法:隨機裁剪置蜀、旋轉(zhuǎn)、變換顏色(hue)悉盆、變換飽和度(saturation)盯荤, 變換曝光度(exposure shifts)。

在訓(xùn)練時焕盟,把整個網(wǎng)絡(luò)在更大的448*448分辨率上Fine Turnning 10個 epoches秋秤,初始學(xué)習(xí)率設(shè)置為0.001,這種網(wǎng)絡(luò)達到達到76.5%top-1精確度脚翘,93.3%top-5精確度灼卢。

Training for detection

網(wǎng)絡(luò)去掉了最后一個卷積層,而加上了三個3*3卷積層来农,每個卷積層有1024個Filters鞋真,每個卷積層緊接著一個1*1卷積層屉更。 對于VOC數(shù)據(jù)限书,網(wǎng)絡(luò)預(yù)測出每個網(wǎng)格單元預(yù)測五個Bounding Boxes诅炉,每個Bounding Boxes預(yù)測5個坐標和20類泞辐,所以一共125個Filters职车,增加了Passthough層來獲取前面層的細粒度信息丈秩,網(wǎng)絡(luò)訓(xùn)練了160epoches墩朦,初始學(xué)習(xí)率0.001勺阐,dividing it by 10 at 60 and 90 epochs蒋困,a weight decay of 0.0005 and momentum of 0.9盾似,數(shù)據(jù)擴大方法相同,對COCO與VOC數(shù)據(jù)集的訓(xùn)練對策相同雪标。


4. Stronger

作者提出了一種在分類數(shù)據(jù)集和檢測數(shù)據(jù)集上聯(lián)合訓(xùn)練的機制零院。使用檢測數(shù)據(jù)集的圖片去學(xué)習(xí)檢測相關(guān)的信息,例如bounding box 坐標預(yù)測村刨,是否包含物體以及屬于各個物體的概率告抄。使用僅有類別標簽的分類數(shù)據(jù)集圖片去擴展可以檢測的種類。

訓(xùn)練過程中把監(jiān)測數(shù)據(jù)和分類數(shù)據(jù)混合在一起嵌牺。當網(wǎng)絡(luò)遇到一張屬于檢測數(shù)據(jù)集的圖片就基于YOLOv2的全部損失函數(shù)(包含分類部分和檢測部分)做反向傳播打洼。當網(wǎng)絡(luò)遇到一張屬于分類數(shù)據(jù)集的圖片就僅基于分類部分的損失函數(shù)做反向傳播龄糊。

這種方法有一些難點需要解決。檢測數(shù)據(jù)集只有常見物體和抽象標簽(不具體)募疮,例如 “狗”炫惩,“船”。分類數(shù)據(jù)集擁有廣而深的標簽范圍(例如ImageNet就有一百多類狗的品種阿浓,包括 “Norfolk terrier”, “Yorkshire terrier”, and “Bedlington terrier”等. )他嚷。必須按照某種一致的方式來整合兩類標簽。

大多數(shù)分類的方法采用softmax層芭毙,考慮所有可能的種類計算最終的概率分布筋蓖。但是softmax假設(shè)類別之間互不包含,但是整合之后的數(shù)據(jù)是類別是有包含關(guān)系的退敦,例如 “Norfolk terrier” 和 “dog”粘咖。 所以整合數(shù)據(jù)集沒法使用這種方式(softmax 模型),

作者最后采用一種不要求互不包含的多標簽?zāi)P停╩ulti-label model)來整合數(shù)據(jù)集侈百。這種方法忽略了數(shù)據(jù)集的結(jié)構(gòu)(例如 COCO數(shù)據(jù)集的所有類別之間是互不包含的)

Hierarchical classi?cation(層次式分類)

ImageNet的標簽參考WordNet(一種結(jié)構(gòu)化概念及概念之間關(guān)系的語言數(shù)據(jù)庫)瓮下。例如:

層次式分類

很多分類數(shù)據(jù)集采用扁平化的標簽。而整合數(shù)據(jù)集則需要結(jié)構(gòu)化標簽设哗。

WordNet是一個有向圖結(jié)構(gòu)(而非樹結(jié)構(gòu))唱捣,因為語言是復(fù)雜的(例如“dog”既是“canine”又是“domestic animal”)两蟀,為了簡化問題网梢,作者從ImageNet的概念中構(gòu)建了一個層次樹結(jié)構(gòu)(hierarchical tree)來代替圖結(jié)構(gòu)方案。

創(chuàng)建層次樹的步驟是:

  • 遍歷ImageNet的所有視覺名詞
  • 對每一個名詞赂毯,在WordNet上找到從它所在位置到根節(jié)點(“physical object”)的路徑战虏。 許多同義詞集只有一條路徑。所以先把這些路徑加入層次樹結(jié)構(gòu)党涕。
  • 然后迭代檢查剩下的名詞烦感,得到路徑,逐個加入到層次樹膛堤。路徑選擇辦法是:如果一個名詞有兩條路徑到根節(jié)點手趣,其中一條需要添加3個邊到層次樹,另一條僅需添加一條邊肥荔,那么就選擇添加邊數(shù)少的那條路徑绿渣。

最終結(jié)果是一顆 WordTree (視覺名詞組成的層次結(jié)構(gòu)模型)。用WordTree執(zhí)行分類時燕耿,預(yù)測每個節(jié)點的條件概率中符。例如: 在“terrier”節(jié)點會預(yù)測:

如果想求得特定節(jié)點的絕對概率,只需要沿著路徑做連續(xù)乘積誉帅。例如 如果想知道一張圖片是不是“Norfolk terrier ”需要計算:(分類時假設(shè) 圖片包含物體:Pr(physical object) = 1.)

為了驗證這種方法作者在WordTree(用1000類別的ImageNet創(chuàng)建)上訓(xùn)練了Darknet-19模型淀散。為了創(chuàng)建WordTree1k作者天添加了很多中間節(jié)點右莱,把標簽由1000擴展到1369。訓(xùn)練過程中g(shù)round truth標簽要順著向根節(jié)點的路徑傳播:例如 如果一張圖片被標記為“Norfolk terrier”它也被標記為“dog” 和“mammal”等档插。為了計算條件概率慢蜓,模型預(yù)測了一個包含1369個元素的向量,而且基于所有“同義詞集”計算softmax郭膛,其中“同義詞集”是同一概念的下位詞胀瞪。

使用相同的訓(xùn)練參數(shù),層次式Darknet-19獲得71.9%的top-1精度和90.4%top-5精度饲鄙。盡管添加了369個額外概念凄诞,且讓網(wǎng)絡(luò)去預(yù)測樹形結(jié)構(gòu),精度只有略微降低忍级。按照這種方式執(zhí)行分類有一些好處帆谍,當遇到新的或未知物體類別,預(yù)測精確度降低的很溫和(沒有突然巨幅下降)轴咱。例如:如果網(wǎng)絡(luò)看到一張狗的圖片汛蝙,但是不確定狗的類別,網(wǎng)絡(luò)預(yù)測為狗的置信度依然很高朴肺,但是窖剑,狗的下位詞(“xx狗”)的置信度就比較低。
這個策略野同樣可用于檢測戈稿。不在假設(shè)每一張圖片都包含物體西土,取而代之使用YOLOv2的物體預(yù)測器(objectness predictor)得到Pr(physical object)的值。檢測器預(yù)測一個bounding box和概率樹(WordTree)鞍盗。沿著根節(jié)點向下每次都走置信度最高的分支直到達到某個閾值需了,最終預(yù)測物體的類別為最后的節(jié)點類別。

Dataset combination with WordTree

可以使用WordTree把多個數(shù)據(jù)集整合在一起般甲。只需要把數(shù)據(jù)集中的類別映射到樹結(jié)構(gòu)中的同義詞集合(synsets)肋乍。使用WordTree整合ImageNet和COCO的標簽如下圖:

joint classification and detection(聯(lián)合訓(xùn)練分類和檢測)

使用WordTree整合了數(shù)據(jù)集之后就可以在數(shù)據(jù)集(分類-檢測數(shù)據(jù))上訓(xùn)練聯(lián)合模型。我們想要訓(xùn)練一個檢測類別很大的檢測器所以使用COCO檢測數(shù)據(jù)集和全部ImageNet的前9000類創(chuàng)造一個聯(lián)合數(shù)據(jù)集敷存。為了評估我們使用的方法墓造,也從ImageNet detection challenge 中向整合數(shù)據(jù)集添加一些還沒有存在于整合數(shù)據(jù)集的類別。相應(yīng)的WordTree有9418個類別锚烦。由于ImageNet是一個非常大的數(shù)據(jù)集觅闽,所以通過oversampling COCO數(shù)據(jù)集來保持平衡,使ImageNet:COCO = 4:1挽牢。

使用上面的數(shù)據(jù)集訓(xùn)練YOLO9000谱煤。采用基本YOLOv2的結(jié)構(gòu),anchor box數(shù)量由5調(diào)整為3用以限制輸出大小禽拔。

當網(wǎng)絡(luò)遇到一張檢測圖片就正常反向傳播刘离。其中對于分類損失只在當前及其路徑以上對應(yīng)的節(jié)點類別上進行反向傳播室叉。

當網(wǎng)絡(luò)遇到一張分類圖片僅反向傳播分類損失。在該類別對應(yīng)的所有bounding box中找到一個置信度最高的(作為預(yù)測坐標)硫惕,同樣只反向傳播該類及其路徑以上對應(yīng)節(jié)點的類別損失茧痕。反向傳播objectness損失基于如下假設(shè):預(yù)測box與ground truth box的重疊度至少0.31IOU。

采用這種聯(lián)合訓(xùn)練恼除,YOLO9000從COCO檢測數(shù)據(jù)集中學(xué)習(xí)如何在圖片中尋找物體踪旷,從ImageNet數(shù)據(jù)集中學(xué)習(xí)更廣泛的物體分類。

作者在ImageNet detection task上評估YOLO9000豁辉。ImageNet detection task和COCO有44個物體類別是相同的令野。這意味著YOLO9000只從大多數(shù)測試數(shù)據(jù)集中看到過分類數(shù)據(jù)而非檢測數(shù)據(jù)。最終整體精度為19.7mAP徽级,在從未見過的156個物體檢測數(shù)據(jù)類別上精度為16.0mAP气破。這個結(jié)果高于DPM,但是YOLO9000是在不同數(shù)據(jù)集上進行半監(jiān)督訓(xùn)練餐抢。而且YOLO9000可以同時實時檢測9000多種其它物體類別现使。

作者也分析了YOLO9000在ImageNet上的性能,發(fā)現(xiàn)可以學(xué)習(xí)新的動物表現(xiàn)很好旷痕,但是學(xué)習(xí)衣服和設(shè)備這類物體則不行碳锈。因為從COCO數(shù)據(jù)集上動物類別那里學(xué)習(xí)到的物體預(yù)測泛化性很好。但是COCO數(shù)據(jù)集并沒有任何衣服類別的標簽數(shù)據(jù)(只有"人"類別)欺抗,所以YOLO9000很難對“太陽鏡”售碳,“游泳褲”這些類別建模。


5. Conclusion

YOLO v2 代表著目前最先進物體檢測的水平佩迟,在多種監(jiān)測數(shù)據(jù)集中都要快過其他檢測系統(tǒng)团滥,并可以在速度與精確度上進行權(quán)衡竿屹。

YOLO 9000 的網(wǎng)絡(luò)結(jié)構(gòu)允許實時地檢測超過9000種物體分類报强,這歸功于它能同時優(yōu)化檢測與分類功能。使用WordTree來混合來自不同的資源的訓(xùn)練數(shù)據(jù)拱燃,并使用聯(lián)合優(yōu)化技術(shù)同時在ImageNet和COCO數(shù)據(jù)集上進行訓(xùn)練秉溉,YOLO9000進一步縮小了監(jiān)測數(shù)據(jù)集與識別數(shù)據(jù)集之間的大小代溝。

文章還提出了WordTree碗誉,數(shù)據(jù)集混合訓(xùn)練召嘶,多尺寸訓(xùn)練等全新的訓(xùn)練方法。
 在以后的工作中哮缺,可能會涉足弱監(jiān)督方法用于圖像分割弄跌。監(jiān)督學(xué)習(xí)對于標記數(shù)據(jù)的要求很高,未來要考慮弱標記的技術(shù)尝苇,這將會極大擴充數(shù)據(jù)集铛只,提升訓(xùn)練量埠胖。


參考文章
曉雷機器學(xué)習(xí)筆記:YOLO2
YOLOv2 論文筆記/jesse_mx:YOLOv2 論文筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市淳玩,隨后出現(xiàn)的幾起案子直撤,更是在濱河造成了極大的恐慌,老刑警劉巖蜕着,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谋竖,死亡現(xiàn)場離奇詭異,居然都是意外死亡承匣,警方通過查閱死者的電腦和手機蓖乘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來韧骗,“玉大人驱敲,你說我怎么就攤上這事】硐校” “怎么了众眨?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長容诬。 經(jīng)常有香客問我娩梨,道長,這世上最難降的妖魔是什么览徒? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任狈定,我火速辦了婚禮,結(jié)果婚禮上习蓬,老公的妹妹穿的比我還像新娘纽什。我一直安慰自己,他們只是感情好躲叼,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布芦缰。 她就那樣靜靜地躺著,像睡著了一般枫慷。 火紅的嫁衣襯著肌膚如雪让蕾。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天或听,我揣著相機與錄音探孝,去河邊找鬼。 笑死誉裆,一個胖子當著我的面吹牛顿颅,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播足丢,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼粱腻,長吁一口氣:“原來是場噩夢啊……” “哼绍填!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起栖疑,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤讨永,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后遇革,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卿闹,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年萝快,在試婚紗的時候發(fā)現(xiàn)自己被綠了锻霎。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡揪漩,死狀恐怖旋恼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奄容,我是刑警寧澤冰更,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站昂勒,受9級特大地震影響蜀细,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜戈盈,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一奠衔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧塘娶,春花似錦归斤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至难捌,卻和暖如春膝宁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背根吁。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留合蔽,地道東北人击敌。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像拴事,于是被迫代替她去往敵國和親沃斤。 傳聞我的和親對象是個殘疾皇子圣蝎,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容