這幾天在看《Rich feature hierarchies for accurate object detection and semantic segmentation》碟联,覺得作者的科研素養(yǎng)非常棒,考慮問題很全面而且很有邏輯性;
不過暫時有的地方看的也不是太懂撬码,這里轉(zhuǎn)載了一篇博客中的介紹购笆,博主寫的不錯;
博客鏈接:http://blog.csdn.net/wopawn/article/details/52133338
paper鏈接:鏈接: https://pan.baidu.com/s/1qYO4vY8 密碼: 62fd
paper中相關(guān)名詞解釋:鏈接: https://pan.baidu.com/s/1nuAhidz 密碼: pnsh
再推薦一個博客:http://blog.csdn.net/hjimce/article/details/50187029
&創(chuàng)新點
采用CNN網(wǎng)絡(luò)提取圖像特征矫渔,從經(jīng)驗驅(qū)動的人造特征范式HOG崔列、SIFT到數(shù)據(jù)驅(qū)動的表示學習范式,提高特征對樣本的表示能力屁桑;
采用大樣本下有監(jiān)督預訓練+小樣本微調(diào)的方式解決小樣本難以訓練甚至過擬合等問題医寿。
&問題是什么
近10年以來,以人工經(jīng)驗特征為主導的物體檢測任務(wù)mAP【物體類別和位置的平均精度】提升緩慢蘑斧;
隨著ReLu激勵函數(shù)靖秩、dropout正則化手段和大規(guī)模圖像樣本集ILSVRC的出現(xiàn),在2012年ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中竖瘾,Hinton及他的學生采用CNN特征獲得了最高的圖像識別精確度沟突;
上述比賽后,引發(fā)了一股“是否可以采用CNN特征來提高當前一直停滯不前的物體檢測準確率“的熱潮捕传。
【寫給小白:一圖理解圖像分類惠拭,圖像定位,目標檢測和實例分割】
&如何解決問題
庸论。測試過程
輸入一張多目標圖像职辅,采用selective search算法提取約2000個建議框;
先在每個建議框周圍加上16個像素值為建議框像素平均值的邊框葡公,再直接變形為227×227的大泄夼;
先將所有建議框像素減去該建議框像素平均值后【預處理操作】催什,再依次將每個227×227的建議框輸入AlexNet CNN網(wǎng)絡(luò)獲取4096維的特征【比以前的人工經(jīng)驗特征低兩個數(shù)量級】涵亏,2000個建議框的CNN特征組合成2000×4096維矩陣;
將2000×4096維特征與20個SVM組成的權(quán)值矩陣4096×20相乘【20種分類蒲凶,SVM是二分類器气筋,則有20個SVM】,獲得2000×20維矩陣表示每個建議框是某個物體類別的得分旋圆;
分別對上述2000×20維矩陣中每一列即每一類進行非極大值抑制剔除重疊建議框宠默,得到該列即該類中得分最高的一些建議框;
分別用20個回歸器對上述20個類別中剩余的建議框進行回歸操作灵巧,最終得到每個類別的修正后的得分最高的bounding box搀矫。
。解釋分析
selective search
采取過分割手段刻肄,將圖像分割成小區(qū)域瓤球,再通過顏色直方圖,梯度直方圖相近等規(guī)則進行合并敏弃,最后生成約2000個建議框的操作卦羡,具體見博客。
為什么要將建議框變形為227×227?怎么做绿饵?
本文采用AlexNet CNN網(wǎng)絡(luò)進行CNN特征提取欠肾,為了適應AlexNet網(wǎng)絡(luò)的輸入圖像大小:227×227拟赊,故將所有建議框變形為227×227刺桃。
那么問題來了,如何進行變形操作呢要门?作者在補充材料中給出了四種變形方式:
① 考慮context【圖像中context指RoI周邊像素】的各向同性變形虏肾,建議框像周圍像素擴充到227×227,若遇到圖像邊界則用建議框像素均值填充欢搜,下圖第二列封豪;
② 不考慮context的各向同性變形,直接用建議框像素均值填充至227×227炒瘟,下圖第三列吹埠;
③ 各向異性變形,簡單粗暴對圖像就行縮放至227×227疮装,下圖第四列缘琅;
④ 變形前先進行邊界像素填充【padding】處理,即向外擴展建議框邊界廓推,以上三種方法中分別采用padding=0下圖第一行刷袍,padding=16下圖第二行進行處理;
經(jīng)過作者一系列實驗表明采用padding=16的各向異性變形即下圖第二行第三列效果最好樊展,能使mAP提升3-5%呻纹。
CNN特征如何可視化?
文中采用了巧妙的方式將AlexNet CNN網(wǎng)絡(luò)中Pool5層特征進行了可視化专缠。該層的size是6×6×256雷酪,即有256種表示不同的特征,這相當于原始227×227圖片中有256種195×195的感受視野【相當于對227×227的輸入圖像涝婉,卷積核大小為195×195哥力,padding=4,step=8墩弯,輸出大小(227-195+2×4)/8+1=6×6】吩跋;
文中將這些特征視為”物體檢測器”,輸入10million的Region Proposal集合渔工,計算每種6×6特征即“物體檢測器”的激活量锌钮,之后進行非極大值抑制【下面解釋】,最后展示出每種6×6特征即“物體檢測器”前幾個得分最高的Region Proposal涨缚,從而給出了這種6×6的特征圖表示了什么紋理轧粟、結(jié)構(gòu),很有意思脓魏。
為什么要進行非極大值抑制兰吟?非極大值抑制又如何操作?
先解釋什么叫IoU茂翔。如下圖所示IoU即表示(A∩B)/(A∪B)
在測試過程完成到第4步之后混蔼,獲得2000×20維矩陣表示每個建議框是某個物體類別的得分情況,此時會遇到下圖所示情況珊燎,同一個車輛目標會被多個建議框包圍惭嚣,這時需要非極大值抑制操作去除得分較低的候選框以減少重疊框。
具體怎么做呢悔政?
① 對2000×20維矩陣中每列按從大到小進行排序晚吞;
② 從每列最大的得分建議框開始,分別與該列后面的得分建議框進行IoU計算谋国,若IoU>閾值槽地,則剔除得分較小的建議框,否則認為圖像中存在多個同一類物體芦瘾;
③ 從每列次大的得分建議框開始捌蚊,重復步驟②;
④ 重復步驟③直到遍歷完該列所有建議框近弟;
⑤ 遍歷完2000×20維矩陣所有列缅糟,即所有物體種類都做一遍非極大值抑制;
⑥ 最后剔除各個類別中剩余建議框得分少于該類別閾值的建議框祷愉〈盎拢【文中沒有講,博主覺得有必要做】
為什么要采用回歸器谣辞?回歸器是什么有什么用迫摔?如何進行操作?
首先要明確目標檢測不僅是要對目標進行識別泥从,還要完成定位任務(wù)句占,所以最終獲得的bounding-box也決定了目標檢測的精度。
這里先解釋一下什么叫定位精度:定位精度可以用算法得出的物體檢測框與實際標注的物體邊界框的IoU值來近似表示躯嫉。
如下圖所示纱烘,綠色框為實際標準的卡宴車輛框,即Ground Truth祈餐;黃色框為selective search算法得出的建議框擂啥,即Region Proposal。即使黃色框中物體被分類器識別為卡宴車輛帆阳,但是由于綠色框和黃色框IoU值并不大哺壶,所以最后的目標檢測精度并不高。采用回歸器是為了對建議框進行校正,使得校正后的Region Proposal與selective search更接近山宾, 以提高最終的檢測精度至扰。論文中采用bounding-box回歸使mAP提高了3~4%。
那么問題來了资锰,回歸器如何設(shè)計呢敢课?
如上圖,黃色框口P表示建議框Region Proposal绷杜,綠色窗口G表示實際框Ground Truth直秆,紅色窗口G^表示Region Proposal進行回歸后的預測窗口,現(xiàn)在的目標是找到P到G^的線性變換【當Region Proposal與Ground Truth的IoU>0.6時可以認為是線性變換】鞭盟,使得G^與G越相近圾结,這就相當于一個簡單的可以用最小二乘法解決的線性回歸問題,具體往下看齿诉。
讓我們先來定義P窗口的數(shù)學表達式:Pi=(Pix疫稿,Piy,Piw鹃两,Pih)遗座,其中(Pix,Piy)表示第一個i窗口的中心點坐標俊扳,Piw途蒋,Pih分別為第i個窗口的寬和高;G窗口的數(shù)學表達式為:Gi=(Gix馋记,Giy号坡,Giw,Gih)梯醒;G^窗口的數(shù)學表達式為:G^i=(G^ix宽堆,G^iy,G^iw茸习,G^ih)畜隶。以下省去i上標。
這里定義了四種變換函數(shù)号胚,dx(P)籽慢,dy(P),dw(P)猫胁,dh(P)箱亿。dx(P)和dy(P)通過平移對x和y進行變化,dw(P)和dh(P)通過縮放對w和h進行變化弃秆,即下面四個式子所示:
G^x=Pwdx(P)+Px(1)
G^y=Phdy(P)+Py(2)
G^w=Pwexp(dw(P))(3)
G^h=Phexp(dh(P))(4)
每一個d?(P)【*表示x届惋,y髓帽,w,h】都是一個AlexNet CNN網(wǎng)絡(luò)Pool5層特征?5(P)的線性函數(shù)脑豹,即d?(P)=wT??5(P)氢卡,這里wT?就是所需要學習的回歸參數(shù)。損失函數(shù)即為:
Loss=argmin∑i=0N(ti??w^T??5(Pi))2+λ||w^?||2(5)
損失函數(shù)中加入正則項λ||w^?||2是為了避免歸回參數(shù)wT?過大晨缴。其中,回歸目標t?由訓練輸入對(P峡捡,G)按下式計算得來:
tx=(Gx?Px)/Pw(6)
ty=(Gy?Py)/Ph(7)
tw=log(Gw/Pw)(8)
th=log(Gh/Ph)(9)
①構(gòu)造樣本對击碗。為了提高每類樣本框回歸的有效性,對每類樣本都僅僅采集與Ground Truth相交IoU最大的Region Proposal们拙,并且IoU>0.6的Region Proposal作為樣本對(Pi稍途,Gi),一共產(chǎn)生20對樣本對【20個類別】砚婆;
②每種類型的回歸器單獨訓練械拍,輸入該類型樣本對N個:{(Pi,Gi)}i=1?N以及Pii=1?N所對應的AlexNet CNN網(wǎng)絡(luò)Pool5層特征?5(Pi)i=1?N;
③利用(6)-(9)式和輸入樣本對{(Pi,Gi)}i=1?N計算ti?i=1?N装盯;
④利用?5(Pi)i=1?N和ti?i=1?N坷虑,根據(jù)損失函數(shù)(5)進行回歸,得到使損失函數(shù)最小的參數(shù)wT?埂奈。
迄损。訓練過程
1.有監(jiān)督預訓練
ILSVRC樣本集上僅有圖像類別標簽,沒有圖像物體位置標注账磺;
采用AlexNet CNN網(wǎng)絡(luò)進行有監(jiān)督預訓練芹敌,學習率=0.01;
該網(wǎng)絡(luò)輸入為227×227的ILSVRC訓練集圖像垮抗,輸出最后一層為4096維特征->1000類的映射氏捞,訓練的是網(wǎng)絡(luò)參數(shù)。
2.特定樣本下的微調(diào)
PASCAL VOC 2007樣本集上既有圖像中物體類別標簽冒版,也有圖像中物體位置標簽液茎;
采用訓練好的AlexNet CNN網(wǎng)絡(luò)進行PASCAL VOC 2007樣本集下的微調(diào),學習率=0.001【0.01/10為了在學習新東西時不至于忘記之前的記憶】辞嗡;
mini-batch為32個正樣本和96個負樣本【由于正樣本太少】豁护;
該網(wǎng)絡(luò)輸入為建議框【由selective search而來】變形后的227×227的圖像,修改了原來的1000為類別輸出欲间,改為21維【20類+背景】輸出楚里,訓練的是網(wǎng)絡(luò)參數(shù)。
3.SVM訓練
由于SVM是二分類器猎贴,需要為每個類別訓練單獨的SVM班缎;
SVM訓練時輸入正負樣本在AlexNet CNN網(wǎng)絡(luò)計算下的4096維特征蝴光,輸出為該類的得分,訓練的是SVM權(quán)重向量达址;
由于負樣本太多蔑祟,采用hard negative mining的方法在負樣本中選取有代表性的負樣本,該方法具體見沉唠。
4.Bounding-box regression訓練
輸入數(shù)據(jù)為某類型樣本對N個:{(Pi,Gi)}i=1?N以及Pii=1?N所對應的AlexNet CNN網(wǎng)絡(luò)Pool5層特征?5(Pi)i=1?N疆虚,輸出回歸后的建議框Bounding-box,訓練的是dx(P)满葛,dy(P)径簿,dw(P),dh(P)四種變換操作的權(quán)重向量嘀韧。具體見前面分析篇亭。
。解釋分析
什么叫有監(jiān)督預訓練锄贷?為什么要進行有監(jiān)督預訓練译蒂?
有監(jiān)督預訓練也稱之為遷移學習,舉例說明:若有大量標注信息的人臉年齡分類的正負樣本圖片谊却,利用樣本訓練了CNN網(wǎng)絡(luò)用于人臉年齡識別柔昼;現(xiàn)在要通過人臉進行性別識別,那么就可以去掉已經(jīng)訓練好的人臉年齡識別網(wǎng)絡(luò)CNN的最后一層或幾層炎辨,換成所需要的分類層岳锁,前面層的網(wǎng)絡(luò)參數(shù)直接使用為初始化參數(shù),修改層的網(wǎng)絡(luò)參數(shù)隨機初始化蹦魔,再利用人臉性別分類的正負樣本圖片進行訓練激率,得到人臉性別識別網(wǎng)絡(luò),這種方法就叫做有監(jiān)督預訓練勿决。這種方式可以很好地解決小樣本數(shù)據(jù)無法訓練深層CNN網(wǎng)絡(luò)的問題乒躺,我們都知道小樣本數(shù)據(jù)訓練很容易造成網(wǎng)絡(luò)過擬合,但是在大樣本訓練后利用其參數(shù)初始化網(wǎng)絡(luò)可以很好地訓練小樣本低缩,這解決了小樣本訓練的難題嘉冒。
這篇文章最大的亮點就是采用了這種思想,ILSVRC樣本集上用于圖片分類的含標注類別的訓練集有1millon之多咆繁,總共含有1000類讳推;而PASCAL VOC 2007樣本集上用于物體檢測的含標注類別和位置信息的訓練集只有10k,總共含有20類玩般,直接用這部分數(shù)據(jù)訓練容易造成過擬合银觅,因此文中利用ILSVRC2012的訓練集先進行有監(jiān)督預訓練。
ILSVRC 2012與PASCAL VOC 2007數(shù)據(jù)集有冗余嗎坏为?
即使圖像分類與目標檢測任務(wù)本質(zhì)上是不同的究驴,理論上應該不會出現(xiàn)數(shù)據(jù)集冗余問題镊绪,但是作者還是通過兩種方式測試了PASCAL 2007測試集和ILSVRC 2012訓練集、驗證集的重合度:第一種方式是檢查網(wǎng)絡(luò)相冊IDs洒忧,4952個PASCAL 2007測試集一共出現(xiàn)了31張重復圖片蝴韭,0.63%重復率;第二種方式是用GIST描述器匹配的方法熙侍,4952個PASCAL 2007測試集一共出現(xiàn)了38張重復圖片【包含前面31張圖片】榄鉴,0.77%重復率,這說明PASCAL 2007測試集和ILSVRC 2012訓練集蛉抓、驗證集基本上不重合庆尘,沒有數(shù)據(jù)冗余問題存在。
可以不進行特定樣本下的微調(diào)嗎芝雪?可以直接采用AlexNet CNN網(wǎng)絡(luò)的特征進行SVM訓練嗎?
文中設(shè)計了沒有進行微調(diào)的對比實驗综苔,分別就AlexNet CNN網(wǎng)絡(luò)的pool5惩系、fc6、fc7層進行特征提取如筛,輸入SVM進行訓練堡牡,這相當于把AlexNet CNN網(wǎng)絡(luò)當做萬精油使用,類似HOG杨刨、SIFT等做特征提取一樣晤柄,不針對特征任務(wù)。實驗結(jié)果發(fā)現(xiàn)f6層提取的特征比f7層的mAP還高妖胀,pool5層提取的特征與f6芥颈、f7層相比mAP差不多;
在PASCAL VOC 2007數(shù)據(jù)集上采取了微調(diào)后fc6赚抡、fc7層特征較pool5層特征用于SVM訓練提升mAP十分明顯爬坑;
由此作者得出結(jié)論:不針對特定任務(wù)進行微調(diào),而將CNN當成特征提取器涂臣,pool5層得到的特征是基礎(chǔ)特征盾计,類似于HOG、SIFT赁遗,類似于只學習到了人臉共性特征署辉;從fc6和fc7等全連接層中所學習到的特征是針對特征任務(wù)特定樣本的特征,類似于學習到了分類性別分類年齡的個性特征岩四。
為什么微調(diào)時和訓練SVM時所采用的正負樣本閾值【0.5和0.3】不一致哭尝?
微調(diào)階段是由于CNN對小樣本容易過擬合,需要大量訓練數(shù)據(jù)剖煌,故對IoU限制寬松:Ground Truth+與Ground Truth相交IoU>0.5的建議框為正樣本刚夺,否則為負樣本献丑;
SVM這種機制是由于其適用于小樣本訓練,故對樣本IoU限制嚴格:Ground Truth為正樣本侠姑,與Ground Truth相交IoU<0.3的建議框為負樣本创橄。
為什么不直接采用微調(diào)后的AlexNet CNN網(wǎng)絡(luò)最后一層SoftMax進行21分類【20類+背景】?
因為微調(diào)時和訓練SVM時所采用的正負樣本閾值不同莽红,微調(diào)階段正樣本定義并不強調(diào)精準的位置妥畏,而SVM正樣本只有Ground Truth;并且微調(diào)階段的負樣本是隨機抽樣的安吁,而SVM的負樣本是經(jīng)過hard negative mining方法篩選的醉蚁;導致在采用SoftMax會使PSACAL VOC 2007測試集上mAP從54.2%降低到50.9%。
&結(jié)果怎么樣
PASCAL VOC 2010測試集上實現(xiàn)了53.7%的mAP鬼店;
PASCAL VOC 2012測試集上實現(xiàn)了53.3%的mAP网棍;
計算Region Proposals和features平均所花時間:13s/image on a GPU;53s/image on a CPU妇智。
&還存在什么問題
很明顯滥玷,最大的缺點是對一張圖片的處理速度慢,這是由于一張圖片中由selective search算法得出的約2k個建議框都需要經(jīng)過變形處理后由CNN前向網(wǎng)絡(luò)計算一次特征巍棱,這其中涵蓋了對一張圖片中多個重復區(qū)域的重復計算惑畴,很累贅;
知乎上有人說R-CNN網(wǎng)絡(luò)需要兩次CNN前向計算航徙,第一次得到建議框特征給SVM分類識別如贷,第二次對非極大值抑制后的建議框再次進行CNN前向計算獲得Pool5特征,以便對建議框進行回歸得到更精確的bounding-box到踏,這里文中并沒有說是怎么做的杠袱,博主認為也可能在計算2k個建議框的CNN特征時,在硬盤上保留了2k個建議框的Pool5特征窝稿,雖然這樣做只需要一次CNN前向網(wǎng)絡(luò)運算霞掺,但是耗費大量磁盤空間;
訓練時間長讹躯,雖然文中沒有明確指出具體訓練時間菩彬,但由于采用RoI-centric sampling【從所有圖片的所有建議框中均勻取樣】進行訓練,那么每次都需要計算不同圖片中不同建議框CNN特征潮梯,無法共享同一張圖的CNN特征骗灶,訓練速度很慢;
整個測試過程很復雜秉馏,要先提取建議框耙旦,之后提取每個建議框CNN特征,再用SVM分類萝究,做非極大值抑制免都,最后做bounding-box回歸才能得到圖片中物體的種類以及位置信息锉罐;同樣訓練過程也很復雜,ILSVRC 2012上預訓練CNN绕娘,PASCAL VOC 2007上微調(diào)CNN脓规,做20類SVM分類器的訓練和20類bounding-box回歸器的訓練;這些不連續(xù)過程必然涉及到特征存儲险领、浪費磁盤空間等問題侨舆。
再補充自己幾點總結(jié):(1)數(shù)據(jù)總共有三個訓練用途:CNN fine-tune、SVM training绢陌、bounding-box regression training挨下;(2)文中作者還分析了幾種可能會對實驗結(jié)果產(chǎn)生影響的因素,建議看一看脐湾,對以后自己想問題很有幫助:三種訓練集數(shù)量臭笆、數(shù)據(jù)集選擇、BB秤掌、RP這幾種影響因素愁铺;(3)文中作者還考慮了R-CNN和Overfeat算法的關(guān)系,并留下了如何提速R-CNN這一懸念机杜;(4)用R-CNN來做語義分割帜讲,計算features的兩種策略:fg和full以及它們?nèi)绾芜x擇衅谷;(5)附錄中對于resized操作椒拗、Bounding-box regression、數(shù)據(jù)冗余等有詳細介紹获黔,可以看一看蚀苛;
轉(zhuǎn)自:http://www.cnblogs.com/zf-blog/p/6740736.html?