R-CNN

?1. 摘要
?2. 引言
?3. 目標檢測
?4. 附錄

1. 摘要

??R-CNN的兩個關鍵點:①通過CNNs自下而上的獲取proposals舀透,用于定位和目標分割;②當標簽數(shù)據(jù)不足時抽莱,通過監(jiān)督預訓練作為輔助,然后在特定區(qū)域進行微調(diào)來提升性能。

2. 引言

??近十來年泼舱,在各種視覺識別任務中躁绸,人們基本在使用SIFT和HOG描述子裕循。但在2010-2012年之間視覺識別研究進展緩慢,通過集成系統(tǒng)和一系列小組件來實現(xiàn)識別的進展甚微净刮。

??R-CNN通過“區(qū)域識別”模式來解決定位問題剥哑。在測試時,R-CNN對一張輸入圖片生成大約2000個不同的proposals淹父,然后通過CNN對每一個proposal提取一個固定長度的特征向量株婴,然后對每個區(qū)域通過SVM進行分類。每個proposal區(qū)域的圖像通過仿射變換獲取相同大惺钊稀(CNN輸入大小困介,如Fig 1)。
Fig 1
??還存在一個問題是標注數(shù)據(jù)太少蘸际,不足以訓練一個大型CNN座哩。傳統(tǒng)的方法是通過無監(jiān)督預訓練,然后有監(jiān)督微調(diào)粮彤。而R-CNN采用有監(jiān)督預訓練后再微調(diào)的模式根穷,結果表明這也是有效的。

3.R-CNN 目標檢測

??R-CNN包含3個模型导坟,①proposal生成器屿良,②生成固定長度特征向量的CNN網(wǎng)絡,③SVM分類器惫周。
(1)模塊設計
??Region proposals:如objectness尘惧,selective search等
??Feature extraction:通過CNN提取一個4096-d的特征向量,特征提取通過5層卷積層和2層全連接層實現(xiàn)闯两。
(2)Test-time detection
??Run-time annalysis:兩個特性使檢測有效:①所有類別的CNN參數(shù)共享褥伴,②相對于其他方法谅将,CNN計算得到的特征向量是低維的。共享的結果就是計算proposal和特征的時間被分攤到所有類別重慢。只有在特定類別的計算上饥臂,如特征向量和SVM參數(shù)及非極大值抑制之間是通過點積計算。實際上這種點積在運行時被轉化為批量化的矩陣相乘似踱。
??因此R-CNN即使對于上千類別也是有效的隅熙。這種有效性,不僅是由于proposal和共享參數(shù)核芽,R-CNN的存儲空間相對UVA也較小囚戚,僅1.5G。
(3)訓練
??Supervised pre-training:首先通過ILSVRC2012對CNN進行預訓練轧简,訓練集具有類別標簽驰坊,但沒有box標簽。
??Donmain-specific fine-tuning:為適應檢測任務,通過SGD和proposal內(nèi)圖像對CNN進行微調(diào)。除了替換ImageNet的1000類分類層瞒渠,其他結構未作改變。當IoU > 0.5時舟扎,視為正樣本。初始學習率未0.001悴务,每個batch正負樣本比例為32:96睹限。

4. 附錄

(1)proposal轉換
??CNN需要固定大小的輸入(如227x227)。對于檢測任務讯檐,proposal是任意的矩形框羡疗。對于將proposal轉化為CNN輸入大小,在此進行了兩種方法的比較裂垦。①將obj包括在最小范圍內(nèi)的背景中顺囊,并縮放到CNN輸入大小,如B列蕉拢,圖片中包含了一部分背景,縮放后诚亚,圖像不扭曲晕换,有的位置用灰度值填充。這種方法的另一變種是站宗,包含的背景部分很小闸准,縮放后,很大一部分用灰度值填充梢灭。②截取obj夷家,直接進行縮放蒸其,不會產(chǎn)生灰度值填充,但是圖像會發(fā)生扭曲库快。
(2)正負樣本和softmax
??為什么在CNN微調(diào)時和SVM分類時的正負樣本定義不同摸袁?在微調(diào)CNN時,計算proposal與ground-truth之間的IoU义屏,當大于0.5時標記為正樣本靠汁。在訓練SVM時,對于每個類僅使用ground-truth作為正樣本闽铐,但IoU小于0.3的作為負樣本蝶怔。也就是,IoU在0.3-1之間但不是ground-truth的proposal被忽略了兄墅。
??一個歷史原因是踢星,剛開始,我們是在ImageNet預訓練的CNN的基礎上對SVMs進行訓練隙咸,當時沒考慮CNN的微調(diào)沐悦。在這個過程中,發(fā)現(xiàn)SVMs這種設定標簽的方式是最優(yōu)的(包括在微調(diào)CNN之后)扎瓶。當我們開始對CNN進行微調(diào)時所踊,采用和SVM相同的標簽設置時,發(fā)現(xiàn)性能不如現(xiàn)在這種微調(diào)標簽設置概荷。
??我們的假設是秕岛,在微調(diào)時的正負樣本定義不是根本性問題,而是用于微調(diào)的數(shù)據(jù)較少導致的误证。當我們引入0.5-1的proposal作為正樣本時继薛,正樣本容量增加近30倍。我們推測愈捅,在微調(diào)這么大的網(wǎng)絡時遏考,這么大的數(shù)據(jù)集是有效的。但是我們也注意到這部分數(shù)據(jù)不是最優(yōu)的蓝谨,因為這部分正樣本實際上并沒有對obj進行準確定位(假設只有ground-truth是準確定位的)灌具。
??這就導致了第二個問題:為什么要在微調(diào)后再訓練SVMs?如果直接用微調(diào)網(wǎng)絡的最后一層(21-way softmax分類器)作為obj detector會更為簡潔譬巫。我們進行過測試咖楣,但性能明顯下降。這可能是以下因素導致的:①用于微調(diào)的正負樣本芦昔,對于定位并不精確诱贿;②這個softmax分類器是在隨機負樣本上訓練得到的,性能不如困難負樣本訓練的結果好。
??所以珠十,推論是料扰,如果在微調(diào)階段,采用足夠多及精確定位的數(shù)據(jù)焙蹭,那么不采用SVM層晒杈,直接softmax分類性能也可能不低于訓練后的SVM,這將有效加速訓練過程壳嚎,增加檢測的實時性能桐智。
(3)Bbox 回歸
??通過SVM檢測分類得到一個score之后,采用一個回歸器來預測一個檢測的bbox烟馅。這類似于DPM中的回歸方法说庭。與DPM的區(qū)別是,直接通過CNN計算得到的特征進行回歸郑趁,而不是通過DPM計算的幾何特征進行回歸刊驴。
??R-CNN中,存在N個proposal和ground-truth對:

xywh分別表示box的中心坐標和寬高寡润。我們的目標是學習P到G的變換映射捆憎。
??總共要學習四個函數(shù):
前兩個是P bbox中心的尺寸不變映射,后兩個是P bbox的高寬在對數(shù)空間的變換梭纹。在學到這些函數(shù)后躲惰,通過下述四個函數(shù)來將P映射到預測的ground-truth box :
bbox回歸存在兩個問題:①正則化參數(shù)高達1000,②如果P離G太遠 变抽,那么學習到的函數(shù)將毫無意義础拨,所以通過計算P和G的IoU值來進行過濾。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绍载,一起剝皮案震驚了整個濱河市诡宗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌击儡,老刑警劉巖塔沃,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異阳谍,居然都是意外死亡蛀柴,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門矫夯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來名扛,“玉大人,你說我怎么就攤上這事茧痒。” “怎么了融蹂?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵旺订,是天一觀的道長弄企。 經(jīng)常有香客問我,道長区拳,這世上最難降的妖魔是什么拘领? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮樱调,結果婚禮上约素,老公的妹妹穿的比我還像新娘。我一直安慰自己笆凌,他們只是感情好圣猎,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著乞而,像睡著了一般送悔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上爪模,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天欠啤,我揣著相機與錄音,去河邊找鬼屋灌。 笑死洁段,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的共郭。 我是一名探鬼主播祠丝,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼落塑!你這毒婦竟也來了纽疟?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤憾赁,失蹤者是張志新(化名)和其女友劉穎污朽,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體龙考,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡蟆肆,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了晦款。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片炎功。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缓溅,靈堂內(nèi)的尸體忽然破棺而出蛇损,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布淤齐,位于F島的核電站股囊,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏更啄。R本人自食惡果不足惜稚疹,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望祭务。 院中可真熱鬧内狗,春花似錦、人聲如沸义锥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缨该。三九已至偎行,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間贰拿,已是汗流浹背蛤袒。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留膨更,地道東北人妙真。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像荚守,于是被迫代替她去往敵國和親珍德。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345