?1. 摘要
?2. 引言
?3. 目標檢測
?4. 附錄
1. 摘要
??R-CNN的兩個關鍵點:①通過CNNs自下而上的獲取proposals舀透,用于定位和目標分割;②當標簽數(shù)據(jù)不足時抽莱,通過監(jiān)督預訓練作為輔助,然后在特定區(qū)域進行微調(diào)來提升性能。
2. 引言
??近十來年泼舱,在各種視覺識別任務中躁绸,人們基本在使用SIFT和HOG描述子裕循。但在2010-2012年之間視覺識別研究進展緩慢,通過集成系統(tǒng)和一系列小組件來實現(xiàn)識別的進展甚微净刮。
3.R-CNN 目標檢測
??R-CNN包含3個模型导坟,①proposal生成器屿良,②生成固定長度特征向量的CNN網(wǎng)絡,③SVM分類器惫周。
(1)模塊設計
??Region proposals
:如objectness尘惧,selective search等
??Feature extraction
:通過CNN提取一個4096-d的特征向量,特征提取通過5層卷積層和2層全連接層實現(xiàn)闯两。
(2)Test-time detection
??Run-time annalysis
:兩個特性使檢測有效:①所有類別的CNN參數(shù)共享褥伴,②相對于其他方法谅将,CNN計算得到的特征向量是低維的。共享的結果就是計算proposal和特征的時間被分攤到所有類別重慢。只有在特定類別的計算上饥臂,如特征向量和SVM參數(shù)及非極大值抑制之間是通過點積計算。實際上這種點積在運行時被轉化為批量化的矩陣相乘似踱。
??因此R-CNN即使對于上千類別也是有效的隅熙。這種有效性,不僅是由于proposal和共享參數(shù)核芽,R-CNN的存儲空間相對UVA也較小囚戚,僅1.5G。
(3)訓練
??Supervised pre-training
:首先通過ILSVRC2012對CNN進行預訓練轧简,訓練集具有類別標簽驰坊,但沒有box標簽。
??Donmain-specific fine-tuning
:為適應檢測任務,通過SGD和proposal內(nèi)圖像對CNN進行微調(diào)。除了替換ImageNet的1000類分類層瞒渠,其他結構未作改變。當IoU > 0.5時舟扎,視為正樣本。初始學習率未0.001悴务,每個batch正負樣本比例為32:96睹限。
4. 附錄
(1)proposal轉換
??CNN需要固定大小的輸入(如227x227)。對于檢測任務讯檐,proposal是任意的矩形框羡疗。對于將proposal轉化為CNN輸入大小,在此進行了兩種方法的比較裂垦。①將obj包括在最小范圍內(nèi)的背景中顺囊,并縮放到CNN輸入大小,如B列蕉拢,圖片中包含了一部分背景,縮放后诚亚,圖像不扭曲晕换,有的位置用灰度值填充。這種方法的另一變種是站宗,包含的背景部分很小闸准,縮放后,很大一部分用灰度值填充梢灭。②截取obj夷家,直接進行縮放蒸其,不會產(chǎn)生灰度值填充,但是圖像會發(fā)生扭曲库快。
(2)正負樣本和softmax
??為什么在CNN微調(diào)時和SVM分類時的正負樣本定義不同摸袁?在微調(diào)CNN時,計算proposal與ground-truth之間的IoU义屏,當大于0.5時標記為正樣本靠汁。在訓練SVM時,對于每個類僅使用ground-truth作為正樣本闽铐,但IoU小于0.3的作為負樣本蝶怔。也就是,IoU在0.3-1之間但不是ground-truth的proposal被忽略了兄墅。
??一個歷史原因是踢星,剛開始,我們是在ImageNet預訓練的CNN的基礎上對SVMs進行訓練隙咸,當時沒考慮CNN的微調(diào)沐悦。在這個過程中,發(fā)現(xiàn)SVMs這種設定標簽的方式是最優(yōu)的(包括在微調(diào)CNN之后)扎瓶。當我們開始對CNN進行微調(diào)時所踊,采用和SVM相同的標簽設置時,發(fā)現(xiàn)性能不如現(xiàn)在這種微調(diào)標簽設置概荷。
??我們的假設是秕岛,在微調(diào)時的正負樣本定義不是根本性問題,而是用于微調(diào)的數(shù)據(jù)較少導致的误证。當我們引入0.5-1的proposal作為正樣本時继薛,正樣本容量增加近30倍。我們推測愈捅,在微調(diào)這么大的網(wǎng)絡時遏考,這么大的數(shù)據(jù)集是有效的。但是我們也注意到這部分數(shù)據(jù)不是最優(yōu)的蓝谨,因為這部分正樣本實際上并沒有對obj進行準確定位(假設只有ground-truth是準確定位的)灌具。
??這就導致了第二個問題:為什么要在微調(diào)后再訓練SVMs?如果直接用微調(diào)網(wǎng)絡的最后一層(21-way softmax分類器)作為obj detector會更為簡潔譬巫。我們進行過測試咖楣,但性能明顯下降。這可能是以下因素導致的:①用于微調(diào)的正負樣本芦昔,對于定位并不精確诱贿;②這個softmax分類器是在隨機負樣本上訓練得到的,性能不如困難負樣本訓練的結果好。
??所以珠十,推論是料扰,如果在微調(diào)階段,采用足夠多及精確定位的數(shù)據(jù)焙蹭,那么不采用SVM層晒杈,直接softmax分類性能也可能不低于訓練后的SVM,這將有效加速訓練過程壳嚎,增加檢測的實時性能桐智。
(3)Bbox 回歸
??通過SVM檢測分類得到一個score之后,采用一個回歸器來預測一個檢測的bbox烟馅。這類似于DPM中的回歸方法说庭。與DPM的區(qū)別是,直接通過CNN計算得到的特征進行回歸郑趁,而不是通過DPM計算的幾何特征進行回歸刊驴。
??R-CNN中,存在N個proposal和ground-truth對:
??總共要學習四個函數(shù):