測(cè)試
1.? 輸入原始圖片
2.? 利用選擇性搜索(seletive search, SS)生成2000個(gè)候選區(qū)域(region propsal, RP)
3.? 將每個(gè)RP放縮到一定尺寸(如AlexNet 的227*227)看成,利用深度卷積神經(jīng)網(wǎng)絡(luò)提取特征
4. 基于步驟3提取的特征碉怔,利用SVM分類(lèi)围肥。
5. BB(可選)和 NMS(mon-maximun suppression)
訓(xùn)練
fine-tuning
1. 只使用放縮后的RP,在VOC上fine-tuning ImagNet的分類(lèi)模型镣陕,分21類(lèi)(20類(lèi) + 背景);
2. 將每個(gè)RP分正負(fù)樣本:稱(chēng)某個(gè)RP是正樣本, 如果它與某個(gè)GT的IoU大于0.5束昵,其余記為負(fù)的骄崩。也就是說(shuō)IoU大于0.5的候選區(qū)域才認(rèn)為包含物體聘鳞, 其它的被認(rèn)為是背景;
3. batch_size=128要拂,其中32是正樣本抠璃, 96是負(fù)樣本。這么做是因?yàn)闃?biāo)記為正的RP相對(duì)于背景來(lái)說(shuō)太少了脱惰;
分類(lèi)器
1. 分類(lèi)器是SVM搏嗡,不是DCNN的Softmax,原因看第三點(diǎn)。 記某個(gè)RP是負(fù)樣本采盒,若它與所有的GT的IoU都小于0.3(這個(gè)是根據(jù)val set通過(guò)網(wǎng)格搜索得到的旧乞, 注意這里和FT的閾值是不一樣的,一個(gè)是0.3磅氨,一個(gè)是0.5)良蛮。只有GT視為正樣本。其它的RP忽略悍赢。
2. 訓(xùn)練SVM采用難負(fù)樣本挖掘(hard negative mining)决瞳,因?yàn)橛?xùn)練數(shù)據(jù)太多啦內(nèi)存裝不下,而且難負(fù)樣本挖掘收斂速度快(mAP在一次遍歷后就停止增長(zhǎng)啦W笕ā)皮胡;
3. 論文里解釋?zhuān)婚_(kāi)始沒(méi)有考慮FT,直接使用ImagNet的分類(lèi)模型提取特征進(jìn)行SVM分類(lèi)赏迟,通過(guò)網(wǎng)格搜索得到0.3的閾值屡贺。后面考慮FT,如果采用0.3來(lái)區(qū)分正負(fù)樣本锌杀,得到的結(jié)果比0.5差很多甩栈。文中猜測(cè)是其實(shí)不是閾值大小的問(wèn)題而是數(shù)據(jù)量的問(wèn)題(數(shù)據(jù)太少)。現(xiàn)在取0.5能把數(shù)據(jù)集擴(kuò)充30倍,能避免網(wǎng)絡(luò)過(guò)擬合箩退,但是也引起了另一個(gè)問(wèn)題--就是目標(biāo)定位不精準(zhǔn)梨熙。
4. 還有一個(gè)問(wèn)題--就是為什么不用Softmax而用SVM, 這當(dāng)然是SVM的效果好啦(54.2%? > 50.9%)殴蹄。為什么會(huì)這樣? 文中猜測(cè)是因?yàn)镕T的正負(fù)樣本定義沒(méi)有突出目標(biāo)位置的精確猾担,而且Softmax在負(fù)樣本的選取上是隨機(jī)采樣的袭灯,而不像SVM的選取難負(fù)樣本的子集。
結(jié)果
w/o FT
沒(méi)有FT的情況下绑嘹,提取不同層檢測(cè)稽荧,結(jié)果fc6 > fc7 > pool5, 而且pool5和fc6的結(jié)果相差不大(才2%)工腋,這顯示了CNN的表征能力來(lái)自卷積層而不是參數(shù)占大多數(shù)的全連接層姨丈。
FT
FT的情況下,提取不同層檢測(cè)夷蚊,結(jié)果fc7 > fc6 > pool5构挤,而且fc6(7%)、fc7(~10%)的提高效果明顯惕鼓,而pool5不顯著(~3%)筋现,這說(shuō)明ImageNet的pool5的泛化性能很好,F(xiàn)T后性能提升主要來(lái)自全連接層。
BB(bounding-box regression)
從第一行可以看到錯(cuò)誤主要來(lái)自定位誤差矾飞,從第三列可以看出采用BB后定位誤差下降不少
- BB在SVM之后一膨, NMS之前
如果P遠(yuǎn)離所有的GT豹绪,則d的學(xué)習(xí)沒(méi)有意義。所以只學(xué)習(xí)至少與某個(gè)GT的IoU最大且IoU大于0.6的RP(根據(jù)val set)申眼。
參考文獻(xiàn)
1. ?Rich feature hierarchies for accurate object detection and semantic segmentation
2.?Training Region-based Object Detectors with Online Hard Example Mining