目標檢測 分兩大技術(shù)體系 two-stage 和 one-stage. 我們首先從two-stage說起
two-stage代表主要是:R-CNN鳖谈,F(xiàn)ast-RCNN初狰,F(xiàn)aster-Rcnn 這一章節(jié)费什,我們先從這三個說起
r-cnn屬于卷積神經(jīng)網(wǎng)絡(luò)在目標檢測的初探先匪,他是首次將cnn網(wǎng)絡(luò)運用在目標檢測方面
我們首先介紹使用過程掸宛,然而說明其中的注意事項
首先原始圖像通過 selected search(ss)獲得預(yù)選框(region proposals)2000個
然而這些預(yù)選框通過圖像裁剪獲得統(tǒng)一的尺寸(227*227)剪验,而后輸入到cnn網(wǎng)絡(luò),進
行特征提取吃型,然而對每一個候選框進行多分類(svm)提取证鸥。
缺點:
1)候選框裁剪為統(tǒng)一的尺寸,會丟失特征信息勤晚,影響最終的結(jié)果
2)對2000個預(yù)選框進行神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要消耗大量的內(nèi)存和算力
3)最終的分類使用的經(jīng)典的支持向量機(svm)枉层,會隨著分類的變多,導(dǎo)致訓(xùn)練消耗的時長更嚴重
4)需要額外的精力提取候選框
問題一:為什么要統(tǒng)一尺寸?
答:cnn最后一層往往是全連接層fc,具有相同的尺寸赐写。
問題二:最終目標檢測為何要使用svm鸟蜡,而不是使用softmax?
之前作者也是使用的softmax,不過結(jié)果是相應(yīng)的mAP下降,所以為了提高精度選擇svm.主要是這樣考慮的:在cnn中挺邀,由于邊框標記可能僅僅是物體的一部分揉忘,但是我們同樣被標記為正樣本,由于正樣本的數(shù)量大于負樣本的數(shù)量端铛,最終導(dǎo)致CNN會出現(xiàn)過擬合.然而svm訓(xùn)練的時候泣矛,因為svm適用于少樣本訓(xùn)練,所以對于訓(xùn)練樣本數(shù)據(jù)的IOU要求比較嚴格禾蚕,我們只有當(dāng)bounding?box把整個物體都包含進去了您朽,我們才把它標注為物體類別,然后訓(xùn)練svm换淆。一旦CNN f7層特征被提取出來哗总,那么我們將為每個物體累訓(xùn)練一個svm分類器。當(dāng)我們用CNN提取2000個候選框倍试,可以得2000*4096這樣的特征向量矩陣讯屈,然后我們只需要把這樣的一個矩陣與svm權(quán)值矩陣4096*N點乘(N為分類類別數(shù)目,因為我們訓(xùn)練的N個svm易猫,每個svm包好了4096個W)耻煤,就可以得到結(jié)果了具壮。
問題三: