1 DPM
DPM算法采用了改進(jìn)后的HOG特征怎爵,SVM分類器和滑動(dòng)窗口(Sliding Windows)檢測(cè)思想狡忙,針對(duì)目標(biāo)的多視角問(wèn)題踊淳,采用了多組件(Component)的策略甚牲,針對(duì)目標(biāo)本身的形變問(wèn)題灶壶,采用了基于圖結(jié)構(gòu)(Pictorial Structure)的部件模型策略肝断。此外,將樣本的所屬的模型類別驰凛,部件模型的位置等作為潛變量(Latent Variable)胸懈,采用多示例學(xué)習(xí)(Multiple-instance Learning)來(lái)自動(dòng)確定。
2 mAP
平均精度均值(mAP)是預(yù)測(cè)目標(biāo)位置以及類別的這一類算法的性能度量標(biāo)準(zhǔn)恰响。mAP 對(duì)于評(píng)估目標(biāo)定位模型趣钱、目標(biāo)檢測(cè)模型以及實(shí)例分割模型非常有用。
在模型預(yù)測(cè)時(shí)胚宦,輸出的 bounding box 是有很多的羔挡,但是大部分都是置信度很小的,我們只需要輸出置信度超過(guò)某個(gè)閾值的 bounding box 间唉。
TP —— True Positive (真正, TP)是指某(些)個(gè)正樣本被預(yù)測(cè)判定為正绞灼;此種情況可以稱作判斷為真的正確情況【correctly identified】。
TN —— True Negative(真負(fù) , TN)是指某(些)個(gè)負(fù)樣本被預(yù)測(cè)判定為負(fù)呈野;此種情況可以稱作判斷為假的正確情況【correctly rejected】低矮。
FP ——False Positive (假正, FP)是指某(些)個(gè)負(fù)樣本被模型預(yù)測(cè)為正;此種情況可以稱作判斷為真的錯(cuò)誤情況被冒,或稱為誤報(bào)【incorrectly identified】军掂。
FN——False Negative(假負(fù) , FN)是指某(些)個(gè)正樣本被模型預(yù)測(cè)為負(fù);此種情況可以稱作判斷為假的錯(cuò)誤情況昨悼,或稱為漏報(bào)【incorrectly rejected】蝗锥。
準(zhǔn)確率和召回率是互相影響的,因?yàn)槿绻胍岣邷?zhǔn)確率就會(huì)把預(yù)測(cè)的置信率閾值調(diào)高率触,所有置信率較高的預(yù)測(cè)才會(huì)被顯示出來(lái)终议,而那一些正確正預(yù)測(cè)(True Positive)可能因?yàn)橹眯怕时容^低而沒(méi)有被顯示了。一般情況下準(zhǔn)確率高葱蝗、召回率就低穴张,召回率低、準(zhǔn)確率高两曼,如果兩者都低皂甘,就是網(wǎng)絡(luò)出問(wèn)題了。
一般來(lái)說(shuō)影響 mAP 的原因有很多悼凑,主要有以下幾個(gè):
1. 不好的訓(xùn)練數(shù)據(jù)偿枕。
2. 訓(xùn)練數(shù)據(jù)不夠多璧瞬。
3. 標(biāo)注的框不準(zhǔn)確。
4. 數(shù)據(jù)的多變性渐夸。
有的時(shí)候增加訓(xùn)練數(shù)據(jù)可能 mAP 并不會(huì)增加多少嗤锉。當(dāng)然了,使用表現(xiàn)更好的網(wǎng)絡(luò)捺萌,其 mAP 自然地也會(huì)更加的高档冬。
3 IoU
IoU 的全稱為交并比(Intersection over Union)。IoU 計(jì)算的是 “預(yù)測(cè)的邊框” 和 “真實(shí)的邊框” 的交集和并集的比值桃纯。
4 Dropout layer
dropout layer的目的是為了防止CNN 過(guò)擬合, 在訓(xùn)練過(guò)程中酷誓,將神經(jīng)網(wǎng)絡(luò)進(jìn)行采樣,也就是隨機(jī)的讓神經(jīng)元激活值為0态坦,而在測(cè)試時(shí)不再采用dropout盐数。通常設(shè)置隨機(jī)采樣概率為0.5,也可以通過(guò)驗(yàn)證集來(lái)確定采樣概率伞梯。
1.**前向傳播**
訓(xùn)練階段:前向傳播給定每個(gè)神經(jīng)元一個(gè)隨機(jī)值(0~1)玫氢,假定設(shè)置采樣閾值為0.5,如果該神經(jīng)元對(duì)應(yīng)的隨機(jī)值小于0.5谜诫,則設(shè)置該神經(jīng)元為0漾峡,否則設(shè)置該神經(jīng)元值為2乘以原值,(1/0.5)喻旷,并把所有神經(jīng)元對(duì)應(yīng)的隨機(jī)值保存下來(lái)生逸,在后向傳播是需要使用。
測(cè)試階段:無(wú)需dropout且预。
2.**反向傳播**
讀取在前向傳播記錄的隨機(jī)值槽袄,同樣的操作:該梯度值對(duì)應(yīng)的隨機(jī)值小于0.5,則設(shè)置該梯度值為0锋谐,否則設(shè)置該梯度值為2乘以原值遍尺,(1/0.5)。
5 NMS
非極大值抑制涮拗,簡(jiǎn)稱為NMS算法乾戏,英文為Non-Maximum Suppression。其思想是搜素局部最大值多搀,抑制極大值歧蕉。
目標(biāo)檢測(cè)的過(guò)程中在同一目標(biāo)的位置上會(huì)產(chǎn)生大量的候選框,這些候選框相互之間可能會(huì)有重疊康铭,此時(shí)我們需要利用非極大值抑制找到最佳的目標(biāo)邊界框,消除冗余的邊界框赌髓。
左圖是人臉檢測(cè)的候選框結(jié)果从藤,每個(gè)邊界框有一個(gè)置信度得分(confidence score)催跪,如果不使用非極大值抑制,就會(huì)有多個(gè)候選框出現(xiàn)夷野。右圖是使用非極大值抑制之后的結(jié)果懊蒸,符合我們?nèi)四槞z測(cè)的預(yù)期結(jié)果。
5.1 如何使用非極大值抑制
前提:目標(biāo)邊界框列表及其對(duì)應(yīng)的置信度得分列表悯搔,設(shè)定閾值骑丸,閾值用來(lái)刪除重疊較大的邊界框。IoU:intersection-over-union妒貌,即兩個(gè)邊界框的交集部分除以它們的并集通危。
非極大值抑制的流程如下:
· 根據(jù)置信度得分進(jìn)行排序
· 選擇置信度最高的邊界框添加到最終輸出列表中,將其從邊界框列表中刪除
· 計(jì)算所有邊界框的面積
· 計(jì)算置信度最高的邊界框與其它候選框的IoU
· 刪除IoU大于閾值的邊界框
· 重復(fù)上述過(guò)程灌曙,直至邊界框列表為空菊碟。
6 FPS
FPS(frame per second)是圖像領(lǐng)域中的定義,是指畫面每秒傳輸幀數(shù)在刺,通俗來(lái)講就是指動(dòng)畫或視頻的畫面數(shù)逆害。FPS是測(cè)量用于保存、顯示動(dòng)態(tài)視頻的信息數(shù)量蚣驼。每秒鐘幀數(shù)愈多魄幕,所顯示的動(dòng)作就會(huì)愈流暢。通常颖杏,要避免動(dòng)作不流暢的最低是30纯陨。
7 Background false positive
假設(shè)在一個(gè)單類別檢測(cè)問(wèn)題中的樣本有兩類(背景算1類)。Background false positive就是把background錯(cuò)誤檢測(cè)為正樣本框 的數(shù)量输玷。
8 ROI
ROI(region of interest)队丝,感興趣區(qū)域。機(jī)器視覺(jué)欲鹏、圖像處理中机久,從被處理的圖像以方框、圓赔嚎、橢圓膘盖、不規(guī)則多邊形等方式勾勒出需要處理的區(qū)域,稱為感興趣區(qū)域尤误,ROI侠畔。
在圖像處理領(lǐng)域,感興趣區(qū)域(ROI) 是從圖像中選擇的一個(gè)圖像區(qū)域损晤,這個(gè)區(qū)域是你的圖像分析所關(guān)注的重點(diǎn)软棺。圈定該區(qū)域以便進(jìn)行進(jìn)一步處理。使用ROI圈定你想讀的目標(biāo)尤勋,可以減少處理時(shí)間喘落,增加精度茵宪。