一. localization accuracy
更準(zhǔn)確的bounding box孩等,提高IOU
二. 目標(biāo)檢測(cè)的發(fā)展
1. 傳統(tǒng)的目標(biāo)檢測(cè)(滑動(dòng)窗口的框架):
(1).滑動(dòng)窗口
(2).提取特征(SIFT,HOG,LBP)
(3).分類器(SVM)
2. 基于深度學(xué)習(xí)的目標(biāo)檢測(cè):
具體發(fā)展
(1).R-CNN
Motivation:目標(biāo)檢測(cè)進(jìn)展緩慢杈笔,CNN在圖片分類中取得重大成功
Contribution:應(yīng)用CNN將檢測(cè)問(wèn)題轉(zhuǎn)化成分類問(wèn)題
(2).SPPNet
Motivation:CNN要求輸入圖片尺寸固定
Contribution:引入SPP層解除固定尺寸約束
(3).Fast R-CNN
Motivation:候選框的重復(fù)計(jì)算問(wèn)題
Contribution: 加入RoI池化層、將BB回歸融入網(wǎng)絡(luò)
(4).faster RCNN
Motivation: Selective Search作為一個(gè)獨(dú)立的操作脾拆,速度依然不夠快
Contribution:拋棄了Selective Search,引入了RPN網(wǎng)絡(luò)誊稚,使得區(qū)域提名旗笔、分類、回歸一起共用卷積特征斩箫,從而得到了進(jìn)一步的加速吏砂。
(5).YOLO
Motivation:先前提出的算法都是將檢測(cè)問(wèn)題轉(zhuǎn)化為分類解決
Contribution:將檢測(cè)回歸到回歸方法,提高實(shí)時(shí)性能
(6).SSD
Motivation:yolo S×S的網(wǎng)格就是一個(gè)比較啟發(fā)式的策略,難以檢測(cè)小目標(biāo)
Contribution:借鑒了Faster R-CNN中的Anchor機(jī)制乘客,使用了多尺度特征金字塔
三.目標(biāo)檢測(cè)的幾個(gè)名詞
(1). MAP(mean average precision)
每一個(gè)類別都可以根據(jù)recall和precision繪制一條曲線狐血,那么AP就是該曲線下的面積,而mAP是多個(gè)類別AP的平均值易核,這個(gè)值介于0到1之間匈织,且越大越好。這個(gè)指標(biāo)是目標(biāo)檢測(cè)算法最為重要的一個(gè)牡直。
(2).IOU
綠色框是人工標(biāo)注的groundtruth缀匕,紅色框是目標(biāo)檢測(cè)算法最終給出的結(jié)果,顯然綠色框?qū)τ陲w機(jī)這個(gè)物體檢測(cè)的更加準(zhǔn)確(機(jī)翼機(jī)尾都全部包含在綠色框中)碰逸,IOU正是表達(dá)這種bounding box和groundtruth的差異的指標(biāo)乡小。算法產(chǎn)生的bbox VS 人工標(biāo)注的數(shù)據(jù)
IOU定義了兩個(gè)bounding box的重疊度,可以說(shuō)饵史,當(dāng)算法給出的框和人工標(biāo)注的框差異很小時(shí)劲件,或者說(shuō)重疊度很大時(shí),可以說(shuō)算法產(chǎn)生的boundingbox就很準(zhǔn)確约急。
矩形框A零远、B的一個(gè)重合度IOU計(jì)算公式為:
IOU=(A∩B)/(A∪B)
(3). NMS(非極大值抑制)
目標(biāo)檢測(cè)算法一般會(huì)給出目標(biāo)很多的粗略結(jié)果,對(duì)一個(gè)目標(biāo)成百上千的粗略結(jié)果都進(jìn)行調(diào)整肯定是不可行的厌蔽。那么我們就需要對(duì)這些粗略結(jié)果先進(jìn)行一個(gè)大體的挑選牵辣。挑選出其中最具代表性的結(jié)果。再對(duì)這些挑選后的結(jié)果進(jìn)行調(diào)整奴饮,這樣可以加快算法效率纬向。
消除多余的框择浊,找到最佳的bbox
根據(jù)這些框的分類器類別分類概率做排序: A<B<C<D<E<F
(1)從最大概率矩形框F開始,分別判斷A~E與F的重疊度IOU是否大于某個(gè)設(shè)定的閾值;
(2)假設(shè)B逾条、D與F的重疊度超過(guò)閾值琢岩,那么就扔掉B、D师脂;并標(biāo)記第一個(gè)矩形框F担孔,是我們保留下來(lái)的。
(3)從剩下的矩形框A吃警、C糕篇、E中,選擇概率最大的E酌心,然后判斷E與A拌消、C的重疊度,重疊度大于一定的閾值安券,那么就扔掉墩崩;并標(biāo)記E是我們保留下來(lái)的第二個(gè)矩形框。
就這樣一直重復(fù)侯勉,找到所有被保留下來(lái)的矩形框
(4) 邊界框回歸(Bounding-box regression )
由前面介紹的IOU指標(biāo)可知鹦筹,這里算法給出的紅色框可以認(rèn)為是檢測(cè)失敗的,因?yàn)樗途G色的groundtruth的 IOU值小于了0.5壳鹤,也就是說(shuō)重疊度不夠盛龄。那么我們就需要對(duì)這個(gè)紅色框進(jìn)行微調(diào)。使得經(jīng)過(guò)微調(diào)后的窗口跟Ground Truth 更接近 芳誓。
紅色的框 P 代表原始的Proposal
**綠色的框 G **代表目標(biāo)的 Ground Truth
目標(biāo)是:尋找一種關(guān)系使得輸入原始的窗口 P 經(jīng)過(guò)映射得到一個(gè)跟真實(shí)窗口 G 更接近的回歸窗口 G~
G~≈G
四. 從cvpr2016看目標(biāo)檢測(cè)的發(fā)展趨勢(shì)
(a)檢測(cè)精度
如何提高檢測(cè)精度的指標(biāo)mAP余舶?
代表性的工作是ResNet、ION和HyperNet
(b)識(shí)別效率
如何提高檢測(cè)速度锹淌?
YOLO:這個(gè)工作在識(shí)別效率方面的優(yōu)勢(shì)很明顯匿值,可以做到每秒鐘45幀圖像,處理視頻是完全沒(méi)有問(wèn)題的
(c)定位精度
如何產(chǎn)生更準(zhǔn)確的bounding box? 如何逐步提高評(píng)價(jià)參數(shù)IOU赂摆?(Pascal VOC中挟憔,這個(gè)值為0.5)
LocNet:拋棄boundingbox回歸,利用概率模型(本文)
從單純的一律追求檢測(cè)精度烟号,到想方法加快檢測(cè)結(jié)果绊谭,到最后追求更加準(zhǔn)確的結(jié)果。側(cè)面反映了目標(biāo)檢測(cè)研究的不斷進(jìn)步*汪拥。
五. LocNet: Improving Localization Accuracy for Object Detection
1. background
- localization accuracy 少人問(wèn)津
- PASCAL VOC IOU=0.5 (object has been successfully detected)
- Real life higher localization accuracy (e.g. IoU> 0.7) is normally required
- COCO detection challenge 把IOU值也作為了最終的評(píng)價(jià)指標(biāo)(MAP+IOU)
- 提高目標(biāo)檢測(cè)的IOU(而不僅是MAP)將會(huì)成為未來(lái)目標(biāo)檢測(cè)的主要挑戰(zhàn)达传。
- 傳統(tǒng)的bbox回歸:嘗試直接通過(guò)回歸的方式直接得到bbox的坐標(biāo),很難得到很準(zhǔn)確的bbox。
2. Contributions
- 可以很方便的和現(xiàn)在最先進(jìn)的目標(biāo)檢測(cè)系統(tǒng)結(jié)合
- 提出了兩種基于行列的概率模型解決定位準(zhǔn)確率宪赶,而不是回歸的方式宗弯,并與回歸方式進(jìn)行了
對(duì)比 - 對(duì)傳統(tǒng)方法和最先進(jìn)的方法不同iou下的map都有所提高
- 未來(lái)可以完全取代bbox回歸的方法
3.兩種概率模型
黃色框是檢測(cè)系統(tǒng)給出的,紅色框是由黃色框擴(kuò)大常數(shù)倍得到的search region搂妻,LOCNet會(huì)在這個(gè)搜索區(qū)域建立概率模型得到最終的定位區(qū)域藍(lán)色框
-
邊界概率:
計(jì)算該行或該列是目標(biāo)邊界的概率(所以蒙保,行列兩個(gè)概率圖各選兩個(gè)極大值,即可得到目標(biāo)邊界) -
in-out概率:
計(jì)算目標(biāo)在該行或該列的概率(所以欲主,行列兩個(gè)概率圖分別選擇最高并且最平滑的區(qū)域邓厕,即可得到目標(biāo)的區(qū)域)
4. detection pipeline
輸入的候選bounding box(使用selective search或者sliding windows獲得),通過(guò)迭代的方法岛蚤,獲得更精確的box
兩個(gè)過(guò)程:
- Recognition model:
- Localization model:
為降低算法復(fù)雜度邑狸,會(huì)參與一個(gè)后處理NMS操作懈糯。
5. Model predictions
輸入的box涤妒,把它擴(kuò)大一個(gè)因子的倍數(shù),獲取一個(gè)更大的區(qū)域R赚哗,區(qū)域R劃分成M*M的格子
- In-Out probabilities
- **Border probabilities **
6. Network Architecture
(1)對(duì)于輸入的box,把它擴(kuò)大一個(gè)因子的倍數(shù)够掠,獲取一個(gè)更大的區(qū)域R民褂,把R投影到feature map中
(2)經(jīng)過(guò)一個(gè)類似于ROI pooling的層,輸出固定大小的map
(3)經(jīng)過(guò)幾個(gè)卷積層和ReLU激活之后疯潭,出現(xiàn)兩個(gè)分支赊堪,分別對(duì)應(yīng)兩個(gè)向量。然后經(jīng)過(guò)max pooling得到
row竖哩、column對(duì)應(yīng)的向量
(4)經(jīng)過(guò)FC層之后哭廉,使用sigmoid函數(shù)輸出In –Out概率或者邊界概率
7.Loss function
每行或列有兩種可能(是或者不是),伯努利分布的模型相叁,log對(duì)數(shù)損失函數(shù)假設(shè)樣本服從伯努
利分布(0-1分布)
8.results
結(jié)果表明增淹,與不同的檢測(cè)系統(tǒng)結(jié)合椿访,基于邊界概率的模型在不同的IOU下都提高了mAP值,并且效果優(yōu)于bbox回歸虑润。
我的另一篇關(guān)于Object Detection的文章