一妆兑、IOU的理解
物體檢測時需要定位出物體的bounding box,與此同時還要識別出bounding box中的物體是什么季惯。因此對于bounding box的定位精度有個重要新概念I(lǐng)OU(算法標(biāo)注和人工標(biāo)注的數(shù)據(jù)肯定不能百分之百匹配)如圖戒努。
IOU定義了兩個bounding box的重疊度奉件。
矩形框A、B的重疊度IOU計(jì)算方法:IOU=(A∩B)/(A∪B)
A痴鳄、B矩形框的重疊面積與他們面積的并集之比瘟斜。
二、非極大值抑制
對于RCNN來說痪寻,會從圖中找出多個可能是物體的矩形框螺句,然后為這些矩形框做類別分類概率,如下圖橡类,定位一個車輛蛇尚,檢測出多個可能是車輛的矩形框,我們此時需要判斷哪些框有用哪些無用顾画。
非極大值抑制:假設(shè)檢測出6個框取劫,分別叫ABCDEF匆笤,根據(jù)分類器的分類概率進(jìn)行排序,假設(shè)從大到小的概率為ABCDEF
? 第一步谱邪、將概率最大的框A炮捧,分別與BCDEF框計(jì)算出IOU是否大于某個閾值(閾值是設(shè)定的)
? 第二步、假設(shè)BC與A的IOU大于閾值惦银,則丟去BC咆课,然后標(biāo)記A是我們保留的
? 第三步、此時剩下DEF扯俱,從DEF中選擇概率最大的D书蚪,讓EF分別與D計(jì)算IOU值,如果大于閾值則丟去迅栅,標(biāo)記D為我們保留的
? 第四步殊校、不斷重復(fù),找到所有被保留下來的矩形框
三读存、RCNN
算法思想:1.找出候選框? ?2.用CNN對其提取特征向量? 3用SVM進(jìn)行特征向量分類如圖
3.1搜索候選框
當(dāng)給出一張圖片時为流,我們需要搜索出所有可能是物體的區(qū)域,采用的算法是Selective Search宪萄,通過該算法艺谆,找到2000多個候選框榨惰。從上圖可知拜英,候選框都是矩形,但是大小不同琅催,根據(jù)步驟居凶,接下來是進(jìn)行cnn特征提取,但是我們知道藤抡,CNN對輸入圖片的大小是固定的侠碧,因此對于候選框我們需要縮放到固定大小。方法:
1).各向異性縮放
不管圖片長寬比例缠黍,不管是否扭曲弄兜,只管縮放到cnn要求的比例。圖(D)
2).各向同性縮放
考慮到圖片扭曲會對分類精度有影響瓷式,提出各向同性縮放
a.將bounding box的邊界向外延伸替饿,使圖片成正方形,然后裁剪贸典。如果延伸到原來圖片的外邊界视卢,則用bounding box中的顏色補(bǔ)齊。圖B
b.先將bounding box中的圖片裁剪出來廊驼,然后用固定的背景顏色填充成正方形(背景顏色是bounding box的像素顏色均值)圖C
得到指定大小的圖片后据过,我們用IOU為這些候選框打標(biāo)簽惋砂,如果用算法selective search挑選出來的候選框與與人工標(biāo)注的候選框的IOU大于0.5,則該候選框標(biāo)注為物體绳锅,否則標(biāo)注為背景類別西饵。
3.2.網(wǎng)絡(luò)初始化
直接用Alexnet的網(wǎng)絡(luò),然后連參數(shù)也是直接采用它的參數(shù)鳞芙,作為初始的參數(shù)值罗标,然后再fine-tuning訓(xùn)練
假設(shè)要檢測的物體類別有N類,那么我們就需要把上面預(yù)訓(xùn)練階段的CNN模型的最后一層給替換成N+1個輸出的神經(jīng)元(加1积蜻,表示還有一個背景)闯割,然后這一層直接采用參數(shù)隨機(jī)初始化的方法,其它網(wǎng)絡(luò)層的參數(shù)不變竿拆;接著就可以開始繼續(xù)SGD訓(xùn)練了宙拉。開始的時候,SGD學(xué)習(xí)率選擇0.001丙笋,在每次訓(xùn)練的時候谢澈,我們batch size大小選擇128,其中32個正樣本御板、96個負(fù)樣本锥忿。