基于深度學(xué)習(xí)的圖像目標(biāo)檢測(cè)(上)

有了美麗的封面毯侦, 寫(xiě)的興致又來(lái)了矾瑰。 我們?cè)凇?a target="_blank" rel="nofollow">深度學(xué)習(xí)名校課程大全”里面介紹了深度學(xué)習(xí)的課程坦敌。 在“人工智能深度學(xué)習(xí)人物關(guān)系[全]”里面介紹了部分深度學(xué)習(xí)的人物。 這里簡(jiǎn)要概述下下部分圖像目標(biāo)檢測(cè)深度學(xué)習(xí)模型凰兑。

前言

有一些圖像分割的背景知識(shí)也很有意思妥粟,簡(jiǎn)單列下, 概述下來(lái)吏够,主要是五大任務(wù), 六大數(shù)據(jù)集滩报, 七大牛人組锅知,一個(gè)效果評(píng)估。

五大圖像處理任務(wù)

1. 圖像分類(lèi)

2. 分類(lèi)和定位

3. 目標(biāo)物體檢測(cè)

4. 語(yǔ)義分割

一下子從框的世界進(jìn)入了像素點(diǎn)的世界脓钾。

5. 實(shí)例分割

六大圖像數(shù)據(jù)庫(kù)

1.PASCAL ?Visual Object Classes (VOC) 挑戰(zhàn)

人售睹、車(chē)、自行車(chē)可训、公交車(chē)昌妹、飛機(jī)捶枢、羊、牛飞崖、桌等20大類(lèi)

2.MS COCO: Microsoft Common Object in Context

80大類(lèi)烂叔, 多目標(biāo)

3.ImageNet Object Detection: ILSVRC DET 任務(wù)

200類(lèi)別,578,482 圖片

4.Oxford-IIIT Pet Dataset

37 類(lèi)別固歪,每個(gè)類(lèi)別 200 圖片

5.Cityscapes Dataset

30 類(lèi)別蒜鸡,25,000 + 真實(shí)開(kāi)車(chē)場(chǎng)景圖片

6.ADE20K Dataset

150+ 類(lèi)別,22,000 + 普通場(chǎng)景圖片

七大牛人組

1.Navneet Dalal 和 Bill Triggs (INRIA)

兩人提出了Histogram of Gradient (HOG)獲得2015年的 Longuet-Higgins Prize大獎(jiǎng)

2.Pedro Felipe Felzenszwalb

和學(xué)生Ross Girshick一起發(fā)明了DPM牢裳,深化了HOG.

3.Ross Girshick

Felzenszwalb的高徒逢防,RBG大神、發(fā)明了R-CNN蒲讯、Mask R-CNN忘朝。Ross目前在Facebook人工智能研究院 FAIR。

4.Koen van de Sande

提出Selective Search的大神判帮。

5.Jitendra Malik

去噪模型Perona-Malik擴(kuò)散和聚類(lèi)分割里面的歸一化分割Normalized Cut的發(fā)明人局嘁,RBG大神的博士后導(dǎo)師,鼓勵(lì)RBG引入CNN做目標(biāo)檢測(cè)脊另,R-CNN發(fā)明人之一导狡。

6.?Pietro Perona去噪模型Perona-Malik擴(kuò)散的發(fā)明人, 李飛飛的博士導(dǎo)師偎痛, 2013獲得Longuet-Higgins Prize旱捧。 和高徒Piotr Dollar一起提出Fast Feature Pyramids的神器。他的另外一個(gè)高徒Stefano Soatto搞出了?Structure From Motion? SFM踩麦,視覺(jué)運(yùn)動(dòng)信息的多幅二維圖像序列估計(jì)三維結(jié)構(gòu)的技術(shù)枚赡。? 他弟子Piotr Dollar目前在FAIR。

7.何凱明

ResNet谓谦,SPP贫橙, Mask-CNN發(fā)明人,目前在FAIR反粥。

一個(gè)效果評(píng)估m(xù)AP(mean average precision)借用了文檔檢索里面的標(biāo)準(zhǔn)卢肃, 假設(shè)目標(biāo)物體的預(yù)測(cè)在所有的圖像中都進(jìn)行預(yù)測(cè), 在每個(gè)圖像上計(jì)算準(zhǔn)確和召回才顿。 但是最后計(jì)算每個(gè)目標(biāo)物體的AP的時(shí)候莫湘, 僅僅選用相關(guān)的圖像,進(jìn)行平均average郑气, 最后計(jì)算mAP的時(shí)候再求平均mean幅垮。? 是一個(gè)奇怪的名字,卻是一個(gè)蠻直觀的評(píng)價(jià)尾组!

R-CNN系列

R-CNN的橫空出世忙芒, 隨后經(jīng)過(guò)一系列改進(jìn)示弓, 走到了Mask R-CNN和Mask^X R-CNN的神奇境界。

CNN結(jié)構(gòu)上從AlexNet過(guò)渡到ResNet呵萨, 中間也受到Overfeat和SPPNet的影響深遠(yuǎn)奏属!

一, R-CNN的前世

2013年之前甘桑, 基本由RBG和他導(dǎo)師的DPM主導(dǎo)拍皮, 當(dāng)然離不開(kāi)SS和SVM的應(yīng)用,和后續(xù)Box Regression的修正跑杭。

1. Histogram of Gradient (HOG) 特征

8x8像素框內(nèi)計(jì)算方向梯度直方圖

2. HOG Pyramid

特征金字塔铆帽,對(duì)于不同大小的物體進(jìn)行適應(yīng)。

3. HOG特征 -> SVM分類(lèi)

4. DPM模型 Deformable Part Model

加組件組合的HOG特征德谅,組件間計(jì)算彈性得分爹橱,優(yōu)化可變形參數(shù)。

如果沒(méi)有彈性距離窄做,就是BoW (Bag of Word)模型愧驱,問(wèn)題很大, 位置全部丟失:

n個(gè)組件的DPM計(jì)算流程

5. Selective Search 思想

首先椭盏, 過(guò)分割后基于顏色紋理等相似度合并组砚,

然后,過(guò)分割掏颊、分層合并糟红、建議區(qū)域排序

6. 基于Selective Search + DPM/HoG + SVM的物體識(shí)別

7. AlexNet的圖像分類(lèi)

2012年AlexNet贏得LSVRC的ImageNet分類(lèi)競(jìng)賽。深度CNN結(jié)構(gòu)用來(lái)圖像特征提取乌叶。

8. bounding-box regression 框回歸

BBR 在DPM時(shí)代就和SVM分類(lèi)結(jié)合盆偿,一般直接使用線性回歸,或者和SVR結(jié)合准浴。

二事扭, R-CNN的出世

這個(gè)工作是RBG在Malik那里讀博士后的產(chǎn)出。 這個(gè)工作的影響巨大乐横!

1.1 R-CNN的本質(zhì)求橄, 用深度CNN網(wǎng)絡(luò)取代了HoG/DPM的特征提取葡公!

1.2 R-CNN依賴(lài)分類(lèi)預(yù)訓(xùn)練的特征

1.3 通過(guò)bounding-box regression改進(jìn)效果谈撒,對(duì)于SS推薦的, 經(jīng)過(guò)SVM分類(lèi)的結(jié)果進(jìn)行修正匾南。

這樣,我們就得到了最后RNN的框架蛔外,我們看到區(qū)域推薦蛆楞、SVM和Bound Box Regression都是成熟的技術(shù)的整合:

R-CNN優(yōu)點(diǎn):

1. 效果比DPM方法大幅度提高

2. 開(kāi)啟了CNN網(wǎng)絡(luò)的目標(biāo)檢測(cè)應(yīng)用

3. 引入了BBR和分類(lèi)結(jié)合的思想

4. 定義了RoI溯乒, 基于推薦區(qū)域的思想

R-CNN問(wèn)題:

不是端到端的模型,依賴(lài)SS和SVM豹爹!

計(jì)算速度相當(dāng)慢裆悄!

對(duì)于過(guò)大過(guò)小的東西,效果很不好臂聋。

譬如光稼,對(duì)于長(zhǎng)凳, 或者眼鏡等等孩等。

三艾君,MR-CNN的改進(jìn)

Multi-Region的提出, 開(kāi)始對(duì)Box進(jìn)一步做文章肄方, 相當(dāng)于對(duì)Box進(jìn)一步做增強(qiáng)冰垄,希望改進(jìn)增強(qiáng)后的效果,主要改善了部分重疊交叉的情況权她。

但是特征拼接后使得空間變大虹茶,再使用SVM處理, 效果和R-CNN基本類(lèi)似隅要。

MR-CNN改進(jìn)有限蝴罪!

四, Overfeat的改進(jìn)

LeCun的Overfeat是個(gè)端到端的模型步清,直接拋棄了SVM要门,并且把BBR整合一起使用FCN(Fully-Connected Net)搞定, 解決了后面一端的問(wèn)題(取代了SVM和BBR)尼啡。

另外暂衡, 也直接拋棄了SS,采用CNN上滑動(dòng)窗口來(lái)進(jìn)行框推薦崖瞭,搞定前面一端狂巢。

然后直接根據(jù)滑動(dòng)窗口的不準(zhǔn)確的判斷, 進(jìn)行Box 回歸(BR)來(lái)進(jìn)行準(zhǔn)確定位书聚。

并且在計(jì)算上做了三大優(yōu)化:? ?第一唧领, 先進(jìn)行CNN再滑動(dòng)窗口, 而不是先滑動(dòng)窗口再進(jìn)行CNN計(jì)算雌续。 把窗口滑動(dòng)放到CNN之后進(jìn)行斩个。 避免重復(fù)的特征計(jì)算。

第二驯杜, 多類(lèi)別并行計(jì)算框架受啥, 進(jìn)一步減少CNN特征計(jì)算因?yàn)闆](méi)有找到特定類(lèi)別而浪費(fèi)。

第三, 把FCN直接用CNN網(wǎng)絡(luò)取代滚局, 計(jì)算量大大減少居暖。怎么做到的呢? 結(jié)合上面兩點(diǎn)藤肢, 利用每個(gè)類(lèi)別實(shí)現(xiàn)一個(gè)0-1的CNN網(wǎng)絡(luò)太闺, 然后所有類(lèi)別并行處理。

還做了一大改進(jìn)嘁圈, 考慮了多尺度衍生:

Overfeat優(yōu)點(diǎn):

1. 端到端的模型

2. 回歸和分類(lèi)結(jié)合的計(jì)算模型

3. 首次將區(qū)域計(jì)算后移省骂, 極大節(jié)省計(jì)算量, 優(yōu)化速度

4. 有多尺度考量最住,試圖優(yōu)化極大極小目標(biāo)問(wèn)題

Overfeat問(wèn)題:

1. 取消區(qū)域推薦钞澳, 依賴(lài)窗口滑動(dòng)和BR效果后的推薦效果一般。

2. 定位準(zhǔn)確温学, 但是對(duì)于重疊目標(biāo)物體的情況略贮,效果很差。

五仗岖, SPPNet的改進(jìn)

這個(gè)工作是何凱明在孫劍指導(dǎo)下逃延, 微軟的工作。 后來(lái)孫劍去了曠視科技轧拄, 而何凱明去了Facebook人工智能實(shí)驗(yàn)室FAIR揽祥。 前面, 我們提到R-CNN和Overfeat都存在部分多尺度檩电,重疊效果的問(wèn)題拄丰。? 某種意義上, 應(yīng)對(duì)了HoG特征俐末, 這樣對(duì)于物體來(lái)說(shuō)類(lèi)似BoW模型料按, 我們知道DPM里面,是帶有組件空間分布的彈性得分的卓箫, 另外也有HoG Pyramid的思想载矿。 如何把Pyramid思想和空間限制得分加入改善多尺度和重疊的效果呢??MR-CNN里面嘗試了區(qū)域增強(qiáng)烹卒, Overfeat里面嘗試了多尺度輸入闷盔。 但是效果都一般。? 這里我們介紹另外一個(gè)技術(shù)Spatial Pyramid Matching, SPM旅急。把空間和Pyramid結(jié)合的思想逢勾。

1. SPM

把BoW修改金字塔Pyramid方式進(jìn)行空間限制,做特征提取藐吮。

2.? SPM用在CNN特征之后溺拱,R-CNN里面 SVM分類(lèi)之前逃贝。

3. 基于CNN的Pooling技術(shù)來(lái)實(shí)現(xiàn)SPM, 通過(guò)不同尺度的Pooling技術(shù)很容易就實(shí)現(xiàn)了CNN特征的SPM特征盟迟。

4. 先特征后區(qū)域的處理秋泳, 某種意義上取代了多尺度輸入,或者特征增強(qiáng)攒菠。

和R-CNN相比做到了先特征后區(qū)域, 和Overfeat相比自帶Multi-Scale歉闰。

于是SPPNet(Spatial Pyramid Pooling Net)很空出世辖众!

SPPNet優(yōu)點(diǎn):

1. 提取SPP的概念, 把CNN的Pooling用的出神入化和敬, 取代了HoG Pyramid的改進(jìn)凹炸。 對(duì)于大小尺度的物體識(shí)別有改進(jìn)。

2. 進(jìn)一步強(qiáng)調(diào)了CNN特征計(jì)算前移昼弟, 區(qū)域處理后移的思想啤它, 極大節(jié)省計(jì)算量。

SPPNet缺點(diǎn):

1. 依然不是端到端的模型

2. 過(guò)于注重CNN特征的分離舱痘, CNN特征提取沒(méi)有聯(lián)動(dòng)調(diào)參數(shù)变骡!

Fast R-CNN的改進(jìn)

RBG從后來(lái)去了微軟,在微軟了解了何凱明的SPPNet工作芭逝。 所以Fast R-CNN 基本和SPPNet類(lèi)似塌碌, 但是進(jìn)一步聯(lián)動(dòng)改進(jìn)!全部打通區(qū)域推薦之后到目標(biāo)識(shí)別后一端旬盯!而且效果較好台妆!

基于SPPNet, Fast R-CNN做了兩大改進(jìn):

一, 簡(jiǎn)化SPP成為RoI Pooling胖翰, 只用了最細(xì)分的SPPNet接剩。? 把RoI區(qū)域變成了RoI Pooling, 這就是RoI Pooling的思想的來(lái)源萨咳。 Pyramid上層更粗的特征懊缺, 可以依賴(lài)FCN進(jìn)行整合學(xué)習(xí)。

二某弦, CNN特征網(wǎng)絡(luò)聯(lián)動(dòng)調(diào)參數(shù)桐汤!

這樣, Softmax分類(lèi)誤差和線性回歸誤差疊加的誤差靶壮, 可以反傳通過(guò)FCN怔毛, ROI Pooling和ConvNet層。

Fast R-CNN優(yōu)點(diǎn):

1. 吸收了SPPNet和R-CNN的精華腾降,極大的打通并且改進(jìn)了從區(qū)域推薦到目標(biāo)檢測(cè)一端拣度。

2. RoI Pooling技術(shù)橫空出世, 極大的發(fā)揮了區(qū)域計(jì)算后移的優(yōu)勢(shì), 加快了訓(xùn)練速度抗果。

3. Log 損失和Smooth L1的損失下的FCN筋帖、RoI Pooling、ConvNet三層聯(lián)動(dòng)調(diào)參數(shù)成熟冤馏, 并且?guī)?lái)效果上的提升日麸。

4. 并且應(yīng)用VGG16,取代AlexNet作為CNN網(wǎng)絡(luò)模型

Fast R-CNN缺點(diǎn):

1. 依然沒(méi)有實(shí)現(xiàn)端到端的模型逮光,對(duì)SS區(qū)域推薦依賴(lài)嚴(yán)重代箭。

Faster R-CNN的改進(jìn)

SPPNet和Fast R-CNN都面臨著并非端到端模型的困惑, 那么RBG涕刚、何凱明和孫劍嗡综, 微軟的3位牛人合作開(kāi)啟了端到端模型的開(kāi)發(fā)。

提出RPN(Region Proposal Net)取代了SS區(qū)域推薦杜漠。 RPN有點(diǎn)類(lèi)似Overfeat的ConvNet的滑動(dòng)窗口极景, 但是加入了Anchor Box的設(shè)計(jì)。

在Overfeat的ConvNet上的滑動(dòng)窗口驾茴, 加上Multi-Scale的圖像輸入設(shè)計(jì)盼樟, 編程了帶Anchor Box推薦的區(qū)域Pyramid。 這種機(jī)制沟涨, 某種意義上是帶了先驗(yàn)的Attention機(jī)制恤批。

這樣 RPN的Anchor和Pyramid和定位都可以是參數(shù)學(xué)習(xí), 例如:9 anchors x 2 scores x width x height裹赴。

如果在考慮ROI Pooling對(duì)推薦區(qū)域的修正作為新的RPN喜庞,就會(huì)帶來(lái)ROI Pooling的迭代:

所以最初,? RPN的損失是單獨(dú)計(jì)算進(jìn)行參數(shù)學(xué)習(xí)的棋返。

但是后來(lái), RPN的誤差也全部整合處理了延都, 一個(gè)端到端的模型誕生,并且具有較好的區(qū)域推薦睛竣、特征Pyramid晰房,和Box回歸的效果保證。

Faster R-CNN優(yōu)點(diǎn):

1. 和Overfeat一樣是一個(gè)端到端的模型射沟, 但是集成了以前圖像處理里面的思想: 區(qū)域推薦殊者, 特征Pyramid和Box回歸。

2. 較好的ConvNet特征共享验夯, 效率更高

3. 提出了RPN網(wǎng)絡(luò)猖吴,并且整合后的效果和Fast R-CNN一樣

Faster R-CNN缺點(diǎn):

1. 依然難以做到實(shí)時(shí)高效

2. 功能上沒(méi)有進(jìn)入實(shí)例分割階段。

小結(jié)

我們發(fā)現(xiàn)挥转, 單純的端到端ConvNet模型的Overfeat很難達(dá)到較好的效果海蔽。 如何融合圖像處理經(jīng)典思想里面的區(qū)域推薦共屈, 特征金字塔, 和框回歸党窜,還是非常有必要拗引。 而Faster R-CNN做到了這些。? 這個(gè)過(guò)程中一直伴隨著性能的提升幌衣, 其中重要一步就是如何讓特征計(jì)算不要重復(fù)矾削,做到一次計(jì)算。 如何進(jìn)一步提高速度泼掠, 和增強(qiáng)功能怔软, 是后續(xù)網(wǎng)絡(luò)的要改進(jìn)的地方。?例如择镇, 我們發(fā)現(xiàn)ConvNet的計(jì)算在Faster R-CNN已經(jīng)達(dá)到很高的共享, 但是ROI之后依然有ConvNet的計(jì)算括改, 如何進(jìn)一步共享這部分計(jì)算呢腻豌? 請(qǐng)看下期。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嘱能,一起剝皮案震驚了整個(gè)濱河市吝梅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌惹骂,老刑警劉巖苏携,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異对粪,居然都是意外死亡右冻,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)著拭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)纱扭,“玉大人,你說(shuō)我怎么就攤上這事儡遮∪槎辏” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵鄙币,是天一觀的道長(zhǎng)肃叶。 經(jīng)常有香客問(wèn)我,道長(zhǎng)十嘿,這世上最難降的妖魔是什么因惭? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮详幽,結(jié)果婚禮上筛欢,老公的妹妹穿的比我還像新娘浸锨。我一直安慰自己,他們只是感情好版姑,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布柱搜。 她就那樣靜靜地躺著,像睡著了一般剥险。 火紅的嫁衣襯著肌膚如雪聪蘸。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,262評(píng)論 1 308
  • 那天表制,我揣著相機(jī)與錄音健爬,去河邊找鬼。 笑死么介,一個(gè)胖子當(dāng)著我的面吹牛谷徙,可吹牛的內(nèi)容都是我干的龟梦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼甲捏!你這毒婦竟也來(lái)了灶体?” 一聲冷哼從身側(cè)響起谆扎,我...
    開(kāi)封第一講書(shū)人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤霉撵,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后帘撰,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體跑慕,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年摧找,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了核行。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡慰于,死狀恐怖钮科,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情婆赠,我是刑警寧澤绵脯,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站休里,受9級(jí)特大地震影響蛆挫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜妙黍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一悴侵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拭嫁,春花似錦可免、人聲如沸抓于。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)捉撮。三九已至,卻和暖如春妇垢,著一層夾襖步出監(jiān)牢的瞬間巾遭,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工闯估, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留灼舍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓涨薪,卻偏偏與公主長(zhǎng)得像骑素,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子刚夺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容