深度學(xué)習(xí)之路(二):R-CNN

叮咚距糖,前文已經(jīng)簡(jiǎn)單的介紹了一些玄窝,下面進(jìn)入第一個(gè)算法——R-CNN。

在計(jì)算機(jī)視覺(jué)領(lǐng)域有一個(gè)神一樣存在的競(jìng)賽——ImageNet大賽悍引,各種各樣的優(yōu)秀算法差不多都首先初現(xiàn)在大賽上恩脂。講深度學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺(jué)最早可以追溯到2012年,在此次大賽上趣斤,卷積神經(jīng)網(wǎng)絡(luò)CNN一炮走紅俩块,成功擊敗了DMP(可變組建模型,被稱為傳統(tǒng)目標(biāo)檢測(cè)算法最后的輝煌E臁)玉凯。基于此联贩,Ross大神趁火打劫漫仆,率先提出了區(qū)域卷積網(wǎng)絡(luò)目標(biāo)檢測(cè)框架(R-CNN)。由此撑蒜,目標(biāo)檢測(cè)鳥(niǎo)槍換大炮歹啼,正式拉開(kāi)了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究大幕,目標(biāo)檢測(cè)算法結(jié)束了傳統(tǒng)座菠,“GPU暴力美學(xué)”時(shí)代到來(lái)狸眼。

首先我們先來(lái)看一下論文《Rich feature hierarchies for accurate oject detection and semantic segmentation》(百度云鏈接:https://pan.baidu.com/s/12pESnsHbFi8ktfIxu729_A,提取碼:e84a)浴滴,這便是Ross Girshick大神于2014年發(fā)表的論文拓萌,由此提出R-CNN。

一升略、原文解讀

(并非逐字逐句翻譯)

過(guò)去幾年微王,在PASCAL數(shù)據(jù)集上目標(biāo)檢測(cè)的效果已經(jīng)達(dá)到了一個(gè)穩(wěn)定的效果,并且總結(jié)出了一個(gè)發(fā)展方向:融合多種低維度的特征圖和高緯度的上下文語(yǔ)義可以提升檢測(cè)效果品嚣。Ross大神基于此炕倘,提出了一種算法,可以將數(shù)據(jù)集VOC2012的最高檢測(cè)精度提升30%(也怪當(dāng)時(shí)檢測(cè)效果質(zhì)量較差翰撑,才一下提升如此之高)罩旋,達(dá)到了53.3%(很快就會(huì)被碾壓)!Ross大神并且總結(jié)出了兩個(gè)關(guān)鍵因素(為R-CNN系列算法打下了堅(jiān)實(shí)的基礎(chǔ)):

1.在候選區(qū)域自上而下的使用卷積神經(jīng)網(wǎng)絡(luò)用來(lái)定位和分割眶诈;

2.采用預(yù)訓(xùn)練再微調(diào)的方式(以后都是這樣干的涨醋,遷移學(xué)習(xí)老鐵了解一下)。

1.1 Introduction

特征是賊啦重要的(還用你說(shuō))逝撬。過(guò)去的目標(biāo)檢測(cè)算法基本上都是基于SIFT和HOG特征進(jìn)行檢測(cè)的(關(guān)于這兩個(gè)以后有機(jī)會(huì)再詳述浴骂,你知道他們是兩種特征提取算法就ok了),但是近些年來(lái)(2010-2012年)進(jìn)展非常緩慢(這也就表明了單純的依靠傳統(tǒng)的特征提取已經(jīng)很難再取得進(jìn)步了宪潮,大神們已經(jīng)把這種算法研究的明明白白了)溯警,于是乎趣苏,我們決定采用CNN來(lái)搞一下。

接下來(lái)愧膀,論文中講述了目前最新發(fā)展的傳統(tǒng)目標(biāo)檢測(cè)算法以及基于CNN的目標(biāo)檢測(cè)算法拦键,為接下來(lái)提出我的NB算法打一下前調(diào)。這里就省略了檩淋,如果您喜歡芬为,請(qǐng)?jiān)敿?xì)研究。

我們針對(duì)前人們的研究成果蟀悦,通過(guò)研究他們的缺點(diǎn)媚朦,總結(jié)出了我們的要點(diǎn),就是:通過(guò)操作“recognition using regions”解決了CNN的定位問(wèn)題日戈,并且對(duì)于每一張圖像(注意啊询张,是針對(duì)每一張圖像),我們獲取2K個(gè)于類別無(wú)關(guān)的region proposal(這個(gè)單詞經(jīng)常會(huì)出現(xiàn)浙炼,翻譯成什么樣的中文都感覺(jué)差點(diǎn)意思)份氧,通過(guò)神操作將這2K個(gè)region proposal轉(zhuǎn)化成固定大小的,將其每一個(gè)(注意啊弯屈,是每一個(gè)蜗帜,即這2000多個(gè)都要)輸入到卷積神經(jīng)網(wǎng)絡(luò),然后經(jīng)過(guò)卷積操作之后资厉,利用SVM進(jìn)行分類厅缺。由于這個(gè)算法結(jié)合了region proposal和CNN,因此我們就給他命名為R-CNN宴偿,下面上圖湘捎。


不放上這個(gè)圖,我自己都覺(jué)得我再胡扯窄刘。

如果你說(shuō)我的數(shù)據(jù)集不夠咋辦窥妇,這可就不好辦了。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就是從大量娩践,或者說(shuō)海量的數(shù)據(jù)中心獲得特征的描述秩伞,但是有標(biāo)簽的數(shù)據(jù)集是非常難找到的,即使自己制作數(shù)據(jù)集欺矫,需要耗費(fèi)的人力物力還是很大的。因此展氓,數(shù)據(jù)集數(shù)量不夠怎么辦不僅僅困惑著你穆趴,同樣困惑著Ross大神。R-CNN提出的另一個(gè)大的貢獻(xiàn)則是“微調(diào)”遇汞,即在輔助數(shù)據(jù)集(ILSVRC)上進(jìn)行訓(xùn)練(據(jù)說(shuō)數(shù)據(jù)量是千萬(wàn)級(jí)的未妹,我沒(méi)有考證過(guò)簿废,道聽(tīng)途說(shuō)),然后再在小數(shù)據(jù)集上進(jìn)行調(diào)優(yōu)络它,這為我們利用現(xiàn)有模型(VGG16族檬、ZF都有訓(xùn)練好的預(yù)訓(xùn)練模型)來(lái)進(jìn)行訓(xùn)練自己的數(shù)據(jù)集提供了可能(當(dāng)然了,這里的小數(shù)據(jù)集也不能太少化戳,過(guò)擬合還是很恐怖的单料,如果你就三五張,三五十張數(shù)據(jù)集点楼,請(qǐng)出門左拐扫尖,再制作一些數(shù)據(jù)集去,起碼每個(gè)類別也要有幾百上千張的掠廓,為了獲得相對(duì)較好的訓(xùn)練效果换怖,每個(gè)不同類別的數(shù)據(jù)集數(shù)量最好相差不是很大)。

R-CNN目標(biāo)檢測(cè)模型有三個(gè)模塊構(gòu)成:

1.生成類別獨(dú)立的region proposal

2.從各個(gè)region proposal中獲取固定維度的特征向量蟀瞧,可以用ZF沉颂,也可以用VGG16

3.利用SVM算法將這些特征向量分類

1.2 Object detection with R-CNN

region proposal

獲得region proposal是成功的第一步,那么如何獲得region proposal呢悦污?這是一個(gè)非常重要的話題铸屉,在這里R-CNN采用的是選擇性搜索算法(selective search,SS算法塞关,這里就不做過(guò)多的解釋了抬探,請(qǐng)大佬們自行百度吧,很簡(jiǎn)單的)帆赢。這就產(chǎn)生了1K-2K個(gè)region proposal小压,具體是不是這個(gè)數(shù),咱也沒(méi)數(shù)過(guò)椰于,咱也不敢說(shuō)怠益。

獲取了region proposal后,首先要要做的就是給這些region proposal整理大小瘾婿,為了方便計(jì)算蜻牢,均歸一化成227*227大小的(其實(shí)這個(gè)數(shù)字可以通過(guò)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)算出來(lái))。下面就是將大小一樣的region proposal排排隊(duì)送入卷積神經(jīng)網(wǎng)絡(luò)中偏陪,靜等結(jié)果便可抢呆。

論文的下面一些部門便是介紹了訓(xùn)練過(guò)程已經(jīng)各種各樣的對(duì)比試驗(yàn)從而驗(yàn)證了R-CNN算法多么多么優(yōu)秀。就不在一一介紹了笛谦,下面結(jié)合我的訓(xùn)練過(guò)程抱虐,為大家介紹R-CNN的訓(xùn)練過(guò)程。

二饥脑、R-CNN模型訓(xùn)練

在得到region proposal后恳邀,便可以開(kāi)始卷積操作提取特征了懦冰。

好了,現(xiàn)在我要站隊(duì)了谣沸,目前基于深度學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)框架主要有兩大陣營(yíng)刷钢,其一是Caffe,其二是TF(tensorflow乳附,于口紅無(wú)關(guān)内地,于TFBOYS更沒(méi)有一毛錢關(guān)系),其實(shí)這來(lái)兩個(gè)框架各自有各自的特點(diǎn)與不足许溅,由于一開(kāi)始接觸的是基于Caffe的模型瓤鼻,因此后面包括以后的算法基本上均是基于Caffe框架進(jìn)行開(kāi)發(fā)的。

現(xiàn)在常用的基于Caffe的卷積神經(jīng)網(wǎng)絡(luò)主要有ZF和VGG系列贤重,其中VGG系列中VGG16又比較流行茬祷。R-CNN的訓(xùn)練流程如下圖。


自己畫的并蝗,好與不好請(qǐng)多擔(dān)待祭犯。

其訓(xùn)練過(guò)程并不復(fù)雜,這里還有幾點(diǎn)再給大家強(qiáng)調(diào)一下滚停。

R-CNN中沃粗,這2K多個(gè)region proposal經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到特征向量之后,是采用SVM進(jìn)行分類的键畴,來(lái)確定類別最盅,采用Bounding-Box(Bbox)進(jìn)行回歸的,來(lái)獲得其位置坐標(biāo)起惕,關(guān)于這兩個(gè)算法涡贱,雖說(shuō)不影響R-CNN的理解,但還是學(xué)習(xí)了解一下為好惹想。

通過(guò)以上的描述其實(shí)不難發(fā)現(xiàn)R-CNN的缺陷问词,并且是非常致命的缺陷(再NB的算法也是有缺陷的),總結(jié)出來(lái)主要是兩大點(diǎn)吧(個(gè)人認(rèn)為):

1.將每一張待檢測(cè)圖像首先分成2000多個(gè)嘀粱,并且每一個(gè)都要經(jīng)過(guò)卷積計(jì)算激挪,這是非常耗費(fèi)時(shí)間的,這就造成了起檢測(cè)速度非常之慢锋叨。

2.由于對(duì)于region proposal有一個(gè)歸一化操作垄分,過(guò)度拉伸會(huì)導(dǎo)致特征變形。

基于以上問(wèn)題娃磺,便有了接下來(lái)的精彩锋喜。

未完待續(xù)。。嘿般。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市涯冠,隨后出現(xiàn)的幾起案子炉奴,更是在濱河造成了極大的恐慌,老刑警劉巖蛇更,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瞻赶,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡派任,警方通過(guò)查閱死者的電腦和手機(jī)砸逊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)掌逛,“玉大人师逸,你說(shuō)我怎么就攤上這事《够欤” “怎么了篓像?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)皿伺。 經(jīng)常有香客問(wèn)我员辩,道長(zhǎng),這世上最難降的妖魔是什么鸵鸥? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任奠滑,我火速辦了婚禮,結(jié)果婚禮上妒穴,老公的妹妹穿的比我還像新娘宋税。我一直安慰自己,他們只是感情好宰翅,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布弃甥。 她就那樣靜靜地躺著,像睡著了一般汁讼。 火紅的嫁衣襯著肌膚如雪淆攻。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天嘿架,我揣著相機(jī)與錄音瓶珊,去河邊找鬼。 笑死耸彪,一個(gè)胖子當(dāng)著我的面吹牛伞芹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼唱较,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼扎唾!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起南缓,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤胸遇,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后汉形,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體纸镊,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年概疆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了逗威。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡岔冀,死狀恐怖凯旭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情楣颠,我是刑警寧澤尽纽,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站童漩,受9級(jí)特大地震影響弄贿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矫膨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一差凹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧侧馅,春花似錦危尿、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至罗晕,卻和暖如春济欢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背小渊。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工法褥, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人酬屉。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓半等,卻偏偏與公主長(zhǎng)得像揍愁,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杀饵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359