計(jì)算機(jī)視覺(jué)中 RNN 應(yīng)用于目標(biāo)檢測(cè)

深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得的巨大的發(fā)展,最近幾年CNN一直是目前主流模型所采取的架構(gòu)。最近半年RNN/LSTM應(yīng)用在識(shí)別領(lǐng)域逐漸成為一種潮流涩堤,RNN在獲取目標(biāo)的上下文中較CNN有獨(dú)特的優(yōu)勢(shì)吉拳。以下我們分析最近有關(guān)RNN做目標(biāo)識(shí)別的相關(guān)文章烈涮。

1娃循、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016論文筆記

本文的主要貢獻(xiàn)是用skip pooling和 RNNlayer片橡。在多尺度的feature map 上做roi pooling,最后一個(gè)feature map是通過(guò)rnn得到的淮野。
  識(shí)別精度在VOC2012上達(dá)到76.4%,原因主要是利用多尺度的feature map和rnn layer吹泡。文章中用到了很多trick:

1) rnn 用的是修改后的IRNN骤星,速度快,精度與LSTM相似爆哑。
2)由于是在多尺度f(wàn)eature map上做roi pooling洞难,每個(gè)尺度上feature map的響應(yīng)幅度不一樣,所以需要先做L2-norm揭朝,然后再將這些尺度得到roi 特征concate到一起队贱。然后統(tǒng)一在scale到一個(gè)尺度上(scale由網(wǎng)絡(luò)學(xué)習(xí)得到)。
3)加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預(yù)訓(xùn)練潭袱,讓權(quán)重預(yù)學(xué)習(xí)柱嫌。(很重要,有兩個(gè)百分點(diǎn)提升)
4)如果把最后一層IRNN換成級(jí)聯(lián)的3*3的卷積層屯换,精度下降0.8%编丘,所以IRNN對(duì)于提升不是那么明顯。

思考:

1)此方法對(duì)于小尺度的物體彤悔,如bottle嘉抓、plant等識(shí)別效果不好,是否可以利用最早的feature map做識(shí)別晕窑,最早的feature 尺度信息保存的較好抑片。
2)rnn只是用來(lái)提特征用,并沒(méi)有考慮到物體的上下文信息杨赤。
3)是否可以在第一輪識(shí)別到物體后敞斋,利用attention的機(jī)制截汪,現(xiàn)將這些物體在feature map上去除,重點(diǎn)識(shí)別小的物體渺尘。

2挫鸽、End-to-end people detection in crowded scenes

在Lentet得到特征的基礎(chǔ)用,用LSTM做控制器鸥跟,按序列輸出得到的框丢郊。細(xì)節(jié)方面需要注意的是沒(méi)有用NMS,用的hungarian loss(匈牙利算法)医咨。本文最大的貢獻(xiàn)出了源碼枫匾,方便做detection的理解LSTM在目標(biāo)識(shí)別中的應(yīng)用。

3拟淮、CNN-RNN: A Unified Framework for Multi-label Image Classification

本文的主要目的是做圖像的多l(xiāng)abel識(shí)別干茉。
  文中有一句話很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個(gè)feature map預(yù)測(cè)多l(xiāng)abel時(shí),往往會(huì)忽略小物體很泊。
  所以作者利用兩個(gè)并行的網(wǎng)絡(luò)角虫,第二個(gè)網(wǎng)絡(luò)輸入時(shí)當(dāng)前輸出的label,先得到label embeding委造,然后通過(guò)rnn得到一向量戳鹅,融合圖像的feature map得到image embeding,最終輸出當(dāng)前圖像下一個(gè)label昏兆。
思考:

1)利用Deconvolution 將feature 擴(kuò)到原圖一樣大小枫虏,做小物體的目標(biāo)識(shí)別。
2)用不同尺寸的卷積核爬虱。

小思考-----為什么原來(lái)多級(jí)的級(jí)聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識(shí)別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強(qiáng)的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識(shí)別效果,究竟是為什么?

4隶债、Attentive contexts for object detection

文章利用local(多尺度的cnn特征)和global(LSTM生成)來(lái)做目標(biāo)識(shí)別。用global的原因是:圖像中的其他信息有利于當(dāng)前box的識(shí)別跑筝,比如圖像中出現(xiàn)其他的汽車對(duì)當(dāng)前框識(shí)別為汽車的提升很大死讹,但在文章中g(shù)lobal的提升不是很明顯,只有0.6%的提升继蜡。作者所用的global信息感覺(jué)很一般回俐,并沒(méi)有真正用到lstm的作用。
  思考一下稀并,lstm到底怎么用才能提取global信息:之前不容易識(shí)別到的椅子或者瓶子,不能用cnn最后得到的特征仅颇,應(yīng)為太稀疏了,一是瓶子之類的沒(méi)有紋理信息碘举,而是像椅子之類的紋理太亂,與其他的物體太沖突忘瓦。可以利用本文lstm的思路,將隱層的輸出當(dāng)做test時(shí)候的隱層輸入耕皮,怎么將這20類的所有隱層信息集合起來(lái)是個(gè)難點(diǎn)境蜕。

5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清華大學(xué) 鏈接二

每一層卷積后用RNN(類似一種cnn,只不過(guò)權(quán)重共享),在參數(shù)較少的情況下,讓網(wǎng)絡(luò)的層數(shù)更深,每層獲取的context信息更豐富,用cuda-convenet實(shí)現(xiàn),文章借鑒意義不大,從引用量上就可以看出。

6. Image caption相關(guān)論文

  • show and tell: a neural image caption generator CVPR2015
  • image captioning with deep bidirectional LSTMs

此類文章的主要思想是將圖像的cnn特征當(dāng)做傳統(tǒng)LSTM的輸入,最終生成一句句子描述,對(duì)目標(biāo)識(shí)別的借鑒意義不大.

7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation

本文的主要思想也是用了3層的lstm去提特征,最后用1*1的卷積層降維到K(類別數(shù))層的feature map,本身沒(méi)有什么創(chuàng)意,只是效果很好. 而且文中作者又設(shè)計(jì)了一個(gè)FCN+LSTM的級(jí)聯(lián)網(wǎng)絡(luò),效果做到了state-of-the-art. 借鑒的地方不多凌停。

8. semantic object parsing with graph LSTM

本文主要思想是拋棄原來(lái)逐點(diǎn)做序列的思想,轉(zhuǎn)而利用超像素做為序列,而且超像素的輸入順序是根據(jù)前一步FCN得到的confidence map決定.
  Graph LSTM是用來(lái)做語(yǔ)義分割,是否可以借鑒用來(lái)做目標(biāo)識(shí)別.

9. pixel recurrent nerual networks

本文利用pixel rnn來(lái)做圖像的補(bǔ)全,將各種門(mén)的計(jì)算用cnn來(lái)實(shí)現(xiàn),加快計(jì)算速度(僅限于門(mén)的計(jì)算,cell state的更新還是傳統(tǒng)方式),最大的貢獻(xiàn)是用了多中網(wǎng)絡(luò),pixel CNN pixel RNN multiscale RNN---先生成低分辨率的圖像,然后用這些低分變率的pixel作為先驗(yàn)知識(shí)最終生成一幅完整的圖粱年。

[參考]: 綜述:計(jì)算機(jī)視覺(jué)中RNN應(yīng)用于目標(biāo)識(shí)別

(轉(zhuǎn)載請(qǐng)注明出處!)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市罚拟,隨后出現(xiàn)的幾起案子台诗,更是在濱河造成了極大的恐慌,老刑警劉巖赐俗,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拉队,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡阻逮,警方通過(guò)查閱死者的電腦和手機(jī)粱快,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)叔扼,“玉大人事哭,你說(shuō)我怎么就攤上這事」细唬” “怎么了慷蠕?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)食呻。 經(jīng)常有香客問(wèn)我,道長(zhǎng)澎现,這世上最難降的妖魔是什么仅胞? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮剑辫,結(jié)果婚禮上干旧,老公的妹妹穿的比我還像新娘。我一直安慰自己妹蔽,他們只是感情好椎眯,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著胳岂,像睡著了一般编整。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上乳丰,一...
    開(kāi)封第一講書(shū)人閱讀 51,182評(píng)論 1 299
  • 那天掌测,我揣著相機(jī)與錄音,去河邊找鬼产园。 笑死汞斧,一個(gè)胖子當(dāng)著我的面吹牛夜郁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播粘勒,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼竞端,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了庙睡?” 一聲冷哼從身側(cè)響起事富,我...
    開(kāi)封第一講書(shū)人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎埃撵,沒(méi)想到半個(gè)月后赵颅,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡暂刘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年饺谬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谣拣。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡募寨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出森缠,到底是詐尸還是另有隱情拔鹰,我是刑警寧澤,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布贵涵,位于F島的核電站列肢,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏宾茂。R本人自食惡果不足惜瓷马,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跨晴。 院中可真熱鬧欧聘,春花似錦、人聲如沸端盆。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)焕妙。三九已至蒋伦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間焚鹊,已是汗流浹背凉敲。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人爷抓。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓势决,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親蓝撇。 傳聞我的和親對(duì)象是個(gè)殘疾皇子果复,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容