計算機視覺中RNN應用于目標檢測

姓名:宋子璇

學號:16020199060

轉載自:https://zhuanlan.zhihu.com/p/32870463

【嵌牛導讀】:分析RNN做目標識別

【嵌牛鼻子】:RNN

【嵌牛提問】:計算機視覺中RNN怎么應用于目標檢測迫像?

【嵌牛正文】

深度學習在計算機視覺領域取得的巨大的發(fā)展厨姚,最近幾年CNN一直是目前主流模型所采取的架構卑雁。最近半年RNN/LSTM應用在識別領域逐漸成為一種潮流奠货,RNN在獲取目標的上下文中較CNN有獨特的優(yōu)勢剖张。以下我們分析最近有關RNN做目標識別的相關文章。

1属桦、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016(論文筆記)

本文的主要貢獻是用skip pooling和 RNNlayer菱阵。在多尺度的feature map 上做roi pooling,最后一個feature map是通過rnn得到的。

識別精度在VOC2012上達到76.4%层扶,原因主要是利用多尺度的feature map和rnn layer箫章。文章中用到了很多trick:

1) rnn 用的是修改后的IRNN,速度快镜会,精度與LSTM相似檬寂。

2)由于是在多尺度feature map上做roi pooling,每個尺度上feature map的響應幅度不一樣戳表,所以需要先做L2-norm桶至,然后再將這些尺度得到roi 特征concate到一起。然后統(tǒng)一在scale到一個尺度上(scale由網(wǎng)絡學習得到)匾旭。

3)加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預訓練镣屹,讓權重預學習。(很重要价涝,有兩個百分點提升)

4)如果把最后一層IRNN換成級聯(lián)的3*3的卷積層女蜈,精度下降0.8%,所以IRNN對于提升不是那么明顯色瘩。

思考:

1)此方法對于小尺度的物體伪窖,如bottle、plant等識別效果不好居兆,是否可以利用最早的feature map做識別惰许,最早的feature 尺度信息保存的較好。

2)rnn只是用來提特征用史辙,并沒有考慮到物體的上下文信息汹买。

3)是否可以在第一輪識別到物體后,利用attention的機制聊倔,現(xiàn)將這些物體在feature map上去除晦毙,重點識別小的物體。

2耙蔑、End-to-end people detection in crowded scenes

在Lentet得到特征的基礎用见妒,用LSTM做控制器,按序列輸出得到的框甸陌。細節(jié)方面需要注意的是沒有用NMS须揣,用的hungarian loss(匈牙利算法)。本文最大的貢獻出了源碼钱豁,方便做detection的理解LSTM在目標識別中的應用耻卡。

Github倉庫地址:https://github.com/Russell91/ReInspect/

3、CNN-RNN: A Unified Framework for Multi-label Image Classification

本文的主要目的是做圖像的多l(xiāng)abel識別牲尺。

文中有一句話很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個feature map預測多l(xiāng)abel時卵酪,往往會忽略小物體幌蚊。

所以作者利用兩個并行的網(wǎng)絡,第二個網(wǎng)絡輸入時當前輸出的label溃卡,先得到label embeding溢豆,然后通過rnn得到一向量,融合圖像的feature map得到image embeding瘸羡,最終輸出當前圖像下一個label漩仙。

思考:

1)利用Deconvolution 將feature 擴到原圖一樣大小,做小物體的目標識別犹赖。

2)用不同尺寸的卷積核讯赏。

小思考-----為什么原來多級的級聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識別效果,究竟是為什么?

4、Attentive contexts for object detection

文章利用local(多尺度的cnn特征)和global(LSTM生成)來做目標識別冷尉。用global的原因是:圖像中的其他信息有利于當前box的識別漱挎,比如圖像中出現(xiàn)其他的汽車對當前框識別為汽車的提升很大,但在文章中global的提升不是很明顯雀哨,只有0.6%的提升磕谅。作者所用的global信息感覺很一般,并沒有真正用到lstm的作用雾棺。

思考一下膊夹,lstm到底怎么用才能提取global信息:之前不容易識別到的椅子或者瓶子,不能用cnn最后得到的特征,應為太稀疏了捌浩,一是瓶子之類的沒有紋理信息放刨,而是像椅子之類的紋理太亂,與其他的物體太沖突∈龋可以利用本文lstm的思路进统,將隱層的輸出當做test時候的隱層輸入,怎么將這20類的所有隱層信息集合起來是個難點浪听。

5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清華大學 鏈接二

每一層卷積后用RNN(類似一種cnn,只不過權重共享),在參數(shù)較少的情況下,讓網(wǎng)絡的層數(shù)更深,每層獲取的context信息更豐富,用cuda-convenet實現(xiàn),文章借鑒意義不大,從引用量上就可以看出螟碎。

6. Image caption相關論文

show and tell: a neural image caption generator CVPR2015

image captioning with deep bidirectional LSTMs

此類文章的主要思想是將圖像的cnn特征當做傳統(tǒng)LSTM的輸入,最終生成一句句子描述,對目標識別的借鑒意義不大.

7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation

本文的主要思想也是用了3層的lstm去提特征,最后用1*1的卷積層降維到K(類別數(shù))層的feature map,本身沒有什么創(chuàng)意,只是效果很好. 而且文中作者又設計了一個FCN+LSTM的級聯(lián)網(wǎng)絡,效果做到了state-of-the-art. 借鑒的地方不多。

8. semantic object parsing with graph LSTM

本文主要思想是拋棄原來逐點做序列的思想,轉而利用超像素做為序列,而且超像素的輸入順序是根據(jù)前一步FCN得到的confidence map決定迹栓。

Graph LSTM是用來做語義分割,是否可以借鑒用來做目標識別.

9. pixel recurrent nerual networks

本文利用pixel rnn來做圖像的補全,將各種門的計算用cnn來實現(xiàn),加快計算速度(僅限于門的計算,cell state的更新還是傳統(tǒng)方式),最大的貢獻是用了多中網(wǎng)絡,pixel CNN pixel RNN multiscale RNN---先生成低分辨率的圖像,然后用這些低分變率的pixel作為先驗知識最終生成一幅完整的圖掉分。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市克伊,隨后出現(xiàn)的幾起案子酥郭,更是在濱河造成了極大的恐慌,老刑警劉巖愿吹,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件不从,死亡現(xiàn)場離奇詭異,居然都是意外死亡洗搂,警方通過查閱死者的電腦和手機消返,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耘拇,“玉大人撵颊,你說我怎么就攤上這事”古眩” “怎么了倡勇?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長嘉涌。 經(jīng)常有香客問我妻熊,道長,這世上最難降的妖魔是什么仑最? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任扔役,我火速辦了婚禮,結果婚禮上警医,老公的妹妹穿的比我還像新娘亿胸。我一直安慰自己,他們只是感情好预皇,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布侈玄。 她就那樣靜靜地躺著,像睡著了一般吟温。 火紅的嫁衣襯著肌膚如雪序仙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機與錄音瓦盛,去河邊找鬼遣铝。 笑死,一個胖子當著我的面吹牛挥等,可吹牛的內容都是我干的。 我是一名探鬼主播堤尾,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼肝劲,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了郭宝?” 一聲冷哼從身側響起辞槐,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎粘室,沒想到半個月后榄檬,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡衔统,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年鹿榜,在試婚紗的時候發(fā)現(xiàn)自己被綠了海雪。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡舱殿,死狀恐怖奥裸,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情沪袭,我是刑警寧澤湾宙,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站冈绊,受9級特大地震影響侠鳄,放射性物質發(fā)生泄漏。R本人自食惡果不足惜死宣,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一伟恶、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧毅该,春花似錦知押、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至畏线,卻和暖如春静盅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背寝殴。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工蒿叠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蚣常。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓市咽,卻偏偏與公主長得像,于是被迫代替她去往敵國和親抵蚊。 傳聞我的和親對象是個殘疾皇子施绎,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內容