姓名:宋子璇
學號:16020199060
轉載自:https://zhuanlan.zhihu.com/p/32870463
【嵌牛導讀】:分析RNN做目標識別
【嵌牛鼻子】:RNN
【嵌牛提問】:計算機視覺中RNN怎么應用于目標檢測迫像?
【嵌牛正文】
深度學習在計算機視覺領域取得的巨大的發(fā)展厨姚,最近幾年CNN一直是目前主流模型所采取的架構卑雁。最近半年RNN/LSTM應用在識別領域逐漸成為一種潮流奠货,RNN在獲取目標的上下文中較CNN有獨特的優(yōu)勢剖张。以下我們分析最近有關RNN做目標識別的相關文章。
1属桦、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016(論文筆記)
本文的主要貢獻是用skip pooling和 RNNlayer菱阵。在多尺度的feature map 上做roi pooling,最后一個feature map是通過rnn得到的。
識別精度在VOC2012上達到76.4%层扶,原因主要是利用多尺度的feature map和rnn layer箫章。文章中用到了很多trick:
1) rnn 用的是修改后的IRNN,速度快镜会,精度與LSTM相似檬寂。
2)由于是在多尺度feature map上做roi pooling,每個尺度上feature map的響應幅度不一樣戳表,所以需要先做L2-norm桶至,然后再將這些尺度得到roi 特征concate到一起。然后統(tǒng)一在scale到一個尺度上(scale由網(wǎng)絡學習得到)匾旭。
3)加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預訓練镣屹,讓權重預學習。(很重要价涝,有兩個百分點提升)
4)如果把最后一層IRNN換成級聯(lián)的3*3的卷積層女蜈,精度下降0.8%,所以IRNN對于提升不是那么明顯色瘩。
思考:
1)此方法對于小尺度的物體伪窖,如bottle、plant等識別效果不好居兆,是否可以利用最早的feature map做識別惰许,最早的feature 尺度信息保存的較好。
2)rnn只是用來提特征用史辙,并沒有考慮到物體的上下文信息汹买。
3)是否可以在第一輪識別到物體后,利用attention的機制聊倔,現(xiàn)將這些物體在feature map上去除晦毙,重點識別小的物體。
2耙蔑、End-to-end people detection in crowded scenes
在Lentet得到特征的基礎用见妒,用LSTM做控制器,按序列輸出得到的框甸陌。細節(jié)方面需要注意的是沒有用NMS须揣,用的hungarian loss(匈牙利算法)。本文最大的貢獻出了源碼钱豁,方便做detection的理解LSTM在目標識別中的應用耻卡。
Github倉庫地址:https://github.com/Russell91/ReInspect/
3、CNN-RNN: A Unified Framework for Multi-label Image Classification
本文的主要目的是做圖像的多l(xiāng)abel識別牲尺。
文中有一句話很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個feature map預測多l(xiāng)abel時卵酪,往往會忽略小物體幌蚊。
所以作者利用兩個并行的網(wǎng)絡,第二個網(wǎng)絡輸入時當前輸出的label溃卡,先得到label embeding溢豆,然后通過rnn得到一向量,融合圖像的feature map得到image embeding瘸羡,最終輸出當前圖像下一個label漩仙。
思考:
1)利用Deconvolution 將feature 擴到原圖一樣大小,做小物體的目標識別犹赖。
2)用不同尺寸的卷積核讯赏。
小思考-----為什么原來多級的級聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識別效果,究竟是為什么?
4、Attentive contexts for object detection
文章利用local(多尺度的cnn特征)和global(LSTM生成)來做目標識別冷尉。用global的原因是:圖像中的其他信息有利于當前box的識別漱挎,比如圖像中出現(xiàn)其他的汽車對當前框識別為汽車的提升很大,但在文章中global的提升不是很明顯雀哨,只有0.6%的提升磕谅。作者所用的global信息感覺很一般,并沒有真正用到lstm的作用雾棺。
思考一下膊夹,lstm到底怎么用才能提取global信息:之前不容易識別到的椅子或者瓶子,不能用cnn最后得到的特征,應為太稀疏了捌浩,一是瓶子之類的沒有紋理信息放刨,而是像椅子之類的紋理太亂,與其他的物體太沖突∈龋可以利用本文lstm的思路进统,將隱層的輸出當做test時候的隱層輸入,怎么將這20類的所有隱層信息集合起來是個難點浪听。
5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清華大學 鏈接二
每一層卷積后用RNN(類似一種cnn,只不過權重共享),在參數(shù)較少的情況下,讓網(wǎng)絡的層數(shù)更深,每層獲取的context信息更豐富,用cuda-convenet實現(xiàn),文章借鑒意義不大,從引用量上就可以看出螟碎。
6. Image caption相關論文
show and tell: a neural image caption generator CVPR2015
image captioning with deep bidirectional LSTMs
此類文章的主要思想是將圖像的cnn特征當做傳統(tǒng)LSTM的輸入,最終生成一句句子描述,對目標識別的借鑒意義不大.
7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation
本文的主要思想也是用了3層的lstm去提特征,最后用1*1的卷積層降維到K(類別數(shù))層的feature map,本身沒有什么創(chuàng)意,只是效果很好. 而且文中作者又設計了一個FCN+LSTM的級聯(lián)網(wǎng)絡,效果做到了state-of-the-art. 借鑒的地方不多。
8. semantic object parsing with graph LSTM
本文主要思想是拋棄原來逐點做序列的思想,轉而利用超像素做為序列,而且超像素的輸入順序是根據(jù)前一步FCN得到的confidence map決定迹栓。
Graph LSTM是用來做語義分割,是否可以借鑒用來做目標識別.
9. pixel recurrent nerual networks
本文利用pixel rnn來做圖像的補全,將各種門的計算用cnn來實現(xiàn),加快計算速度(僅限于門的計算,cell state的更新還是傳統(tǒng)方式),最大的貢獻是用了多中網(wǎng)絡,pixel CNN pixel RNN multiscale RNN---先生成低分辨率的圖像,然后用這些低分變率的pixel作為先驗知識最終生成一幅完整的圖掉分。