深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得的巨大的發(fā)展,最近幾年CNN一直是目前主流模型所采取的架構(gòu)。最近半年RNN/LSTM應(yīng)用在識(shí)別領(lǐng)域逐漸成為一種潮流涩堤,RNN在獲取目標(biāo)的上下文中較CNN有獨(dú)特的優(yōu)勢(shì)吉拳。以下我們分析最近有關(guān)RNN做目標(biāo)識(shí)別的相關(guān)文章烈涮。
1娃循、Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks CVPR2016(論文筆記)
本文的主要貢獻(xiàn)是用skip pooling和 RNNlayer片橡。在多尺度的feature map 上做roi pooling,最后一個(gè)feature map是通過(guò)rnn得到的淮野。
識(shí)別精度在VOC2012上達(dá)到76.4%,原因主要是利用多尺度的feature map和rnn layer吹泡。文章中用到了很多trick:
1) rnn 用的是修改后的IRNN骤星,速度快,精度與LSTM相似爆哑。
2)由于是在多尺度f(wàn)eature map上做roi pooling洞难,每個(gè)尺度上feature map的響應(yīng)幅度不一樣,所以需要先做L2-norm揭朝,然后再將這些尺度得到roi 特征concate到一起队贱。然后統(tǒng)一在scale到一個(gè)尺度上(scale由網(wǎng)絡(luò)學(xué)習(xí)得到)。
3)加入的lstm單元現(xiàn)用segmentation的數(shù)據(jù)集做預(yù)訓(xùn)練潭袱,讓權(quán)重預(yù)學(xué)習(xí)柱嫌。(很重要,有兩個(gè)百分點(diǎn)提升)
4)如果把最后一層IRNN換成級(jí)聯(lián)的3*3的卷積層屯换,精度下降0.8%编丘,所以IRNN對(duì)于提升不是那么明顯。
思考:
1)此方法對(duì)于小尺度的物體彤悔,如bottle嘉抓、plant等識(shí)別效果不好,是否可以利用最早的feature map做識(shí)別晕窑,最早的feature 尺度信息保存的較好抑片。
2)rnn只是用來(lái)提特征用,并沒(méi)有考慮到物體的上下文信息杨赤。
3)是否可以在第一輪識(shí)別到物體后敞斋,利用attention的機(jī)制截汪,現(xiàn)將這些物體在feature map上去除,重點(diǎn)識(shí)別小的物體渺尘。
2挫鸽、End-to-end people detection in crowded scenes
在Lentet得到特征的基礎(chǔ)用,用LSTM做控制器鸥跟,按序列輸出得到的框丢郊。細(xì)節(jié)方面需要注意的是沒(méi)有用NMS,用的hungarian loss(匈牙利算法)医咨。本文最大的貢獻(xiàn)出了源碼枫匾,方便做detection的理解LSTM在目標(biāo)識(shí)別中的應(yīng)用。
- Github倉(cāng)庫(kù)地址:https://github.com/Russell91/ReInspect/
3拟淮、CNN-RNN: A Unified Framework for Multi-label Image Classification
本文的主要目的是做圖像的多l(xiāng)abel識(shí)別干茉。
文中有一句話很重要:"when using the same image features to predict multiple labels, objects that are small in the images are easily get ignored or hard torecognize independently". 用同一個(gè)feature map預(yù)測(cè)多l(xiāng)abel時(shí),往往會(huì)忽略小物體很泊。
所以作者利用兩個(gè)并行的網(wǎng)絡(luò)角虫,第二個(gè)網(wǎng)絡(luò)輸入時(shí)當(dāng)前輸出的label,先得到label embeding委造,然后通過(guò)rnn得到一向量戳鹅,融合圖像的feature map得到image embeding,最終輸出當(dāng)前圖像下一個(gè)label昏兆。
思考:
1)利用Deconvolution 將feature 擴(kuò)到原圖一樣大小枫虏,做小物體的目標(biāo)識(shí)別。
2)用不同尺寸的卷積核爬虱。
小思考-----為什么原來(lái)多級(jí)的級(jí)聯(lián)的卷積,最后的卷積的感受野很大了,為什么還能識(shí)別一些較小的物體,比如行人,想象一下最后一層的類別熱度圖,原因是: a 此類有較強(qiáng)的文理信息b 尺度還是比較大. faster RCNN最后一層卷積層只有14*14,最后也有很好的識(shí)別效果,究竟是為什么?
4隶债、Attentive contexts for object detection
文章利用local(多尺度的cnn特征)和global(LSTM生成)來(lái)做目標(biāo)識(shí)別。用global的原因是:圖像中的其他信息有利于當(dāng)前box的識(shí)別跑筝,比如圖像中出現(xiàn)其他的汽車對(duì)當(dāng)前框識(shí)別為汽車的提升很大死讹,但在文章中g(shù)lobal的提升不是很明顯,只有0.6%的提升继蜡。作者所用的global信息感覺(jué)很一般回俐,并沒(méi)有真正用到lstm的作用。
思考一下稀并,lstm到底怎么用才能提取global信息:之前不容易識(shí)別到的椅子或者瓶子,不能用cnn最后得到的特征仅颇,應(yīng)為太稀疏了,一是瓶子之類的沒(méi)有紋理信息碘举,而是像椅子之類的紋理太亂,與其他的物體太沖突忘瓦。可以利用本文lstm的思路,將隱層的輸出當(dāng)做test時(shí)候的隱層輸入耕皮,怎么將這20類的所有隱層信息集合起來(lái)是個(gè)難點(diǎn)境蜕。
5. Recurrent Convolutional Neural Network for Object Recognition CVPR2015 清華大學(xué) 鏈接二
每一層卷積后用RNN(類似一種cnn,只不過(guò)權(quán)重共享),在參數(shù)較少的情況下,讓網(wǎng)絡(luò)的層數(shù)更深,每層獲取的context信息更豐富,用cuda-convenet實(shí)現(xiàn),文章借鑒意義不大,從引用量上就可以看出。
6. Image caption相關(guān)論文
- show and tell: a neural image caption generator CVPR2015
- image captioning with deep bidirectional LSTMs
此類文章的主要思想是將圖像的cnn特征當(dāng)做傳統(tǒng)LSTM的輸入,最終生成一句句子描述,對(duì)目標(biāo)識(shí)別的借鑒意義不大.
7.combining the best of convolutional layers and recurrent layers: a hybrid network for semantic segmentation
本文的主要思想也是用了3層的lstm去提特征,最后用1*1的卷積層降維到K(類別數(shù))層的feature map,本身沒(méi)有什么創(chuàng)意,只是效果很好. 而且文中作者又設(shè)計(jì)了一個(gè)FCN+LSTM的級(jí)聯(lián)網(wǎng)絡(luò),效果做到了state-of-the-art. 借鑒的地方不多凌停。
8. semantic object parsing with graph LSTM
本文主要思想是拋棄原來(lái)逐點(diǎn)做序列的思想,轉(zhuǎn)而利用超像素做為序列,而且超像素的輸入順序是根據(jù)前一步FCN得到的confidence map決定.
Graph LSTM是用來(lái)做語(yǔ)義分割,是否可以借鑒用來(lái)做目標(biāo)識(shí)別.
9. pixel recurrent nerual networks
本文利用pixel rnn來(lái)做圖像的補(bǔ)全,將各種門(mén)的計(jì)算用cnn來(lái)實(shí)現(xiàn),加快計(jì)算速度(僅限于門(mén)的計(jì)算,cell state的更新還是傳統(tǒng)方式),最大的貢獻(xiàn)是用了多中網(wǎng)絡(luò),pixel CNN pixel RNN multiscale RNN---先生成低分辨率的圖像,然后用這些低分變率的pixel作為先驗(yàn)知識(shí)最終生成一幅完整的圖粱年。
[參考]: 綜述:計(jì)算機(jī)視覺(jué)中RNN應(yīng)用于目標(biāo)識(shí)別