選擇這篇文章的原因有兩個:
1,初識Visual Attention旅掂,了解一下赏胚;
2,五月初參加的CIKM AnalytiCup 2017比賽商虐,需要用到CNN+LSTM模型觉阅,所以想學(xué)習(xí)并參照一下文中的模型。
ABSTRACT
在許多計算機(jī)視覺的工作中称龙,解決問題所需要的手邊的信息通常摻雜著不相關(guān)或者噪聲留拾。為了解決這個問題,得到更加“純凈”的數(shù)據(jù)鲫尊,之前的工作提出了attentional models痴柔,動態(tài)的凸顯出圖像或者視頻中的顯著部分。本文提出了RECURRENT MIXTURE DENSITY NETWORK 疫向,動態(tài)的凸顯出視頻中應(yīng)該注意到的部分咳蔚,并且改進(jìn)視頻中的human action recognition豪嚎。
- visual attention model:
文中使用mixture of Gaussians,可以表示出每個像素點(diǎn)顯著的概率谈火。 - Time consistency model:
- deep 3D convolutional features 深度3D卷積表示時空和視頻切片級別的短時相關(guān)性侈询;
- LSTM集合短時相關(guān)性,將預(yù)測從幾幀擴(kuò)展到了數(shù)秒糯耍。
模型的參數(shù)使用極大似然估計(MLE)扔字,使用無需人工標(biāo)注的動作類型的數(shù)據(jù)來訓(xùn)練模型。最后論文使用Hollywood2和UCF101作為數(shù)據(jù)集温技,顯著性預(yù)測的實(shí)驗(yàn)結(jié)果達(dá)到了state-of-the-art革为,action classification accuracy的表現(xiàn)也得到了提升。
本文主要講了兩件事:
- 使用文章中提出的RMDN方法進(jìn)行視頻的顯著性預(yù)測舵鳞;
- 使用RMDN方法改進(jìn)human action recognition震檩。
INTRODUCTION
Attentional modeling
Attention model 在序列end to end問題上廣泛應(yīng)用,結(jié)合RNN蜓堕、LSTM抛虏、GRU等常用遞歸神經(jīng)網(wǎng)絡(luò)可以取得很好的效果;在計算機(jī)視領(lǐng)域也有非常廣泛的利用套才,因?yàn)樾蛄幸蛩氐拇嬖谟睾铮酝ǔT趫D文轉(zhuǎn)換或者視頻描述等應(yīng)用中出現(xiàn)。本文主要使用attention modeling處理視頻顯著性霜旧。
Visual attention model的意義
- 在引入Attention(注意力)之前错忱,圖像識別或語言翻譯都是直接把完整的圖像或語句直接塞到一個輸入儡率,然后給出輸出挂据。
- 而且圖像還經(jīng)常縮放成固定大小儿普,引起信息丟失崎逃。
- 而人在看東西的時候,目光沿感興趣的地方移動眉孩,甚至仔細(xì)盯著部分細(xì)節(jié)看个绍,然后再得到結(jié)論。
- Attention就是在網(wǎng)絡(luò)中加入關(guān)注區(qū)域的移動浪汪、縮放巴柿、旋轉(zhuǎn)機(jī)制,連續(xù)部分信息的序列化輸入死遭。
- 關(guān)注區(qū)域的移動广恢、縮放、旋轉(zhuǎn)采用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)呀潭。
本文使用soft attentional model down-weighting 視頻幀中不顯著的像素點(diǎn)钉迷。
視頻中的Visual attention model
因?yàn)槿梭w動作與時間非常相關(guān)至非,前后幀的動作具有很強(qiáng)的相關(guān)性,只使用Visual Attention模型是無法識別人體動作的糠聪,所以文中將視頻注意力模型定義為時空體積荒椭,每一個顯著圖取決于之前的幀,此處的顯著圖可以理解為像素顯著性的概率分布舰蟆,表示每個像素的顯著性概率趣惠。得到顯著圖后,我們就能夠通過采樣得到人體動作特征身害。
視頻中的Visual attention model相比圖像有很多挑戰(zhàn):
- 相比圖像信卡,視頻的數(shù)據(jù)量非常大,Computational cost相應(yīng)也會提高题造;
- 視頻中存在許多冗余信息傍菇,舉例來說視頻中的人在相鄰幀下不會有很明顯的改變,所以加入Visual attention model是很有必要的界赔;
- 視頻相鄰幀有很強(qiáng)的相關(guān)性丢习,如果要想確定時空體積,需要考慮到高階圖像顯著特征以及之前的人體動作淮悼。
主要創(chuàng)新點(diǎn)和優(yōu)勢
為了應(yīng)對之前闡述的挑戰(zhàn)咐低,文中提出了RMDN模型,將視頻中的每一幀原始圖像轉(zhuǎn)化為顯著性圖像袜腥,得到重新加權(quán)的視頻见擦,然后使用新得到的視頻改進(jìn)人體動作識別。
文中的方法有以下幾點(diǎn)優(yōu)勢:
- 模型訓(xùn)練可以不依賴與人工標(biāo)注的時空特征羹令;
- RMDN可以模擬人的注意力鲤屡;
- 生成顯著圖的速度非常快福侈;
- RMDN得到的顯著圖準(zhǔn)確率很高酒来;
- 使用顯著圖預(yù)測,提高了人體動作識別的準(zhǔn)確率肪凛。
Design
Recurrent Mixture Density Network
總體結(jié)構(gòu)如下:
C3D Net:首先將K幀視頻流(K=16)輸入到3D卷積神經(jīng)網(wǎng)絡(luò)中堰汉,以獲得clip級別的時空特征。不使用幀級別的特征是因?yàn)槲覀円@取短時信息以輸入到下一層的LSTM中伟墙。
C3D的網(wǎng)絡(luò)結(jié)構(gòu)參照此文: Learning spatiotemporal features with 3d convolutional networks(ICCV2015)
結(jié)構(gòu):C64-P-C128-P-C256-C256-P-C512-C512-P-C512-C512-P-FC4096-FC4096-softmaxLSTM:將C3D Net得到的結(jié)果輸入到LSTM中翘鸭,使得特征從clip級別擴(kuò)展到數(shù)秒級。
MDN & GMM:最后使用mixture density networks獲取Gaussian Mixture Model的參數(shù)戳葵,最后由Gaussian Mixture Model得到顯著圖上每個像素顯著性的概率分布就乓。最后通過此分布可以重新對視頻進(jìn)行加權(quán),完成我們的visual attention model。
訓(xùn)練:
本文在GMM后使用log-likelihood作為loss function档址,梯度下降進(jìn)行訓(xùn)練盹兢。由于訓(xùn)練數(shù)據(jù)集不大,本文用C3D網(wǎng)絡(luò)進(jìn)行fine-turning守伸,隨機(jī)初始化參數(shù)绎秒。
Model for action recognition
在使用RMDN對視頻進(jìn)行重新加權(quán)后,本文用得到的結(jié)果對視頻中的人體動作進(jìn)行識別尼摹,網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:
- 將每一時刻的K幀原始視頻和通過RMDN得到的Soft Attention視頻輸入到雙路C3D Net中见芹,之所以要加入原始圖像,是因?yàn)镾oft Attention表示的是小范圍的數(shù)幀中明顯的特征蠢涝,無法應(yīng)對視頻中場景切換玄呛,所以加入原始視頻流表示全局特征。
- 然后將原始視頻特征和Soft Attention視頻特征結(jié)合起來得到video-level descriptor和二,本文使用的是線性SVM徘铝。
- 最后將所有的clip(即K幀視頻)通過Max-Pooling結(jié)合在一起,輸入到線性分類器中得到最后的人體動作識別結(jié)果惯吕。