【論文筆記】Recurrent mixture density network for spatiotemporal visual attention

選擇這篇文章的原因有兩個：
1，初識Visual Attention旅掂，了解一下赏胚；
2，五月初參加的CIKM AnalytiCup 2017比賽商虐，需要用到CNN+LSTM模型觉阅，所以想學(xué)習(xí)并參照一下文中的模型。

ABSTRACT

在許多計算機(jī)視覺的工作中称龙，解決問題所需要的手邊的信息通常摻雜著不相關(guān)或者噪聲留拾。為了解決這個問題，得到更加“純凈”的數(shù)據(jù)鲫尊，之前的工作提出了attentional models痴柔，動態(tài)的凸顯出圖像或者視頻中的顯著部分。本文提出了RECURRENT MIXTURE DENSITY NETWORK 疫向，動態(tài)的凸顯出視頻中應(yīng)該注意到的部分咳蔚，并且改進(jìn)視頻中的human action recognition豪嚎。

visual attention model：
文中使用mixture of Gaussians，可以表示出每個像素點(diǎn)顯著的概率谈火。
Time consistency model：

deep 3D convolutional features 深度3D卷積表示時空和視頻切片級別的短時相關(guān)性侈询；
LSTM集合短時相關(guān)性，將預(yù)測從幾幀擴(kuò)展到了數(shù)秒糯耍。

模型的參數(shù)使用極大似然估計（MLE）扔字，使用無需人工標(biāo)注的動作類型的數(shù)據(jù)來訓(xùn)練模型。最后論文使用Hollywood2和UCF101作為數(shù)據(jù)集温技，顯著性預(yù)測的實(shí)驗(yàn)結(jié)果達(dá)到了state-of-the-art革为，action classification accuracy的表現(xiàn)也得到了提升。

本文主要講了兩件事：

使用文章中提出的RMDN方法進(jìn)行視頻的顯著性預(yù)測舵鳞；
使用RMDN方法改進(jìn)human action recognition震檩。

INTRODUCTION

Attentional modeling

Attention model 在序列end to end問題上廣泛應(yīng)用，結(jié)合RNN蜓堕、LSTM抛虏、GRU等常用遞歸神經(jīng)網(wǎng)絡(luò)可以取得很好的效果；在計算機(jī)視領(lǐng)域也有非常廣泛的利用套才，因?yàn)樾蛄幸蛩氐拇嬖谟睾铮酝ǔＴ趫D文轉(zhuǎn)換或者視頻描述等應(yīng)用中出現(xiàn)。本文主要使用attention modeling處理視頻顯著性霜旧。

Visual attention model的意義

在引入Attention(注意力)之前错忱，圖像識別或語言翻譯都是直接把完整的圖像或語句直接塞到一個輸入儡率，然后給出輸出挂据。
而且圖像還經(jīng)常縮放成固定大小儿普，引起信息丟失崎逃。
而人在看東西的時候，目光沿感興趣的地方移動眉孩，甚至仔細(xì)盯著部分細(xì)節(jié)看个绍，然后再得到結(jié)論。
Attention就是在網(wǎng)絡(luò)中加入關(guān)注區(qū)域的移動浪汪、縮放巴柿、旋轉(zhuǎn)機(jī)制，連續(xù)部分信息的序列化輸入死遭。
關(guān)注區(qū)域的移動广恢、縮放、旋轉(zhuǎn)采用強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)呀潭。

本文使用soft attentional model down-weighting 視頻幀中不顯著的像素點(diǎn)钉迷。

視頻中的Visual attention model

因?yàn)槿梭w動作與時間非常相關(guān)至非，前后幀的動作具有很強(qiáng)的相關(guān)性，只使用Visual Attention模型是無法識別人體動作的糠聪，所以文中將視頻注意力模型定義為時空體積荒椭，每一個顯著圖取決于之前的幀，此處的顯著圖可以理解為像素顯著性的概率分布舰蟆，表示每個像素的顯著性概率趣惠。得到顯著圖后，我們就能夠通過采樣得到人體動作特征身害。

視頻中的Visual attention model相比圖像有很多挑戰(zhàn)：

相比圖像信卡，視頻的數(shù)據(jù)量非常大，Computational cost相應(yīng)也會提高题造；
視頻中存在許多冗余信息傍菇，舉例來說視頻中的人在相鄰幀下不會有很明顯的改變，所以加入Visual attention model是很有必要的界赔；
視頻相鄰幀有很強(qiáng)的相關(guān)性丢习，如果要想確定時空體積，需要考慮到高階圖像顯著特征以及之前的人體動作淮悼。

主要創(chuàng)新點(diǎn)和優(yōu)勢

為了應(yīng)對之前闡述的挑戰(zhàn)咐低，文中提出了RMDN模型，將視頻中的每一幀原始圖像轉(zhuǎn)化為顯著性圖像袜腥，得到重新加權(quán)的視頻见擦，然后使用新得到的視頻改進(jìn)人體動作識別。

文中的方法有以下幾點(diǎn)優(yōu)勢：

模型訓(xùn)練可以不依賴與人工標(biāo)注的時空特征羹令；
RMDN可以模擬人的注意力鲤屡；
生成顯著圖的速度非常快福侈；
RMDN得到的顯著圖準(zhǔn)確率很高酒来；
使用顯著圖預(yù)測，提高了人體動作識別的準(zhǔn)確率肪凛。

Design

Recurrent Mixture Density Network

總體結(jié)構(gòu)如下：

RMDN for saliency prediction

C3D Net：首先將K幀視頻流（K=16）輸入到3D卷積神經(jīng)網(wǎng)絡(luò)中堰汉，以獲得clip級別的時空特征。不使用幀級別的特征是因?yàn)槲覀円@取短時信息以輸入到下一層的LSTM中伟墙。
C3D的網(wǎng)絡(luò)結(jié)構(gòu)參照此文： Learning spatiotemporal features with 3d convolutional networks（ICCV2015）
結(jié)構(gòu)：C64-P-C128-P-C256-C256-P-C512-C512-P-C512-C512-P-FC4096-FC4096-softmax
LSTM：將C3D Net得到的結(jié)果輸入到LSTM中翘鸭，使得特征從clip級別擴(kuò)展到數(shù)秒級。
MDN & GMM：最后使用mixture density networks獲取Gaussian Mixture Model的參數(shù)戳葵，最后由Gaussian Mixture Model得到顯著圖上每個像素顯著性的概率分布就乓。最后通過此分布可以重新對視頻進(jìn)行加權(quán)，完成我們的visual attention model。

訓(xùn)練：

本文在GMM后使用log-likelihood作為loss function档址，梯度下降進(jìn)行訓(xùn)練盹兢。由于訓(xùn)練數(shù)據(jù)集不大，本文用C3D網(wǎng)絡(luò)進(jìn)行fine-turning守伸，隨機(jī)初始化參數(shù)绎秒。

Model for action recognition

在使用RMDN對視頻進(jìn)行重新加權(quán)后，本文用得到的結(jié)果對視頻中的人體動作進(jìn)行識別尼摹，網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

Model for action recognition

將每一時刻的K幀原始視頻和通過RMDN得到的Soft Attention視頻輸入到雙路C3D Net中见芹，之所以要加入原始圖像，是因?yàn)镾oft Attention表示的是小范圍的數(shù)幀中明顯的特征蠢涝，無法應(yīng)對視頻中場景切換玄呛，所以加入原始視頻流表示全局特征。
然后將原始視頻特征和Soft Attention視頻特征結(jié)合起來得到video-level descriptor和二，本文使用的是線性SVM徘铝。
最后將所有的clip（即K幀視頻）通過Max-Pooling結(jié)合在一起，輸入到線性分類器中得到最后的人體動作識別結(jié)果惯吕。

最后編輯于：2022.03.02 14:36:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末惕它，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子废登，更是在濱河造成了極大的恐慌淹魄，老刑警劉巖，帶你破解...
沈念sama閱讀 211,194評論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件堡距，死亡現(xiàn)場離奇詭異甲锡，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)羽戒，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,058評論 2贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門缤沦，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人半醉，你說我怎么就攤上這事疚俱∪笆酰” “怎么了缩多？”我有些...
開封第一講書人閱讀 156,780評論 0贊 346
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長养晋。經(jīng)常有香客問我衬吆，道長，這世上最難降的妖魔是什么绳泉？我笑而不...
開封第一講書人閱讀 56,388評論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任逊抡，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘冒嫡。我一直安慰自己拇勃，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,430評論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布孝凌。她就那樣靜靜地躺著方咆，像睡著了一般。火紅的嫁衣襯著肌膚如雪蟀架。梳的紋絲不亂的頭發(fā)上瓣赂，一...
開封第一講書人閱讀 49,764評論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音片拍，去河邊找鬼煌集。笑死，一個胖子當(dāng)著我的面吹牛捌省，可吹牛的內(nèi)容都是我干的苫纤。我是一名探鬼主播，決...
沈念sama閱讀 38,907評論 3贊 406
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼纲缓，長吁一口氣：“原來是場噩夢啊……” “哼方面！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起色徘，我...
開封第一講書人閱讀 37,679評論 0贊 266
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤恭金，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后褂策，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體横腿，經(jīng)...
沈念sama閱讀 44,122評論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,459評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年斤寂，在試婚紗的時候發(fā)現(xiàn)自己被綠了耿焊。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,605評論 1贊 340
活死人
序言：一個原本活蹦亂跳的男人離奇死亡遍搞，死狀恐怖罗侯，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情溪猿，我是刑警寧澤钩杰，帶...
沈念sama閱讀 34,270評論 4贊 329
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站诊县，受9級特大地震影響讲弄，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜依痊，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,867評論 3贊 312
男人毒藥：我在死后第九天來索命
文/蒙蒙一避除、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦瓶摆、人聲如沸凉逛。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,734評論 0贊 21
一樁弒父案群井，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽鱼炒。三九已至，卻和暖如春蝌借，著一層夾襖步出監(jiān)牢的瞬間昔瞧，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,961評論 1贊 265
情欲美人皮
我被黑心中介騙來泰國打工菩佑，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留自晰，地道東北人。一個月前我還...
沈念sama閱讀 46,297評論 2贊 360
代替公主和親
正文我出身青樓稍坯，卻偏偏與公主長得像酬荞，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子瞧哟，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,472評論 2贊 348

【論文筆記】Recurrent mixture density network for spatiotemporal visual attention

ABSTRACT

INTRODUCTION

Attentional modeling

Visual attention model的意義

視頻中的Visual attention model

主要創(chuàng)新點(diǎn)和優(yōu)勢

Design

Recurrent Mixture Density Network

總體結(jié)構(gòu)如下：

訓(xùn)練：

Model for action recognition

推薦閱讀更多精彩內(nèi)容