【Video Recognition】SlowFast Network 用快慢結(jié)合進(jìn)行視頻分類(lèi)

這是我發(fā)布的第2篇文章，在這個(gè)專(zhuān)欄里采桃，我會(huì)持續(xù)寫(xiě)一些最近看的文章懒熙，希望能夠與大家有所交流。
歡迎訪問(wèn)我的知乎專(zhuān)欄元麥沒(méi)有山丘

論文題目: [ SlowFast Networks for Video Recognition ]

論文地址：下載地址

代碼地址：暫無(wú)

FaceBook AI Research何凱明團(tuán)隊(duì)提出了一個(gè)快慢雙通道網(wǎng)絡(luò)普办，利用FastPath捕捉動(dòng)作信息工扎；SlowPath捕捉視覺(jué)語(yǔ)義信息，最后在無(wú)預(yù)訓(xùn)練的情況下衔蹲，在Kinetics數(shù)據(jù)集上視頻分類(lèi)準(zhǔn)確率達(dá)到了79.0%肢娘，在AVA action detection數(shù)據(jù)集上達(dá)到了當(dāng)前最好的28.3mAP。

先說(shuō)結(jié)論：

空間信息與時(shí)序信息應(yīng)分別對(duì)待舆驶，不能對(duì)稱(chēng)地同等對(duì)待

快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練

Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果

快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度蔬浙、速度更快的動(dòng)作類(lèi)別提升大

Motivation

我們所看到的世界大多數(shù)是屬于靜止的，在人類(lèi)視覺(jué)細(xì)胞研究中研究者發(fā)現(xiàn)贞远，視覺(jué)細(xì)胞由80%的P-Cell和20%的M-Cell組成，其中P-Cell對(duì)顏色笨忌、形狀等圖像信息更加敏感蓝仲，而M-Cell對(duì)時(shí)間變化更加敏感。例如一個(gè)跳躍動(dòng)作官疲，整個(gè)過(guò)程中圖像中的視覺(jué)語(yǔ)義信息是變化比較緩慢的袱结，而相反移動(dòng)、跳躍這些動(dòng)作在時(shí)序上變化較快途凫，我們是否能利用兩個(gè)不同的網(wǎng)絡(luò)對(duì)時(shí)序變化不同的信息進(jìn)行捕捉垢夹，從而改善網(wǎng)絡(luò)性能是這篇文章的主要思想，而基于上述研究與分析维费，作者提出了SlowFast網(wǎng)絡(luò)果元。

正文

在圖像識(shí)別處理中，我們會(huì)對(duì)稱(chēng)地處理RGB圖像的x軸和y軸信息犀盟，自然圖像的統(tǒng)計(jì)也證明了其合理性而晒。但是在視頻任務(wù)中，我們不禁想到阅畴，時(shí)序信息也應(yīng)該和圖像信息一樣對(duì)稱(chēng)地處理嗎倡怎？當(dāng)然不是！作者提出用SlowPath在幀率較低的輸入下進(jìn)行空間語(yǔ)義信息提取，利用輕量級(jí)的FastPath在幀率較高的輸入下進(jìn)行時(shí)序信息提取监署，最后進(jìn)行融合颤专。

模型架構(gòu)

整個(gè)網(wǎng)絡(luò)的模型架構(gòu)如下圖所示，上面子線路是Slow Pathway钠乏，輸入的時(shí)序幀率低栖秕，主要提取空間語(yǔ)義信息，下面的Fast Pathway輸入時(shí)序幀率高缓熟，模型通道數(shù)量較少累魔，主要提取時(shí)序信息。兩條子路在每一個(gè)Block都會(huì)進(jìn)行fuse够滑，最后輸入給分類(lèi)器垦写。

image

Slow Pathway架構(gòu)

Slow Pathway可以是任何的一個(gè)視頻卷積模，我們假設(shè)參數(shù) $\tau(\tau > 1)$ 是一個(gè)輸入視頻幀的采樣率彰触，模型輸入的總幀數(shù)設(shè)為T(mén)梯投，則輸入視頻的總幀數(shù)為 $\tau * T$ ，這里我們一般取 $\tau = 16$ 况毅，壓縮了輸入中的時(shí)序信息分蓖，這樣的做法是的Slow Pathway網(wǎng)絡(luò)更加專(zhuān)注于提取空間的語(yǔ)義信息。

Fast Pathway架構(gòu)

Fast Pathway是一個(gè)輕量級(jí)的時(shí)序信息提取模型尔许。為減少運(yùn)算量以及讓模型專(zhuān)注于時(shí)序信息提取么鹤，作者設(shè)計(jì)時(shí)主要有以下幾點(diǎn)：

更高的輸入時(shí)序分辨率

更高的輸出時(shí)序分辨率

較低的通道容量

較低的輸入空間信息

更高的輸入時(shí)序分辨率。SlowPath網(wǎng)絡(luò)的幀采樣率為 $\tau$ 味廊，我們?cè)O(shè)系數(shù) $\alpha(\alpha > 1)$ 蒸甜，則SlowPath網(wǎng)絡(luò)的輸入幀采樣率設(shè)為 $\tau/\alpha$ ，即FastPath輸入的幀數(shù)是SlowPath的 $\alpha$ 倍余佛。

更高的輸出時(shí)序分辨率柠新。FastPath網(wǎng)絡(luò)整個(gè)過(guò)程中沒(méi)有采用時(shí)序上的下采樣，保證輸入時(shí)序維度仍然為 $\alpha T$ 辉巡。

較低的通道容量恨憎。作者這里發(fā)現(xiàn)，F(xiàn)astPath網(wǎng)絡(luò)降低通道數(shù)量郊楣，不僅降低了模型的復(fù)雜度憔恳，還能保證輸出的精度，這里設(shè)置了一個(gè)系數(shù) $\beta$ 痢甘，一般 $\beta = 1/8$ 喇嘱，使得FastPath的通道數(shù)量始終是Slowpath的 $\beta$ 倍。
這樣的設(shè)定保證了FastPath網(wǎng)絡(luò)的計(jì)算量大概占總網(wǎng)絡(luò)計(jì)算量的20%塞栅，和我們?cè)谌祟?lèi)視覺(jué)細(xì)胞中發(fā)現(xiàn)M細(xì)胞的比例大約為20%吻合者铜。

較低的輸入空間信息腔丧。為了進(jìn)一步削弱FastPath網(wǎng)絡(luò)的空間建模能力，作者這里還提出降低輸入圖像空間分辨率作烟、去除顏色信息等方式愉粤，使得網(wǎng)絡(luò)能更加注重時(shí)序信息的變化。

網(wǎng)絡(luò)整體參數(shù)列表

這里拿撩，作者以ResNet-50舉例衣厘，其設(shè)計(jì)的SlowFast網(wǎng)絡(luò)參數(shù)如下表所示，其中黃色是通道數(shù)量压恒，綠色是時(shí)序幀分辨率影暴。

SlowFast Network整體參數(shù)列表

實(shí)驗(yàn)

作者針對(duì)不同超參數(shù)設(shè)置以及融合方式，作者做了很多實(shí)驗(yàn)探赫。

fuse method

融合方式中型宙，Slow Pathway的特征尺寸為 $\{T,S^2,C\}$ ，而Fast Pathway的特征尺寸為 $\{\alpha T,S^2,\beta C\}$ 伦吠，作者分別嘗試time-to-channel(TtoC)妆兑、time-strided sampling(T-Sample)、time-strided convolution(T-conv)四種方法毛仪，結(jié)果如下搁嗓，利用T-conv效果最好。

不同融合方式結(jié)果對(duì)比

Channel capacity ratio

在Fast Pathway中降低通道的數(shù)量箱靴，一方面可以使模型輕量化腺逛，另一方面，作者發(fā)現(xiàn)降低Fast Pathway模型的空間信息提取能力衡怀，可以增強(qiáng)其時(shí)序信息提取能力屉来，故對(duì)不同的通道壓縮比例 $\beta$ 設(shè)置做了實(shí)驗(yàn)，其結(jié)果如下狈癞。

通道壓縮比例系數(shù)對(duì)模型結(jié)果的影響

其中設(shè)置成1/6和1/8時(shí)，Top-1茂契、Top-5最高蝶桶。
由此，作者思考掉冶，是否能進(jìn)一步削減其空間信息能力來(lái)增強(qiáng)時(shí)序上的性能真竖，為此，作者將輸入的RGB圖像分別改成灰度厌小、光流等進(jìn)行實(shí)驗(yàn)恢共，最終發(fā)現(xiàn)，利用灰度圖作為輸入璧亚，模型的復(fù)雜度得以降低讨韭，且精度幾乎沒(méi)有變化。

不同輸入模型的結(jié)果

ablation experiment

Fast+Slow的雙模型結(jié)構(gòu)是否真的有效，還是僅是模型復(fù)雜度增加帶來(lái)的性能提升透硝，對(duì)此狰闪，作者將Fast網(wǎng)絡(luò)替換成其他以及單獨(dú)的Slow網(wǎng)絡(luò)進(jìn)行訓(xùn)練，將結(jié)果進(jìn)行了對(duì)比濒生。

ablation experiment

從結(jié)果可以看出埋泵，快慢網(wǎng)絡(luò)有效的降低了模型的復(fù)雜度，且在分類(lèi)結(jié)果中效果非常好罪治。

Various SlowFast instantiations

針對(duì)精度和速度不同的側(cè)重丽声，我們可以非常自由的選擇Slow網(wǎng)絡(luò)的輸入幀數(shù)，其結(jié)果如下觉义。

Various SlowFast instantiations

其中T是Slow網(wǎng)絡(luò)輸入的總幀數(shù)雁社， $\tau$ 輸入視頻序列的總幀數(shù)， $\alpha T$ 為Fast網(wǎng)絡(luò)輸入總幀數(shù)谁撼∑缧玻可以發(fā)現(xiàn)，當(dāng)Slow網(wǎng)絡(luò)輸入幀數(shù)為2時(shí)厉碟，GFLOPS最低喊巍，且Top-1只損失了3.6%，且相比于Slow-only網(wǎng)絡(luò)箍鼓，不僅精度高崭参，復(fù)雜度更低，充分說(shuō)明了其模型的有效性款咖。

Result on Kinetics and AVA dataset

何凱明團(tuán)隊(duì)提出的這篇文章何暮，在Kinetics數(shù)據(jù)集上，與沒(méi)有ImageNet預(yù)訓(xùn)練其他模型相比铐殃，目前是第一海洼。在AVA action detection任務(wù)上取得了第一，其結(jié)果如下所示富腊。

Kinetics-400 result

AVA action detection result

總結(jié)與展望

在這篇文章中坏逢，作者提出Slow+Fast網(wǎng)絡(luò)，通過(guò)大量研究實(shí)驗(yàn)赘被，證明了其有效性是整，總結(jié)整篇文章，其主要有以下結(jié)論：

空間信息與時(shí)序信息應(yīng)分別對(duì)待民假，不能對(duì)稱(chēng)地同等對(duì)待

快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練

Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果

快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度浮入、速度更快的動(dòng)作類(lèi)別提升大

最后也利用SlowFast Network在Kinetics數(shù)據(jù)集和AVA action detection，達(dá)到了state-of-the-art羊异。

Reference

[1] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition[J]. arXiv preprint arXiv:1812.03982, 2018.

作者 @鼎鼎大明
2019 年 03月 18日

最后編輯于：2019.03.18 18:36:03

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末事秀，一起剝皮案震驚了整個(gè)濱河市彤断，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌秽晚，老刑警劉巖瓦糟，帶你破解...
沈念sama閱讀 218,204評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異赴蝇，居然都是意外死亡菩浙，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)句伶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)劲蜻，“玉大人，你說(shuō)我怎么就攤上這事考余∠孺遥” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵楚堤，是天一觀的道長(zhǎng)疫蔓。經(jīng)常有香客問(wèn)我，道長(zhǎng)身冬，這世上最難降的妖魔是什么衅胀？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮酥筝，結(jié)果婚禮上滚躯，老公的妹妹穿的比我還像新娘。我一直安慰自己嘿歌，他們只是感情好掸掏，可當(dāng)我...
茶點(diǎn)故事閱讀 67,689評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著宙帝，像睡著了一般丧凤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上步脓，一...
開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1贊 305
城市分裂傳說(shuō)
那天息裸，我揣著相機(jī)與錄音，去河邊找鬼沪编。笑死，一個(gè)胖子當(dāng)著我的面吹牛年扩，可吹牛的內(nèi)容都是我干的蚁廓。我是一名探鬼主播，決...
沈念sama閱讀 40,302評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼厨幻，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼相嵌！你這毒婦竟也來(lái)了腿时？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤饭宾，失蹤者是張志新（化名）和其女友劉穎批糟，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體看铆，經(jīng)...
沈念sama閱讀 45,661評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡徽鼎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,851評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了弹惦。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片否淤。...
茶點(diǎn)故事閱讀 39,977評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖棠隐，靈堂內(nèi)的尸體忽然破棺而出石抡，到底是詐尸還是另有隱情，我是刑警寧澤助泽，帶...
沈念sama閱讀 35,697評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布啰扛，位于F島的核電站，受9級(jí)特大地震影響嗡贺，放射性物質(zhì)發(fā)生泄漏隐解。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,306評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一暑刃、第九天我趴在偏房一處隱蔽的房頂上張望厢漩。院中可真熱鬧，春花似錦岩臣、人聲如沸溜嗜。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0贊 22
一樁弒父案架谎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)炸宵。三九已至，卻和暖如春谷扣，著一層夾襖步出監(jiān)牢的瞬間土全，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工会涎，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留裹匙，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,138評(píng)論 3贊 370
代替公主和親
正文我出身青樓末秃，卻偏偏與公主長(zhǎng)得像概页，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子练慕，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,927評(píng)論 2贊 355