【Video Recognition】SlowFast Network 用快慢結(jié)合進(jìn)行視頻分類(lèi)


這是我發(fā)布的第2篇文章,在這個(gè)專(zhuān)欄里采桃,我會(huì)持續(xù)寫(xiě)一些最近看的文章懒熙,希望能夠與大家有所交流。
歡迎訪問(wèn)我的知乎專(zhuān)欄 元麥沒(méi)有山丘


論文題目: [ SlowFast Networks for Video Recognition ]

FaceBook AI Research何凱明團(tuán)隊(duì)提出了一個(gè)快慢雙通道網(wǎng)絡(luò)普办,利用FastPath捕捉動(dòng)作信息工扎;SlowPath捕捉視覺(jué)語(yǔ)義信息,最后在無(wú)預(yù)訓(xùn)練的情況下衔蹲,在Kinetics數(shù)據(jù)集上視頻分類(lèi)準(zhǔn)確率達(dá)到了79.0%肢娘,在AVA action detection數(shù)據(jù)集上達(dá)到了當(dāng)前最好的28.3mAP

先說(shuō)結(jié)論:

  1. 空間信息與時(shí)序信息應(yīng)分別對(duì)待舆驶,不能對(duì)稱(chēng)地同等對(duì)待
  2. 快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練
  3. Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果
  4. 快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度蔬浙、速度更快的動(dòng)作類(lèi)別提升大

Motivation

我們所看到的世界大多數(shù)是屬于靜止的,在人類(lèi)視覺(jué)細(xì)胞研究中研究者發(fā)現(xiàn)贞远,視覺(jué)細(xì)胞由80%的P-Cell和20%的M-Cell組成,其中P-Cell對(duì)顏色笨忌、形狀等圖像信息更加敏感蓝仲,而M-Cell對(duì)時(shí)間變化更加敏感。例如一個(gè)跳躍動(dòng)作官疲,整個(gè)過(guò)程中圖像中的視覺(jué)語(yǔ)義信息是變化比較緩慢的袱结,而相反移動(dòng)、跳躍這些動(dòng)作在時(shí)序上變化較快途凫,我們是否能利用兩個(gè)不同的網(wǎng)絡(luò)對(duì)時(shí)序變化不同的信息進(jìn)行捕捉垢夹,從而改善網(wǎng)絡(luò)性能是這篇文章的主要思想,而基于上述研究與分析维费,作者提出了SlowFast網(wǎng)絡(luò)果元。


正文

在圖像識(shí)別處理中,我們會(huì)對(duì)稱(chēng)地處理RGB圖像的x軸和y軸信息犀盟,自然圖像的統(tǒng)計(jì)也證明了其合理性而晒。但是在視頻任務(wù)中,我們不禁想到阅畴,時(shí)序信息也應(yīng)該和圖像信息一樣對(duì)稱(chēng)地處理嗎倡怎?當(dāng)然不是!作者提出用SlowPath在幀率較低的輸入下進(jìn)行空間語(yǔ)義信息提取,利用輕量級(jí)的FastPath在幀率較高的輸入下進(jìn)行時(shí)序信息提取监署,最后進(jìn)行融合颤专。

模型架構(gòu)

整個(gè)網(wǎng)絡(luò)的模型架構(gòu)如下圖所示,上面子線路是Slow Pathway钠乏,輸入的時(shí)序幀率低栖秕,主要提取空間語(yǔ)義信息,下面的Fast Pathway輸入時(shí)序幀率高缓熟,模型通道數(shù)量較少累魔,主要提取時(shí)序信息。兩條子路在每一個(gè)Block都會(huì)進(jìn)行fuse够滑,最后輸入給分類(lèi)器垦写。


image

Slow Pathway架構(gòu)

Slow Pathway可以是任何的一個(gè)視頻卷積模,我們假設(shè)參數(shù)\tau(\tau > 1)是一個(gè)輸入視頻幀的采樣率彰触,模型輸入的總幀數(shù)設(shè)為T(mén)梯投,則輸入視頻的總幀數(shù)為\tau * T,這里我們一般取\tau = 16况毅,壓縮了輸入中的時(shí)序信息分蓖,這樣的做法是的Slow Pathway網(wǎng)絡(luò)更加專(zhuān)注于提取空間的語(yǔ)義信息。

Fast Pathway架構(gòu)

Fast Pathway是一個(gè)輕量級(jí)的時(shí)序信息提取模型尔许。為減少運(yùn)算量以及讓模型專(zhuān)注于時(shí)序信息提取么鹤,作者設(shè)計(jì)時(shí)主要有以下幾點(diǎn):

  1. 更高的輸入時(shí)序分辨率
  2. 更高的輸出時(shí)序分辨率
  3. 較低的通道容量
  4. 較低的輸入空間信息

更高的輸入時(shí)序分辨率。SlowPath網(wǎng)絡(luò)的幀采樣率為\tau味廊,我們?cè)O(shè)系數(shù)\alpha(\alpha > 1)蒸甜,則SlowPath網(wǎng)絡(luò)的輸入幀采樣率設(shè)為\tau/\alpha,即FastPath輸入的幀數(shù)是SlowPath的\alpha倍余佛。

更高的輸出時(shí)序分辨率柠新。FastPath網(wǎng)絡(luò)整個(gè)過(guò)程中沒(méi)有采用時(shí)序上的下采樣,保證輸入時(shí)序維度仍然為\alpha T辉巡。

較低的通道容量恨憎。作者這里發(fā)現(xiàn),F(xiàn)astPath網(wǎng)絡(luò)降低通道數(shù)量郊楣,不僅降低了模型的復(fù)雜度憔恳,還能保證輸出的精度,這里設(shè)置了一個(gè)系數(shù)\beta痢甘,一般\beta = 1/8喇嘱,使得FastPath的通道數(shù)量始終是Slowpath的\beta倍。
這樣的設(shè)定保證了FastPath網(wǎng)絡(luò)的計(jì)算量大概占總網(wǎng)絡(luò)計(jì)算量的20%塞栅,和我們?cè)谌祟?lèi)視覺(jué)細(xì)胞中發(fā)現(xiàn)M細(xì)胞的比例大約為20%吻合者铜。

較低的輸入空間信息腔丧。為了進(jìn)一步削弱FastPath網(wǎng)絡(luò)的空間建模能力,作者這里還提出降低輸入圖像空間分辨率作烟、去除顏色信息等方式愉粤,使得網(wǎng)絡(luò)能更加注重時(shí)序信息的變化。

網(wǎng)絡(luò)整體參數(shù)列表

這里拿撩,作者以ResNet-50舉例衣厘,其設(shè)計(jì)的SlowFast網(wǎng)絡(luò)參數(shù)如下表所示,其中黃色是通道數(shù)量压恒,綠色是時(shí)序幀分辨率影暴。

SlowFast Network整體參數(shù)列表

實(shí)驗(yàn)

作者針對(duì)不同超參數(shù)設(shè)置以及融合方式,作者做了很多實(shí)驗(yàn)探赫。

fuse method

融合方式中型宙,Slow Pathway的特征尺寸為\{T,S^2,C\},而Fast Pathway的特征尺寸為\{\alpha T,S^2,\beta C\}伦吠,作者分別嘗試time-to-channel(TtoC)妆兑、time-strided sampling(T-Sample)、time-strided convolution(T-conv)四種方法毛仪,結(jié)果如下搁嗓,利用T-conv效果最好。

不同融合方式結(jié)果對(duì)比

Channel capacity ratio

在Fast Pathway中降低通道的數(shù)量箱靴,一方面可以使模型輕量化腺逛,另一方面,作者發(fā)現(xiàn)降低Fast Pathway模型的空間信息提取能力衡怀,可以增強(qiáng)其時(shí)序信息提取能力屉来,故對(duì)不同的通道壓縮比例\beta設(shè)置做了實(shí)驗(yàn),其結(jié)果如下狈癞。

通道壓縮比例系數(shù)對(duì)模型結(jié)果的影響

其中設(shè)置成1/6和1/8時(shí),Top-1茂契、Top-5最高蝶桶。
由此,作者思考掉冶,是否能進(jìn)一步削減其空間信息能力來(lái)增強(qiáng)時(shí)序上的性能真竖,為此,作者將輸入的RGB圖像分別改成灰度厌小、光流等進(jìn)行實(shí)驗(yàn)恢共,最終發(fā)現(xiàn),利用灰度圖作為輸入璧亚,模型的復(fù)雜度得以降低讨韭,且精度幾乎沒(méi)有變化。

不同輸入模型的結(jié)果

ablation experiment

Fast+Slow的雙模型結(jié)構(gòu)是否真的有效,還是僅是模型復(fù)雜度增加帶來(lái)的性能提升透硝,對(duì)此狰闪,作者將Fast網(wǎng)絡(luò)替換成其他以及單獨(dú)的Slow網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將結(jié)果進(jìn)行了對(duì)比濒生。

ablation experiment

從結(jié)果可以看出埋泵,快慢網(wǎng)絡(luò)有效的降低了模型的復(fù)雜度,且在分類(lèi)結(jié)果中效果非常好罪治。

Various SlowFast instantiations

針對(duì)精度和速度不同的側(cè)重丽声,我們可以非常自由的選擇Slow網(wǎng)絡(luò)的輸入幀數(shù),其結(jié)果如下觉义。

Various SlowFast instantiations

其中T是Slow網(wǎng)絡(luò)輸入的總幀數(shù)雁社,\tau輸入視頻序列的總幀數(shù),\alpha T為Fast網(wǎng)絡(luò)輸入總幀數(shù)谁撼∑缧玻可以發(fā)現(xiàn),當(dāng)Slow網(wǎng)絡(luò)輸入幀數(shù)為2時(shí)厉碟,GFLOPS最低喊巍,且Top-1只損失了3.6%,且相比于Slow-only網(wǎng)絡(luò)箍鼓,不僅精度高崭参,復(fù)雜度更低,充分說(shuō)明了其模型的有效性款咖。

Result on Kinetics and AVA dataset

何凱明團(tuán)隊(duì)提出的這篇文章何暮,在Kinetics數(shù)據(jù)集上,與沒(méi)有ImageNet預(yù)訓(xùn)練其他模型相比铐殃,目前是第一海洼。在AVA action detection任務(wù)上取得了第一,其結(jié)果如下所示富腊。

Kinetics-400 result
AVA action detection result

總結(jié)與展望

在這篇文章中坏逢,作者提出Slow+Fast網(wǎng)絡(luò),通過(guò)大量研究實(shí)驗(yàn)赘被,證明了其有效性是整,總結(jié)整篇文章,其主要有以下結(jié)論:

  1. 空間信息與時(shí)序信息應(yīng)分別對(duì)待民假,不能對(duì)稱(chēng)地同等對(duì)待
  2. 快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練
  3. Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果
  4. 快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度浮入、速度更快的動(dòng)作類(lèi)別提升大

最后也利用SlowFast Network在Kinetics數(shù)據(jù)集和AVA action detection,達(dá)到了state-of-the-art羊异。

Reference

[1] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition[J]. arXiv preprint arXiv:1812.03982, 2018.


作者 @鼎鼎大明
2019 年 03月 18日

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末事秀,一起剝皮案震驚了整個(gè)濱河市彤断,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌秽晚,老刑警劉巖瓦糟,帶你破解...
    沈念sama閱讀 218,204評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異赴蝇,居然都是意外死亡菩浙,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)句伶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)劲蜻,“玉大人,你說(shuō)我怎么就攤上這事考余∠孺遥” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,548評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵楚堤,是天一觀的道長(zhǎng)疫蔓。 經(jīng)常有香客問(wèn)我,道長(zhǎng)身冬,這世上最難降的妖魔是什么衅胀? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,657評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮酥筝,結(jié)果婚禮上滚躯,老公的妹妹穿的比我還像新娘。我一直安慰自己嘿歌,他們只是感情好掸掏,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著宙帝,像睡著了一般丧凤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上步脓,一...
    開(kāi)封第一講書(shū)人閱讀 51,554評(píng)論 1 305
  • 那天息裸,我揣著相機(jī)與錄音,去河邊找鬼沪编。 笑死,一個(gè)胖子當(dāng)著我的面吹牛年扩,可吹牛的內(nèi)容都是我干的蚁廓。 我是一名探鬼主播,決...
    沈念sama閱讀 40,302評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼厨幻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼相嵌!你這毒婦竟也來(lái)了腿时?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,216評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤饭宾,失蹤者是張志新(化名)和其女友劉穎批糟,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體看铆,經(jīng)...
    沈念sama閱讀 45,661評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡徽鼎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了弹惦。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片否淤。...
    茶點(diǎn)故事閱讀 39,977評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖棠隐,靈堂內(nèi)的尸體忽然破棺而出石抡,到底是詐尸還是另有隱情,我是刑警寧澤助泽,帶...
    沈念sama閱讀 35,697評(píng)論 5 347
  • 正文 年R本政府宣布啰扛,位于F島的核電站,受9級(jí)特大地震影響嗡贺,放射性物質(zhì)發(fā)生泄漏隐解。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評(píng)論 3 330
  • 文/蒙蒙 一暑刃、第九天 我趴在偏房一處隱蔽的房頂上張望厢漩。 院中可真熱鬧,春花似錦岩臣、人聲如沸溜嗜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,898評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)炸宵。三九已至,卻和暖如春谷扣,著一層夾襖步出監(jiān)牢的瞬間土全,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,019評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工会涎, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留裹匙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,138評(píng)論 3 370
  • 正文 我出身青樓末秃,卻偏偏與公主長(zhǎng)得像概页,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子练慕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評(píng)論 2 355