這是我發(fā)布的第2篇文章,在這個(gè)專(zhuān)欄里采桃,我會(huì)持續(xù)寫(xiě)一些最近看的文章懒熙,希望能夠與大家有所交流。
歡迎訪問(wèn)我的知乎專(zhuān)欄 元麥沒(méi)有山丘
論文題目: [ SlowFast Networks for Video Recognition ]
- 論文地址:下載地址
- 代碼地址:暫無(wú)
FaceBook AI Research何凱明團(tuán)隊(duì)提出了一個(gè)快慢雙通道網(wǎng)絡(luò)普办,利用FastPath捕捉動(dòng)作信息工扎;SlowPath捕捉視覺(jué)語(yǔ)義信息,最后在無(wú)預(yù)訓(xùn)練的情況下衔蹲,在Kinetics數(shù)據(jù)集上視頻分類(lèi)準(zhǔn)確率達(dá)到了79.0%肢娘,在AVA action detection數(shù)據(jù)集上達(dá)到了當(dāng)前最好的28.3mAP。
先說(shuō)結(jié)論:
- 空間信息與時(shí)序信息應(yīng)分別對(duì)待舆驶,不能對(duì)稱(chēng)地同等對(duì)待
- 快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練
- Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果
- 快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度蔬浙、速度更快的動(dòng)作類(lèi)別提升大
Motivation
我們所看到的世界大多數(shù)是屬于靜止的,在人類(lèi)視覺(jué)細(xì)胞研究中研究者發(fā)現(xiàn)贞远,視覺(jué)細(xì)胞由80%的P-Cell和20%的M-Cell組成,其中P-Cell對(duì)顏色笨忌、形狀等圖像信息更加敏感蓝仲,而M-Cell對(duì)時(shí)間變化更加敏感。例如一個(gè)跳躍動(dòng)作官疲,整個(gè)過(guò)程中圖像中的視覺(jué)語(yǔ)義信息是變化比較緩慢的袱结,而相反移動(dòng)、跳躍這些動(dòng)作在時(shí)序上變化較快途凫,我們是否能利用兩個(gè)不同的網(wǎng)絡(luò)對(duì)時(shí)序變化不同的信息進(jìn)行捕捉垢夹,從而改善網(wǎng)絡(luò)性能是這篇文章的主要思想,而基于上述研究與分析维费,作者提出了SlowFast網(wǎng)絡(luò)果元。
正文
在圖像識(shí)別處理中,我們會(huì)對(duì)稱(chēng)地處理RGB圖像的x軸和y軸信息犀盟,自然圖像的統(tǒng)計(jì)也證明了其合理性而晒。但是在視頻任務(wù)中,我們不禁想到阅畴,時(shí)序信息也應(yīng)該和圖像信息一樣對(duì)稱(chēng)地處理嗎倡怎?當(dāng)然不是!作者提出用SlowPath在幀率較低的輸入下進(jìn)行空間語(yǔ)義信息提取,利用輕量級(jí)的FastPath在幀率較高的輸入下進(jìn)行時(shí)序信息提取监署,最后進(jìn)行融合颤专。
模型架構(gòu)
整個(gè)網(wǎng)絡(luò)的模型架構(gòu)如下圖所示,上面子線路是Slow Pathway钠乏,輸入的時(shí)序幀率低栖秕,主要提取空間語(yǔ)義信息,下面的Fast Pathway輸入時(shí)序幀率高缓熟,模型通道數(shù)量較少累魔,主要提取時(shí)序信息。兩條子路在每一個(gè)Block都會(huì)進(jìn)行fuse够滑,最后輸入給分類(lèi)器垦写。
Slow Pathway架構(gòu)
Slow Pathway可以是任何的一個(gè)視頻卷積模,我們假設(shè)參數(shù)是一個(gè)輸入視頻幀的采樣率彰触,模型輸入的總幀數(shù)設(shè)為T(mén)梯投,則輸入視頻的總幀數(shù)為
,這里我們一般取
况毅,壓縮了輸入中的時(shí)序信息分蓖,這樣的做法是的Slow Pathway網(wǎng)絡(luò)更加專(zhuān)注于提取空間的語(yǔ)義信息。
Fast Pathway架構(gòu)
Fast Pathway是一個(gè)輕量級(jí)的時(shí)序信息提取模型尔许。為減少運(yùn)算量以及讓模型專(zhuān)注于時(shí)序信息提取么鹤,作者設(shè)計(jì)時(shí)主要有以下幾點(diǎn):
- 更高的輸入時(shí)序分辨率
- 更高的輸出時(shí)序分辨率
- 較低的通道容量
- 較低的輸入空間信息
更高的輸入時(shí)序分辨率。SlowPath網(wǎng)絡(luò)的幀采樣率為味廊,我們?cè)O(shè)系數(shù)
蒸甜,則SlowPath網(wǎng)絡(luò)的輸入幀采樣率設(shè)為
,即FastPath輸入的幀數(shù)是SlowPath的
倍余佛。
更高的輸出時(shí)序分辨率柠新。FastPath網(wǎng)絡(luò)整個(gè)過(guò)程中沒(méi)有采用時(shí)序上的下采樣,保證輸入時(shí)序維度仍然為辉巡。
較低的通道容量恨憎。作者這里發(fā)現(xiàn),F(xiàn)astPath網(wǎng)絡(luò)降低通道數(shù)量郊楣,不僅降低了模型的復(fù)雜度憔恳,還能保證輸出的精度,這里設(shè)置了一個(gè)系數(shù)痢甘,一般
喇嘱,使得FastPath的通道數(shù)量始終是Slowpath的
倍。
這樣的設(shè)定保證了FastPath網(wǎng)絡(luò)的計(jì)算量大概占總網(wǎng)絡(luò)計(jì)算量的20%塞栅,和我們?cè)谌祟?lèi)視覺(jué)細(xì)胞中發(fā)現(xiàn)M細(xì)胞的比例大約為20%吻合者铜。
較低的輸入空間信息腔丧。為了進(jìn)一步削弱FastPath網(wǎng)絡(luò)的空間建模能力,作者這里還提出降低輸入圖像空間分辨率作烟、去除顏色信息等方式愉粤,使得網(wǎng)絡(luò)能更加注重時(shí)序信息的變化。
網(wǎng)絡(luò)整體參數(shù)列表
這里拿撩,作者以ResNet-50舉例衣厘,其設(shè)計(jì)的SlowFast網(wǎng)絡(luò)參數(shù)如下表所示,其中黃色是通道數(shù)量压恒,綠色是時(shí)序幀分辨率影暴。
實(shí)驗(yàn)
作者針對(duì)不同超參數(shù)設(shè)置以及融合方式,作者做了很多實(shí)驗(yàn)探赫。
fuse method
融合方式中型宙,Slow Pathway的特征尺寸為,而Fast Pathway的特征尺寸為
伦吠,作者分別嘗試time-to-channel(TtoC)妆兑、time-strided sampling(T-Sample)、time-strided convolution(T-conv)四種方法毛仪,結(jié)果如下搁嗓,利用T-conv效果最好。
Channel capacity ratio
在Fast Pathway中降低通道的數(shù)量箱靴,一方面可以使模型輕量化腺逛,另一方面,作者發(fā)現(xiàn)降低Fast Pathway模型的空間信息提取能力衡怀,可以增強(qiáng)其時(shí)序信息提取能力屉来,故對(duì)不同的通道壓縮比例設(shè)置做了實(shí)驗(yàn),其結(jié)果如下狈癞。
其中設(shè)置成1/6和1/8時(shí),Top-1茂契、Top-5最高蝶桶。
由此,作者思考掉冶,是否能進(jìn)一步削減其空間信息能力來(lái)增強(qiáng)時(shí)序上的性能真竖,為此,作者將輸入的RGB圖像分別改成灰度厌小、光流等進(jìn)行實(shí)驗(yàn)恢共,最終發(fā)現(xiàn),利用灰度圖作為輸入璧亚,模型的復(fù)雜度得以降低讨韭,且精度幾乎沒(méi)有變化。
ablation experiment
Fast+Slow的雙模型結(jié)構(gòu)是否真的有效,還是僅是模型復(fù)雜度增加帶來(lái)的性能提升透硝,對(duì)此狰闪,作者將Fast網(wǎng)絡(luò)替換成其他以及單獨(dú)的Slow網(wǎng)絡(luò)進(jìn)行訓(xùn)練,將結(jié)果進(jìn)行了對(duì)比濒生。
從結(jié)果可以看出埋泵,快慢網(wǎng)絡(luò)有效的降低了模型的復(fù)雜度,且在分類(lèi)結(jié)果中效果非常好罪治。
Various SlowFast instantiations
針對(duì)精度和速度不同的側(cè)重丽声,我們可以非常自由的選擇Slow網(wǎng)絡(luò)的輸入幀數(shù),其結(jié)果如下觉义。
其中T是Slow網(wǎng)絡(luò)輸入的總幀數(shù)雁社,輸入視頻序列的總幀數(shù),
為Fast網(wǎng)絡(luò)輸入總幀數(shù)谁撼∑缧玻可以發(fā)現(xiàn),當(dāng)Slow網(wǎng)絡(luò)輸入幀數(shù)為2時(shí)厉碟,GFLOPS最低喊巍,且Top-1只損失了3.6%,且相比于Slow-only網(wǎng)絡(luò)箍鼓,不僅精度高崭参,復(fù)雜度更低,充分說(shuō)明了其模型的有效性款咖。
Result on Kinetics and AVA dataset
何凱明團(tuán)隊(duì)提出的這篇文章何暮,在Kinetics數(shù)據(jù)集上,與沒(méi)有ImageNet預(yù)訓(xùn)練其他模型相比铐殃,目前是第一海洼。在AVA action detection任務(wù)上取得了第一,其結(jié)果如下所示富腊。
總結(jié)與展望
在這篇文章中坏逢,作者提出Slow+Fast網(wǎng)絡(luò),通過(guò)大量研究實(shí)驗(yàn)赘被,證明了其有效性是整,總結(jié)整篇文章,其主要有以下結(jié)論:
- 空間信息與時(shí)序信息應(yīng)分別對(duì)待民假,不能對(duì)稱(chēng)地同等對(duì)待
- 快慢網(wǎng)絡(luò)可以不需要在ImageNet進(jìn)行預(yù)訓(xùn)練
- Non-Local網(wǎng)絡(luò)其實(shí)沒(méi)多大的提升效果
- 快慢網(wǎng)絡(luò)對(duì)動(dòng)作幅度浮入、速度更快的動(dòng)作類(lèi)別提升大
最后也利用SlowFast Network在Kinetics數(shù)據(jù)集和AVA action detection,達(dá)到了state-of-the-art羊异。
Reference
[1] Feichtenhofer C, Fan H, Malik J, et al. SlowFast networks for video recognition[J]. arXiv preprint arXiv:1812.03982, 2018.
作者 @鼎鼎大明
2019 年 03月 18日