摘要:深度卷積網(wǎng)絡(luò)在靜態(tài)圖像的視覺識(shí)別方面取得了巨大的成功祠挫。 但是西饵,對(duì)于視頻中的動(dòng)作識(shí)別典奉,相對(duì)于傳統(tǒng)方法的優(yōu)勢(shì)并不是那么明顯躺翻。 本文旨在設(shè)計(jì)有效的ConvNet架構(gòu)來進(jìn)行視頻動(dòng)作識(shí)別,并在有限的訓(xùn)練樣本下學(xué)習(xí)這些模型卫玖。 我們的第一項(xiàng)貢獻(xiàn)是時(shí)間分段網(wǎng)絡(luò)(TSN)公你,這是一種基于視頻的動(dòng)作識(shí)別的新框架。這個(gè)結(jié)構(gòu)是基于遠(yuǎn)程時(shí)間建模的思想假瞬。它結(jié)合了稀疏的時(shí)間采樣策略和視頻級(jí)的監(jiān)督陕靠,可以使用整個(gè)動(dòng)作視頻進(jìn)行有效的學(xué)習(xí)。 另一個(gè)貢獻(xiàn)是我們研究了在時(shí)間分段網(wǎng)絡(luò)的幫助下學(xué)習(xí)視頻數(shù)據(jù)上的ConvNet的一系列實(shí)踐脱茉。我們的方法在HMDB51(69.4%)和UCF101(94.2%)的數(shù)據(jù)集上實(shí)現(xiàn)了SOTA剪芥。 我們還將ConvNet模型可視化,證明了時(shí)間分段網(wǎng)絡(luò)和提出方法的有效性琴许。
1介紹
基于視頻的動(dòng)作識(shí)別由于其在安全和行為分析等許多領(lǐng)域中的應(yīng)用而引起了學(xué)術(shù)界的極大關(guān)注[1,2,3,4,5,6]税肪。在動(dòng)作識(shí)別中,有兩個(gè)關(guān)鍵且互補(bǔ)的方面:外觀和動(dòng)態(tài)榜田。識(shí)別系統(tǒng)的性能在很大程度上取決于它是否能夠從中提取和利用相關(guān)信息益兄。然而,由于諸如尺度變化箭券,視角變化和相機(jī)運(yùn)動(dòng)之類的復(fù)雜因素净捅,提取這樣的信息是困難的。 因此辩块,設(shè)計(jì)有效的表示形式以解決這些挑戰(zhàn)同時(shí)保留動(dòng)作類別的分類信息就變得至關(guān)重要蛔六。最近,卷積神經(jīng)網(wǎng)絡(luò)[7]在對(duì)物體庆捺,場(chǎng)景和復(fù)雜事件的圖像進(jìn)行分類方面取得了巨大的成功[8.9.10.11]古今。ConvNets也已被引入以解決基于視頻的動(dòng)作識(shí)別問題[12,1,13,14]。深度ConvNets具有強(qiáng)大的建模能力滔以,并能夠在大規(guī)模監(jiān)督數(shù)據(jù)集的幫助下從原始視覺數(shù)據(jù)中學(xué)習(xí)區(qū)分表示。但是氓拼,與圖像分類不同你画,端到端的深層ConvNet仍然無法獲得比傳統(tǒng)手工特征提取明顯的優(yōu)勢(shì)抵碟。
我們認(rèn)為,ConvNets在基于視頻的動(dòng)作識(shí)別中的應(yīng)用有兩個(gè)主要障礙坏匪。首先拟逮,長(zhǎng)時(shí)間結(jié)構(gòu)在理解動(dòng)作視頻的動(dòng)態(tài)過程中起著重要作用[15,16,17,18]。但是适滓,主流的ConvNet框架[1,13]通常集中在外觀和短期運(yùn)動(dòng)上敦迄,因此缺乏整合長(zhǎng)時(shí)間結(jié)構(gòu)的能力。最近有一些嘗試[19,4,20]來解決這個(gè)問題凭迹。這些方法主要依賴于具有設(shè)定采樣間隔的密集時(shí)間采樣罚屋。當(dāng)將這種方法應(yīng)用于長(zhǎng)視頻序列時(shí),將導(dǎo)致過多的計(jì)算成本嗅绸,這限制了其在現(xiàn)實(shí)世界中的應(yīng)用脾猛,并存在丟失長(zhǎng)于最大長(zhǎng)度視頻的重要信息的風(fēng)險(xiǎn)。其次鱼鸠,在實(shí)踐中猛拴,訓(xùn)練深層ConvNets需要大量訓(xùn)練樣本才能實(shí)現(xiàn)最佳性能。但是蚀狰,由于數(shù)據(jù)收集和標(biāo)注的困難愉昆,可公開使用的動(dòng)作識(shí)別數(shù)據(jù)集(例如UCF101 [21],HMDB51 [22])在大小和多樣性上都受到限制麻蹋。 因此跛溉,非在圖像分類中取得了顯著成功深層ConvNets [9,23]在視頻中面臨著過擬合的高風(fēng)險(xiǎn)。
這些挑戰(zhàn)促使我們研究?jī)蓚€(gè)問題:1)如何設(shè)計(jì)一種有效和高效的視頻級(jí)框架來學(xué)習(xí)視頻表示哥蔚,該框架能夠捕獲長(zhǎng)期的時(shí)間結(jié)構(gòu)倒谷; 2)如何在有限的訓(xùn)練樣本下學(xué)習(xí)ConvNet模型。特別是糙箍,我們?cè)诔晒Φ碾p流體系結(jié)構(gòu)[1]的基礎(chǔ)上構(gòu)建了我們的方法渤愁,同時(shí)解決了上述問題。在時(shí)間結(jié)構(gòu)建模方面深夯,一個(gè)關(guān)鍵的發(fā)現(xiàn)是連續(xù)的幀是高度冗余的抖格。 因此,高度相似采樣幀的密集時(shí)間采樣通常是不需要的咕晋。相反雹拄,在這種情況下,稀疏的時(shí)間采樣策略將更為有利掌呜。 受此發(fā)現(xiàn)的啟發(fā)滓玖,我們提出了一個(gè)視頻級(jí)框架,稱為時(shí)間分段網(wǎng)絡(luò)(TSN)质蕉。 該框架采用稀疏采樣方案在較長(zhǎng)的視頻序列上提取短片段势篡,其中采樣沿時(shí)間維度均勻分布翩肌。 之后,采用分段結(jié)構(gòu)來聚集來自采樣片段的信息禁悠。從這個(gè)意義上講念祭,TSN能夠?qū)φ麄€(gè)視頻的長(zhǎng)時(shí)間結(jié)構(gòu)進(jìn)行建模。 而且碍侦,這種稀疏的采樣策略可以以較低的成本保存相關(guān)信息粱坤,從而可以在合理的時(shí)間和計(jì)算資源下,在長(zhǎng)視頻序列上進(jìn)行端到端學(xué)習(xí)瓷产。
為了開發(fā)STN框架的全部潛力站玄,我們采用了最近介紹的深層ConvNet架構(gòu)[23,9],并探索了許多良好實(shí)踐以克服由以下訓(xùn)練樣本不足原因帶來的上述問題拦英,包括1)交叉預(yù)訓(xùn)練蜒什;2)正規(guī)化;3)數(shù)據(jù)增強(qiáng)擴(kuò)充疤估。同時(shí)灾常,為了充分利用視頻中的視覺內(nèi)容,我們對(duì)雙流ConvNets的四種輸入形式進(jìn)行了經(jīng)驗(yàn)研究铃拇,即單RGB圖像钞瀑,堆疊的RGB差,堆疊的光流場(chǎng)和堆疊的矯正光流場(chǎng)慷荔。
我們對(duì)兩個(gè)具有挑戰(zhàn)性的動(dòng)作識(shí)別數(shù)據(jù)集(UCF101 [21]和HMDB51 [22])進(jìn)行了實(shí)驗(yàn)雕什,以驗(yàn)證我們方法的有效性。在實(shí)驗(yàn)中显晶,使用TSN學(xué)習(xí)的模型在這兩個(gè)具有挑戰(zhàn)性的動(dòng)作識(shí)別數(shù)據(jù)集上的表現(xiàn)SOTA贷岸。 我們還可視化了我們所學(xué)的雙流模型,試圖為將來的動(dòng)作識(shí)別研究提供一些參考磷雇。
2相關(guān)工作
在過去的幾年中偿警,動(dòng)作識(shí)別已被廣泛研究[2,24,25,26,18]。與我們有關(guān)的先前研究分為兩類:(1)用于動(dòng)作識(shí)別的卷積網(wǎng)絡(luò)唯笙,(2)時(shí)間結(jié)構(gòu)建模螟蒸。
卷積網(wǎng)絡(luò)的動(dòng)作識(shí)別。先前的許多工作一直在嘗試設(shè)計(jì)有效的ConvNet架構(gòu)來進(jìn)行視頻中的動(dòng)作識(shí)別[12,1,13,27,28]崩掘。Karpathy等[12]在大型數(shù)據(jù)集(Sports-1M)上測(cè)試了具有深層結(jié)構(gòu)的ConvNets七嫌。 Simonyan等[1]通過利用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和計(jì)算光流以捕獲運(yùn)動(dòng)信息,設(shè)計(jì)了包含空間和時(shí)間網(wǎng)絡(luò)的雙流ConvNet苞慢。Tran等[13]在現(xiàn)實(shí)和大規(guī)模的視頻數(shù)據(jù)集上探索了3D卷積[27]诵原,他們嘗試通過3D卷積運(yùn)算學(xué)習(xí)外觀和運(yùn)動(dòng)特征。Sun等[28]提出了一個(gè)基于分解的時(shí)空ConvNets,并利用不同的方法來分解3D卷積核皮假。 最近鞋拟,有幾篇文章著重介紹了使用卷積建模長(zhǎng)時(shí)間結(jié)構(gòu)的方法[4,19,20]骂维。但是惹资,這些方法直接在較長(zhǎng)的連續(xù)視頻流上運(yùn)行。 受計(jì)算成本的限制航闺,這些方法通常處理固定長(zhǎng)度為64到120幀的序列褪测。 由于它的時(shí)間覆蓋范圍有限,因此從整個(gè)視頻中進(jìn)行學(xué)習(xí)并非易事潦刃。 我們的方法與這些端到端深層ConvNets的不同之處在于侮措,它新穎地采用了稀疏的時(shí)間采樣策略,該策略可以在不限制序列長(zhǎng)度的情況下使用整個(gè)視頻進(jìn)行有效的學(xué)習(xí)乖杠。
時(shí)間結(jié)構(gòu)建模分扎。許多研究工作致力于為動(dòng)作識(shí)別時(shí)間結(jié)構(gòu)建模[15,16,17,29,30,18]。Gaidon等[16]注釋了每個(gè)視頻的每個(gè)子動(dòng)作胧洒,并提出了用于動(dòng)作檢測(cè)的Actom序列模型(ASM)畏吓。Niebles等[15]提出使用潛在變量來建模復(fù)雜動(dòng)作的時(shí)間分解,并借助潛在SVM [31]以迭代方式學(xué)習(xí)模型參數(shù)卫漫。Wang等[17]和Pirsiavash等菲饼。[29]分別使用隱性層次模型(LHM)和分段語法模型(SGM)將復(fù)雜動(dòng)作的時(shí)間分解擴(kuò)展為分層方式。Wang等[30]設(shè)計(jì)了一個(gè)順序骨架模型(SSM)來捕捉動(dòng)態(tài)體之間的關(guān)系列赎,并進(jìn)行時(shí)空動(dòng)作檢測(cè)宏悦。 Fernando [18]為行為識(shí)別建模了BoVW表示。但是包吝,這些方法仍然無法組合用于對(duì)時(shí)間結(jié)構(gòu)建模的端到端學(xué)習(xí)方案饼煞。前文所提出的時(shí)間分段網(wǎng)絡(luò)STN,同時(shí)也強(qiáng)調(diào)了這一原理诗越,是對(duì)整個(gè)視頻進(jìn)行端到端時(shí)間結(jié)構(gòu)建模的第一個(gè)框架砖瞧。
3時(shí)間分段網(wǎng)絡(luò)的動(dòng)作識(shí)別
在本節(jié)中,我們將詳細(xì)介紹使用時(shí)間分段網(wǎng)絡(luò)執(zhí)行動(dòng)作識(shí)別的過程掺喻。具體來說芭届,我們首先介紹TSN框架中的基本概念。然后感耙,我們研究在TSN框架內(nèi)學(xué)習(xí)雙流ConvNet的實(shí)踐褂乍。 最后,我們描述了學(xué)習(xí)到的雙流ConvNets的測(cè)試細(xì)節(jié)即硼。
3.1時(shí)間分段網(wǎng)絡(luò)
正如我們?cè)诘谝还?jié)中討論的那樣逃片。如圖1所示,雙流ConvNets當(dāng)前的一個(gè)明顯問題是它們無法建模長(zhǎng)時(shí)間結(jié)構(gòu)。這主要是由于它們對(duì)時(shí)間軸前后的訪問受到限制褥实,它們被設(shè)計(jì)為僅在短片段中的單個(gè)幀(空間網(wǎng)絡(luò))或單個(gè)幀堆棧(時(shí)間網(wǎng)絡(luò))上運(yùn)行呀狼。但是,復(fù)雜的動(dòng)作(例如體育動(dòng)作)包括跨越相對(duì)較長(zhǎng)時(shí)間的多個(gè)階段损离。如果在ConvNet訓(xùn)練中沒有在這些動(dòng)作中使用長(zhǎng)時(shí)間結(jié)構(gòu)哥艇,那將是巨大的損失。 為了解決這個(gè)問題僻澎,我們提出了時(shí)間分段網(wǎng)絡(luò)貌踏,即圖1所示的視頻級(jí)框架凸丸,以便能夠?qū)φ麄€(gè)視頻進(jìn)行動(dòng)態(tài)建模蚀之。
具體來說,我們提出的時(shí)間分段網(wǎng)絡(luò)框架力喷,旨在利用整個(gè)視頻的視覺信息來執(zhí)行視頻級(jí)別的預(yù)測(cè)秉氧,它也由空間流ConvNet和時(shí)間流ConvNet組成眷昆。時(shí)間分段網(wǎng)絡(luò)不是在單個(gè)幀或幀堆棧上工作,而是在從整個(gè)視頻中稀疏采樣的一系列短片段上運(yùn)行汁咏。此序列中的每個(gè)片段都將對(duì)動(dòng)作類別產(chǎn)生自己的初步預(yù)測(cè)亚斋。 然后,片段之間的共識(shí)將被導(dǎo)出為視頻級(jí)別的預(yù)測(cè)梆暖。 在學(xué)習(xí)過程中伞访,通過迭代更新模型參數(shù)來優(yōu)化視頻級(jí)預(yù)測(cè)的損失值,而不是用于雙流ConvNet的局部預(yù)測(cè)的損失值轰驳。
形式上厚掷,給定視頻V,我們將其分為相等持續(xù)時(shí)間的K個(gè)段{S1级解,S2冒黑,…,SK}勤哗。 然后抡爹,TSN對(duì)片段序列進(jìn)行如下建模:
其中C是動(dòng)作類別的數(shù)量,yi是類別i的標(biāo)簽芒划。 在實(shí)驗(yàn)中冬竟,根據(jù)先前的時(shí)間建模工作 [16,17],片段的數(shù)量K設(shè)置為3民逼。 函數(shù)G的形式仍然是一個(gè)懸而未決的問題泵殴。 在這項(xiàng)工作中,我們使用最簡(jiǎn)單的G形式拼苍,其中Gi = g(Fi(T1)笑诅,...,F(xiàn)i(TK))。 此處吆你,使用函數(shù)g從所有片段上的同一類別的分?jǐn)?shù)推斷出類別分?jǐn)?shù)Gi弦叶。我們根據(jù)經(jīng)驗(yàn)評(píng)估了聚合函數(shù)g的幾種不同形式,包括實(shí)驗(yàn)中的平均妇多,極值和加權(quán)平均伤哺。 其中,平均均值用于報(bào)告我們的最終識(shí)別準(zhǔn)確性砌梆。
取決于g的選擇默责,此TSN是可微的或至少具有子梯度。這使我們能夠利用多個(gè)片段咸包,通過標(biāo)準(zhǔn)的反向傳播算法共同優(yōu)化模型參數(shù)W。 在反向傳播過程中杖虾,模型參數(shù)W相對(duì)于損耗值L的梯度可以推導(dǎo)為:
當(dāng)我們使用基于梯度的優(yōu)化方法(例如隨機(jī)梯度下降(SGD))來學(xué)習(xí)模型參數(shù)時(shí)烂瘫。上式保證參數(shù)更新利用了從所有段級(jí)預(yù)測(cè)中得出的分段共識(shí)G。以這種方式進(jìn)行了優(yōu)化奇适,時(shí)間分段網(wǎng)絡(luò)可以從整個(gè)視頻中學(xué)習(xí)模型參數(shù)坟比,而不是一小段。同時(shí)嚷往,通過為所有視頻固定K葛账,我們形成了一個(gè)稀疏的時(shí)間采樣策略,其中采樣的片段僅包含一小部分幀皮仁。與以前使用密集采樣幀的工作相比籍琳,它大大降低了評(píng)估幀上的ConvNets的計(jì)算成本[4,19,20]。
3.2學(xué)習(xí)時(shí)間分段網(wǎng)絡(luò)
時(shí)間分段網(wǎng)絡(luò)提供了執(zhí)行視頻級(jí)學(xué)習(xí)的框架贷祈,但是要實(shí)現(xiàn)最佳性能趋急,必須注意一些實(shí)際問題,例如訓(xùn)練樣本數(shù)量有限势誊。為此呜达,我們研究了在視頻數(shù)據(jù)上訓(xùn)練深層ConvNet的一系列良好做法,這些做法也可直接應(yīng)用于學(xué)習(xí)時(shí)間分段網(wǎng)絡(luò)粟耻。
網(wǎng)絡(luò)體系結(jié)構(gòu)查近。網(wǎng)絡(luò)體系結(jié)構(gòu)是神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的重要因素。幾項(xiàng)工作表明挤忙,更深的結(jié)構(gòu)可以提高對(duì)象識(shí)別性能[9,10]霜威。但是,原始的雙流Con vNets [1]采用了相對(duì)較淺的網(wǎng)絡(luò)結(jié)構(gòu)(ClarifaiNet [32])饭玲。 在這項(xiàng)工作中侥祭,由于在準(zhǔn)確性和效率之間具有良好平衡和批歸一化的Inception[23]作為構(gòu)建基塊。 我們將原始的BN-Inception體系結(jié)構(gòu)調(diào)整為雙流ConvNet的設(shè)計(jì)。像在原始的雙流ConvNets [1]中一樣矮冬,空間流在單個(gè)RGB圖像上運(yùn)行谈宛,而時(shí)間流將一堆連續(xù)的光流場(chǎng)作為輸入。
網(wǎng)絡(luò)輸入胎署。我們也有興趣探索更多的輸入方式來增強(qiáng)STN的判別能力吆录。 最初,雙流ConvNets將RGB圖像用于空間流琼牧,將堆疊的光流場(chǎng)用于時(shí)間流恢筝。 在這里,我們建議研究?jī)煞N額外的模式巨坊,即RGB差和矯正流場(chǎng)撬槽。
單個(gè)RGB圖像通常在特定時(shí)間點(diǎn)編碼靜態(tài)外觀,且缺少有關(guān)上下幀的信息趾撵。如圖2所示侄柔,兩個(gè)連續(xù)幀之間的RGB差異描述了外觀變化,該變化可能與運(yùn)動(dòng)顯著區(qū)域相對(duì)應(yīng)占调。 受[28]的啟發(fā)暂题,我們嘗試添加疊加的RGB差作為另一種輸入形式,并研究其在動(dòng)作識(shí)別中的性能究珊。
時(shí)間流ConvNets以光流場(chǎng)為輸入薪者,旨在捕獲運(yùn)動(dòng)信息。但是剿涮,在真實(shí)的視頻中言津,通常存在攝像機(jī)運(yùn)動(dòng),并且光流場(chǎng)可能不會(huì)集中在人體運(yùn)動(dòng)上幔虏。如圖2所示纺念,由于攝像機(jī)的運(yùn)動(dòng),在背景中突出了大量的水平運(yùn)動(dòng)想括。 受iDT[2]的啟發(fā)陷谱,我們建議將矯正的光流場(chǎng)作為附加的輸入形式。根據(jù)[2]瑟蜈,我們首先通過估計(jì)單應(yīng)性矩陣然后補(bǔ)償相機(jī)運(yùn)動(dòng)來提取矯正光流烟逊。如圖2所示,矯正的光流抑制了背景運(yùn)動(dòng)并使運(yùn)動(dòng)集中在人體身上铺根。
網(wǎng)絡(luò)****訓(xùn)練****宪躯。 由于用于動(dòng)作識(shí)別的數(shù)據(jù)集相對(duì)較小,因此訓(xùn)練深度ConvNets面臨著過擬合的風(fēng)險(xiǎn)位迂。 為了解決這個(gè)問題访雪,我們?cè)O(shè)計(jì)了以下幾種在時(shí)域網(wǎng)中訓(xùn)練卷積網(wǎng)絡(luò)的策略详瑞。
交叉預(yù)訓(xùn)練。 當(dāng)目標(biāo)數(shù)據(jù)集沒有足夠的訓(xùn)練樣本時(shí)臣缀,預(yù)訓(xùn)練是初始化深層ConvNets的有效方法[1]坝橡。 當(dāng)空間網(wǎng)絡(luò)將RGB圖像作為輸入時(shí),參數(shù)可以利用在ImageNet [33]上訓(xùn)練的模型作為初始化精置。 對(duì)于其他形式计寇,例如光流場(chǎng)和RGB差,它們本質(zhì)上捕獲了視頻數(shù)據(jù)的不同視覺方面脂倦,并且它們的分布與RGB圖像的分布不同番宁。我們提出了一種交叉預(yù)訓(xùn)練技術(shù),其中我們利用RGB模型初始化時(shí)間流網(wǎng)絡(luò)赖阻。首先蝶押,我們通過線性變換將光流場(chǎng)離散化為從0到255的間隔。 此步驟使光流場(chǎng)的范圍與RGB圖像相同政供。 然后播聪,我們修改RGB模型的第一卷積層的權(quán)重以處理光流場(chǎng)的輸入。 具體來說布隔,我們對(duì)RGB通道上的權(quán)重取平均值,并通過時(shí)間網(wǎng)絡(luò)輸入的通道數(shù)來復(fù)制該平均值稼虎。 這種初始化方法在時(shí)態(tài)網(wǎng)絡(luò)中效果很好衅檀,并減少了實(shí)驗(yàn)中過度擬合的影響。
正則化技術(shù)霎俩。批處理規(guī)范化[23]是處理協(xié)變量偏移問題的重要手段哀军。在學(xué)習(xí)過程中,批次歸一化將估計(jì)每個(gè)批次內(nèi)的激活平均值和方差打却,并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)的高斯分布杉适。這項(xiàng)操作會(huì)加快訓(xùn)練的收斂速度,但由于對(duì)有限數(shù)量的訓(xùn)練樣本的分布估計(jì)存在偏差柳击,會(huì)導(dǎo)致在傳遞過程中過擬合猿推。 因此,在使用預(yù)訓(xùn)練模型進(jìn)行初始化之后捌肴,我們選擇凍結(jié)除第一層外的所有批處理歸一化層的均值和方差參數(shù)蹬叭。 由于光流的分布與RGB圖像不同,因此第一卷積層的激活值將具有不同的分布状知,因此我們需要相應(yīng)地重新估計(jì)均值和方差秽五。 我們稱這種策略為局部BN。同時(shí)饥悴,我們?cè)贐N-Inception體系結(jié)構(gòu)的全局池層之后添加了一個(gè)額外的隨機(jī)失活層坦喘,以進(jìn)一步減少過度擬合的影響盲再。 對(duì)于空間流ConvNet,隨機(jī)失活率設(shè)置為0.8瓣铣;對(duì)于時(shí)間流ConvNet答朋,設(shè)置為0.7。
數(shù)據(jù)增強(qiáng)坯沪。數(shù)據(jù)增強(qiáng)可以生成各種訓(xùn)練樣本绿映,并防止嚴(yán)重的過擬合。在原始的雙流ConvNet中腐晾,隨機(jī)裁剪和水平翻轉(zhuǎn)被用來增加訓(xùn)練樣本叉弦。我們利用兩種新的數(shù)據(jù)增強(qiáng)技術(shù):角點(diǎn)裁剪和比例抖動(dòng)。在角點(diǎn)裁剪技術(shù)中藻糖,僅從圖像的角點(diǎn)或中心選擇提取的區(qū)域淹冰,以避免隱式聚焦在圖像的中心區(qū)域。在多尺度裁剪技術(shù)中巨柒,我們將ImageNet分類中使用的尺度抖動(dòng)技術(shù)[9]應(yīng)用于動(dòng)作識(shí)別樱拴。我們提出了尺度抖動(dòng)的有效實(shí)現(xiàn)。 我們將輸入圖像或光流場(chǎng)的大小固定為256×340洋满,并從{256晶乔,224,192牺勾,168}中隨機(jī)選擇裁剪區(qū)域的寬度和高度正罢。 最后,將這些裁剪區(qū)域的大小調(diào)整為224×224驻民,以進(jìn)行網(wǎng)絡(luò)訓(xùn)練翻具。 實(shí)際上,此實(shí)現(xiàn)不僅包含比例抖動(dòng)回还,而且還涉及縱橫比抖動(dòng)裆泳。
3.3測(cè)試TSN
最后,我們介紹了針對(duì)時(shí)間分段網(wǎng)絡(luò)的測(cè)試方法柠硕。 由于所有的片段ConvNet都共享TSN中的模型參數(shù)工禾,因此學(xué)習(xí)到的模型可以像普通的ConvNet一樣執(zhí)行逐幀評(píng)估。這使我們能夠與沒有TSN的學(xué)習(xí)模型進(jìn)行公平比較仅叫。具體來說帜篇,我們遵循原始雙流ConvNets的測(cè)試方案[1],在該方案中诫咱,我們從動(dòng)作視頻中采樣了25個(gè)RGB幀或光流堆棧笙隙。 同時(shí),我們裁剪了4個(gè)角和1個(gè)中心坎缭,并從采樣幀中進(jìn)行了水平翻轉(zhuǎn)以評(píng)估ConvNet竟痰。對(duì)于空間和時(shí)間流網(wǎng)絡(luò)的融合签钩,我們對(duì)它們進(jìn)行加權(quán)平均。 在TSN框架內(nèi)學(xué)習(xí)時(shí)坏快,空間流ConvNet和時(shí)間流ConvNet之間的性能差距比原始的雙流ConvNet中的性能差距小得多铅檩。 基于這一事實(shí),我們將空間流的權(quán)重設(shè)置為1莽鸿,將時(shí)間流的權(quán)重設(shè)置為1.5昧旨,從而為空間流賦予更高的權(quán)重。 當(dāng)同時(shí)使用正常和矯正的光流場(chǎng)時(shí)祥得,對(duì)于正常光流兔沃,權(quán)重被劃分為1,對(duì)于矯正的光流级及,權(quán)重被劃分為0.5乒疏。 在3.1中有描述,分段共識(shí)函數(shù)在Softmax歸一化之前應(yīng)用饮焦。為了測(cè)試模型是否符合訓(xùn)練條件怕吴,我們?cè)赟oftmax歸一化之前融合了25個(gè)幀和不同流的預(yù)測(cè)分?jǐn)?shù)。
4實(shí)驗(yàn)
在本節(jié)中县踢,我們首先介紹評(píng)估數(shù)據(jù)集和該方法的實(shí)現(xiàn)細(xì)節(jié)转绷。然后,我們探索了用于學(xué)習(xí)時(shí)間分段網(wǎng)絡(luò)的建議的良好實(shí)踐硼啤。在此之后暇咆,我們證明了通過應(yīng)用時(shí)間分段網(wǎng)絡(luò)框架來建模長(zhǎng)時(shí)間結(jié)構(gòu)的重要性。我們還將我們的方法的性能與最新技術(shù)進(jìn)行了比較丙曙。最后,我們將ConvNet模型可視化其骄。
4.1數(shù)據(jù)集和實(shí)施細(xì)節(jié)
我們對(duì)兩個(gè)大型動(dòng)作數(shù)據(jù)集HMDB51[22]和UCF101 [21]進(jìn)行實(shí)驗(yàn)亏镰。UCF101數(shù)據(jù)集包含101個(gè)動(dòng)作類和13320個(gè)視頻剪輯。我們遵循THUMOS13挑戰(zhàn)[34]的評(píng)估方案拯爽,并采用三個(gè)訓(xùn)練/測(cè)試單元進(jìn)行評(píng)估索抓。HMDB51數(shù)據(jù)集是大量來自各種來源的真實(shí)視頻的集合,例如電影和網(wǎng)絡(luò)視頻毯炮。 數(shù)據(jù)集由來自51個(gè)動(dòng)作類別的6766個(gè)視頻剪輯組成逼肯。我們的實(shí)驗(yàn)遵循原始的評(píng)估方案,使用了三個(gè)訓(xùn)練/測(cè)試拆分桃煎,并報(bào)告了這些拆分的平均準(zhǔn)確性篮幢。
我們使用小批量隨機(jī)梯度下降算法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),其中批量大小設(shè)置為256为迈,動(dòng)量設(shè)置為0.9三椿。我們使用來自ImageNet [33]的預(yù)訓(xùn)練模型初始化網(wǎng)絡(luò)權(quán)重缺菌。我們?cè)趯?shí)驗(yàn)中設(shè)置了較小的學(xué)習(xí)率。 對(duì)于空間網(wǎng)絡(luò)搜锰,學(xué)習(xí)率初始化為0.001伴郁,并且每2 000次迭代降低到其十分之一。整個(gè)訓(xùn)練過程將在4500次迭代后停止蛋叼。 對(duì)于時(shí)間網(wǎng)絡(luò)焊傅,我們將學(xué)習(xí)率初始化為0.005,經(jīng)過12000和18000次迭代后狈涮,學(xué)習(xí)率降低為十分之一狐胎。 最大迭代次數(shù)設(shè)置為20000。關(guān)于數(shù)據(jù)增強(qiáng)薯嗤,我們使用了第3.2節(jié)中指定的位置抖動(dòng)顽爹,水平翻轉(zhuǎn),角點(diǎn)裁剪和比例抖動(dòng)的技術(shù)骆姐。為了提取光流和矯正光流镜粤,我們選擇在OpenCV中使用CUDA實(shí)現(xiàn)的TVL1光流算法[35]。為了加快訓(xùn)練速度玻褪,我們采用了具有多個(gè)GPU的數(shù)據(jù)并行策略肉渴,并通過我們的修改版Caffe [36]和OpenMPI實(shí)現(xiàn)了該策略。對(duì)于具有4個(gè)TITANX GPU的硬件設(shè)備带射,空間TSN在UCF101上的整個(gè)培訓(xùn)時(shí)間約為2小時(shí)同规,對(duì)于時(shí)間TSN則為9小時(shí)。
4.2進(jìn)一步探究
在本節(jié)中窟社,我們重點(diǎn)研究3.2節(jié)中描述的良好實(shí)踐券勺,包括培訓(xùn)策略和輸入方式。在本實(shí)驗(yàn)研究中灿里,我們使用[23]改編的具有深層體系結(jié)構(gòu)的雙流ConvNets关炼,并對(duì)UCF101數(shù)據(jù)集的第1部分進(jìn)行所有實(shí)驗(yàn)。
我們?cè)诘?.2節(jié)中提出了兩種訓(xùn)練策略匣吊,即交叉預(yù)訓(xùn)練和具有隨機(jī)失活的部分BN儒拂。 具體來說,我們比較了四種設(shè)置:(1)從頭開始訓(xùn)練(2)僅像[1]中那樣預(yù)訓(xùn)練空間流(3)交叉預(yù)訓(xùn)練(4)使用交叉預(yù)訓(xùn)練和帶有隨機(jī)失活的BN層色鸳。結(jié)果如表1所中社痛。首先,我們發(fā)現(xiàn)從頭開始的訓(xùn)練性能要比原始的雙流ConvNets(基準(zhǔn))差很多命雀,這意味著精心設(shè)計(jì)的學(xué)習(xí)策略對(duì)于降低過擬合風(fēng)險(xiǎn)是必要的蒜哀,尤其是對(duì)于空間網(wǎng)絡(luò)。然后咏雌,我們使用空間流的預(yù)訓(xùn)練和時(shí)間流的交叉模態(tài)預(yù)訓(xùn)練凡怎,以初始化雙流ConvNets校焦,并且其性能比基線更好。 我們進(jìn)一步利用帶有隨機(jī)失活的部分BN來規(guī)范化訓(xùn)練過程统倒,從而將識(shí)別性能提高到92.0%寨典。
我們?cè)诘?.2節(jié)中提出了兩種新型的模態(tài):RGB差和矯正的光流場(chǎng)。 表2中報(bào)告了比較不同模式性能的結(jié)果房匆。這些實(shí)驗(yàn)是在表1中驗(yàn)證的所有良好實(shí)踐下進(jìn)行的耸成。我們首先觀察到RGB圖像和RGB差的組合將識(shí)別性能提高到87.3%。 此結(jié)果表明RGB圖像和RGB差異可以對(duì)信息編碼互補(bǔ)浴鸿。然后表明井氢,光流和矯正光流產(chǎn)生了非常相似的性能(87.2%對(duì)86.9%),并且將它們?nèi)诤峡梢詫⑿阅芴岣叩?7.8%岳链。 結(jié)合所有四種模式可得出91.7%的準(zhǔn)確性花竞。由于RGB差可能描述相似但不穩(wěn)定的運(yùn)動(dòng)模式,因此我們還評(píng)估了組合其他三種模式的性能掸哑,這帶來了更好的識(shí)別精度(92.3%vs 91.7%)约急。我們推測(cè)光流更適合捕獲運(yùn)動(dòng)信息,有時(shí)RGB差對(duì)于描述運(yùn)動(dòng)可能不穩(wěn)定苗分。 另一方面厌蔽,RGB差可以用作運(yùn)動(dòng)表示低質(zhì)量,高速的替代方案摔癣。
4.3對(duì)于TSN的性能評(píng)價(jià)
在本小節(jié)中奴饮,我們專注于TSN框架工作的研究。我們首先研究分段共識(shí)函數(shù)的影響择浊,然后在UCF101數(shù)據(jù)集的split 1上比較不同的ConvNet體系結(jié)構(gòu)戴卜。為了進(jìn)行比較,在此探索中琢岩,我們僅將RGB圖像和光流場(chǎng)用作輸入模態(tài)叉瘩。 如第3.1節(jié)所述,段數(shù)K設(shè)置為3粘捎。
在等式中(1),分段共識(shí)函數(shù)由其聚集函數(shù)g定義危彩。在這里攒磨,我們?cè)u(píng)估了g的三個(gè)計(jì)算方式:(1)最大合并,(2)平均合并汤徽,(3)加權(quán)平均娩缰。實(shí)驗(yàn)結(jié)果總結(jié)在表3中。我們看到平均池化功能可實(shí)現(xiàn)最佳性能谒府。因此拼坎,在以下實(shí)驗(yàn)中浮毯,我們選擇平均池作為默認(rèn)聚集功能。 然后泰鸡,我們比較了不同網(wǎng)絡(luò)體系結(jié)構(gòu)的性能债蓝,結(jié)果在表4中進(jìn)行了總結(jié)。具體地說盛龄,我們比較了三種深層的體系結(jié)構(gòu):BN-Inception [23]饰迹,GoogLeNet [10]和VGGNet-16 [9],所有這些架構(gòu)都經(jīng)過上述實(shí)踐的訓(xùn)練余舶。在比較的體系結(jié)構(gòu)中啊鸭,根據(jù)BN-Inception [23]改編的深層雙流ConvNets達(dá)到了92.0%的最佳精度。這與它在圖像分類任務(wù)中的更好表現(xiàn)相吻合匿值。 因此赠制,我們選擇BN-Inception [23]作為TSN的ConvNet架構(gòu)。
設(shè)置了所有設(shè)計(jì)選項(xiàng)后挟憔,我們現(xiàn)在將時(shí)間分段網(wǎng)絡(luò)(TSN)應(yīng)用于動(dòng)作識(shí)別钟些。 結(jié)果在表4中進(jìn)行了說明。在表5中還提供了根據(jù)識(shí)別準(zhǔn)確度對(duì)組件進(jìn)行逐項(xiàng)分析的結(jié)果曲楚。我們可以看到厘唾,在前面所有良好實(shí)踐下,時(shí)間分段網(wǎng)絡(luò)都能夠提高模型的性能龙誊。 這證實(shí)了通過時(shí)間分段網(wǎng)絡(luò)實(shí)現(xiàn)的對(duì)長(zhǎng)時(shí)間結(jié)構(gòu)進(jìn)行建模對(duì)于理解視頻中的動(dòng)作至關(guān)重要抚垃。
4.4與SOTA相比較
在探索了良好的做法并了解了時(shí)間分段網(wǎng)絡(luò)的效果之后,我們準(zhǔn)備建立最終的動(dòng)作識(shí)別方法趟大。具體來說鹤树,我們使用了三種輸入方式以及描述的所有技術(shù)作為最終方法,并在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了測(cè)試:HMDB51和UCF101逊朽。 結(jié)果總結(jié)在表6中罕伯,在表6中,我們將我們的方法與傳統(tǒng)方法(例如改進(jìn)的軌跡(iDT)[2]叽讳,MoFAP表示[39])和深度學(xué)習(xí)表示法例如3D卷積網(wǎng)絡(luò)(C3D)[13]追他,軌跡合并的深度卷積描述符(TDD)[5],分解時(shí)空卷積網(wǎng)絡(luò)(FSTCN)[28]岛蚤,長(zhǎng)期卷積網(wǎng)絡(luò)(LTC)[19]和關(guān)鍵卷挖掘框架(KVMF)[41]邑狸。 我們的最佳結(jié)果在HMDB51數(shù)據(jù)集上優(yōu)于其他方法3.9%,在UCF101數(shù)據(jù)集上優(yōu)于1.1%涤妒。 我們方法的優(yōu)越性能證明了TSN的有效性单雾,并證明了長(zhǎng)期時(shí)域建模的重要性。
4.5模型可視化
除了識(shí)別精度,我們還想進(jìn)一步了解所學(xué)的ConvNet模型硅堆。這里屿储,我們采用DeepDraw[42]工具箱。此工具在僅具有白噪聲的情況下對(duì)輸入圖像進(jìn)行迭代梯度上升渐逃。因此够掠,僅基于ConvNet模型內(nèi)部的類知識(shí),可以將經(jīng)過多次迭代后的輸出視為類可視化朴乖。該工具的原始版本僅處理RGB數(shù)據(jù)祖屏。為了對(duì)基于光流的模型進(jìn)行可視化,我們調(diào)整了工具以使其與時(shí)間網(wǎng)絡(luò)一起運(yùn)行买羞。結(jié)果袁勺,我們首次在動(dòng)作識(shí)別ConvNet模型中可視化了有趣的類信息。 我們從UCF101數(shù)據(jù)集中隨機(jī)選擇五個(gè)類別畜普,即太極拳期丰,打拳,跳水吃挑,跳遠(yuǎn)和自行車钝荡,以實(shí)現(xiàn)可視化。 結(jié)果如圖3所示舶衬。對(duì)于RGB和光流埠通,我們將通過以下三種設(shè)置可視化學(xué)習(xí)的ConvNet模型:(1)不進(jìn)行預(yù)訓(xùn)練;(2)僅接受預(yù)訓(xùn)練逛犹;(3)具有TSN端辱。
一般而言,具有預(yù)訓(xùn)練的模型比沒有進(jìn)行預(yù)訓(xùn)練的模型更能表示視覺概念虽画∥璞危可以看到,沒有經(jīng)過預(yù)訓(xùn)練的時(shí)空模型幾乎不能產(chǎn)生任何有意義的視覺結(jié)構(gòu)码撰。 利用預(yù)訓(xùn)練過程中傳遞的知識(shí)渗柿,空間和時(shí)間模型能夠捕獲結(jié)構(gòu)化的視覺特征。
還很容易注意到脖岛,僅接受短期信息(例如單幀)訓(xùn)練的模型往往會(huì)將視頻中的風(fēng)景圖案和物體誤認(rèn)為是行動(dòng)識(shí)別的重要特征朵栖。例如,在“潛水”類中柴梆,除進(jìn)行潛水的人員外混槐,單幀空間流ConvNet主要查找水和潛水平臺(tái)。它的時(shí)間流對(duì)應(yīng)物(光流)趨向于集中于由水波引起的運(yùn)動(dòng)轩性。 隨著時(shí)間分段網(wǎng)絡(luò)引入的長(zhǎng)期時(shí)間建模,顯而易見的是,學(xué)習(xí)的模型更多地關(guān)注視頻中的人揣苏,并且似乎正在對(duì)動(dòng)作類的長(zhǎng)時(shí)間結(jié)構(gòu)進(jìn)行建模悯嗓。仍以“潛水”為例,具有時(shí)間分段網(wǎng)絡(luò)的空間卷積網(wǎng)絡(luò)現(xiàn)在生成的圖像是人是主要的視覺信息卸察。 并且可以在圖像中識(shí)別出不同的姿勢(shì)脯厨,描繪了一個(gè)潛水動(dòng)作的各個(gè)階段。這表明用該方法學(xué)習(xí)的模型可能表現(xiàn)更好坑质,這在我們的定量實(shí)驗(yàn)中得到了很好的體現(xiàn)合武。我們?yōu)樽x者提供補(bǔ)充材料,以實(shí)現(xiàn)更多動(dòng)作類的可視化以及有關(guān)可視化過程的更多詳細(xì)信息涡扼。
5結(jié)論
在本文中稼跳,我們介紹了時(shí)間分段網(wǎng)絡(luò)(TSN),這是一個(gè)視頻級(jí)框架吃沪,旨在為長(zhǎng)期的時(shí)間結(jié)構(gòu)建模汤善。正如在兩個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上所展示的,這項(xiàng)工作將最新技術(shù)提升到了一個(gè)新的水平票彪,同時(shí)保持了合理的計(jì)算成本红淡。 這主要?dú)w因于具有稀疏采樣的分段體系結(jié)構(gòu)以及我們?cè)诒疚闹刑剿鞯囊幌盗辛己脤?shí)踐。 前者提供了一種捕獲長(zhǎng)期時(shí)間結(jié)構(gòu)的有效方式降铸,而后者則使得在有限的訓(xùn)練集上訓(xùn)練非常深的網(wǎng)絡(luò)成為可能在旱,而不會(huì)出現(xiàn)嚴(yán)重的過度擬合。