摘要—深度卷積網(wǎng)絡(luò)在圖像識別方面取得了巨大成功。 但是擅编,對于視頻中的動(dòng)作識別爱态,它們相對于傳統(tǒng)方法的優(yōu)勢并不是那么明顯锦担。 我們提供了一個(gè)通用且靈活的視頻級框架洞渔,用于學(xué)習(xí)視頻中的動(dòng)作模型磁椒。 這種稱為時(shí)間分段網(wǎng)絡(luò)(TSN)的方法旨在使用新的基于分段的采樣和聚合模塊對遠(yuǎn)程時(shí)間結(jié)構(gòu)進(jìn)行建模浆熔。 這種獨(dú)特的設(shè)計(jì)使我們的TSN可以通過使用整個(gè)動(dòng)作視頻來高效地學(xué)習(xí)動(dòng)作模型医增。 所學(xué)習(xí)的模型可以分別通過簡單的平均池化和多尺度時(shí)間窗口集成,輕松地應(yīng)用于修剪和未修剪視頻中的動(dòng)作識別祈匙。 在有限的訓(xùn)練樣本的情況下菊卷,我們還研究了一系列實(shí)例化時(shí)域網(wǎng)絡(luò)框架的良好實(shí)踐洁闰。 我們的方法在四個(gè)具有挑戰(zhàn)性的動(dòng)作識別基準(zhǔn)上獲得了最先進(jìn)的性能:HMDB51(71:0%),UCF101(94:9%)万细,THUMOS14(80:1%)和ActivityNet v1.2(89 :6%)扑眉。 使用針對運(yùn)動(dòng)模型提出的RGB差異纸泄,我們的方法在以340 FPS運(yùn)行時(shí)仍可以在UCF101(91:0%)上達(dá)到競爭精度。 此外腰素,基于時(shí)間分段網(wǎng)絡(luò)聘裁,我們在24個(gè)團(tuán)隊(duì)的ActivityNet挑戰(zhàn)賽2016中贏得了視頻分類軌道,這證明了時(shí)間分段網(wǎng)絡(luò)的有效性和良好的實(shí)踐檢驗(yàn)弓千。
1 INTRODUCTION
??基于視頻的動(dòng)作識別已經(jīng)在學(xué)術(shù)界[1]衡便,[2]镣陕,[3],[4]鹊碍,[5]中引起了相當(dāng)大的關(guān)注,這是由于其在安全性和行為分析等許多領(lǐng)域的應(yīng)用。 對于視頻中的動(dòng)作識別树姨,有兩個(gè)關(guān)鍵且互補(bǔ)的線索:外觀和時(shí)間動(dòng)態(tài)辅斟。 識別系統(tǒng)的性能在很大程度上取決于它是否能夠從中提取和利用相關(guān)信息查邢。 然而邓深,由于許多困難冬耿,例如比例尺變化,視點(diǎn)變化和相機(jī)運(yùn)動(dòng),提取此類信息并非易事荷憋。 因此瘫里,在學(xué)習(xí)動(dòng)作類別的分類信息的同時(shí),設(shè)計(jì)有效的表示形式以應(yīng)對這些挑戰(zhàn)就變得至關(guān)重要铐尚。
最近矛缨,卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)[6]在分類圖像中的對象[7]灵妨,[8]筋量,[9],場景[10],[11]窿吩,[12]和復(fù)雜事件[13]方面取得了巨大的成功倾哺。 ConvNets也已被引入以解決基于視頻的動(dòng)作識別問題[1],[15],[16],[17]勺远。 Deep ConvNets具有出色的建模能力饰潜,并且能夠從大規(guī)模監(jiān)督數(shù)據(jù)集中的原始視覺數(shù)據(jù)中學(xué)習(xí)判別表示(例如ImageNet [18],Places [10])半沽。但是,與圖像分類不同,與基于視頻的動(dòng)作識別的傳統(tǒng)手工功能相比,端到端深層ConvNets帶來的改進(jìn)仍然有限。
我們認(rèn)為,ConvNets在不受約束的視頻中進(jìn)行動(dòng)作識別的應(yīng)用受到三個(gè)主要障礙的阻礙。 首先,盡管已證明長距離時(shí)間結(jié)構(gòu)對于理解傳統(tǒng)方法的動(dòng)態(tài)至關(guān)重要[19],[20],[21]惹恃,[22],但尚未將其視為深度ConvNet框架中的關(guān)鍵因素[1]乏悄。 ]负蚊,[15],[16]蛹找。 這些方法通常著重于外觀和短期運(yùn)動(dòng)(即最多10幀),因此缺乏合并長距離時(shí)間結(jié)構(gòu)的能力。 最近茶凳,有一些嘗試[4]窟蓝,[23]峡继,[24]來解決這個(gè)問題儡循。 這些方法主要依賴于具有預(yù)定采樣間隔的密集時(shí)間采樣腹侣,當(dāng)應(yīng)用于長視頻時(shí)窃页,這將導(dǎo)致過多的計(jì)算成本作儿。 更重要的是妓雾,可用的有限存儲空間嚴(yán)重限制了要建模的視頻的持續(xù)時(shí)間。 這可能會丟失視頻重要信息的時(shí)間超過可承受的采樣時(shí)間。
其次,現(xiàn)有的動(dòng)作識別方法主要是針對修剪過的視頻設(shè)計(jì)的馒过。 但是,為了在現(xiàn)實(shí)的環(huán)境中部署學(xué)習(xí)到的動(dòng)作模型,我們經(jīng)常需要處理未修剪的視頻(例如THUMOS [25]窍霞,ActivityNet [26])梦裂,其中每個(gè)動(dòng)作實(shí)例可能只占整個(gè)視頻的一小部分牵咙。 主要的背景部分可能會干擾動(dòng)作識別模型的預(yù)測。 為了緩解此問題诗茎,我們需要考慮對動(dòng)作實(shí)例進(jìn)行定位并同時(shí)避免背景視頻的影響矾柜。 因此捆愁,將學(xué)習(xí)到的動(dòng)作模型應(yīng)用于未修剪視頻中的動(dòng)作識別是一項(xiàng)非常困難的任務(wù)咖城。
三悴品,訓(xùn)練動(dòng)作識別模型通常會遇到許多實(shí)際困難:1)訓(xùn)練深度ConvNets通常需要大量訓(xùn)練樣本才能實(shí)現(xiàn)最佳性能。但是,公開提供的動(dòng)作識別數(shù)據(jù)集(例如,UCF101 [27]酪耳,HMDB51 [28])規(guī)模和多樣性都受到限制梢夯,因此模型訓(xùn)練容易過擬合勤篮。 2)捕獲短期運(yùn)動(dòng)信息的光流提取成為將學(xué)習(xí)的模型部署到大規(guī)模動(dòng)作識別數(shù)據(jù)集的計(jì)算瓶頸账劲。
這些挑戰(zhàn)促使我們從以下三個(gè)方面來研究本文中的動(dòng)作識別問題:1)如何有效地學(xué)習(xí)捕獲遠(yuǎn)程時(shí)間結(jié)構(gòu)的視頻表示榆芦; 2)如何利用這些習(xí)得的ConvNet模型獲得更真實(shí)的未修剪視頻設(shè)置恨豁; 3)如何在有限的訓(xùn)練樣本下有效地學(xué)習(xí)ConvNet模型佩厚,并將其應(yīng)用于大規(guī)模數(shù)據(jù)。
為了捕獲遠(yuǎn)程時(shí)間結(jié)構(gòu)力麸,我們開發(fā)了一種稱為時(shí)間段網(wǎng)絡(luò)(TSN)的模塊化視頻級體系結(jié)構(gòu)可款,該體系結(jié)構(gòu)為學(xué)習(xí)視頻中的動(dòng)作模型提供了概念上簡單育韩,靈活且通用的框架。 基于我們的觀察闺鲸,連續(xù)幀是高度冗余的筋讨,在這種情況下,稀疏和全局時(shí)間采樣策略將更加有利和高效摸恍。 TSN框架首先使用稀疏采樣方案在較長的視頻序列上提取短片段悉罕,其中首先將視頻劃分為固定數(shù)量的片段,然后從每個(gè)片段中隨機(jī)采樣一個(gè)片段立镶。 然后壁袄,采用分段共識函數(shù)來匯總采樣片段中的信息。 通過這種方式媚媒,時(shí)間段網(wǎng)絡(luò)可以在整個(gè)視頻上對遠(yuǎn)程時(shí)間結(jié)構(gòu)進(jìn)行建模嗜逻,其計(jì)算成本與視頻持續(xù)時(shí)間無關(guān)。 在實(shí)踐中缭召,我們?nèi)嫜芯苛瞬煌螖?shù)的影響栈顷,并提出了五個(gè)聚合函數(shù)來總結(jié)這些采樣片段的預(yù)測分?jǐn)?shù),包括三種基本形式:平均池嵌巷,最大池和加權(quán)平均值萄凤,以及兩個(gè)高級方案:top -K合并和自適應(yīng)注意力加權(quán)。后兩者旨在自動(dòng)突出顯示區(qū)別性片段搪哪,同時(shí)減少訓(xùn)練過程中無關(guān)緊要的片段的影響靡努,從而有助于更好地學(xué)習(xí)動(dòng)作模型。
為了將TSN學(xué)習(xí)到的動(dòng)作模型應(yīng)用到未經(jīng)修剪的視頻中晓折,我們設(shè)計(jì)了一種分層聚合策略惑朦,稱為多尺度時(shí)間窗口集成(M-TWI),以得出未經(jīng)修剪視頻的最終預(yù)測結(jié)果已维。之前的大部分動(dòng)作識別方法都是限制在對人工修剪的視頻片段進(jìn)行分類行嗤。然而,這種設(shè)置可能是不切實(shí)際的垛耳,也是不現(xiàn)實(shí)的,因?yàn)榫W(wǎng)絡(luò)上的視頻本質(zhì)上是未經(jīng)修剪的飘千,而人工修剪這些視頻是很費(fèi)力的堂鲜。遵循時(shí)間段網(wǎng)絡(luò)框架的思想,我們首先將未修剪的視頻分為一系列固定時(shí)間的短窗口护奈,然后對每個(gè)窗口進(jìn)行動(dòng)作識別缔莲。然后,我們通過對這個(gè)窗口內(nèi)的這些片段級識別分?jǐn)?shù)進(jìn)行最大池化霉旗,獨(dú)立地對每個(gè)窗口進(jìn)行動(dòng)作識別痴奏。最后蛀骇,遵循時(shí)間段網(wǎng)絡(luò)框架的聚合功能,我們采用top-K池化或注意力加權(quán)的方式读拆,對這些窗口的預(yù)測結(jié)果進(jìn)行聚合擅憔,得出視頻級識別結(jié)果。由于新設(shè)計(jì)的聚合模塊能夠隱式選擇具有判別動(dòng)作實(shí)例的區(qū)間檐晕,同時(shí)抑制嘈雜背景的影響暑诸,因此對于未修剪的視頻識別是有效的。
針對動(dòng)作識別模型學(xué)習(xí)和應(yīng)用中的實(shí)際困難辟灰,我們發(fā)現(xiàn)了一些好的做法來解決有限的訓(xùn)練樣本所帶來的問題个榕,并對輸入模態(tài)進(jìn)行了系統(tǒng)的研究,以充分釋放ConvNets在動(dòng)作識別中的潛力芥喇。具體來說西采,我們首先提出了一種跨模態(tài)初始化策略,將學(xué)習(xí)到的表征從RGB模態(tài)轉(zhuǎn)移到其他模態(tài)继控,如光流和RGB差值苛让。其次,我們開發(fā)了一種原則性的方法湿诊,在微調(diào)場景下進(jìn)行批量歸一化(Batch Normalization狱杰,BN),表示為部分BN厅须,其中只有第一層BN的均值和方差被自適應(yīng)地更新仿畸,以處理領(lǐng)域轉(zhuǎn)移。此外朗和,為了充分利用視頻中的視覺內(nèi)容错沽,我們在時(shí)空段網(wǎng)絡(luò)框架下實(shí)證研究了四種類型的輸入模態(tài),即單一RGB圖像眶拉、疊加RGB差分千埃、疊加光流場和疊加扭曲光流場。結(jié)合RGB和RGB差分忆植,我們構(gòu)建了有史以來最好的實(shí)時(shí)動(dòng)作識別系統(tǒng)放可,在實(shí)際問題中具有眾多潛在的應(yīng)用。
我們在HMDB51[28]朝刊、UCF101[27]耀里、THUMOS[25]和ActivityNet[26]這四個(gè)具有挑戰(zhàn)性的動(dòng)作識別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證我們的方法在修剪和未修剪視頻中進(jìn)行動(dòng)作識別的有效性拾氓。在實(shí)驗(yàn)中冯挎,使用時(shí)間段網(wǎng)絡(luò)學(xué)習(xí)的模型在這四個(gè)具有挑戰(zhàn)性的動(dòng)作識別基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于當(dāng)前方法。此外咙鞍,在基本的時(shí)間段網(wǎng)絡(luò)框架之后房官,我們通過引入最新的深度模型架構(gòu)(如ResNet[29]和Inception V3[30])趾徽,并將音頻作為補(bǔ)充通道,進(jìn)一步改進(jìn)我們的動(dòng)作識別方法翰守。我們最終的動(dòng)作識別方法在2016年ActivityNet大規(guī)姆跄蹋活動(dòng)識別挑戰(zhàn)賽中獲得了未修剪視頻分類的第1名。我們還將我們學(xué)習(xí)到的雙流模型可視化潦俺,試圖為它們的工作原理提供見解拒课。這些可視化的模型也從定性的證明了我們的時(shí)間段網(wǎng)絡(luò)框架的有效性。
總的來說事示,我們分析了高效和有效學(xué)習(xí)和應(yīng)用動(dòng)作識別模型的不同方面的問題早像,并做出了三個(gè)主要貢獻(xiàn)。1)我們提出了一個(gè)端到端的框架肖爵,被稱為時(shí)間段網(wǎng)絡(luò)(TSN)卢鹦,用于學(xué)習(xí)捕獲長期時(shí)間信息的視頻表示;2)我們設(shè)計(jì)了一個(gè)分層聚合方案劝堪,將動(dòng)作識別模型應(yīng)用于未修剪的視頻冀自;3)我們研究了一系列學(xué)習(xí)和應(yīng)用深度動(dòng)作識別模型的良好實(shí)踐。
本刊論文在多個(gè)方面擴(kuò)展了我們之前的工作[31]秒啦。首先熬粗,我們在時(shí)間段網(wǎng)絡(luò)框架中引入了新的聚合函數(shù),事實(shí)證明這些函數(shù)可以有效地突出重要片段余境,同時(shí)抑制背景噪聲驻呐。第二,我們通過設(shè)計(jì)分層聚合策略芳来,將原有的動(dòng)作識別流水線擴(kuò)展到未修剪的視頻分類中含末。第三,我們在時(shí)間段網(wǎng)絡(luò)框架的不同方面增加了更多的探索研究,并在兩個(gè)新的數(shù)據(jù)集(即THUMOS15和ActivityNet)上進(jìn)行了更多的實(shí)驗(yàn)研究。最后阿浓,基于我們的時(shí)間段網(wǎng)絡(luò)框架,我們?yōu)锳ctivtyNet大型活動(dòng)挑戰(zhàn)賽2016提出了一個(gè)有效且高效的動(dòng)作識別解決方案借跪,在24支隊(duì)伍中,ActivtyNet大型活動(dòng)挑戰(zhàn)賽的未修剪視頻分類排名第一,并對我們方法的不同組成部分進(jìn)行了詳細(xì)的分析,以突出重要成分务豺。我們的方法和學(xué)習(xí)模型的代碼是公開的,以方便以后的研究嗦明。
2 RELATED WORK
近年來,動(dòng)作識別的研究非常廣泛蚪燕,讀者可以參考[32]娶牌、[33]奔浅、[34]進(jìn)行很好的調(diào)查。在這里诗良,我們只涉及與我們方法相關(guān)的工作汹桦。
2.1視頻表示
對于視頻中的動(dòng)作識別,視覺表示起著至關(guān)重要的作用鉴裹。我們將相關(guān)的動(dòng)作識別方法大致分為兩類:基于手工特征的方法和使用深度學(xué)習(xí)特征的方法舞骆。
手工特征 近年來,研究人員開發(fā)了許多不同的視頻時(shí)空特征檢測器径荔,例如3D-Harris [35]督禽,3D-Hessian [36],長方體[37]总处,密集軌跡[38]狈惫,改進(jìn)的軌跡[2]。 通常鹦马,會在興趣點(diǎn)或軌跡周圍提取局部3D區(qū)域胧谈,并計(jì)算直方圖描述符以捕獲外觀和運(yùn)動(dòng)信息,例如梯度直方圖和流量直方圖(HOG / HOF)[39]荸频, 運(yùn)動(dòng)邊界(MBH)[38]菱肖,3D梯度直方圖(HOG3D)[40],擴(kuò)展SURF(ESURF)[36]等旭从。 然后稳强,采用編碼方法將這些局部描述符聚合為一個(gè)整體表示形式,典型的編碼方法包括視覺詞袋(BoVW)[41]遇绞,F(xiàn)isher向量(FV)[42]键袱,局部聚集描述符向量(VLAD)[43] ]和MultiView Super Vector(MVSV)[44]。 這些局部特征具有局部性和簡單性的優(yōu)點(diǎn)摹闽,但可能缺乏語義和判別能力蹄咖。
為了克服局部描述符的局限性,有人提出了幾種中層表示法用于動(dòng)作識別[3]付鹿,[45]澜汤,[46],[47]舵匾,[48]俊抵,[49],[50]坐梯。Raptis等[45]將相似的軌跡分組為簇徽诲,每個(gè)簇被視為一個(gè)動(dòng)作部分。Jain等[46]將判別性斑點(diǎn)的思想擴(kuò)展到視頻中,提出了用于表示視頻的判別性時(shí)空斑點(diǎn)谎替。Zhang等人[47]提出以強(qiáng)監(jiān)督的方式發(fā)現(xiàn)一組中層補(bǔ)丁偷溺。類似于二維poselet[51],他們利用人類聯(lián)合標(biāo)簽將動(dòng)作部分緊密聚類钱贯,稱為acteme挫掏。Wang等人[3]提出了一種數(shù)據(jù)驅(qū)動(dòng)的方法來發(fā)現(xiàn)那些具有高運(yùn)動(dòng)顯著性的有效部分,即motionlet秩命。Zhu等[48]提出了一種用于動(dòng)作識別的兩層acton表示法尉共。通過最大余量多通道多實(shí)例學(xué)習(xí)框架學(xué)習(xí)弱監(jiān)督的肌動(dòng)子。Wang等人[49]通過將動(dòng)作特征弃锐、原子和短語進(jìn)行串聯(lián)袄友,提出了一種稱為MoFAP的多層次表示法。Sadanand等人[50]通過使用一組動(dòng)作模板來描述視頻內(nèi)容拿愧,提出了一種高級視頻表示法杠河,稱為Action Bank。綜上所述浇辜,這些中級表示法具有代表性和辨別力的優(yōu)點(diǎn)券敌,但仍依賴于低級手工制作的特征。
深度特征 幾部作品一直在嘗試學(xué)習(xí)深層功能并設(shè)計(jì)有效的ConvNet架構(gòu)來進(jìn)行視頻中的動(dòng)作識別[1]柳洋,[4]待诅,[5],[15]熊镣,[16]卑雁,[23],[24]绪囱,[52] 测蹲,[53],[54]鬼吵。 Karpathy等扣甲。 [15]首先在大型數(shù)據(jù)集(Sports1M)上測試了具有深層結(jié)構(gòu)的ConvNet。 Simonyan等齿椅。 [1]通過利用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和計(jì)算光流以顯式捕獲運(yùn)動(dòng)信息琉挖,設(shè)計(jì)了包含空間和時(shí)間網(wǎng)絡(luò)的兩流ConvNet。 Tran等涣脚。 [16]在逼真的和大規(guī)模的視頻數(shù)據(jù)集上探索了3D ConvNets [52]示辈,他們嘗試通過3D卷積和池化操作學(xué)習(xí)時(shí)空特征。 Sun等遣蚀。 [53]提出了一個(gè)分解的時(shí)空卷積網(wǎng)絡(luò)矾麻,并利用不同的方法來分解3D卷積核纱耻。 Wang等。 [5]提出了一種使用軌跡合并的深度卷積描述符(TDD)的混合表示形式射富,它具有改進(jìn)的軌跡[2]和兩流ConvNets [1]的優(yōu)點(diǎn)膝迎。 Feichtenhofer等粥帚。 [55]進(jìn)一步擴(kuò)展了兩個(gè)流的卷積網(wǎng)絡(luò)與兩個(gè)流的卷積融合胰耗。 幾篇著作[4],[24]芒涡,[54]嘗試使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)柴灯,尤其是LSTM,對視頻中動(dòng)作識別的幀特征的時(shí)間演變進(jìn)行建模费尽。
我們的工作與這些深度學(xué)習(xí)方法有關(guān)赠群。事實(shí)上,任何現(xiàn)有的ConvNet架構(gòu)都可以與TSN框架一起工作旱幼,從而與所提出的稀疏采樣策略和聚合函數(shù)相結(jié)合查描,以增強(qiáng)對遠(yuǎn)距離信息的建模能力,同時(shí)柏卤,我們的時(shí)間段網(wǎng)絡(luò)是一個(gè)端到端的架構(gòu)冬三,其中的模型參數(shù)可以與標(biāo)準(zhǔn)的反向傳播算法聯(lián)合優(yōu)化。
2.2 時(shí)間結(jié)構(gòu)建模
許多研究工作都致力于對視頻的時(shí)間結(jié)構(gòu)進(jìn)行建模以實(shí)現(xiàn)動(dòng)作識別[19]缘缚,[20]勾笆,[21],[22]桥滨,[56]窝爪,[57]。Gaidon等[20]對每個(gè)視頻的每個(gè)原子動(dòng)作進(jìn)行標(biāo)注齐媒,并提出了動(dòng)作檢測的Actom序列模型(ASM)蒲每。Niebles等[19]提出使用潛變量來模擬復(fù)雜動(dòng)作的時(shí)間分解,并求助于Latent SVM[58]喻括,以迭代的方式學(xué)習(xí)模型參數(shù)邀杏。Wang等[21]和Pirsiavash等[56]分別采用Latent Hierarchical Model(LHM)和Segmental Grammar Model(SGM)將復(fù)雜動(dòng)作的時(shí)間分解擴(kuò)展為層次化的方式。Wang等[57]設(shè)計(jì)了一個(gè)順序骨架模型(SSM)來捕捉動(dòng)態(tài)姿勢之間的關(guān)系双妨,并進(jìn)行了時(shí)空動(dòng)作檢測淮阐。Fernando[22]建立了BoVW表征的時(shí)空演化模型,用于動(dòng)作識別刁品。
最近的幾項(xiàng)工作集中在用ConvNets[4]泣特,[23],[24]對長距離時(shí)空結(jié)構(gòu)進(jìn)行建模挑随。一般來說状您,這些方法直接用循環(huán)神經(jīng)網(wǎng)絡(luò)[4]、[24]、[54]或3D ConvNets[23]對連續(xù)視頻幀序列進(jìn)行操作膏孟。雖然這些方法旨在處理較長的視頻時(shí)長眯分,但由于計(jì)算成本和GPU內(nèi)存的限制,它們通常處理64~120幀的固定長度的序列柒桑。由于時(shí)間覆蓋范圍有限弊决,這些方法要從整個(gè)視頻中學(xué)習(xí)仍然是非平凡的。我們的方法不同于這些端到端的深度ConvNets魁淳,它新穎地采用了稀疏的時(shí)間采樣策略飘诗,可以不受序列長度的限制,利用整個(gè)視頻進(jìn)行高效學(xué)習(xí)界逛。因此昆稿,我們的時(shí)間段網(wǎng)絡(luò)是一個(gè)視頻級和端到端的框架,用于對整個(gè)視頻進(jìn)行時(shí)間結(jié)構(gòu)建模息拜。
3 TEMPORAL SEGMENT NETWORKS
在本節(jié)中溉潭,我們將對我們的時(shí)間段網(wǎng)絡(luò)框架進(jìn)行詳細(xì)描述。具體來說少欺,我們首先討論了基于段的采樣的動(dòng)機(jī)喳瓣,然后,我們介紹了時(shí)間段網(wǎng)絡(luò)框架的架構(gòu)狈茉。在這之后夫椭,我們介紹了時(shí)間段網(wǎng)絡(luò)的幾個(gè)聚合函數(shù),并對這些函數(shù)進(jìn)行了分析氯庆。最后蹭秋,我們研究了時(shí)間段網(wǎng)絡(luò)框架實(shí)例化的幾個(gè)實(shí)際問題。
3.1 基于分段抽樣的動(dòng)機(jī)
正如在第1節(jié)中所討論的那樣堤撵,長距離時(shí)空建模對于視頻中的動(dòng)作理解非常重要∪侍郑現(xiàn)有的深度架構(gòu),如雙流ConvNets[1]和3D卷積網(wǎng)絡(luò)[16]实昨,都是設(shè)計(jì)在單幀或一幀堆棧(如16幀)上運(yùn)行洞豁,時(shí)間持續(xù)時(shí)間有限。因此荒给,這些結(jié)構(gòu)缺乏將視頻的長程時(shí)間信息納入動(dòng)作模型學(xué)習(xí)的能力丈挟。
為了對長程時(shí)間結(jié)構(gòu)進(jìn)行建模,已經(jīng)提出了幾種方法志电,如堆疊更多的連續(xù)幀(如64幀[23])或以固定的速率采樣更多的幀(如1FPS[4])曙咽。雖然這種密集的局部采樣可以幫助緩解原有的短期CovNets[1]、[16]的問題挑辆,但在計(jì)算和建模兩方面仍然存在不足例朱。從計(jì)算的角度來看孝情,它將大大增加ConvNet訓(xùn)練的成本,因?yàn)檫@種密集采樣通常需要大量的幀來捕捉長程結(jié)構(gòu)洒嗤。例如箫荡,它在[23]的工作中完全采樣64幀,[4]的方法采樣120幀渔隶。從建模的角度來看羔挡,它的時(shí)間覆蓋范圍仍然是局部的,受其固定采樣間隔的限制派撕,無法捕捉整個(gè)視頻中的視覺內(nèi)容婉弹。例如,采樣64幀[23]只占據(jù)了10秒視頻的一小部分(約300幀)终吼。
我們觀察到,雖然視頻中的幀是密集記錄的氯哮,但內(nèi)容變化相對緩慢际跪。這促使我們探索一種新的時(shí)間結(jié)構(gòu)建模范式,稱為基于片段的采樣喉钢。這種策略本質(zhì)上是一種稀疏的全局采樣姆打。關(guān)于稀疏性的屬性,只有少量的稀疏采樣的片段才會被用來模擬人類動(dòng)作中的時(shí)間結(jié)構(gòu)肠虽。通常情況下幔戏,一次訓(xùn)練迭代的采樣幀數(shù)固定為一個(gè)與視頻持續(xù)時(shí)間無關(guān)的預(yù)定值。這保證了計(jì)算成本將是恒定的税课,無論我們處理的時(shí)間范圍是多少闲延。在全局屬性上,我們基于片段的采樣保證了這些采樣片段將沿著時(shí)間維度均勻分布韩玩。因此垒玲,無論動(dòng)作視頻會持續(xù)多長時(shí)間,我們的采樣片段都會大致覆蓋整個(gè)視頻的視覺內(nèi)容找颓,使我們能夠在整個(gè)視頻中建立長程時(shí)間結(jié)構(gòu)的模型合愈。基于這種時(shí)空結(jié)構(gòu)建模的范式击狮,我們提出了時(shí)空段網(wǎng)絡(luò)佛析,一個(gè)視頻級的框架,如圖1所示彪蓬,將在下一小節(jié)進(jìn)行解釋寸莫。
3.2 框架和公式
我們的目的是通過使用一種新的基于片段采樣的策略,設(shè)計(jì)一個(gè)有效和高效的視頻級框架着茸,被稱為時(shí)間段網(wǎng)絡(luò)(TSN)壮锻。時(shí)間段網(wǎng)絡(luò)不是工作在單幀或短幀堆棧上,而是工作在從整個(gè)視頻中采樣的短片段序列上涮阔。為了使這些采樣的片段代表整個(gè)視頻的內(nèi)容猜绣,同時(shí)又能保持合理的計(jì)算成本,我們的基于片段的采樣首先將視頻分成等長的幾個(gè)段敬特,然后從其對應(yīng)的段中隨機(jī)采樣一個(gè)片段掰邢。在這個(gè)序列中,每個(gè)片段都會產(chǎn)生自己的動(dòng)作類的片段級預(yù)測伟阔,并設(shè)計(jì)一個(gè)共識函數(shù)將這些片段級預(yù)測匯總成視頻級得分辣之。這個(gè)視頻級得分比原來的片段級預(yù)測更可靠,信息量更大皱炉,因?yàn)樗蹲搅苏麄€(gè)視頻的長程信息怀估。在訓(xùn)練過程中,在視頻級預(yù)測上定義優(yōu)化目標(biāo)合搅,并通過迭代更新模型參數(shù)進(jìn)行優(yōu)化多搀。
形式上,給定一個(gè)視頻历筝,我們將其劃分為個(gè)持續(xù)時(shí)間相等的段酗昼,從其對應(yīng)的段中隨機(jī)抽取一個(gè)片段, 然后,時(shí)間段網(wǎng)絡(luò)對片段序列建模如下:
這里梳猪,是代表ConvNet的函數(shù)麻削,參數(shù)為,它對短片段進(jìn)行操作春弥,并在所有類上產(chǎn)生類得分呛哟。分段共識函數(shù)將多個(gè)短片段的輸出結(jié)合起來,得到它們之間的類假設(shè)共識匿沛∩ㄔ穑基于這個(gè)共識,預(yù)測函數(shù)預(yù)測整個(gè)視頻中每個(gè)動(dòng)作類的概率逃呼。在這里鳖孤,我們?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=H" alt="H" mathimg="1">選擇廣泛使用的Softmax函數(shù)者娱。在我們的時(shí)間段網(wǎng)絡(luò)框架中,共識函數(shù)的形式是非常重要的苏揣,因?yàn)樗鼞?yīng)該具備較高的建模能力黄鳍,同時(shí)仍然可微或至少有子梯度。高建模能力指的是能夠有效地將片段級的預(yù)測匯總成視頻級的分?jǐn)?shù)平匈,而可微性則讓我們的時(shí)間段網(wǎng)絡(luò)框架能夠很容易地使用反向傳播進(jìn)行優(yōu)化框沟。我們將在下一小節(jié)提供這些共識函數(shù)的細(xì)節(jié)。
結(jié)合標(biāo)準(zhǔn)的分類交叉熵?fù)p失增炭,最終關(guān)于分段共識的損失函數(shù)形式為:
其中忍燥,是動(dòng)作類的數(shù)量,是關(guān)于類的標(biāo)簽隙姿,是的第維梅垄。在我們的時(shí)間段網(wǎng)絡(luò)框架的訓(xùn)練階段,損失值相對于模型參數(shù)的梯度可以推算為
其中為時(shí)空段網(wǎng)絡(luò)中的段數(shù)孟辑。當(dāng)我們使用基于梯度的優(yōu)化方法哎甲,如隨機(jī)梯度下降(SGD)來學(xué)習(xí)模型參數(shù)時(shí),式3顯示饲嗽,參數(shù)更新是利用所有片段級預(yù)測得出的片段共識。從這個(gè)意義上講奈嘿,時(shí)空段網(wǎng)絡(luò)可以從整個(gè)視頻中學(xué)習(xí)模型參數(shù)貌虾,而不是一個(gè)短片段。此外裙犹,通過固定所有視頻的K尽狠,我們組裝了一個(gè)稀疏的時(shí)間采樣來選擇少量的片段。與之前使用密集采樣幀[4]叶圃,[23]袄膏,[24]的作品相比,它大大降低了在幀上評估ConvNets的計(jì)算成本掺冠。