[文獻(xiàn)翻譯]Convolutional Two-Stream Network Fusion for Video Action Recognition

? ??摘要:

????卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)在基于視頻的動(dòng)作識(shí)別方面提出了不同的解決方案用于合并外觀信息和運(yùn)動(dòng)信息。我們研究了多種在空間和時(shí)間上融合ConvNet結(jié)果的方法,以便最好地利用此時(shí)空信息。我們有以下發(fā)現(xiàn):(i)在卷積層上融合時(shí)空網(wǎng)絡(luò)信息廷痘,而不是在softmax層上進(jìn)行融合殿较,并不會(huì)損失性能丰刊,還可以節(jié)省大量參數(shù)泽裳;(ii)在空間上最后一個(gè)卷積層上融合此類網(wǎng)絡(luò)更合適芽世,而不是在早期進(jìn)行融合,并且在預(yù)測(cè)層上額外進(jìn)行融合可以提高準(zhǔn)確性诡壁;最后(iii)在時(shí)空鄰域上合并抽象卷積特征進(jìn)一步提高了性能。 基于這些研究荠割,我們提出了一種新的ConvNet架構(gòu)妹卿,用于視頻的時(shí)空融合旺矾,并在標(biāo)準(zhǔn)基準(zhǔn)上評(píng)估其性能,該架構(gòu)可實(shí)現(xiàn)SOTA夺克。我們的代碼和模型可以在以下網(wǎng)址參考:http://www.robots.ox.ac.uk/vgg/software/two stream action

? ??1.介紹

????基于視頻的動(dòng)作識(shí)別是一個(gè)非郴妫活躍的研究領(lǐng)域,而最先進(jìn)的系統(tǒng)與人類的表現(xiàn)相差還是很大铺纽。與計(jì)算機(jī)視覺的其他領(lǐng)域一樣柬帕,最近的工作集中在將卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)應(yīng)用于此任務(wù),并在許多方向取得了進(jìn)展:學(xué)習(xí)局部時(shí)空濾波器[11狡门,28陷寝,30]),并結(jié)合了光流片段[22]其馏,并為擴(kuò)展時(shí)間序列進(jìn)行了建模[6凤跑,17]。

????但是叛复,行動(dòng)識(shí)別方向尚未取得卷積網(wǎng)絡(luò)在其他領(lǐng)域取得的實(shí)質(zhì)性成果仔引,例如圖像分類[12、23褐奥、27]咖耘,人臉識(shí)別[21]和人體姿態(tài)估計(jì)[29]。實(shí)際上撬码,當(dāng)前在諸如UCF101[24]和HMDB51[13]等標(biāo)數(shù)據(jù)集上的SOTA[30,34]是通過ConvNets和Fisher編碼[20]的手工編碼特征(如在密集軌跡[33]上的HOF [14])的組合耍群。

????缺乏進(jìn)展的部分原因可能是當(dāng)前用于訓(xùn)練的數(shù)據(jù)集太小或太嘈雜(我們將在下面的相關(guān)工作中提到這一點(diǎn))义桂。與圖像分類相比,視頻中的動(dòng)作分類還面臨動(dòng)作和視點(diǎn)變化的挑戰(zhàn)蹈垢,因此慷吊,與ImageNet相比,可能需要更多的訓(xùn)練示例(每類1000個(gè))曹抬,但UCF-101每個(gè)類別只有100個(gè)示例溉瓶。另一個(gè)重要原因是,當(dāng)前的ConvNet架構(gòu)無法充分利用時(shí)間信息谤民,因此其性能通常受到空間(外觀)識(shí)別的主導(dǎo)堰酿。

????從圖1可以看出,僅從靜止圖像的外觀就可以識(shí)別出一些動(dòng)作(在這個(gè)例子中為射箭)张足。但是触创,對(duì)于其他而言,單張圖片可能會(huì)使結(jié)果模棱兩可为牍,因此需要運(yùn)動(dòng)結(jié)合哼绑。例如岩馍,考慮區(qū)別走路和跑步,打哈欠和大笑抖韩,游泳和爬行蛀恩。雙流體系結(jié)構(gòu)[22]通過分別單獨(dú)訓(xùn)練ConvNet來顯示靜態(tài)圖像和光流堆棧,從而結(jié)合了運(yùn)動(dòng)信息茂浮。確實(shí)双谆,這項(xiàng)工作表明僅光流信息就足以區(qū)分UCF101中的大多數(shù)動(dòng)作。

????但是席揽,雙流體系結(jié)構(gòu)(或任何先前的方法)不能利用兩個(gè)非常重要的線索來進(jìn)行視頻中的動(dòng)作識(shí)別:(i)用光流識(shí)別(時(shí)間提示)和外觀識(shí)別(空間提示)知道是什么物體在移動(dòng)(ii)這些線索如何隨著時(shí)間演變顽馋。

????本文的目標(biāo)是通過構(gòu)建一個(gè)結(jié)構(gòu)來解決這一問題,這個(gè)結(jié)構(gòu)能夠在特征提取過程的級(jí)別上融合空間和時(shí)間線索驹尼,并具有空間和時(shí)間結(jié)合特征趣避。特別在第3部分研究融合的三個(gè)方面:(i)在3.1考慮到空間信息,如何融合兩個(gè)網(wǎng)絡(luò)(空間和時(shí)間)新翎?(ii)在3.2兩個(gè)網(wǎng)絡(luò)在哪里融合程帕?最后在3.3(iii)如何暫時(shí)融合網(wǎng)絡(luò)?在每一項(xiàng)研究中地啰,我們都選擇最佳結(jié)果(部分4) 然后愁拭,把這些放在一起(在4.6),提出一個(gè)新的架構(gòu)(3.4)用于雙流網(wǎng)絡(luò)的時(shí)空融合以實(shí)現(xiàn)SOTA亏吝。

????我們使用MatConvNet工具箱[31]實(shí)現(xiàn)了我們的方法岭埠,并在以下網(wǎng)址公布:

????https://github.com/feichtenhofer/twostreamfusion

? ??2.相關(guān)工作

????近年來,利用ConvNets進(jìn)行視頻動(dòng)作識(shí)別的一些研究工作蔚鸥,已經(jīng)探討了如何改變使用框架化的外觀信息惜论,進(jìn)而利用時(shí)序信息的問題。自然想到是將連續(xù)的視頻幀堆疊起來止喷,并將2D卷積擴(kuò)展到時(shí)間[10]馆类,以便第一層學(xué)習(xí)時(shí)空特征。[11] 研究時(shí)間采樣的幾種方法弹谁,包括早期融合(讓第一層濾波器在幀上操作乾巧,如[10])、緩慢融合(隨著層的增加预愤,持續(xù)增加時(shí)間接收域)和晚期融合(合并兩個(gè)獨(dú)立網(wǎng)絡(luò)的全連接層沟于,這兩個(gè)網(wǎng)絡(luò)在時(shí)間上相距遙遠(yuǎn)的幀上運(yùn)行)。他們的架構(gòu)對(duì)時(shí)間建模并不特別敏感植康,他們通過一個(gè)純粹的空間網(wǎng)絡(luò)達(dá)到了類似的性能水平旷太,這表明他們的模型并沒有從時(shí)間信息中獲得太多的信息。

????最近提出的C3D方法[30]在16幀的有限時(shí)間上學(xué)習(xí)3D卷積销睁,所有濾波器核的大小為3×3×3泳秀。他們報(bào)告指出标沪,讓所有過濾器在空間和時(shí)間上運(yùn)行能取得比[11]更好的性能。然而嗜傅,他們的網(wǎng)絡(luò)被認(rèn)為比[10,11]更深,其結(jié)構(gòu)類似于[23]的深度網(wǎng)絡(luò)檩赢。[26]提出了學(xué)習(xí)時(shí)空關(guān)系的另一種方法吕嘀,其中作者將3D卷積分解成2D空間卷積和1D時(shí)間卷積。具體而言贞瞒,它們的時(shí)間卷積是隨時(shí)間和特征的2D卷積偶房,并且僅在網(wǎng)絡(luò)的更高層執(zhí)行。

????[17]比較了幾種時(shí)間特性架構(gòu)军浆,以便組合更長(zhǎng)時(shí)間信息棕洋。他們的結(jié)論是,卷積層的時(shí)間池化比慢速乒融、局部或延遲池以及時(shí)間卷積性能更好掰盘。他們還通過將卷積特征輸入具有長(zhǎng)短期記憶(LSTM)細(xì)胞的遞歸網(wǎng)絡(luò)來研究有序序列模型。然而赞季,與卷積特征的時(shí)間池相比愧捕,使用LSTMs并沒有改進(jìn)。

????與我們最密切相關(guān)的工作申钩,也是我們?cè)跀U(kuò)展的工作次绘,是[22]中提出的雙流ConvNet架構(gòu)。該方法首先利用RGB和光流將視頻分解為空間和時(shí)間部分撒遣。這些部分被輸入到單獨(dú)的deep ConvNet架構(gòu)中邮偎,來學(xué)習(xí)有關(guān)場(chǎng)景中物體外觀和運(yùn)動(dòng)的空間時(shí)間信息。每一個(gè)流都在自行進(jìn)行視頻識(shí)別义黎,再通過softmax后期融合進(jìn)行組合獲得最終的分類禾进。作者比較了幾種光流場(chǎng)框架的排列方法,認(rèn)為簡(jiǎn)單的L=10水平和垂直光流場(chǎng)疊加效果最好轩缤。他們還利用UCF101和HMDB51上的多任務(wù)學(xué)習(xí)來增加訓(xùn)練數(shù)據(jù)的數(shù)量并提高兩者的性能命迈。迄今為止,該方法是將深度學(xué)習(xí)應(yīng)用于動(dòng)作識(shí)別的最有效方法火的,尤其是在訓(xùn)練數(shù)據(jù)有限的情況下壶愤。雙流法已被重新應(yīng)用于幾種動(dòng)作識(shí)別方法中[4,6馏鹤,7征椒,17,25湃累,32勃救,36]碍讨。

????與我們的工作相關(guān)的還有雙線性方法[15],它通過在圖像的每個(gè)位置形成一個(gè)外積來關(guān)聯(lián)兩個(gè)卷積層的輸出蒙秒。由此在所有位置產(chǎn)生的雙線性特性匯集到一個(gè)無序描述符中勃黍。這與手工編制的SIFT功能的二階池[2]密切相關(guān)。

????在數(shù)據(jù)集方面晕讲,[11]介紹了Sports-1M數(shù)據(jù)集覆获,該數(shù)據(jù)集包含大量視頻(≈1M)和類(487)。 但是瓢省,視頻是自動(dòng)收集的弄息,因此存在標(biāo)簽錯(cuò)誤。另一個(gè)大規(guī)模數(shù)據(jù)集是THUMOS數(shù)據(jù)集[8]勤婚,具有超過45M幀九妈。不過瘾婿,其中只有一小部分實(shí)際上包含標(biāo)記的動(dòng)作洗搂,因此對(duì)于監(jiān)督特征學(xué)習(xí)很有用讯沈。由于標(biāo)簽噪聲,學(xué)習(xí)時(shí)空卷積仍然很大程度上依賴于較小但時(shí)間上一致的數(shù)據(jù)集国章,例如UCF101 [24]或HMDB51 [13]具钥,其中包含動(dòng)作的簡(jiǎn)短視頻。 這有助于學(xué)習(xí)液兽,但存在嚴(yán)重過擬合的風(fēng)險(xiǎn)骂删。

? ??3.方法

????我們以[22]的雙流建筑為基礎(chǔ)。這種體系結(jié)構(gòu)有兩個(gè)主要缺點(diǎn):(I)它不能學(xué)習(xí)空間和時(shí)間特征之間的像素級(jí)對(duì)應(yīng)關(guān)系(因?yàn)槿诤蟽H基于分類分?jǐn)?shù))四啰,以及(ii)它在時(shí)間尺度上是有限的宁玫,因?yàn)榭臻g卷積網(wǎng)絡(luò)僅在單個(gè)幀上操作,而時(shí)間網(wǎng)絡(luò)僅在L個(gè)時(shí)間上相鄰的光流幀的堆棧上操作(例如柑晒,L = 10)欧瘪。[22] 在一定程度上解決了后一個(gè)問題,即通過視頻中規(guī)則間隔的樣本進(jìn)行時(shí)間采樣匙赞,但這不能對(duì)動(dòng)作的時(shí)間變化進(jìn)行建模佛掖。

????3.1空間融合

????在本節(jié)中,我們將考慮融合兩個(gè)流網(wǎng)絡(luò)的不同體系結(jié)構(gòu)涌庭。當(dāng)然芥被,在空間上融合任意兩個(gè)網(wǎng)絡(luò)不固定于某個(gè)特定的應(yīng)用時(shí)。

????需要明確的是坐榆,我們?cè)谶@里的目的是融合這兩個(gè)網(wǎng)絡(luò)(在一個(gè)特定的卷積層) 拴魄,這樣在同一像素位置的響應(yīng)是對(duì)應(yīng)的。 為了解決比如區(qū)分刷牙和刷頭發(fā)行為的問題。如果一只手在某個(gè)空間位置周期性地移動(dòng)匹中,那么時(shí)間網(wǎng)絡(luò)可以識(shí)別這個(gè)運(yùn)動(dòng)夏漱,而空間網(wǎng)絡(luò)可以識(shí)別這個(gè)位置(牙齒或毛發(fā)) ,然后它們的組合就可以區(qū)分這個(gè)動(dòng)作顶捷。

????當(dāng)兩個(gè)網(wǎng)絡(luò)在要融合的層上具有相同的分辨率時(shí)挂绰,這種空間融合使很容易實(shí)現(xiàn)的,只需將一個(gè)網(wǎng)絡(luò)層疊加到另一個(gè)網(wǎng)絡(luò)層上(我們?cè)谙旅孀隽司_的說明)焊切。 然而扮授,還有一個(gè)問題,即一個(gè)網(wǎng)絡(luò)中的哪個(gè)通道對(duì)應(yīng)于另一個(gè)網(wǎng)絡(luò)的通道专肪。

????假設(shè)空間網(wǎng)絡(luò)中的不同通道負(fù)責(zé)不同的面部區(qū)域(嘴、頭發(fā)等) 堪侯,時(shí)間網(wǎng)絡(luò)中的一個(gè)通道負(fù)責(zé)這種類型的周期性運(yùn)動(dòng)場(chǎng)嚎尤。 然后,在通道堆疊之后伍宦,后續(xù)層中的濾波器必須學(xué)習(xí)這些適當(dāng)通道之間的對(duì)應(yīng)關(guān)系(例如卷積濾波器中的權(quán)重) 以便最好地區(qū)分這些動(dòng)作芽死。

????為了更具體地說明這一點(diǎn),我們現(xiàn)在討論兩個(gè)網(wǎng)絡(luò)之間融合層的一些方法次洼,每一種方法都以對(duì)應(yīng)的方式描述結(jié)果关贵。

? ??討論:這些操作說明了可能的融合方法。也可以考慮其他方法卖毁,例如:獲取通道的像素級(jí)乘積(而不是其總和或最大值)揖曾,或沒有求和池化的(分解后的)外部乘積[18]。

????如圖2(左)所示亥啦,加入融合層可能會(huì)對(duì)雙流網(wǎng)絡(luò)中的參數(shù)和層數(shù)產(chǎn)生重大影響炭剪,尤其是保留融合的網(wǎng)絡(luò)不變而另一網(wǎng)絡(luò)被截?cái)鄷r(shí)。表1顯示了對(duì)于兩個(gè)包含五個(gè)卷積層和三個(gè)全連接層的VGG-M-2048模型(在[22]中使用)翔脱,不同的融合方法如何影響層數(shù)和參數(shù)奴拦。 ?ReLU5(在最后一個(gè)卷積層之后)上的最大值,求和届吁,卷積融合除去了體系結(jié)構(gòu)中幾乎一半的參數(shù)错妖,因?yàn)槿诤虾髢H使用了一個(gè)全連接層的流。與求和疚沐,最大值融合(97.31M)相比暂氯,卷積融合具有更多的參數(shù)(97.58M),這是由于用于通道融合和降維濾波器所致濒旦。 級(jí)聯(lián)融合涉及更多參數(shù)株旷,融合后不涉及降維,因此使第一個(gè)全連接層的參數(shù)加倍。相比之下晾剖,softmax層的求和融合需要兩個(gè)塔的所有層(16)和參數(shù)(181.4M)锉矢。

????在實(shí)驗(yàn)部分(第4.2節(jié))中,我們根據(jù)分類精度評(píng)估了每種融合方法的性能齿尽。

????3.2在哪里融合網(wǎng)絡(luò)

????如上所述沽损,可以將融合應(yīng)用于兩個(gè)網(wǎng)絡(luò)中的任何一點(diǎn),唯一的限制是兩個(gè)輸入映射在時(shí)間t具有相同的空間尺寸循头。這可以通過使用“上卷積”層來實(shí)現(xiàn)[38]绵估,或者如果尺寸相似,則可以通過將較小的圖填充零來實(shí)現(xiàn)上采樣卡骂。

????表2比較了VGG-M模型情況下兩個(gè)網(wǎng)絡(luò)中不同層融合的參數(shù)數(shù)量国裳。在不同的轉(zhuǎn)換層之后進(jìn)行融合對(duì)參數(shù)數(shù)量的影響大致相同,這些影響大多數(shù)都在全連接層中全跨。如圖2所示(右)缝左,兩個(gè)網(wǎng)絡(luò)也可以在兩層融合。這樣就達(dá)到了從每個(gè)網(wǎng)絡(luò)(在conv5處)進(jìn)行逐像素融合的原始目的浓若,且不會(huì)導(dǎo)致參數(shù)數(shù)量減少(例如僅在conv5處融合渺杉,則減少了一半)。 在實(shí)驗(yàn)部分(第4.3節(jié))中挪钓,我們?cè)u(píng)估并比較了不同級(jí)別的融合以及同時(shí)進(jìn)行多層融合的性能是越。

????3.3時(shí)間融合

現(xiàn)在,我們考慮結(jié)合時(shí)間t上的特征圖xt生成輸出圖yt的技術(shù)碌上。 處理時(shí)間輸入的一種方法是通過平均一段時(shí)間內(nèi)的網(wǎng)絡(luò)預(yù)測(cè)(如[22]中所使用)倚评。 在這種情況下,架構(gòu)僅以2D(xy)合并绍赛; 參見圖3(a)蔓纠。


? ??討論:[17]的作者評(píng)估了其他幾種在時(shí)間上組合雙流卷積網(wǎng)絡(luò)的方法。他們發(fā)現(xiàn)在卷積層上使用時(shí)間最大池化表現(xiàn)最佳吗蚌。 我們將此處的最大池化歸納為3D池化腿倚,從而使特征在隨時(shí)間微小變化時(shí)保持一定。 此外蚯妇,3D轉(zhuǎn)換允許學(xué)習(xí)時(shí)空濾波器[28敷燎,30]。例如箩言,過濾器可以學(xué)習(xí)對(duì)中央時(shí)間樣本進(jìn)行中心加權(quán)硬贯,或者在時(shí)間或空間上進(jìn)行區(qū)分。

? ??3.4提出的架構(gòu)

????現(xiàn)在陨收,我們將前幾節(jié)的內(nèi)容融合在一起饭豹,以提出新的時(shí)空融合架構(gòu)鸵赖,并根據(jù)我們?cè)诘?節(jié)中的評(píng)估來驅(qū)動(dòng)我們的選擇≈羲ィ空間融合方法它褪,層融合和時(shí)間融合的選擇分別基于第4.2節(jié)、4.3節(jié)和4.5節(jié)中的實(shí)驗(yàn)翘悉。

????我們提出的架構(gòu)(如圖4所示)可以看作是圖2(左)的架構(gòu)隨時(shí)間的擴(kuò)展茫打。我們將最后一個(gè)卷積層(在ReLU之后)的兩個(gè)網(wǎng)絡(luò)融合到空間流中,通過使用3D Conv融合和3D池化將其轉(zhuǎn)換為時(shí)空流(請(qǐng)參見圖4妖混,左)老赤。 此外,我們不會(huì)截?cái)鄷r(shí)間流制市,而且還會(huì)在時(shí)間網(wǎng)絡(luò)中執(zhí)行3D池化(請(qǐng)參見圖4右)抬旺。 兩條流的損失都用于訓(xùn)練,在測(cè)試過程中祥楣,我們將兩條流的預(yù)測(cè)取平均嚷狞。 在我們的評(píng)估(第4.6節(jié))中,我們表明保持兩個(gè)流的效果比融合后截?cái)鄷r(shí)間流的效果略好荣堰。

????在討論了如何隨著時(shí)間融合網(wǎng)絡(luò)之后,我們?cè)谶@里討論如何對(duì)時(shí)間序列進(jìn)行采樣的問題竭翠。時(shí)間融合層接收相隔τ幀的T個(gè)時(shí)間塊振坚;即,兩個(gè)流塔在時(shí)間t斋扰,t +τ...?t + Tτ處應(yīng)用于輸入視頻如圖4所示渡八,這使我們能夠在時(shí)態(tài)網(wǎng)絡(luò)的輸入端捕獲短尺度(t±L/2)時(shí)域特征。繪制箭頭传货,并在網(wǎng)絡(luò)的較高層(較長(zhǎng)的時(shí)間尺度(t + Tτ))中將它們置于上下文中(例如抽箭屎鳍,彎弓和射箭)。

????由于光流具有L=10幀的時(shí)間接收?qǐng)鑫试#虼嗽摷軜?gòu)在T×L的總時(shí)間接收?qǐng)錾瞎ぷ鞔凇H诤虾螅覀冏?D池在相隔τ幀的T空間特征圖上進(jìn)行操作粮宛。由于特征可能會(huì)隨時(shí)間改變其空間位置窥淆,因此將空間和時(shí)間池與3D池結(jié)合起來是有意義的。例如巍杈,conv5處的VGG-M網(wǎng)絡(luò)的輸出輸入步幅為16像素忧饭,并從139×139像素的接收?qǐng)鲋胁东@高階特征。因此筷畦,時(shí)間間隔為τ幀的conv5映射的時(shí)空合并可以捕獲同一對(duì)象的特征词裤,即使它們稍微移動(dòng)也是如此。

????3.5實(shí)施細(xì)節(jié)

? ??流架構(gòu):我們采用了兩個(gè)預(yù)訓(xùn)練的ImageNet模型。 首先吼砂,為了與原始的雙流法[22]進(jìn)行比較逆航,使用具有5個(gè)卷積層和3個(gè)全連接層的VGG-M-2048模型[3]。第二帅刊,非常深的VGG-16模型[23]纸泡,具有13個(gè)卷積層和3個(gè)全連接層。我們首先按照[22]中的描述分別訓(xùn)練兩個(gè)流赖瞒,但是有一些細(xì)微的區(qū)別:我們不使用RGB顏色抖動(dòng)女揭;在驗(yàn)證誤差飽和后,我們降低學(xué)習(xí)速度栏饮,而不是按照固定的時(shí)間表降低學(xué)習(xí)速度吧兔。 為了訓(xùn)練空間網(wǎng)絡(luò),我們對(duì)前兩個(gè)全連接層使用較低的隨機(jī)失活0.85袍嬉。 甚至更低的隨機(jī)失活(最高0.5)也不會(huì)顯著降低性能境蔼。

????對(duì)于時(shí)間網(wǎng)絡(luò),我們使用L = 10幀[22]的光流[1伺通,37]堆疊箍土。 我們還使用在ImageNet上預(yù)先訓(xùn)練的模型來初始化時(shí)間網(wǎng)絡(luò),因?yàn)榕c從頭開始訓(xùn)練的模型相比罐监,該方法通澄庠澹可以提高訓(xùn)練速度,而不會(huì)降低性能弓柱。網(wǎng)絡(luò)輸入預(yù)先進(jìn)行了縮放沟堡,因此幀的最小邊等于256。我們還在訓(xùn)練之前預(yù)先計(jì)算了光流矢空,并將流場(chǎng)存儲(chǔ)為JPEG圖像(位移矢量的剪切大于20個(gè)像素)航罗。我們不使用批處理規(guī)范化[9]。

? ??卷積融合:對(duì)于融合屁药,這些網(wǎng)絡(luò)以96的批量大小和從0.001的學(xué)習(xí)率進(jìn)行微調(diào)粥血,一旦驗(yàn)證精度達(dá)到飽和,學(xué)習(xí)率就會(huì)降低10倍者祖。我們僅傳播回注入的融合層立莉,因?yàn)橥耆聪騻鞑ゲ]有改善。在我們的實(shí)驗(yàn)中七问,我們僅在具有相同輸出分辨率的層之間融合蜓耻;除了將ReLU5_3上的VGG-16模型與ReLU5上的VGG-M模型融合在一起外,在這里我們用行和列零填充VGG-M的較小輸出械巡。對(duì)于卷積融合刹淌,我們發(fā)現(xiàn)注入融合層的初始化(如(4)中所示)非常重要饶氏。 我們比較了幾種方法,發(fā)現(xiàn)通過身份矩陣(將兩個(gè)網(wǎng)絡(luò)相加)進(jìn)行初始化與執(zhí)行隨機(jī)初始化一樣好有勾。

? ??時(shí)空架構(gòu)疹启。對(duì)于3.4節(jié)中描述的最終結(jié)構(gòu)中,3D卷積融合核f的尺寸為3×3×3×1024×512蔼卡,T = 5喊崖,即時(shí)空濾波器的尺寸3×3×3,D=1024將來自空間和時(shí)間流的ReLU5級(jí)聯(lián)得到1024個(gè)結(jié)果雇逞,并且D’= 512與后面的FC6層的輸入通道數(shù)匹配荤懂。

????3D卷積過濾器還通過堆疊兩個(gè)單位矩陣初始化,用于將1024維特征映射到512維塘砸。由于最后一個(gè)卷積層的時(shí)間激活大約比其外觀對(duì)應(yīng)層的激活低3倍节仿,因此我們初始化了f高3倍。f的時(shí)空部分是使用大小為3×3×3且σ= 1的高斯初始化的掉蔬。此外廊宪,我們?cè)谟?xùn)練期間不會(huì)在預(yù)測(cè)層上融合,因?yàn)檫@會(huì)使損失值偏向時(shí)間結(jié)構(gòu)女轿,因?yàn)闀r(shí)空架構(gòu)需要更長(zhǎng)的時(shí)間才能適應(yīng)融合的功能箭启。

????訓(xùn)練3DConvNet 甚至比雙流卷積融合更容易出現(xiàn)過擬合,需要如下額外增強(qiáng)蛉迹。在微調(diào)過程里每次訓(xùn)練迭代中册烈,我們從96個(gè)視頻中的每個(gè)隨機(jī)抽取T=5幀作為起始幀,然后隨機(jī)抽取時(shí)間長(zhǎng)度∈[1,10](所以總共在15-50幀之間)婿禽。 不是裁剪一個(gè)固定大小的224*224的輸入,我們隨機(jī)抖動(dòng)它的寬度和高度的25% 大猛,并縮放到224*224扭倾。 重新縮放是隨機(jī)選擇的,并且可能會(huì)更改縱橫比挽绩。僅在距圖像邊框最大距離(相對(duì)于寬度和高度)的25%上裁剪畫面膛壹。注意,裁剪的位置(以及大小唉堪、尺寸模聋、水平翻轉(zhuǎn))是在第一幀(多幀堆疊)中隨機(jī)選擇的,然后將相同的空間裁剪應(yīng)用于其中中的所有幀唠亚。

? ??測(cè)試链方。除非另有說明,與[22]中的25幀相比灶搜,僅對(duì)T = 5幀(及其水平翻轉(zhuǎn))進(jìn)行采樣祟蚀,以促進(jìn)快速的經(jīng)驗(yàn)評(píng)估工窍。此外,我們使用了全卷積測(cè)試前酿,其中使用了整個(gè)幀(而不是空間部分)患雏。

? ??4.評(píng)估

? ??4.1.數(shù)據(jù)集和實(shí)驗(yàn)方案

????我們?cè)趦蓚€(gè)主流的動(dòng)作識(shí)別數(shù)據(jù)集上評(píng)估了我們的方法。首先罢维,UCF101 [24]淹仑,由101個(gè)類別的13320個(gè)動(dòng)作視頻組成。 第二個(gè)數(shù)據(jù)集是HMDB51 [13]肺孵,其中包含6766個(gè)視頻匀借,這些視頻已針對(duì)51個(gè)動(dòng)作進(jìn)行了注釋。 對(duì)于這兩個(gè)數(shù)據(jù)集悬槽,我們都使用提供的評(píng)估方法怀吻,并在訓(xùn)練和測(cè)試數(shù)據(jù)的三個(gè)劃分中報(bào)告平均平均準(zhǔn)確性。

? ??4.2.如何在空間上融合兩個(gè)流初婆?

????對(duì)于這些實(shí)驗(yàn)蓬坡,我們使用與[22]中相同的網(wǎng)絡(luò)體系結(jié)構(gòu)。 即兩個(gè)VGG-M-2048網(wǎng)[3]磅叛。經(jīng)過整改后屑咳,融合層放在最后的卷積層,即它的輸入是來自雙流的ReLU5的輸出弊琴。選擇它的原因是兆龙,在初步實(shí)驗(yàn)中,它提供了比其他替代方法例如conv5的未校正輸出更好的結(jié)果敲董。在這點(diǎn)上特征已經(jīng)提供了豐富的信息紫皇,同時(shí)也提供了粗略的位置信息。在融合層之后腋寨,使用單流來處理聪铺。

????我們?cè)诒?中比較了不同的融合策略,同時(shí)報(bào)告了UCF101第一部分的平均準(zhǔn)確性萄窜。我們首先觀察到铃剔,我們softmax平均(85.94%)的表現(xiàn)比[22]中報(bào)告的要好。其次查刻,我們看到最大值和級(jí)聯(lián)如何表現(xiàn)低于求和和卷積融合键兜。卷積融合性能最好,略優(yōu)于雙線性融合和求和融合穗泵。對(duì)于卷積融合結(jié)果普气,卷積核f由兩個(gè)特征圖求和的單位矩陣初始化。與單位矩陣(85.96%)相比佃延,通過隨機(jī)高斯噪聲進(jìn)行的初始化最終具有類似的性能(85.59%)棋电,然而茎截,所需的訓(xùn)練時(shí)間更長(zhǎng)。有意思的是赶盔,因?yàn)檫@個(gè)以及求和融合的優(yōu)秀效果企锌,表明簡(jiǎn)單地相加特征圖已經(jīng)是一個(gè)很好的融合技術(shù),學(xué)習(xí)一個(gè)隨機(jī)的初始化組合不會(huì)導(dǎo)致明顯的不同/更好的結(jié)果于未。

????對(duì)于表1所示的所有融合方法撕攒,與ReLU5相比,F(xiàn)C層的融合性能不佳烘浦,方法的順序與表1相同抖坪,除了在FC層不可能進(jìn)行的雙線性融合。在所有FC層中闷叉,F(xiàn)C8的性能優(yōu)于FC7和FC6擦俐,卷積融合準(zhǔn)確率為85.9%,求和融合準(zhǔn)確率為85.1%握侧。我們認(rèn)為ReLU5表現(xiàn)更好的原因是在這一層外觀和運(yùn)動(dòng)之間的空間對(duì)應(yīng)關(guān)系被融合而到FC層已經(jīng)被破壞了[16]蚯瞧。

? ??4.3.在哪里將雙流在空間上融合?

????表2比較了在不同層的融合品擎。使用卷積融合且用前面層激活的求和的單位矩陣作初始化埋合。有趣的是,在ReLU5上融合并截?cái)嘁粋€(gè)網(wǎng)絡(luò)與在預(yù)測(cè)層(FC8)上進(jìn)行融合相比萄传,在UCF101的第一部分中實(shí)現(xiàn)的分類精度大致相同(85.96%對(duì)86.04%)甚颂,但參數(shù)數(shù)目要低得多(97.57M和181.68M)。圖2顯示了如何實(shí)現(xiàn)這兩個(gè)示例秀菱。

? ??4.4由深層模型到超深層模型

????出于計(jì)算復(fù)雜性的原因振诬,所有先前的實(shí)驗(yàn)均使用兩個(gè)VGG-M-2048網(wǎng)絡(luò)執(zhí)行(如[22]中所述)。但是衍菱,使用更深層的模型贷揽,例如[23]中的非常深層的網(wǎng)絡(luò),可以在圖像識(shí)別任務(wù)中帶來更高的性能[5梦碗,15,27]蓖救。 接下來洪规,我們?cè)赨CF101和HMDB51上訓(xùn)練了16層網(wǎng)絡(luò),VGG-16 [23]循捺。除用UCF101時(shí)間流模型初始化HMDB51時(shí)間流網(wǎng)絡(luò)外斩例,所有模型都在ImageNet上進(jìn)行了預(yù)訓(xùn)練,并分別針對(duì)目標(biāo)數(shù)據(jù)集進(jìn)行了訓(xùn)練从橘。 對(duì)于VGG-16念赶,我們使用TV-L1光流[37]础钠,并應(yīng)用與3D卷積訓(xùn)練(見第3.5節(jié)中所述)類似的增強(qiáng)技術(shù),該技術(shù)從圖像角及其中心采樣[35]叉谜。 學(xué)習(xí)率將設(shè)置為50-4旗吁,并當(dāng)驗(yàn)證目標(biāo)達(dá)到飽和后降低10倍。

????深層和超深層模型的比較見表3停局。在這兩個(gè)數(shù)據(jù)集上很钓,人們觀察到更深的空間模型顯著提高了性能(8.11%和10.29%),而更深的時(shí)間網(wǎng)絡(luò)產(chǎn)生更低的精度增益(3.91%和3.73%)董栽。

? ??4.5如何在時(shí)間上融合這兩股流码倦?

????不同的時(shí)間融合策略如表4所示。在表4的第一行锭碳,我們觀察到卷積融合比平均輸出表現(xiàn)更好(參見表3)袁稽。接下來,我們發(fā)現(xiàn)在融合層之后應(yīng)用3D池化而不是使用2D池化提高了兩個(gè)數(shù)據(jù)集的性能擒抛,在HMDB51上具有更大的增益推汽。最后,表4的最后一行列出了應(yīng)用3D濾波器進(jìn)行融合的結(jié)果闻葵,這進(jìn)一步提高了識(shí)別率民泵。

? ??4.6與SOTA相比較

????最后,我們?cè)诒?中將UCF101和HMDB51的所有三種拆分與最新技術(shù)進(jìn)行比較槽畔。我們使用如上所示的相同方法栈妆,即通過3D卷積和3D池化進(jìn)行融合(如圖4所示)。為了測(cè)試厢钧,我們通過對(duì)輸入視頻及其水平翻轉(zhuǎn)進(jìn)行密集采樣鳞尔,平均每個(gè)網(wǎng)絡(luò)產(chǎn)生的20個(gè)時(shí)間預(yù)測(cè)。一個(gè)有趣的比較是與最初的雙流法[22]相比早直,我們通過使用VGG-16空間(S)網(wǎng)絡(luò)和VGG-M時(shí)間(T)模型寥假,在UCF101和HMDB51上提高了3%,以及當(dāng)對(duì)雙流都使用VGG-16時(shí)霞扬,提高了4.5% (UCF)和6% (HMDB)糕韧。另一個(gè)有趣的對(duì)比是[17]中的雙流網(wǎng)絡(luò),它在GoogLeNet[27]的最后一個(gè)降維層之后采用了時(shí)間卷積池化喻圃。他們報(bào)告說萤彩,當(dāng)使用120幀以上時(shí),在UCF101上的準(zhǔn)確率為88.2%斧拍,使用LSTM進(jìn)行融合時(shí)雀扶,準(zhǔn)確率為88.6%。在這里肆汹,我們92.5%的結(jié)果強(qiáng)調(diào)了我們提出的方法的重要性愚墓。還要注意予权,在時(shí)間融合后使用單個(gè)流準(zhǔn)確率91.8%,相比之下浪册,保持雙流準(zhǔn)確率92.5%扫腺,但是單流參數(shù)少得多,架構(gòu)更簡(jiǎn)單议经。

????作為最后一項(xiàng)實(shí)驗(yàn)斧账,我們探索人工設(shè)計(jì)的iDT[33]與我們的網(wǎng)絡(luò)結(jié)構(gòu)的融合效果。我們簡(jiǎn)單地將FV編碼的iDT描述符(即HOG煞肾、HOF咧织、MBH)的SVM分?jǐn)?shù)與我們的ConvNet表示的預(yù)測(cè)(在softmax之前獲得)進(jìn)行平均省艳。結(jié)果性能如表6所示掏秩。我們?cè)赨CF101和HMDB51上分別實(shí)現(xiàn)了93.5%和69.2%的準(zhǔn)確率凌埂。這個(gè)SOTA結(jié)果說明人工設(shè)計(jì)的特征表示和我們端到端學(xué)習(xí)的卷積網(wǎng)絡(luò)方法之間仍然有互補(bǔ)作用壁晒。

? ??5.結(jié)論

????我們?yōu)殡p流網(wǎng)絡(luò)提出了一個(gè)新的時(shí)空結(jié)構(gòu)肩袍,在網(wǎng)絡(luò)之間有一個(gè)新的卷積融合層疚鲤,和一個(gè)新的時(shí)間融合層(結(jié)合3D卷積和池化)誊涯。與以前的方法相比迹蛤,新的體系結(jié)構(gòu)沒有顯著增加參數(shù)的數(shù)量奇颠,但是在兩個(gè)基準(zhǔn)數(shù)據(jù)集上SOTA败去。我們的結(jié)果表明,在空間和時(shí)間上學(xué)習(xí)高度抽象的卷積特征之間的對(duì)應(yīng)關(guān)系非常重要烈拒。一個(gè)有趣的發(fā)現(xiàn)是圆裕,通過將卷積網(wǎng)絡(luò)預(yù)測(cè)與FV編碼IDT特征相結(jié)合,仍然有改進(jìn)荆几。我們認(rèn)為吓妆,如果有更多的訓(xùn)練數(shù)據(jù),這種差異可能會(huì)隨著時(shí)間的推移而消失吨铸,但除此之外行拢,它指明了未來研究應(yīng)該關(guān)注的領(lǐng)域。

????最后诞吱,我們回到當(dāng)前數(shù)據(jù)集太小或太嘈雜的問題上舟奠。因此,本文中的一些結(jié)論應(yīng)該謹(jǐn)慎對(duì)待房维。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末沼瘫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子握巢,更是在濱河造成了極大的恐慌,老刑警劉巖松却,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暴浦,死亡現(xiàn)場(chǎng)離奇詭異溅话,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)歌焦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門飞几,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人独撇,你說我怎么就攤上這事屑墨。” “怎么了纷铣?”我有些...
    開封第一講書人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵卵史,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我搜立,道長(zhǎng)以躯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任啄踊,我火速辦了婚禮忧设,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘颠通。我一直安慰自己址晕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開白布顿锰。 她就那樣靜靜地躺著谨垃,像睡著了一般。 火紅的嫁衣襯著肌膚如雪撵儿。 梳的紋絲不亂的頭發(fā)上乘客,一...
    開封第一講書人閱讀 52,696評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音淀歇,去河邊找鬼易核。 笑死,一個(gè)胖子當(dāng)著我的面吹牛浪默,可吹牛的內(nèi)容都是我干的牡直。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼纳决,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼碰逸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起阔加,我...
    開封第一講書人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤饵史,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體胳喷,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡湃番,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吭露。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吠撮。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖讲竿,靈堂內(nèi)的尸體忽然破棺而出泥兰,到底是詐尸還是另有隱情,我是刑警寧澤题禀,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布鞋诗,位于F島的核電站,受9級(jí)特大地震影響投剥,放射性物質(zhì)發(fā)生泄漏师脂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一江锨、第九天 我趴在偏房一處隱蔽的房頂上張望吃警。 院中可真熱鬧,春花似錦啄育、人聲如沸酌心。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽安券。三九已至,卻和暖如春氓英,著一層夾襖步出監(jiān)牢的瞬間侯勉,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工铝阐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留址貌,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓徘键,卻偏偏與公主長(zhǎng)得像练对,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子吹害,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容