摘要
針對(duì)時(shí)空特征的學(xué)習(xí),我們提出了一個(gè)簡(jiǎn)單有效的方法,在大規(guī)模有監(jiān)督視頻數(shù)據(jù)集上使用深度3維卷積網(wǎng)絡(luò)(3D ConvNets)科侈。我們有3個(gè)發(fā)現(xiàn):
- 3D ConvNets比2D ConvNets更適用于時(shí)空特征的學(xué)習(xí)全释;
- 對(duì)于3D ConvNet而言,在所有層使用3×3×3的小卷積核效果最好离钝;
- 我們通過(guò)簡(jiǎn)單的線性分類器學(xué)到的特征名為C3D(Convolutional 3D),在4個(gè)不同的基準(zhǔn)上優(yōu)于現(xiàn)有的方法褪储,并在其他2個(gè)基準(zhǔn)上與目前最好的方法相當(dāng)卵渴。
此外,特征是緊湊的:在UCF101數(shù)據(jù)集上得到52.8%的準(zhǔn)確率只用了10維鲤竹,并且由于ConvNets的推斷快浪读,計(jì)算效率非常高。最后辛藻,它們?cè)诟拍钌戏浅:?jiǎn)單瑟啃,易于訓(xùn)練和使用。
1. 引言
互聯(lián)網(wǎng)上的多媒體正在迅速增長(zhǎng)揩尸,每分鐘都有越來(lái)越多的視頻被分享蛹屿。為了對(duì)抗信息爆炸,必須了解和分析這些視頻岩榆,如搜索错负、推薦坟瓢、排名等。計(jì)算機(jī)視覺領(lǐng)域幾十年來(lái)一直致力于視頻分析犹撒,并解決了諸如動(dòng)作識(shí)別折联、異常事件檢測(cè)、活動(dòng)理解等不同問題识颊。通過(guò)使用不同的具體解決方案诚镰,在這些個(gè)體問題上已經(jīng)取得了相當(dāng)大的進(jìn)展。然而祥款,需要一種通用視頻描述符清笨,這有助于以同樣的方式解決大規(guī)模視頻任務(wù)。
一個(gè)有效的視頻描述符有四個(gè)屬性:
- 通用性刃跛,可以表示不同類型的視頻抠艾,同時(shí)具有可區(qū)分性。例如桨昙,網(wǎng)絡(luò)視頻可以是自然風(fēng)光检号、運(yùn)動(dòng)、電視節(jié)目蛙酪、電影齐苛、寵物、食物等桂塞;
- 描述符必須是緊湊的:由于我們需要處理數(shù)百萬(wàn)的視頻凹蜂,一個(gè)緊湊的描述符有助于處理,存儲(chǔ)和檢索任務(wù)藐俺,更具可擴(kuò)展性炊甲;
- 計(jì)算高效泥彤,因?yàn)樵诂F(xiàn)實(shí)世界中欲芹,每一分鐘都需要處理成千上萬(wàn)的視頻;
- 實(shí)現(xiàn)簡(jiǎn)單吟吝,不使用復(fù)雜的特征編碼方法和分類器菱父,一個(gè)好的描述符即使是一個(gè)簡(jiǎn)單的模型(如線性分類器)也能很好地工作。
受到深度學(xué)習(xí)在圖像領(lǐng)域突破的啟發(fā)剑逃,在過(guò)去幾年里浙宜,在特征學(xué)習(xí)方面取得了快速的進(jìn)步,各種預(yù)訓(xùn)練卷積網(wǎng)絡(luò)(ConvNets)模型可用于提取圖像特征蛹磺。這些特征是網(wǎng)絡(luò)最后幾個(gè)全連接層的激活值粟瞬,在遷移學(xué)習(xí)任務(wù)中表現(xiàn)良好。但是由于缺少運(yùn)動(dòng)建模(在4,5,6節(jié)的實(shí)驗(yàn)中)萤捆,這些基于圖像的深度特征并不直接適用于視頻裙品。本文我們使用深度3D ConvNet來(lái)學(xué)習(xí)時(shí)空特征俗批。經(jīng)驗(yàn)表明,這些學(xué)習(xí)的特征與簡(jiǎn)單的線性分類器在各種視頻分析任務(wù)中效果良好市怎。雖然3D ConvNet以前就有人提出岁忘,但據(jù)我們所知,本工作在大規(guī)模有監(jiān)督訓(xùn)練集和現(xiàn)代深度學(xué)習(xí)框架的背景下利用3D ConvNet区匠,在不同的視頻分析任務(wù)中的得到最好的性能干像。3D ConvNet提取的特征封裝了視頻中與目標(biāo)、場(chǎng)景驰弄、動(dòng)作有關(guān)的信息麻汰,使得這些特征對(duì)不同的任務(wù)都有用,而不需要對(duì)每個(gè)任務(wù)都微調(diào)模型揩懒。C3D是好的描述符:通用什乙、緊湊、簡(jiǎn)單已球、高效臣镣。總而言之智亮,我們這篇論文的貢獻(xiàn)是:
- 我們的實(shí)驗(yàn)表明3D卷積深度網(wǎng)絡(luò)是好的學(xué)習(xí)器忆某,可以對(duì)外觀和運(yùn)動(dòng)同時(shí)建模。
- 我們的經(jīng)驗(yàn)發(fā)現(xiàn)阔蛉,在有限的探究框架中弃舒,所有層使用3×3×3卷積核效果最好。
- 在4個(gè)任務(wù)和4個(gè)基準(zhǔn)上状原,提出的特征通過(guò)簡(jiǎn)單的線性模型可以超過(guò)或接近目前最好的方法(見表1)聋呢。這些特征緊湊、計(jì)算高效颠区。
2. 相關(guān)工作
計(jì)算機(jī)視覺領(lǐng)域研究視頻已有幾十年部服。這些年來(lái)唆姐,動(dòng)作識(shí)別、異常檢測(cè)廓八、視頻檢索奉芦、運(yùn)動(dòng)檢測(cè)等不同問題被提出胆描。這些工作的相當(dāng)一部分是關(guān)于視頻表示。Laptev和Lindeberg提出時(shí)空興趣點(diǎn)(STIPs)仗阅,通過(guò)擴(kuò)展Harris邊角檢測(cè)器昌讲。SIFT和HOG也被擴(kuò)展成SIFT-3D和HOG-3D從而進(jìn)行動(dòng)作識(shí)別。Dollar等人為行為識(shí)別提出長(zhǎng)方體特征减噪。Sadanand和Corso建立了行為識(shí)別的ActionBank短绸。最近,Wang等人提出改進(jìn)的密集軌跡(iDT)筹裕,這是現(xiàn)在最好的人為設(shè)計(jì)特征醋闭。iDT描述符I是一個(gè)有趣的例子,表明時(shí)間信號(hào)的處理可以不同于空間信號(hào)朝卒。與擴(kuò)展Harris邊角檢測(cè)器到3D不同证逻,它從視頻幀中密集采樣的特征點(diǎn)開始,并利用光流跟蹤它們抗斤。對(duì)于每個(gè)跟蹤器邊角囚企,沿著軌跡提取不同的人為設(shè)計(jì)特征。盡管它的性能很好瑞眼,但是這種方法計(jì)算量很大龙宏,并且在大規(guī)模數(shù)據(jù)集中變得棘手。
最近伤疙,隨著強(qiáng)大的并行機(jī)(GPU银酗,CPU集群)的應(yīng)用,以及大量的訓(xùn)練數(shù)據(jù)徒像,卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)已經(jīng)成為視覺識(shí)別的突破黍特。 ConvNets也被應(yīng)用于圖像和視頻中的人體姿態(tài)理解的問題。更有趣的是锯蛀,這些深層網(wǎng)絡(luò)用于圖像特征學(xué)習(xí)灭衷。同樣,Zhou等人在遷移學(xué)習(xí)任務(wù)上表現(xiàn)良好谬墙。深度學(xué)習(xí)也被應(yīng)用于無(wú)監(jiān)督設(shè)置的視頻特征學(xué)習(xí)今布。在Le 等人的研究中经备,作者使用堆疊的ISA來(lái)學(xué)習(xí)視頻的時(shí)空特征拭抬。雖然這種方法在動(dòng)作識(shí)別方面表現(xiàn)出良好的效果,但是在訓(xùn)練上仍然是計(jì)算密集型侵蒙,并且難以擴(kuò)展到大規(guī)模數(shù)據(jù)集的測(cè)試造虎。3D ConvNets被提出用于人類動(dòng)作識(shí)別和醫(yī)學(xué)圖像分割。限制玻爾茲曼機(jī)器也使用3D卷積來(lái)學(xué)習(xí)時(shí)空特征纷闺。最近算凿,Karpathy等在大型視頻數(shù)據(jù)集上進(jìn)行深度網(wǎng)絡(luò)訓(xùn)練份蝴,以分類視頻。 Simonyan和Zisserman使用雙流網(wǎng)絡(luò)來(lái)獲得最佳的動(dòng)作識(shí)別結(jié)果氓轰。
在這些方法中婚夫,3D ConvNets方法與我們最密切相關(guān)。該方法使用人體檢測(cè)器和頭部跟蹤來(lái)在視頻中分割人類受試者署鸡。分段視頻卷作為3個(gè)卷積層的3D ConvNet的輸入以對(duì)動(dòng)作進(jìn)行分類案糙。相比之下,我們的方法將完整的視頻幀作為輸入靴庆,并且不依賴于任何預(yù)處理时捌,因此容易地?cái)U(kuò)展到大型數(shù)據(jù)集。我們也與Karpathy等人有一些相似之處炉抒。以及Simonyan和Zisserman使用全幀來(lái)訓(xùn)練ConvNet奢讨。然而,這些方法建立在僅使用2D卷積和2D池化操作(Slow Fusion模型除外)焰薄,而我們的模型執(zhí)行3D卷積和3D池化在網(wǎng)絡(luò)中的所有層中傳播時(shí)間信息(進(jìn)一步詳細(xì)描述在第3節(jié))拿诸。我們還顯示,逐步池化空間和時(shí)間信息塞茅,建立更深層次的網(wǎng)絡(luò)可以取得最佳效果佳镜,我們將在3.2節(jié)討論有關(guān)體系結(jié)構(gòu)搜索的更多信息。
3. 使用3D ConvNets學(xué)習(xí)特征
在本節(jié)中凡桥,我們?cè)敿?xì)介紹了3D ConvNets的基本操作蟀伸,經(jīng)驗(yàn)地分析了3D ConvNets的不同結(jié)構(gòu),并闡述了如何在的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)特征缅刽。
3.1. 3D卷積和池化
我們認(rèn)為3D ConvNet非常適合于時(shí)空特征學(xué)習(xí)啊掏。與2D ConvNet相比,3D ConvNet能夠通過(guò)3D卷積和3D池化操作更好地建模時(shí)間信息衰猛。在3D ConvNets中迟蜜,卷積和池化操作在時(shí)空上執(zhí)行,而在2D ConvNets中啡省,它們僅在空間上完成娜睛。圖1示出了差異,應(yīng)用于一個(gè)圖像的2D卷積將輸出一個(gè)圖像卦睹,施加在多個(gè)圖像上的2D卷積(將它們視為不同的通道)也輸出一個(gè)圖像畦戒。因此,2D ConvNets在每次卷積運(yùn)算之后就會(huì)丟失輸入信號(hào)的時(shí)間信息结序。只有3D卷積才能保留輸入信號(hào)的時(shí)間信息障斋,從而產(chǎn)生輸出卷。相同的現(xiàn)象適用于2D和3D池化。在[36]中垃环,雖然時(shí)間流網(wǎng)絡(luò)采用多個(gè)幀作為輸入邀层,但是由于2D卷積,在第一卷積層之后遂庄,時(shí)間信息完全消失了寥院。類似地,融合模型使用2D卷積涛目,大多數(shù)網(wǎng)絡(luò)在第一卷積層之后失去其輸入的時(shí)間信號(hào)只磷。只有[18]中的慢融合模型才能在其前3個(gè)卷積層中使用3D卷積和平均池化。我們認(rèn)為這是在[18]的研究在所有網(wǎng)絡(luò)中表現(xiàn)最好的關(guān)鍵原因泌绣。然而钮追,它仍然在第三個(gè)卷積層之后失去所有時(shí)間信息。
在本節(jié)中咒吐,我們通過(guò)經(jīng)驗(yàn)嘗試找出一個(gè)良好的3D ConvNets架構(gòu)酪夷。由于在大型視頻數(shù)據(jù)集上訓(xùn)練深層網(wǎng)絡(luò)非常耗時(shí),我們首先嘗試使用中型數(shù)據(jù)集UCF101來(lái)搜索最佳架構(gòu)呼寸。我們使用較少數(shù)量的網(wǎng)絡(luò)實(shí)驗(yàn)在大型數(shù)據(jù)集中來(lái)驗(yàn)證發(fā)現(xiàn)识樱。根據(jù)2D ConvNet的研究結(jié)果嗤无,具有更深體系結(jié)構(gòu)的3×3卷積內(nèi)核的小感受野產(chǎn)生最佳效果。 因此怜庸,對(duì)于我們的架構(gòu)搜索研究当犯,我們將空間感受野確定為3×3,僅改變3D卷積核的時(shí)間深度割疾。
符號(hào):為了簡(jiǎn)單起見嚎卫,從現(xiàn)在開始,我們將視頻片段尺寸定義為c×l×h×w宏榕,其中c是通道數(shù)拓诸,l是幀數(shù)的長(zhǎng)度,h和w分別是幀的高度和寬度麻昼。我們還將3D卷積和池化核大小指向d×k×k奠支,其中d是核的時(shí)間深度,k是核的空間大小涌献。
通用網(wǎng)絡(luò)設(shè)置:在本節(jié)中胚宦,我們將介紹我們訓(xùn)練的所有網(wǎng)絡(luò)通用的網(wǎng)絡(luò)設(shè)置首有。 網(wǎng)絡(luò)設(shè)置為將視頻片段作為輸入燕垃,并預(yù)測(cè)屬于101個(gè)不同動(dòng)作的類標(biāo)簽枢劝。所有視頻幀都被調(diào)整為128×171。這大約是UCF101幀的一半分辨率卜壕。視頻被分割成非重疊的16幀片段您旁,然后將其用作網(wǎng)絡(luò)的輸入。輸入尺寸為3×16×128×171轴捎。我們還通過(guò)在訓(xùn)練期間使用尺寸為3×16×112×112的隨機(jī)裁剪來(lái)使用抖動(dòng)鹤盒。網(wǎng)絡(luò)具有5個(gè)卷積層和5個(gè)池化層(每個(gè)卷積層緊隨其后的是池化層),2個(gè)完全連接的層和softmax損耗層以預(yù)測(cè)動(dòng)作標(biāo)簽侦副。 對(duì)于5個(gè)卷積層侦锯,從1到5卷積層的濾波器數(shù)量分別為64,128,256,256,256。
所有卷積核大小的d是核時(shí)間深度(稍后將改變這些層的值d以搜索良好的3D結(jié)構(gòu))秦驯。所有這些卷積層都應(yīng)用適當(dāng)?shù)奶畛?空間和時(shí)間)和步長(zhǎng)1尺碰,因此這些卷積層從輸入到輸出的尺寸沒有變化。所有池化層都是尺寸為2×2×2(第一層除外)译隘、步長(zhǎng)為1的最大值池化亲桥,這意味著與輸入信號(hào)相比,輸出信號(hào)的大小減小到1/8固耘。第一個(gè)池化核大小為1×2×2题篷,其意圖是不能太早地合并時(shí)間信號(hào),并且也能夠滿足16幀的片段長(zhǎng)度(例如厅目,在完全崩潰之前番枚,我們可以暫時(shí)將時(shí)間信號(hào)進(jìn)行最多4次2倍池化)。兩個(gè)全連接層有2048個(gè)輸出损敷。我們從頭開始使用30個(gè)片段的小批量訓(xùn)練網(wǎng)絡(luò)户辫,初始學(xué)習(xí)率為0.003。學(xué)習(xí)率在每4個(gè)周期之后除以10嗤锉。訓(xùn)練在16個(gè)周期之后停止渔欢。
不同的網(wǎng)絡(luò)架構(gòu):根據(jù)本研究的目的,我們主要關(guān)注如何通過(guò)深層網(wǎng)絡(luò)聚合時(shí)間信息瘟忱。為了尋找一個(gè)很好的3D ConvNet架構(gòu)奥额,我們只改變卷積核時(shí)間深度di,同時(shí)保持所有其他常見設(shè)置如上所述访诱。我們嘗試兩種類型的架構(gòu):1)均勻時(shí)間深度:所有卷積核具有相同的時(shí)間深度垫挨;2)變化的時(shí)間深度:不同層的卷積核時(shí)間深度不同。對(duì)于均勻設(shè)置触菜,我們?cè)囼?yàn)了具有d=1,3,5,7的時(shí)間深度的4個(gè)網(wǎng)絡(luò)九榔。我們將這些網(wǎng)絡(luò)命名為depth-d,其中d是其均勻時(shí)間深度。請(qǐng)注意哲泊,depth-1網(wǎng)絡(luò)相當(dāng)于在單獨(dú)的幀上應(yīng)用2D卷積剩蟀。對(duì)于變化的時(shí)間深度設(shè)置,我們分別從第一到第五卷積層試驗(yàn)了兩個(gè)網(wǎng)絡(luò)切威,時(shí)間深度增加的:3-3-5-5-7和時(shí)間深度增加減少的:7-5-5-3-3育特。我們注意到,所有這些網(wǎng)絡(luò)在最后一個(gè)池化層具有相同的輸出信號(hào)大小先朦,因此它們的全連接層具有相同數(shù)量的參數(shù)缰冤。由于不同的核時(shí)間深度,它們的參數(shù)數(shù)量在卷積層上是不同的喳魏。與全連接層中的數(shù)百萬(wàn)個(gè)參數(shù)相比棉浸,這些差異是相當(dāng)微小的。例如刺彩,上述時(shí)間深度差為2的網(wǎng)絡(luò)中只有17K左右的參數(shù)涮拗。參數(shù)數(shù)量的最大差異在于depth-1和depth-7網(wǎng)絡(luò)之間,depth-7網(wǎng)絡(luò)具有51K以上的參數(shù)迂苛,小于每個(gè)網(wǎng)絡(luò)17.5百萬(wàn)參數(shù)的0.3%三热。這表明網(wǎng)絡(luò)的學(xué)習(xí)能力是可比較的,參數(shù)數(shù)量的差異不應(yīng)影響我們的架構(gòu)搜索結(jié)果三幻。
3.2.探索內(nèi)核時(shí)間深度
我們?cè)赨CF101訓(xùn)練集split-1上訓(xùn)練這些網(wǎng)絡(luò)就漾。圖2顯示了不同架構(gòu)在UCF101測(cè)試集split-1上的精度。左圖顯示了具有均勻時(shí)間深度的網(wǎng)絡(luò)的結(jié)果念搬,右圖顯示了變化時(shí)間深度的網(wǎng)絡(luò)的結(jié)果抑堡。Depth-3在均勻網(wǎng)絡(luò)中表現(xiàn)最好。請(qǐng)注意朗徊,depth-1比其他網(wǎng)絡(luò)明顯更差首妖,我們認(rèn)為是由于缺乏運(yùn)動(dòng)建模。與不變化時(shí)間深度網(wǎng)絡(luò)相比爷恳,depth-3是表現(xiàn)最好的有缆,但差距較小。我們還嘗試更大的感知野(例如5×5)和/或全輸入分辨率(240×320)温亲,效果差不多棚壁。這表明3×3×3是3D ConvNets的最佳的選擇(根據(jù)我們的實(shí)驗(yàn)子集),在視頻分類中3D ConvNets始終優(yōu)于2D ConvNets栈虚。我們還驗(yàn)證了3D ConvNet在大規(guī)模內(nèi)部數(shù)據(jù)集(即I380K)上的性能優(yōu)于2D ConvNet袖外。
3.3.時(shí)空特征學(xué)習(xí)
網(wǎng)絡(luò)架構(gòu):上一節(jié)的發(fā)現(xiàn)表明,3×3×3卷積核的均勻設(shè)置是3D ConvNets的最佳選擇鬓照。這個(gè)發(fā)現(xiàn)與2D ConvNets一致熔酷。使用大型數(shù)據(jù)集,可以根據(jù)機(jī)器內(nèi)存限制和計(jì)算承受能力颖杏,盡可能深入地訓(xùn)練具有3×3×3核的3D ConvNet纯陨。使用目前的GPU內(nèi)存坛芽,我們?cè)O(shè)計(jì)了3D ConvNet留储,具有8個(gè)卷積層、5個(gè)池化層咙轩、兩個(gè)全連接層获讳,以及一個(gè)softmax輸出層。網(wǎng)絡(luò)架構(gòu)如圖3所示活喊。為了簡(jiǎn)單起見丐膝,我們從現(xiàn)在開始將這個(gè)網(wǎng)絡(luò)稱為C3D。所有3D卷積濾波器均為3×3×3钾菊,步長(zhǎng)為1×1×1帅矗。為了保持早期的時(shí)間信息設(shè)置pool1核大小為1×2×2、步長(zhǎng)1×2×2煞烫,其余所有3D池化層均為2×2×2浑此,步長(zhǎng)為2×2×2。每個(gè)全連接層有4096個(gè)輸出單元滞详。
數(shù)據(jù)集:為了學(xué)習(xí)時(shí)空特征赡若,我們?cè)赟ports-1M數(shù)據(jù)集上訓(xùn)練C3D达布,這是目前最大的視頻分類基準(zhǔn)。 數(shù)據(jù)集由110萬(wàn)個(gè)體育視頻組成逾冬。 每個(gè)視頻屬于487個(gè)運(yùn)動(dòng)類別之一黍聂。 與UCF101相比躺苦,Sports-1M具有5倍的類別和100倍的視頻數(shù)量。
訓(xùn)練:在Sports-1M訓(xùn)練集上進(jìn)行訓(xùn)練产还。由于Sports-1M有許多長(zhǎng)視頻匹厘,我們從每個(gè)訓(xùn)練視頻中隨機(jī)提取出2秒長(zhǎng)的五個(gè)片段。片段調(diào)整幀大小為128×171脐区。在訓(xùn)練中愈诚,我們隨機(jī)將輸入片段裁剪成16×112×112片段,對(duì)于空間和時(shí)間抖動(dòng)牛隅。 我們也以50%的概率水平翻轉(zhuǎn)它們炕柔。訓(xùn)練由SGD完成,batch size為30媒佣。初始學(xué)習(xí)率為0.003匕累,每150K次迭代除以2。優(yōu)化在1.9M迭代(約13epochs)停止默伍。除了從頭開始訓(xùn)練C3D外欢嘿,我們還從在I380K上預(yù)先訓(xùn)練的模型中對(duì)C3D網(wǎng)進(jìn)行了微調(diào)。
Sports-1M分類結(jié)果:表2顯示了C3D與DeepVideo和Convolution pooling的比較結(jié)果也糊。我們每個(gè)片段只使用一個(gè)中心裁剪炼蹦,并通過(guò)網(wǎng)絡(luò)進(jìn)行片段預(yù)測(cè)。對(duì)于視頻預(yù)測(cè)狸剃,我們平均片段預(yù)測(cè)從視頻中隨機(jī)提取的10個(gè)片段掐隐。值得注意的是比較方法之間的一些設(shè)置差異。DeepVideo和C3D使用短片段捕捂,而Convolution pooling使用更長(zhǎng)的片段瑟枫。DeepVideo使用更多的裁剪:每個(gè)片段4個(gè)裁剪,每個(gè)視頻80個(gè)裁剪指攒,C3D分別使用1個(gè)和10個(gè)慷妙。top-5精度下,從頭開始訓(xùn)練的C3D網(wǎng)絡(luò)得到了84.4%的準(zhǔn)確度允悦,從I380K預(yù)訓(xùn)練模型中微調(diào)的C3D網(wǎng)絡(luò)為85.5%膝擂。兩個(gè)C3D網(wǎng)絡(luò)都勝過(guò)DeepVideo網(wǎng)絡(luò)。 C3D仍比Convolution pooling的方法低5.6%隙弛。然而架馋,這種方法在120幀的長(zhǎng)片段上使用深度圖像特征的卷積池化,因此它不能直接與在更短的片段上操作的C3D和DeepVideo相比較全闷。我們注意到叉寂,該方法在片段和視頻的top-1精度中的差異很小(1.6%),因?yàn)樗呀?jīng)使用120幀片段作為輸入总珠。在實(shí)踐中屏鳍,Convolution pooling或更復(fù)雜的聚合方案可以應(yīng)用于C3D特征之上勘纯,以提高性能。
C3D視頻描述符:訓(xùn)練后,C3D可用作其他視頻分析任務(wù)的特征提取器鸭丛。為了提取C3D特征竞穷,視頻被分割成16幀長(zhǎng)的片段,在兩個(gè)連續(xù)片段之間具有8幀重疊系吩。這些片段被傳遞到C3D網(wǎng)絡(luò)以提取fc6激活来庭。對(duì)這些片段fc6激活進(jìn)行平均以形成4096維的視頻描述符妒蔚,然后接著做L2標(biāo)準(zhǔn)化穿挨。在所有實(shí)驗(yàn)中,我們將此表示法稱為C3D視頻描述符/特征肴盏,除非我們明確指出差異科盛。
C3D學(xué)習(xí)什么?我們使用反卷積方法來(lái)了解C3D內(nèi)部學(xué)習(xí)菜皂。我們觀察到贞绵,C3D首先關(guān)注前幾幀的外觀,并跟蹤后續(xù)幀中的顯著運(yùn)動(dòng)恍飘。 圖4可視化兩個(gè)C3D conv5b特征映射圖的反卷積榨崩,最大的激活投射回圖像空間。在第一個(gè)例子中章母,特征集中在整個(gè)人身上母蛛,然后跟蹤其余幀上撐桿跳表演的運(yùn)動(dòng)。類似地乳怎,在第二個(gè)例子中彩郊,它首先關(guān)注眼睛,然后在化妝的同時(shí)跟蹤眼睛周圍發(fā)生的運(yùn)動(dòng)蚪缀。因此秫逝,C3D與標(biāo)準(zhǔn)2D ConvNets的不同之處在于它有選擇地參與運(yùn)動(dòng)和外觀。我們?cè)谘a(bǔ)充材料中提供更多的可視化询枚,以更好地了解學(xué)習(xí)的特征违帆。
4. 動(dòng)作識(shí)別
數(shù)據(jù)集:我們?cè)u(píng)估UCF101數(shù)據(jù)集上的C3D特征。數(shù)據(jù)集由101個(gè)人類動(dòng)作類別的13,320個(gè)視頻組成惠险。我們使用此數(shù)據(jù)集提供的三個(gè)拆分設(shè)置苗傅。
分類模型:我們提取C3D特征并將其輸入到用于訓(xùn)練模型的多類線性SVM。我們使用3個(gè)不同網(wǎng)絡(luò)的C3D描述符進(jìn)行試驗(yàn):在I380K上訓(xùn)練的C3D班巩,在Sports-1M上訓(xùn)練的C3D渣慕,以及在I380K上訓(xùn)練并在Sports-1M上進(jìn)行微調(diào)的C3D。在多網(wǎng)絡(luò)設(shè)置中抱慌,我們堆疊這些網(wǎng)絡(luò)的L2標(biāo)準(zhǔn)化C3D描述符逊桦。
基準(zhǔn):我們比較C3D特征與幾個(gè)基準(zhǔn):目前最好的人為設(shè)計(jì)特征,即改進(jìn)的密集軌跡(iDT)抑进,以及流行的深層圖像特征强经,即Imagenet,使用Caffe的Imagenet預(yù)訓(xùn)練模型寺渗。對(duì)于iDT匿情,我們使用iDT的每個(gè)特征通道(軌跡、HOG信殊、HOF炬称、MBHx和MBHy)的碼本大小為5000的碼字表示。我們使用L1范數(shù)分別對(duì)每個(gè)通道的直方圖進(jìn)行歸一化涡拘,并且堆疊這些歸一化直方圖以形成一個(gè)視頻的25K特征向量玲躯。對(duì)于Imagenet基準(zhǔn),類似于C3D鳄乏,我們?yōu)槊恳粠崛magenet fc6特征跷车,平均這些幀特征來(lái)制作視頻描述符。對(duì)于這兩個(gè)基準(zhǔn)橱野,也可以使用多類線性SVM進(jìn)行公平比較朽缴。
結(jié)果:表3顯示了與兩個(gè)基準(zhǔn)相比較的C3D的動(dòng)作識(shí)別準(zhǔn)確度和當(dāng)前最佳方法。上面部分顯示了兩個(gè)基準(zhǔn)的結(jié)果仲吏。中間部分顯示了僅使用RGB幀作為輸入的方法不铆。而下面部分報(bào)告了使用所有可能的特征組合(例如光流,iDT)的所有當(dāng)前最佳方法裹唆。
C3D微調(diào)網(wǎng)絡(luò)在前面描述的三個(gè)C3D網(wǎng)絡(luò)中表現(xiàn)最好。然而成畦,這三個(gè)網(wǎng)絡(luò)之間的效果差距很小(1%)距芬。 從現(xiàn)在開始涝开,除非另有說(shuō)明,否則我們將微調(diào)后的網(wǎng)絡(luò)稱為C3D框仔。C3D使用一個(gè)僅具有4,096維的網(wǎng)絡(luò)舀武,得到了82.3%的精度。具有3個(gè)網(wǎng)絡(luò)的C3D將精度提高到85.2%离斩,維度增加到12,288银舱。C3D與iDT組合進(jìn)一步將精度提高到90.4%,而與Imagenet相結(jié)合跛梗,我們觀察到只有0.6%的提高寻馏。這表明C3D可以很好地捕獲外觀和運(yùn)動(dòng)信息,因此與Imagenet相結(jié)合沒有任何好處核偿,Imagenet是基于外觀的深層特征诚欠。另一方面,將C3D與iDT相結(jié)合是有益的漾岳,因?yàn)樗鼈儽舜烁叨然パa(bǔ)轰绵。事實(shí)上,iDT是基于光流跟蹤和低級(jí)梯度直方圖的人為設(shè)計(jì)特征蝗羊,而C3D則捕獲高級(jí)抽象/語(yǔ)義信息藏澳。
具有3個(gè)網(wǎng)絡(luò)的C3D了達(dá)到85.2%仁锯,比iDT和Imagenet基線分別提高了9%和16.4%耀找。 在只有RGB輸入設(shè)置中,與基于CNN的方法相比业崖,我們的C3D在[36]中分別優(yōu)于深度網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)為19.8%和12.6%野芒。深層網(wǎng)絡(luò)和[36]的空間流網(wǎng)絡(luò)都使用AlexNet架構(gòu)。在[18]中双炕,網(wǎng)絡(luò)由他們?cè)赟ports-1M上預(yù)訓(xùn)練的模型進(jìn)行微調(diào)狞悲,[36]中的空間流網(wǎng)絡(luò)由Imagenet預(yù)訓(xùn)練模型進(jìn)行了微調(diào)。我們的C3D在網(wǎng)絡(luò)架構(gòu)和基本操作方面與這些CNN基礎(chǔ)方法不同妇斤。此外摇锋,C3D已經(jīng)在Sports-1M上進(jìn)行了訓(xùn)練,并且在沒有任何微調(diào)的情況下被使用站超。與基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法相比荸恕,C3D性能分別優(yōu)于長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(LRCN)和LSTM復(fù)合模型14.1%和9.4%。 只有RGB輸入的C3D在使用光流和RGB以及[36]中的時(shí)間流網(wǎng)絡(luò)時(shí)仍然優(yōu)于這兩種基于RNN的方法死相。 然而融求,C3D需要與iDT組合以優(yōu)于雙流網(wǎng)絡(luò),另一種基于iDT的方法[31,25]以及專注于長(zhǎng)期建模的方法[29]算撮。 除了有希望的數(shù)字外生宛,與其他方法相比县昂,C3D還具有簡(jiǎn)單的優(yōu)點(diǎn)。
C3D是緊湊的:為了評(píng)估C3D特征的緊湊性陷舅,我們使用PCA將特征投影到較低維度倒彰,并使用線性SVM報(bào)告在UCF101上投影特征的分類精度。我們對(duì)iDT ]和Imagenet特征應(yīng)用相同的過(guò)程莱睁,并比較圖5中的結(jié)果狸驳。在僅有10個(gè)維度的極限設(shè)置下,C3D精度為52.8%缩赛,比Imagenet和iDT的準(zhǔn)確度高出20% 的耙箍,Imagenet和iDT的準(zhǔn)確度約為32%。在50和100維度時(shí)酥馍,C3D得到的精度為72.6%和75.6%辩昆,比Imagenet和iDT好10-12%。最后旨袒,具有500個(gè)維度汁针,C3D能夠?qū)崿F(xiàn)79.4%的精度,比iDT好6%砚尽,比Imagenet好11%施无。這表明我們的特征既緊湊又具有識(shí)別力。這對(duì)于低存儲(chǔ)成本和快速檢索至關(guān)重要的大規(guī)模檢索應(yīng)用非常有用必孤。
我們定性地評(píng)估了學(xué)習(xí)到的C3D特征践樱,以通過(guò)可視化嵌入在另一個(gè)數(shù)據(jù)集上的學(xué)習(xí)特征來(lái)驗(yàn)證它是否是視頻的一個(gè)很好的通用特征厂画。我們從UCF101隨機(jī)選擇100K個(gè)片段,然后使用來(lái)自Imagenet和C3D的特征來(lái)提取這些片段的fc6特征映胁。然后使用t-SNE將這些特征投影到二維空間京痢。 圖6顯示了嵌入在UCF101上Imagenet和C3D的特征飞崖。值得注意的是可都,我們沒有做任何微調(diào)页藻,因?yàn)槲覀兿腧?yàn)證這些特征是否顯示出跨數(shù)據(jù)集的良好的泛化能力。我們定量觀察到C3D優(yōu)于Imagenet。
5. 動(dòng)作相似性標(biāo)簽
數(shù)據(jù)集:ASLAN數(shù)據(jù)集由432個(gè)動(dòng)作類的3,631個(gè)視頻組成。任務(wù)是預(yù)測(cè)給定的一對(duì)視頻對(duì)象是否屬于相同或不同的動(dòng)作。 我們使用數(shù)據(jù)集提供的拆分進(jìn)行規(guī)定的10折交叉驗(yàn)證妖枚。這個(gè)問題與動(dòng)作識(shí)別不同,因?yàn)槿蝿?wù)著重于預(yù)測(cè)動(dòng)作相似性而不是實(shí)際動(dòng)作標(biāo)簽苍在。這個(gè)任務(wù)是非常具有挑戰(zhàn)性的绝页,因?yàn)闇y(cè)試集包含“從未見過(guò)的”動(dòng)作的視頻。
特征:我們將視頻分為重疊8幀的16幀片段寂恬。我們提取每個(gè)片段的C3D特征:prob续誉,fc7,fc6初肉,pool5酷鸦。通過(guò)分別平均每種特征類型的片段特征,然后進(jìn)行L2歸一化牙咏,來(lái)計(jì)算視頻特征臼隔。
分類模型:我們遵循[21]中使用的相同設(shè)置。給出一對(duì)視頻妄壶,我們計(jì)算[21]中提供的12個(gè)不同的距離摔握。具有4種特征,我們從每對(duì)視頻獲得48維(12×4 = 48)特征向量丁寄。由于這48個(gè)距離彼此無(wú)法比較氨淌,我們將它們獨(dú)立地歸一化,使得每個(gè)維度具有零平均值和單位方差狡逢。最后宁舰,訓(xùn)練線性SVM以根據(jù)這48維特征向量將視頻對(duì)歸類為相同或不同的。除了與當(dāng)前的方法進(jìn)行比較奢浑,我們還使用基于深度圖像的特征將C3D與強(qiáng)基線進(jìn)行比較∫溉基準(zhǔn)與我們的C3D設(shè)置相同雀彼,我們用Imagenet特征替換C3D特征。
結(jié)論:我們報(bào)告C3D的結(jié)果并與表4中的最佳方法進(jìn)行比較即寡。盡管目前大多數(shù)方法使用多種人為設(shè)計(jì)特征徊哑,強(qiáng)編碼方法(VLAD,F(xiàn)isher Vector)和復(fù)雜的學(xué)習(xí)模型聪富,但我們的方法使用一種視頻上的C3D特征和線性SVM的簡(jiǎn)單平均莺丑。C3D在ROC曲線(AUC)下顯著優(yōu)于最先進(jìn)的方法,精度提升了9.6%,面積提升了11.1%梢莽。Imagenet基線表現(xiàn)相當(dāng)好萧豆,僅比最佳方法低1.2%,但由于缺乏運(yùn)動(dòng)模型昏名,比C3D差10.8%涮雷。圖7繪制了C3D與當(dāng)前方法和人類表現(xiàn)相比的ROC曲線。C3D已經(jīng)顯著提升轻局,這是目前最先進(jìn)的方法到人類表現(xiàn)(98.9%)的一半洪鸭。
6. 場(chǎng)景和目標(biāo)識(shí)別
數(shù)據(jù)集:對(duì)于動(dòng)態(tài)場(chǎng)景識(shí)別梅肤,我們?cè)趦蓚€(gè)基準(zhǔn)上評(píng)估C3D:YUPENN和Maryland。 YUPENN包括14個(gè)場(chǎng)景類別的420個(gè)視頻邑茄,Maryland有13個(gè)場(chǎng)景類別的130個(gè)視頻姨蝴。 對(duì)于對(duì)事物識(shí)別,我們測(cè)試了自然中心數(shù)據(jù)集[32]上的C3D肺缕,它包含42種類型的日常事物左医。 值得注意的是,該數(shù)據(jù)集是以自我為中心的同木,所有視頻都記錄在第一人稱視圖中浮梢,它們具有與我們?cè)谟?xùn)練數(shù)據(jù)集中擁有的任何視頻所完全不同的外觀和運(yùn)動(dòng)特征。
分類模型:對(duì)于兩個(gè)數(shù)據(jù)集彤路,我們使用相同的特征提取體系和線性SVM進(jìn)行分類秕硝,并遵循這些數(shù)據(jù)集的作者所述的相同的留一法估計(jì)協(xié)議。 對(duì)于事物數(shù)據(jù)集洲尊,標(biāo)準(zhǔn)評(píng)估基于幀远豺。 但是,C3D會(huì)拍攝長(zhǎng)度為16幀的視頻片段來(lái)提取特征坞嘀。 我們?cè)谒幸曨l中滑動(dòng)16幀的窗口躯护,以提取C3D特征。我們選擇每個(gè)片段的地面真實(shí)標(biāo)簽作為片段最常發(fā)生的標(biāo)簽丽涩。 如果片段中最常見的標(biāo)簽發(fā)生少于8幀棺滞,我們認(rèn)為它是沒有事物的負(fù)片段,并在訓(xùn)練和測(cè)試中丟棄它。 我們使用線性SVM訓(xùn)練和測(cè)試C3D特征继准,并報(bào)告事物識(shí)別精度枉证。 我們遵循[32]中提供的相同分割。我們還在這3個(gè)基準(zhǔn)上對(duì)C3D與使用Imagenet特征基準(zhǔn)線進(jìn)行比較锰瘸。
結(jié)果:表5報(bào)告了我們的C3D結(jié)果刽严,并將其與當(dāng)前最佳方法進(jìn)行比較。在場(chǎng)景分類中避凝,C3D在Maryland和YUPENN分別優(yōu)于最先進(jìn)的方法10%和1.9%舞萄。C3D僅使用具有簡(jiǎn)單平均片段特征的線性SVM是不值得的,而第二好的方法[9]使用不同的復(fù)雜特征編碼(FV管削,LLC和動(dòng)態(tài)池)倒脓。 Imagenet基線在Maryland與C3D表現(xiàn)相似,在YUPENN上比C3D低1.4%含思。在事物識(shí)別方面崎弃,只有線性SVM的情況下,C3D獲得22.3%的精度含潘,優(yōu)于[32]10.3%饲做,比較方法在強(qiáng)SIFT-RANSAC特征匹配的情況下使用RBF-內(nèi)核。與Imagenet基線相比遏弱,C3D更差3.4%盆均。這可以解釋為與Imagenet使用的全尺寸分辨率(256×256)相比,C3D使用較小的輸入分辨率(128×128)漱逸。由于C3D僅在Sports-1M視頻上進(jìn)行了訓(xùn)練泪姨,而沒有任何微調(diào),而Imagenet已經(jīng)對(duì)1000個(gè)事物類別進(jìn)行了全面訓(xùn)練饰抒,因此我們并不期望C3D能夠很好地完成此任務(wù)肮砾。結(jié)果非常令人驚訝,并顯示了通用C3D如何捕捉視頻中的外觀和運(yùn)動(dòng)信息袋坑。
7. 運(yùn)行時(shí)間分析
我們比較C3D和iDT和時(shí)間流網(wǎng)絡(luò)的運(yùn)行時(shí)間咒彤。對(duì)于iDT疆柔,我們使用作者提供的代碼。對(duì)于時(shí)間流網(wǎng)絡(luò)镶柱,沒有可用的評(píng)估公共模型。然而模叙,該方法使用Brox的光流作為輸入歇拆。我們?cè)O(shè)法使用兩種不同的版本來(lái)評(píng)估Brox方法的運(yùn)行時(shí)間:作者提供的CPU實(shí)現(xiàn)和OpenCV中提供的GPU實(shí)現(xiàn)。
我們報(bào)告上述三種方法的運(yùn)行時(shí)間,以使用單個(gè)CPU或單個(gè)K40 Tesla GPU來(lái)提取表6中整個(gè)UCF101數(shù)據(jù)集的特征(包括I/O)故觅。[36]報(bào)告了一對(duì)圖像的計(jì)算時(shí)間(無(wú)I/O)為0.06s厂庇。在我們的試驗(yàn)中,Brox的GPU實(shí)現(xiàn)需要0.85-0.9s每個(gè)圖像對(duì)输吏,包括I/O权旷。請(qǐng)注意,對(duì)于iDT這不是公平的比較贯溅,因?yàn)樗皇褂肅PU拄氯。我們找不到此方法的任何GPU實(shí)現(xiàn),并且在GPU上實(shí)現(xiàn)此算法的并行版本并不是微不足道的它浅。請(qǐng)注意译柏,C3D比實(shí)時(shí)快得多,處理速度為313 fps姐霍,而其他兩種方法的處理速度小于4 fps鄙麦。
8.結(jié)論
在這項(xiàng)工作中,我們?cè)噲D解決使用經(jīng)過(guò)大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的3D ConvNets來(lái)學(xué)習(xí)視頻的時(shí)空特征的問題恨胚。我們進(jìn)行了系統(tǒng)的研究骂因,以找到3D ConvNets的最佳時(shí)間核長(zhǎng)度。我們展示了C3D可以同時(shí)對(duì)外觀和運(yùn)動(dòng)信息進(jìn)行建模与纽,在各種視頻分析任務(wù)上優(yōu)于2D ConvNet特征侣签。我們展示了具有線性分類器的C3D特征可以在不同的視頻分析基準(zhǔn)上勝過(guò)或接近現(xiàn)行的最佳方法。最后急迂,提出的C3D特征是高效的影所、緊湊的、使用非常簡(jiǎn)單的僚碎。