背景
互聯(lián)網(wǎng)上的多媒體數(shù)據(jù)正在迅速增長荆责,每分鐘分享的視頻數(shù)量激增。 曾經(jīng)以文本為主的網(wǎng)站已經(jīng)轉變成以照片和視頻為主亚脆。
計算機視覺社區(qū)幾十年來一直致力于視頻分析食零,并解決了不同的問題静袖,如行為識別,異常事件檢測和活動理解。 但是携御,缺乏表示視頻的一般形式蚀乔,缺少視頻的通用描述符蒋纬。通用描述符要具備通用泊愧、緊湊便于擴展、計算效率高的特征官套。
從圖像領域和深度卷積網(wǎng)絡中受到啟發(fā)酒奶,各種預訓練的ConvNet網(wǎng)絡模型通常用于提取圖像特征。 由于兩個主要原因讥蟆,視頻缺乏這樣的通用特征:首先勒虾,沒有包含各種通用概念的大規(guī)模監(jiān)督視頻數(shù)據(jù)集;其次,沒有有效學習緊湊時空特征的方法去封裝外形和動作瘸彤。
相關工作
隨著最近可用的功能強大的并行機器(GPU,CPU集群)以及大量的訓練數(shù)據(jù)视哑,卷積神經(jīng)網(wǎng)絡已經(jīng)回歸到許多突出的人工智能問題中,有與文本相關 缭乘,語音識別和基于圖像的問題。
[1] 中的工作與此文章關系密切,但是专执,[1]的工作是針對特定任務的行動分類而設計的,跟蹤的人類主體被分割出來并作為3D ConvNet輸入給人類行為分類淮捆。但此文將完整的視頻幀作為輸入,不依賴任何預處理本股,因此可輕松應用于更大規(guī)模和更通用的視頻分析任務攀痊。
[2] 和[3]中的工作使用全幀來訓練ConvNet。然而拄显,他們的結果建立在僅使用2D卷積和2D池化操作的基礎上苟径,此文認為這不是處理時間信號的理想方式。
本文貢獻
首先構建了一個包含各種不同含義視頻的大型手動標注數(shù)據(jù)集躬审,并且用它訓練一個深度的3D ConvNet來學習視頻功能棘街。3D可以更好的模擬時空信息,提出更好的特征承边≡庋常總的貢獻羅列如下:
- 提出了一種基于正確選擇數(shù)據(jù)集設計的通用時空特征學習方法以及使用3D ConvNet的學習模型。
- 使用提出的通用特性炒刁,一個簡單的線性模型可以實現(xiàn)或接近不同視頻分類基準點的最新性能恩沽。
- 與當前最好的手工特征和當前最好的深度學習模型相比,提出的特征更緊湊翔始,更具辨別性罗心,并且計算速度更快。
C3D優(yōu)勢
- 通用性好:在視頻相關任務中城瞎,比如目標識別渤闷,場景分類和動作相似性的測量,結果最為先進脖镀。
- 任務緊湊:比其他手動特征具有更好的精度和低維度的特征描述飒箭。
- 計算效率高:比當前手動功能快91倍,比當前基于深度學習的視頻分類方法快兩個數(shù)量級蜒灰。
學習時空特征
數(shù)據(jù)集的設計
數(shù)據(jù)集包含超過380000個關于382個概念的視頻弦蹂,每個視頻通常長5-15秒,由手動標注視頻概念標簽强窖。
使用3D卷積神經(jīng)網(wǎng)絡學習時空特征
使用設計好的數(shù)據(jù)集對動作凸椿,物體,場景和其他概念進行分類翅溺。 訓練好的網(wǎng)絡然后被用作其他視頻分析任務的特征提取器脑漫。
與2D卷積相比髓抑,3D ConvNet通過3D卷積和3D池化操作更好地模擬時間信息。3D ConvNets和2D ConvNet的主要區(qū)別在于卷積和合并操作是按照時空進行的优幸,而對2D ConvNet的操作只能在空間上進行吨拍。只有3D卷積保留了輸入信號的時間信息。
3D ConvNet的體系結構:所有的3D卷積濾波器都是3×3×3(長度×高×寬)讀數(shù)网杆,步長為1(空間和時間均為1)羹饰。所有的3D池化層都是2×2×2(池1除外),步長為1.只有池1是1×2×2跛璧,意圖在早期保留時間信息严里,因為允許池化可以模糊早期運動信號。
訓練:數(shù)據(jù)集被隨機分為訓練集追城,驗證集和測試集刹碾,比例為70%,10%和20%座柱。訓練的3D ConvNet(C3D)迷帜,輸入尺寸為16幀。從訓練視頻密集采樣色洞,時間跨度為32幀戏锹。這些幀被縮小為128×128,使得網(wǎng)絡的輸入為3×16×128×128(3個顏色通道火诸,16個時間幀和128×128個幀)锦针。所有卷積層使用正態(tài)分布隨機初始化,標準偏差為0.01置蜀。使用30個小批量大小奈搜、初始學習率為0.003,在每次200K迭代后除以10盯荤。 600K迭代后停止訓練馋吗。在單個Nvidia K40 GPU上,需要4周的時間來訓練模型秋秤。
訓練結果:評估測試拆分中的C3D特征和其他兩個基準特征模型(KNet宏粤,VGGA),并將結果記錄在下表中灼卢。
C3D應用場景
動作識別
論文將C3D應用到動作識別的場景中绍哎, 采用的是UCF101數(shù)據(jù)集, 該數(shù)據(jù)集由101個人類行為類別的13320個視頻組成鞋真。作者還將C3D與其他的基準模型的結果比較蛇摸, 得到的結果如下,
為了評估C3D特征的緊湊性灿巧,使用PCA將特征投影到較低維度赶袄,并報告UCF101 上投影特征的分類精度。 對當前最好的手工提取特征以及當前圖像深度特征應用相同的過程抠藕,比較圖中的結果饿肺。在只有10個維度的極端設置下,C3D精度為 45.4%盾似,比Imagenet的準確性好10%敬辣,比iDT好19%。 在50dim時零院,C3D也比Imagenet好大約5-10%溉跃,比iDT好大約20%。 最后告抄,在100 - 200尺寸的情況下撰茎,C3D能夠獲得70%的準確度,表明特征既緊湊又有區(qū)別打洼。 這對于低存儲成本和快速檢索至關重要的大規(guī)模檢索應用程序非常有用龄糊。
動作相似性標注
論文將C3D應用到動作相似性標注的場景中, 采用的是ASLAN數(shù)據(jù)集募疮, 該數(shù)據(jù)集由來自432個操作類的3631個視頻組成炫惩。 任務是預測給定的一對視頻是否屬于相同或不同的動作。得到的結果如下阿浓,
論文以二分類中經(jīng)典的ROC曲線進行衡量他嚷, 可以看出C3D識別效果只比人類識別效果低, 其AUC值86.5%也是屬于比較理想的分數(shù)了芭毙。
動態(tài)場景識別
論文將C3D應用到動作識別的場景中筋蓖, 采用的是YUPENN和Maaryland 兩個數(shù)據(jù)集數(shù)據(jù)集,YUPENN由14個場景類別的420個視頻組成稿蹲,馬里蘭州擁有130個場景類別的130個視頻扭勉。 得到的結果如下,
總結
特征學習在解決跨不同領域的許多機器學習問題方面起著關鍵作用苛聘,例如文本涂炎,語音,圖像和視頻设哗。通過具有區(qū)分性唱捣,緊湊性和快速計算特性,人們可以使用簡單的線性模型解決各種問題网梢。視頻處理器在這方面一直落后震缭,此論文試圖解決視頻學習通用功能的問題。該論文指出战虏,正確的數(shù)據(jù)集設計拣宰,強大的網(wǎng)絡架構和良好的時間建模的組合對于學習視頻的通用功能至關重要党涕。
這些發(fā)現(xiàn)與[4]中的討論一致,[4]發(fā)現(xiàn)適當?shù)挠柧殧?shù)據(jù)集為靜態(tài)圖像中的場景分類提供了更好的特征巡社。學習通用視頻特征的方法建立在大規(guī)模手動標注的視頻數(shù)據(jù)集上膛堤,并用它訓練深度3D卷積網(wǎng)絡。
學習到的視頻特征不僅具有區(qū)分性晌该,并且緊湊型好肥荔,計算能力更強。該論文的工作對視頻領域有雙重影響朝群。一方面燕耿,這些特征的區(qū)分能力使其成為視頻問題現(xiàn)有特征的一個很好的替代方案。另一方面姜胖,它為C3D的緊湊和高效計算開辟了大規(guī)模視頻分析的機會誉帅。
他們的工作提取的通用性特征可以通過簡單的線性模型在低維的特征空間中,以低損耗的方式實現(xiàn)或接近不同視頻任務的最新結果谭期。
感受
該論文發(fā)表的團隊能夠把目前的研究成果考慮的很全面堵第,在方法應用上,把前人提出的方法進行整合隧出,提取特征中踏志,即應用考慮整幀內容,又結合3D卷積保存時間信息胀瞪。這些都是其他人考慮過的方法针余,但作者能夠大膽結合不同方法,創(chuàng)新性地提出自己的視頻通用特征信息凄诞。所以圆雁,做科學研究,首先要把當前的工作進度了解到帆谍,要站在巨人的肩膀上伪朽。
參考文獻
[1] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neu-ral networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 2, 3
[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classi?cation with convo-lutional neural networks. In CVPR, 2014. 2, 3, 5, 6
[3] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 5, 6, 7, 8
[4] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning deep features for scene recognition using places database. In NIPS, 2014. 2, 8