06組-Learning Spatiotemporal Features with 3D Convolutional Networks

背景

互聯(lián)網(wǎng)上的多媒體數(shù)據(jù)正在迅速增長荆责，每分鐘分享的視頻數(shù)量激增。曾經(jīng)以文本為主的網(wǎng)站已經(jīng)轉變成以照片和視頻為主亚脆。
計算機視覺社區(qū)幾十年來一直致力于視頻分析食零，并解決了不同的問題静袖，如行為識別，異常事件檢測和活動理解。但是携御，缺乏表示視頻的一般形式蚀乔，缺少視頻的通用描述符蒋纬。通用描述符要具備通用泊愧、緊湊便于擴展、計算效率高的特征官套。
從圖像領域和深度卷積網(wǎng)絡中受到啟發(fā)酒奶，各種預訓練的ConvNet網(wǎng)絡模型通常用于提取圖像特征。由于兩個主要原因讥蟆，視頻缺乏這樣的通用特征：首先勒虾，沒有包含各種通用概念的大規(guī)模監(jiān)督視頻數(shù)據(jù)集;其次，沒有有效學習緊湊時空特征的方法去封裝外形和動作瘸彤。

本文貢獻

首先構建了一個包含各種不同含義視頻的大型手動標注數(shù)據(jù)集躬审，并且用它訓練一個深度的3D ConvNet來學習視頻功能棘街。3D可以更好的模擬時空信息，提出更好的特征承边≡庋常總的貢獻羅列如下：

提出了一種基于正確選擇數(shù)據(jù)集設計的通用時空特征學習方法以及使用3D ConvNet的學習模型。
使用提出的通用特性炒刁，一個簡單的線性模型可以實現(xiàn)或接近不同視頻分類基準點的最新性能恩沽。
與當前最好的手工特征和當前最好的深度學習模型相比，提出的特征更緊湊翔始，更具辨別性罗心，并且計算速度更快。

C3D優(yōu)勢

通用性好：在視頻相關任務中城瞎，比如目標識別渤闷，場景分類和動作相似性的測量，結果最為先進脖镀。
任務緊湊：比其他手動特征具有更好的精度和低維度的特征描述飒箭。
計算效率高：比當前手動功能快91倍，比當前基于深度學習的視頻分類方法快兩個數(shù)量級蜒灰。

學習時空特征

數(shù)據(jù)集的設計

數(shù)據(jù)集包含超過380000個關于382個概念的視頻弦蹂，每個視頻通常長5-15秒，由手動標注視頻概念標簽强窖。

使用3D卷積神經(jīng)網(wǎng)絡學習時空特征

使用設計好的數(shù)據(jù)集對動作凸椿，物體，場景和其他概念進行分類翅溺。訓練好的網(wǎng)絡然后被用作其他視頻分析任務的特征提取器脑漫。

與2D卷積相比髓抑，3D ConvNet通過3D卷積和3D池化操作更好地模擬時間信息。3D ConvNets和2D ConvNet的主要區(qū)別在于卷積和合并操作是按照時空進行的优幸，而對2D ConvNet的操作只能在空間上進行吨拍。只有3D卷積保留了輸入信號的時間信息。

3D ConvNet的體系結構：所有的3D卷積濾波器都是3×3×3（長度×高×寬）讀數(shù)网杆，步長為1（空間和時間均為1）羹饰。所有的3D池化層都是2×2×2（池1除外），步長為1.只有池1是1×2×2跛璧，意圖在早期保留時間信息严里，因為允許池化可以模糊早期運動信號。

網(wǎng)絡結構

訓練：數(shù)據(jù)集被隨機分為訓練集追城，驗證集和測試集刹碾，比例為70％，10％和20％座柱。訓練的3D ConvNet（C3D）迷帜，輸入尺寸為16幀。從訓練視頻密集采樣色洞，時間跨度為32幀戏锹。這些幀被縮小為128×128，使得網(wǎng)絡的輸入為3×16×128×128（3個顏色通道火诸，16個時間幀和128×128個幀）锦针。所有卷積層使用正態(tài)分布隨機初始化，標準偏差為0.01置蜀。使用30個小批量大小奈搜、初始學習率為0.003，在每次200K迭代后除以10盯荤。 600K迭代后停止訓練馋吗。在單個Nvidia K40 GPU上，需要4周的時間來訓練模型秋秤。

訓練結果：評估測試拆分中的C3D特征和其他兩個基準特征模型（KNet宏粤，VGGA），并將結果記錄在下表中灼卢。

Result

C3D應用場景

動作識別

論文將C3D應用到動作識別的場景中绍哎，采用的是UCF101數(shù)據(jù)集，該數(shù)據(jù)集由101個人類行為類別的13320個視頻組成鞋真。作者還將C3D與其他的基準模型的結果比較蛇摸，得到的結果如下，

C3D on Action recognition

為了評估C3D特征的緊湊性灿巧，使用PCA將特征投影到較低維度赶袄，并報告UCF101 上投影特征的分類精度。對當前最好的手工提取特征以及當前圖像深度特征應用相同的過程抠藕，比較圖中的結果饿肺。在只有10個維度的極端設置下，C3D精度為 45.4％盾似，比Imagenet的準確性好10％敬辣，比iDT好19％。在50dim時零院，C3D也比Imagenet好大約5-10％溉跃，比iDT好大約20％。最后告抄，在100 - 200尺寸的情況下撰茎，C3D能夠獲得70％的準確度，表明特征既緊湊又有區(qū)別打洼。這對于低存儲成本和快速檢索至關重要的大規(guī)模檢索應用程序非常有用龄糊。

PCA

動作相似性標注

論文將C3D應用到動作相似性標注的場景中，采用的是ASLAN數(shù)據(jù)集募疮，該數(shù)據(jù)集由來自432個操作類的3631個視頻組成炫惩。任務是預測給定的一對視頻是否屬于相同或不同的動作。得到的結果如下阿浓，

C3D on Action Similarity Labeling

論文以二分類中經(jīng)典的ROC曲線進行衡量他嚷，可以看出C3D識別效果只比人類識別效果低，其AUC值86.5%也是屬于比較理想的分數(shù)了芭毙。

動態(tài)場景識別

論文將C3D應用到動作識別的場景中筋蓖，采用的是YUPENN和Maaryland 兩個數(shù)據(jù)集數(shù)據(jù)集，YUPENN由14個場景類別的420個視頻組成稿蹲，馬里蘭州擁有130個場景類別的130個視頻扭勉。得到的結果如下，

C3D on Scene and Object Recognition

總結

特征學習在解決跨不同領域的許多機器學習問題方面起著關鍵作用苛聘，例如文本涂炎，語音，圖像和視頻设哗。通過具有區(qū)分性唱捣，緊湊性和快速計算特性，人們可以使用簡單的線性模型解決各種問題网梢。視頻處理器在這方面一直落后震缭，此論文試圖解決視頻學習通用功能的問題。該論文指出战虏，正確的數(shù)據(jù)集設計拣宰，強大的網(wǎng)絡架構和良好的時間建模的組合對于學習視頻的通用功能至關重要党涕。
這些發(fā)現(xiàn)與[4]中的討論一致，[4]發(fā)現(xiàn)適當?shù)挠柧殧?shù)據(jù)集為靜態(tài)圖像中的場景分類提供了更好的特征巡社。學習通用視頻特征的方法建立在大規(guī)模手動標注的視頻數(shù)據(jù)集上膛堤，并用它訓練深度3D卷積網(wǎng)絡。
學習到的視頻特征不僅具有區(qū)分性晌该，并且緊湊型好肥荔，計算能力更強。該論文的工作對視頻領域有雙重影響朝群。一方面燕耿，這些特征的區(qū)分能力使其成為視頻問題現(xiàn)有特征的一個很好的替代方案。另一方面姜胖，它為C3D的緊湊和高效計算開辟了大規(guī)模視頻分析的機會誉帅。
他們的工作提取的通用性特征可以通過簡單的線性模型在低維的特征空間中，以低損耗的方式實現(xiàn)或接近不同視頻任務的最新結果谭期。

感受

該論文發(fā)表的團隊能夠把目前的研究成果考慮的很全面堵第，在方法應用上，把前人提出的方法進行整合隧出，提取特征中踏志，即應用考慮整幀內容，又結合3D卷積保存時間信息胀瞪。這些都是其他人考慮過的方法针余，但作者能夠大膽結合不同方法，創(chuàng)新性地提出自己的視頻通用特征信息凄诞。所以圆雁，做科學研究，首先要把當前的工作進度了解到帆谍，要站在巨人的肩膀上伪朽。

參考文獻
[1] S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neu-ral networks for human action recognition. IEEE TPAMI, 35(1):221–231, 2013. 2, 3
[2] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classi?cation with convo-lutional neural networks. In CVPR, 2014. 2, 3, 5, 6
[3] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2, 3, 5, 6, 7, 8
[4] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning deep features for scene recognition using places database. In NIPS, 2014. 2, 8

最后編輯于：2018.05.17 10:32:19

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市汛蝙，隨后出現(xiàn)的幾起案子烈涮，更是在濱河造成了極大的恐慌，老刑警劉巖窖剑，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件坚洽，死亡現(xiàn)場離奇詭異，居然都是意外死亡西土，警方通過查閱死者的電腦和手機讶舰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人跳昼，你說我怎么就攤上這事般甲。” “怎么了庐舟？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵欣除，是天一觀的道長。經(jīng)常有香客問我挪略，道長，這世上最難降的妖魔是什么滔岳？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任杠娱，我火速辦了婚禮，結果婚禮上谱煤，老公的妹妹穿的比我還像新娘摊求。我一直安慰自己，他們只是感情好刘离，可當我...
茶點故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布室叉。她就那樣靜靜地躺著，像睡著了一般硫惕。火紅的嫁衣襯著肌膚如雪茧痕。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天恼除，我揣著相機與錄音踪旷，去河邊找鬼。笑死豁辉，一個胖子當著我的面吹牛令野，可吹牛的內容都是我干的。我是一名探鬼主播徽级，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼气破，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了餐抢？” 一聲冷哼從身側響起现使，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎弹澎，沒想到半個月后朴下，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡苦蒿，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年殴胧，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡团滥，死狀恐怖竿屹，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情灸姊，我是刑警寧澤拱燃，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站力惯，受9級特大地震影響碗誉，放射性物質發(fā)生泄漏。R本人自食惡果不足惜父晶，卻給世界環(huán)境...
茶點故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一哮缺、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧甲喝，春花似錦尝苇、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案糠溜，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至直撤，卻和暖如春非竿，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背谊惭。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工汽馋，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人圈盔。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓豹芯，卻偏偏與公主長得像，于是被迫代替她去往敵國和親驱敲。傳聞我的和親對象是個殘疾皇子铁蹈，可洞房花燭夜當晚...
茶點故事閱讀 42,834評論 2贊 345

06組-Learning Spatiotemporal Features with 3D Convolutional Networks

06組-Learning Spatiotemporal Features with 3D Convolutional Networks

背景

相關工作

本文貢獻

C3D優(yōu)勢

學習時空特征

數(shù)據(jù)集的設計

使用3D卷積神經(jīng)網(wǎng)絡學習時空特征

C3D應用場景

動作識別

動作相似性標注

動態(tài)場景識別

總結

感受

推薦閱讀更多精彩內容