[文獻翻譯]Towards Good Practices for Very Deep Two-Stream ConvNets

摘要:深度卷積網(wǎng)絡(luò)已經(jīng)在靜態(tài)圖像目標識別中取得了了的巨大成功刊懈。 但是歌溉,對于視頻的動作識別,深度卷積網(wǎng)絡(luò)的改進不是那么明顯瓶颠。 我們認為這樣子的結(jié)果可能有兩個原因拟赊。 首先,與圖像中非常深的模型(例如VGGNet [13]粹淋,GoogLeNet [15])相比吸祟,當前的網(wǎng)絡(luò)體系結(jié)構(gòu)(例如,雙流ConvNets [12])相對較淺桃移,因此它們的建模能力受到其深度的限制屋匕。其次,更重要的可能是借杰,動作識別的訓練數(shù)據(jù)集與ImageNet數(shù)據(jù)集相比非常小过吻,因此很容易在訓練集上過擬合。

為了解決這些問題蔗衡,本文通過將最新的非常深層的架構(gòu)應(yīng)用于視頻領(lǐng)域從而提出了深層雙流ConvNet纤虽,用于動作識別。 但是绞惦,由于動作識別的規(guī)模很小逼纸,因此擴展并不容易。 我們設(shè)計了幾種非常好的深層雙流ConvNet訓練策略济蝉,即(i)對時空網(wǎng)絡(luò)進行預(yù)訓練杰刽,(ii)較小的學習率,(iii)更多的數(shù)據(jù)增強技術(shù)王滤,(iv)高隨機失活率贺嫂。 同時,我們將Caffe工具箱擴展到具有高計算效率和低內(nèi)存消耗的Multi-GPU實現(xiàn)中淑仆。 我們在UCF101數(shù)據(jù)集上驗證了深層雙流ConvNets的性能涝婉,其識別精度達到91.4%。

1介紹

人體動作識別已成為計算機視覺中的重要問題蔗怠,并引發(fā)了諸多研究興趣[12墩弯、16吩跋、19]。由于類內(nèi)差異大渔工,視頻分辨率低锌钮,視頻數(shù)據(jù)的維數(shù)大等原因,動作識別問題具有很大挑戰(zhàn)引矩。

在過去幾年中梁丘,見證了動作識別在視頻上的巨大進步[8、9旺韭、12氛谜、16、17区端、18值漫、19]。這些研究工作可以大致分為兩種類型织盼。 第一種算法專注于手工制作的局部特征和詞袋(BoVWs)表示杨何。 最成功的例子是提取改進的軌跡特征[16],并采用費舍爾矢量表示[11]沥邻。 第二種算法利用深度卷積網(wǎng)絡(luò)(ConvNets)從原始數(shù)據(jù)(例如RGB圖像或光流場)中學習視頻表示危虱,并以端到端的方式訓練識別系統(tǒng)。 最具競爭力的深度模型是雙流ConvNets [12]唐全。

但是埃跷,與圖像分類[7]不同,深層卷積網(wǎng)絡(luò)在這些傳統(tǒng)方法上并未產(chǎn)生重大改進邮利。 我們認為捌蚊,有兩種可能的原因可以解釋這個現(xiàn)象。 首先近弟,動作的概念比物體更復(fù)雜,并且與其他高級視覺概念相關(guān)挺智,例如交互對象祷愉,場景內(nèi)容,人體姿勢赦颇《客觀來說,更復(fù)雜的問題將需要更高復(fù)雜性的模型媒怯。 但是订讼,與圖像分類中的那些成功深層模型相比,當前的雙流ConvNets相對較淺(5個卷積層和3個全連接層)扇苞。 其次欺殿,與ImageNet數(shù)據(jù)集相比寄纵,動作識別數(shù)據(jù)集非常小[1]。 例如脖苏,UCF101數(shù)據(jù)集[14]僅包含13320個剪輯程拭。但是,這些深層卷積網(wǎng)絡(luò)總是需要大量的訓練樣本來調(diào)整網(wǎng)絡(luò)權(quán)重棍潘。

為了解決這些問題恃鞋,本文使用了深層雙流卷積網(wǎng)絡(luò)用于動作識別。深層雙流卷積網(wǎng)絡(luò)具有很強的建模能力亦歉,并且能夠處理復(fù)雜的動作分類恤浪。 但是,由于上述第二個問題肴楷,在如此小的數(shù)據(jù)集中訓練深層模型會產(chǎn)生過擬合問題水由,所以非常困難。我們提出了幾種好的方法阶祭,可以使深層雙流卷積網(wǎng)絡(luò)的訓練穩(wěn)定并減少過擬合的影響绷杜。 通過在動作數(shù)據(jù)集上訓練我們提出的深層卷積網(wǎng)絡(luò),我們能夠在UCF101數(shù)據(jù)集上實現(xiàn)SOTA濒募。鞭盟。 同時,我們將Caffe工具箱[4]擴展到多GPU實現(xiàn)中瑰剃,具有很高的效率和較低的內(nèi)存消耗齿诉。

本報告的其余部分安排如下。 在第2節(jié)中晌姚,我們詳細介紹了我們提出的深層雙流ConvNet粤剧,包括網(wǎng)絡(luò)體系結(jié)構(gòu),訓練細節(jié)挥唠,測試策略抵恋。我們在第3節(jié)中報告關(guān)于UCF101數(shù)據(jù)集的實驗結(jié)果。最后宝磨,在第4節(jié)中進行了總結(jié)弧关。

2深層雙流卷積網(wǎng)絡(luò)

在本節(jié)中,我們將對提出的方法進行詳細說明唤锉。 我們首先介紹深層雙流ConvNet的體系結(jié)構(gòu)世囊。 之后,我們介紹了訓練細節(jié)窿祥,這對于減少過擬合的影響非常重要株憾。 最后,我們描述了用于動作識別的測試策略晒衩。

2.1網(wǎng)絡(luò)架構(gòu)

網(wǎng)絡(luò)架構(gòu)對于深層ConvNets的設(shè)計至關(guān)重要嗤瞎。 在過去的幾年中墙歪,已經(jīng)提出了許多用于圖像分類的著名網(wǎng)絡(luò)結(jié)構(gòu),例如AlexNet [7]猫胁,ClarifaiNet [22]箱亿,GoogLeNet [15],VGGNet [13]等弃秆。 從AlexNet到VGGNet的改進過程中出現(xiàn)了一些趨勢:較小的卷積內(nèi)核届惋,較小的卷積步幅和更深的網(wǎng)絡(luò)體系結(jié)構(gòu)。 已證明這些趨勢對改善對象識別性能有效菠赚。 但是脑豹,它們在視頻領(lǐng)域中對動作識別的影響尚未得到充分研究。 在這里衡查,我們選擇兩種最新的成功網(wǎng)絡(luò)結(jié)構(gòu)來設(shè)計深層雙流流ConvNet瘩欺,即GoogLeNet和VGGNet。

GoogLeNet:它本質(zhì)上是一個名為Inception的深層卷積網(wǎng)絡(luò)體系結(jié)構(gòu)拌牲,其基本思想是Hebbian原理和多尺度處理俱饿。Inception網(wǎng)絡(luò)中的一個重要組件是Inception模塊。Inception模塊由彼此不同大小的多個卷積濾波器組成塌忽。為了加快計算效率拍埠,選擇了1×1卷積運算進行降維。GoogLeNet是一個22層的網(wǎng)絡(luò)土居,由相互堆疊的Inception模塊組成枣购,還穿插具有步幅為2的最大池化層,以將網(wǎng)格的分辨率減半擦耀。 更多細節(jié)可以在其原始論文中找到[15]棉圈。

VGGNet:它是一種新的卷積體系結(jié)構(gòu),具有較小的卷積大芯祢选(3×3)分瘾,較小的卷積步幅(1×1),較小的池化窗口(2×2)吁系,更深的結(jié)構(gòu)(最多19層)芹敌。VGGNet通過在較淺的基礎(chǔ)上構(gòu)建和預(yù)訓練較深的網(wǎng)絡(luò)結(jié)構(gòu)體系,系統(tǒng)地研究網(wǎng)絡(luò)深度對識別性能的影響垮抗。最后,針對ImageNet挑戰(zhàn)提出了兩個成功的網(wǎng)絡(luò)結(jié)構(gòu):VGG-16(13個卷積層和3個全連接的層)和VGG-19(16個卷積層和3個全連接的層)碧聪。 更多細節(jié)可以在其原文中找到[13]冒版。

深層雙流ConvNet。 遵循這些成功的對象識別架構(gòu)逞姿,我們將其調(diào)整為雙流ConvNets設(shè)計辞嗡,以進行視頻中的動作識別捆等,我們將其稱為深層雙流ConvNets。 我們根據(jù)經(jīng)驗研究GoogLeNet和VGG-16续室,設(shè)計深層雙流Con vNet栋烤。 空間網(wǎng)建立在單幀圖像(224×224×3)上,因此其結(jié)構(gòu)與圖像領(lǐng)域中對象識別的結(jié)構(gòu)相同挺狰。時間網(wǎng)的輸入是光流場(224×224×20)的10幀堆疊明郭,因此第一層中的卷積濾波器與圖像分類模型的卷積濾波器不同。

2.2網(wǎng)絡(luò)訓練

在這里丰泊,我們描述了如何在UCF101數(shù)據(jù)集上訓練深層雙流ConvNet薯定。UCF101數(shù)據(jù)集包含13320個視頻剪輯,并提供3個分組進行評估瞳购。 對于每個分組话侄,大約有10000個用于訓練的剪輯和3300個用于測試的剪輯。 由于訓練數(shù)據(jù)集非常小学赛,并且動作概念相對復(fù)雜年堆,因此訓練深層雙流ConvNets非常困難。 從我們的經(jīng)驗探索中盏浇,我們發(fā)現(xiàn)了用于訓練深層雙流Con vNet的幾種做法变丧,如下所述:

雙流ConvNet的預(yù)訓練:預(yù)訓練已證明在沒有足夠的訓練樣本時初始化深度Con vNet的有效方法。對于[12]中所示的空間網(wǎng)絡(luò)缠捌,我們選擇ImageNet模型作為網(wǎng)絡(luò)訓練的初始化锄贷。對于時間網(wǎng),其輸入形式是光流場曼月,它捕獲運動信息并且與靜態(tài)RGB圖像不同谊却。有趣的是,我們注意到通過使用ImageNet模型預(yù)訓練時間網(wǎng)絡(luò)哑芹,它仍然可以很好地工作炎辨。為了使這種預(yù)訓練合理,我們對光流場和ImageNet模型進行了一些修改聪姿。首先碴萧,我們提取每個視頻的光流場,并通過線性變換將光流場離散化為[0末购,255]的間隔破喻。 其次,由于時間網(wǎng)絡(luò)的輸入通道數(shù)與空間網(wǎng)絡(luò)的輸入通道數(shù)(20 vs. 3)不同盟榴,我們對通道第一層的ImageNet模型過濾器求平均曹质,然后將平均結(jié)果復(fù)制20次作為初始化時間網(wǎng)絡(luò)。

較低的學習率:當我們使用ImageNet模型對雙流ConvNets進行預(yù)訓練時,與[12]中的原始訓練相比羽德,我們使用的學習率較小几莽。具體來說,我們將學習率設(shè)置如下:

1對于時間網(wǎng)絡(luò)宅静,學習率從0.005開始章蚣,每10000次迭代降低到其1/10,在30,000次迭代時停止姨夹。

2對于空間網(wǎng)纤垂,學習率從0.001開始,每4,000個迭代降低到其1/10匀伏,在10,000個迭代時停止洒忧。

總體而言,學習率降低了3倍够颠。 同時熙侍,我們注意到,對于訓練深層雙流ConvNet履磨,它需要較少的迭代蛉抓。 我們分析這可能是由于使用ImageNet模型對網(wǎng)絡(luò)進行了預(yù)訓練。

更多數(shù)據(jù)增強技術(shù)剃诅。 已經(jīng)證明巷送,諸如隨機裁剪和水平翻轉(zhuǎn)的數(shù)據(jù)增強技術(shù)對于避免過擬合問題非常有效。 在這里矛辕,我們嘗試兩種新的數(shù)據(jù)增強技術(shù)來訓練深層雙流ConvNet笑跛,如下所示:

1我們設(shè)計了一個角落裁剪策略,這意味著我們只裁剪圖像的4個角和1個中心聊品。 我們發(fā)現(xiàn)飞蹂,如果使用隨機裁剪方法,則更有可能選擇靠近圖像中心的區(qū)域翻屈,并且訓練損耗會迅速下降陈哑,從而導(dǎo)致過擬合的問題。但是伸眶,如果我們明確地將裁剪限制在4個角或1個中心惊窖,則網(wǎng)絡(luò)輸入的變化將增加,這有助于減少過擬合的影響厘贼。

2我們使用多尺度裁剪方法來訓練深層雙流ConvNet界酒。 事實證明,多尺度表示對于提高ImageNet數(shù)據(jù)集上圖像識別的性能是有效的[13]嘴秸。 在這里盾计,我們將這種做法應(yīng)用于動作識別任務(wù)售担。 但是,與圖像識別相比署辉,我們提出了一種有效的實現(xiàn)方法[13]。 我們將輸入圖像尺寸固定為256×340岩四,并從{256,224,192,168}中隨機采樣裁剪寬度和高度哭尝。之后,我們將裁剪區(qū)域的大小調(diào)整為224×224剖煌。值得注意的是材鹦,這種裁剪策略不僅引入了多尺度增強,而且還引入了縱橫比增強耕姊。

高隨機失活率桶唐。類似于原始的雙流ConvNets [12],我們還為深度雙流ConvNets中的全連接層設(shè)置了較高的隨機失活率茉兰。 特別是尤泽,我們?yōu)闀r間網(wǎng)絡(luò)的全連接層設(shè)置了0.9和0.8的隨機失活率。 對于空間網(wǎng)规脸,我們?yōu)槿B接的層設(shè)置為0.9和0.9。

多GPU訓練。 在視頻動作識別任務(wù)中應(yīng)用深度學習模型的一大障礙是訓練時間過長铣除。 而且阱高,多個幀的輸入增加了用于存儲激活的內(nèi)存消耗。 我們通過在多個GPU上進行數(shù)據(jù)并行訓練來解決這些問題被因。 培訓系統(tǒng)由Caffe [4]和OpenMPI實現(xiàn)卿拴。 遵循[3]中使用的類似技術(shù),我們通過在運行fc層之前收集所有工作進程的激活來避免同步全連接(fc)層的參數(shù)梨与。 使用4個GPU堕花,VGGNet-16的訓練速度快3.7倍,GoogLeNet的訓練速度快4.0倍蛋欣。每個GPU所需的內(nèi)存減少4倍航徙。該系統(tǒng)是公開可用的。

2.3.網(wǎng)絡(luò)測試

為了與原始的雙流ConvNet [12]進行公平比較陷虎,我們遵循其動作識別的測試方案到踏。在測試時,我們分別采樣了25幀圖像或光流以測試空間和時間網(wǎng)絡(luò)尚猿。從這些選定的幀的每一個中窝稿,我們獲得深層雙流ConvNet的10個輸入,即4個角凿掂,1個中心及其水平翻轉(zhuǎn)伴榔。最終的預(yù)測得分是通過對采樣幀及其裁剪區(qū)域進行平均獲得的纹蝴。對于空間和時間網(wǎng)絡(luò)的融合,我們使用它們的預(yù)測得分的加權(quán)線性組合踪少,其中權(quán)重設(shè)置為時間網(wǎng)絡(luò)2和空間網(wǎng)1塘安。

圖片2.png

3實驗

數(shù)據(jù)集和實施細節(jié)。為了驗證提出的深層雙流ConvNet的有效性援奢,我們在UCF101[14]數(shù)據(jù)集上進行了實驗兼犯。UCF101數(shù)據(jù)集包含101個動作類別,每個類別至少有100個視頻剪輯集漾。整個數(shù)據(jù)集包含13320個視頻剪輯切黔,每個動作類別將其分為25組。我們遵循THUMOS13挑戰(zhàn)[5]的評估方案具篇,并采用三個訓練/測試單元進行評估纬霞。 我們報告了這三個部分中各類別的平均識別準確率。對于光流場的提取驱显,我們遵照TDD [19]的工作诗芜,并選擇TVL1光流算法[21]。 具體來說秒紧,在準確性和效率權(quán)衡之下我們使用OpenCV進行實現(xiàn)绢陌。

結(jié)果。我們在表1中報告了動作識別性能熔恢。我們比較了三種不同的網(wǎng)絡(luò)體系結(jié)構(gòu)脐湾,即ClarifaiNet,GoogLeNet和VGGNet16叙淌。從這些結(jié)果可以看出秤掌,更深的體系結(jié)構(gòu)可獲得更好的性能,而VGGNet-16性能最佳鹰霍。對于空間網(wǎng)絡(luò)闻鉴,VGGNet-16超過淺層網(wǎng)絡(luò)約5%,而對于時間網(wǎng)絡(luò)茂洒,VGGNet-16提升約為4%孟岛。 深層雙流ConvNets優(yōu)于原始的雙流ConvNets3.4%。

值得注意的是督勺,我們在THUMOS15動作識別挑戰(zhàn)[2]中的先前經(jīng)驗[20]中渠羞,我們已經(jīng)嘗試了深層雙流ConvNet,但是具有更深結(jié)構(gòu)的時間網(wǎng)絡(luò)卻無法產(chǎn)生良好的性能智哀,如表2所示次询。在此THUMOS15提交中,我們以原始雙流ConvNets[12]相同的方式訓練了深層雙流ConvNets而沒有使用那些前面提出的做法瓷叫。從兩個數(shù)據(jù)集上深層雙流ConvNets的不同性能屯吊,我們認為前面提出的良好做法非常有效地減少了過擬合的影響 送巡,由于(a)使用ImageNet預(yù)訓練時間網(wǎng)絡(luò);(b)使用更多的數(shù)據(jù)增強技術(shù)。

圖片1.png

對比盒卸。最后骗爆,我們將識別準確度與幾種最新方法進行比較,結(jié)果如表3所示蔽介。我們首先與手工特征如iDT[16]的Fisher向量表示法和深度學習的特征軌跡池化深度卷積描述符(TDD)[19]進行比較淮腾。 我們的結(jié)果比所有這些Fisher向量表示更好。 其次屉佳,我們將深層雙流ConvNet與其他深層網(wǎng)絡(luò)(如DeepNet [6])和遞歸雙流卷積網(wǎng)絡(luò)[9]進行比較。我們看到洲押,我們提出的深層模型優(yōu)于以前的模型武花,并且比最佳結(jié)果要好2.8%。

4結(jié)論

在這項工作中杈帐,我們評估了深層雙流ConvNet体箕,以進行動作識別。 由于行動識別數(shù)據(jù)集非常小挑童,我們提出了一些很好的實踐來訓練深層雙流ConvNet累铅。 通過我們精心設(shè)計的訓練策略,提出的深層雙流ConvNets在UCF101數(shù)據(jù)集上實現(xiàn)了91.4%的識別精度站叼。同時娃兽,我們將著名的Caffe工具箱擴展到具有高效率和低內(nèi)存消耗的多GPU實現(xiàn)中。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末尽楔,一起剝皮案震驚了整個濱河市投储,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌阔馋,老刑警劉巖玛荞,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異呕寝,居然都是意外死亡勋眯,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門下梢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來客蹋,“玉大人,你說我怎么就攤上這事怔球〗涝停” “怎么了?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵竟坛,是天一觀的道長闽巩。 經(jīng)常有香客問我钧舌,道長,這世上最難降的妖魔是什么涎跨? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任洼冻,我火速辦了婚禮,結(jié)果婚禮上隅很,老公的妹妹穿的比我還像新娘撞牢。我一直安慰自己,他們只是感情好叔营,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布屋彪。 她就那樣靜靜地躺著,像睡著了一般绒尊。 火紅的嫁衣襯著肌膚如雪畜挥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天婴谱,我揣著相機與錄音蟹但,去河邊找鬼。 笑死谭羔,一個胖子當著我的面吹牛华糖,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瘟裸,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼客叉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了景描?” 一聲冷哼從身側(cè)響起十办,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎超棺,沒想到半個月后向族,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡棠绘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年件相,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片氧苍。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡夜矗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出让虐,到底是詐尸還是另有隱情紊撕,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布赡突,位于F島的核電站对扶,受9級特大地震影響区赵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浪南,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一笼才、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧络凿,春花似錦骡送、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至怨愤,卻和暖如春昌渤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背憔四。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留般眉,地道東北人了赵。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像甸赃,于是被迫代替她去往敵國和親柿汛。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容