筆記人:吉靖宇
論文題目:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
作者:蘇黎世聯(lián)邦理工大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室钦勘,瑞士
摘要: 卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)識(shí)別領(lǐng)域中的圖像識(shí)別領(lǐng)域已經(jīng)取得了巨大成功寒砖,但是,對(duì)于視頻中的動(dòng)作識(shí)別的泻红,卷積神經(jīng)網(wǎng)絡(luò)比起傳統(tǒng)的方法佛析,優(yōu)勢(shì)沒(méi)有那么明顯。這篇文章的目標(biāo)是發(fā)現(xiàn)一種原則燎潮,如何設(shè)計(jì)一種有效的卷積神經(jīng)網(wǎng)絡(luò)用于視頻動(dòng)作識(shí)別灰嫉,以及在給定的有限訓(xùn)練樣本的前提下如何學(xué)習(xí)這些模型。我們的第一個(gè)貢獻(xiàn)是時(shí)間分割網(wǎng)絡(luò)(TSN)遇绞,一種特定的基于長(zhǎng)范圍時(shí)間結(jié)構(gòu)的用于視頻動(dòng)作識(shí)別的網(wǎng)絡(luò)键袱。這個(gè)模型結(jié)合了稀疏時(shí)間采樣策略和視頻等級(jí)監(jiān)督方法,可以使用整體的動(dòng)作視頻進(jìn)行便捷和有效的學(xué)習(xí)摹闽。另外的貢獻(xiàn)就是蹄咖,我們?cè)赥SN的幫助下在一系列數(shù)據(jù)集的訓(xùn)練中獲得了表現(xiàn)良好的卷積神經(jīng)網(wǎng)絡(luò)。我們的方法在HMDB51(69.4%)和UCF101(94.2%)數(shù)據(jù)集上達(dá)到了當(dāng)前最好的性能钩骇。同時(shí)對(duì)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型做了可視化分析比藻,定性證明了TSN網(wǎng)絡(luò)與提出的良好實(shí)踐的效果
關(guān)鍵字:動(dòng)作識(shí)別;時(shí)間分割網(wǎng)絡(luò)倘屹;良好實(shí)踐
一银亲、簡(jiǎn)介
視頻動(dòng)作識(shí)別吸引了學(xué)術(shù)界大量的關(guān)注[1-6],視頻動(dòng)作識(shí)別有及其廣泛的應(yīng)用纽匙,比如安全領(lǐng)域务蝠,行為分析領(lǐng)域。在動(dòng)作識(shí)別領(lǐng)域烛缔,有兩個(gè)重要且互為補(bǔ)充的方面馏段,表現(xiàn)和動(dòng)作。一個(gè)識(shí)別系統(tǒng)的性能践瓷,很大程度上依賴于是否能夠提取和利用其中的相關(guān)信息院喜。然而,由于巨大的復(fù)雜性晕翠,提取這些信息是非平凡問(wèn)題喷舀。比如尺度的變化砍濒、視角的改變、相機(jī)的移動(dòng)硫麻。因此爸邢,設(shè)計(jì)一個(gè)有效的表示,可以解決以上問(wèn)題的同時(shí)完成分類拿愧。最近杠河,卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)[7]已經(jīng)取得了巨大的成功,在對(duì)于圖像中的目標(biāo)浇辜、場(chǎng)景券敌、復(fù)雜事件的分類中取得了可見的成果(8-11)。卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被引入奢赂,來(lái)解決基于視頻的動(dòng)作識(shí)別[12,1,13,14]陪白。深度卷積神經(jīng)網(wǎng)絡(luò)帶來(lái)了巨大的模型容量,同時(shí)可以學(xué)習(xí)到復(fù)雜的判別信息表示膳灶,從原始的視覺(jué)信息中,在大尺度有監(jiān)督數(shù)據(jù)集的幫助下立由。
然而轧钓,不同于圖像分類,端到端的深度卷積神經(jīng)網(wǎng)絡(luò)視頻動(dòng)作識(shí)別方面依然不能明顯優(yōu)于傳統(tǒng)的手工設(shè)計(jì)的特征
(未完待續(xù))