本文的原作者為MIT的Bolei Zhou等人原文地址
譯文:lowkeybin
摘要
時序推理是智能物種的基本能力柑晒,即隨著時間的推移將目標(biāo)或?qū)嶓w有意義的轉(zhuǎn)換聯(lián)系起來的能力。在本文中,我們將介紹一種有效且能解釋的網(wǎng)絡(luò)模型--時序網(wǎng)絡(luò)(the Temporal Relation Network(TRN))辫继,該模型能學(xué)習(xí)并推斷視頻中多尺度上幀的時序依賴問題惯殊。我們在最近三個基本需要依賴時序推理的數(shù)據(jù)集Something-Something、Jester和Charades上作行為識別來評估TRN網(wǎng)絡(luò)昌粤。我們的結(jié)果表面,提出的TRN網(wǎng)絡(luò)使卷積神經(jīng)網(wǎng)絡(luò)具有了出色的發(fā)現(xiàn)視頻中時序關(guān)系的能力啄刹。僅通過對視頻幀稀疏采樣涮坐,配備了TRN的網(wǎng)絡(luò)在Something-Something數(shù)據(jù)集上能準(zhǔn)確的預(yù)測人類與目標(biāo)的交互并在Jester數(shù)據(jù)集上識別不同的人體姿態(tài)有著相當(dāng)競爭力的表現(xiàn)。配備TRN的網(wǎng)絡(luò)在Charades數(shù)據(jù)集上識別常規(guī)行為也優(yōu)于雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)誓军。進一步分析表明袱讹,模型在視頻中學(xué)習(xí)到了直觀且可解釋的通用的視覺感知知識。
1.簡介
推理隨時間推移實體之間的關(guān)系的能力對于智能決策至關(guān)重要昵时。時序推理使智能物種能夠根據(jù)相對于過去的現(xiàn)在的情況來分析并推斷出接下來接下來可能發(fā)生的事捷雕。比如(圖1),給定一個時間的兩個觀察結(jié)果壹甥,人們能容易的識別出視覺世界中的兩個狀態(tài)之間的時序關(guān)系并推斷出一個視頻中兩幀之間發(fā)什么了什么救巷。
時序推理對行為識別至關(guān)重要,形成了一個時間步驟的組成部分句柠。一個單一的行為可以包括多種時序關(guān)系包括長時間尺度和短時間尺度關(guān)系浦译。例如短跑這個行為棒假,包含在起跑架上蹲著、在跑道上奔馳和在終點線撞線這樣的長時間尺度關(guān)系精盅,也包含手腳周期性揮舞的這種短時間尺度關(guān)系朽色。
視頻中的行為識別是計算機視覺的核心主題之一谭期。然而,由于適當(dāng)?shù)臅r間尺度[1]上描述的行為的模糊性,它仍然很難邢笙。很多視頻數(shù)據(jù)集悲关,比如UCF101[2]胆绊、Sport1M[3]和THUMOS[4],這些數(shù)據(jù)集中包含很多不需要對長期時間關(guān)系的推理也能被識別的行為:靜止幀和光流法足以識別這些帶有標(biāo)簽的行為间影。實際上,經(jīng)典的雙流卷積神經(jīng)網(wǎng)絡(luò)[5]和最近被提出的I3D網(wǎng)絡(luò)[6]都是基于幀和光流法的晴氨,它們在這些數(shù)據(jù)集上的行為識別性能都很好康嘉。
然而,卷積神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)和觀測結(jié)果都有限或者說根本的結(jié)構(gòu)是以變換和時間關(guān)系為特征而不是以某個實體[7,8]的出現(xiàn)為特征的情況下會表現(xiàn)很差枝哄。卷積神經(jīng)網(wǎng)絡(luò)推理時序關(guān)系且預(yù)測觀測結(jié)果發(fā)生了什么變化仍然是巨大的挑戰(zhàn)肄梨。圖1所示的這些例子。隨著時間的推移挠锥,網(wǎng)絡(luò)需要發(fā)掘通用的視覺感知知識众羡,這超過了使用靜態(tài)幀方法和流光法在目標(biāo)的外觀中所能發(fā)掘的。
在這項工作中蓖租,我們提出了一個簡單且可解釋的網(wǎng)絡(luò)模型--時序網(wǎng)絡(luò)(Temporal Relation Network(TRN))粱侣,它支持神經(jīng)網(wǎng)絡(luò)中的時序推理。該模型的靈感來自于[7]中提出的關(guān)系網(wǎng)絡(luò)蓖宦,但是TRN不是對空間進行建模齐婴,TRN的目標(biāo)是描述視頻中觀測結(jié)果的時序關(guān)系。因此稠茂,TRN能學(xué)習(xí)和發(fā)發(fā)掘多時間尺度上的可能的時序關(guān)系柠偶。TRN是一個通用且可擴展的模型,它可以與現(xiàn)有的任何CNN架構(gòu)一起以即插即用的方式使用主慰。我們應(yīng)用TRN裝配的網(wǎng)絡(luò)在最近的三個數(shù)據(jù)集上(Something-Something[9]嚣州、Jester[10]和Charades[11])來識別不同類型的行為,例如人與物體的交互和手勢共螺,但這些都是基于時序推理。裝配TRN的網(wǎng)絡(luò)對即使是離散的RGB幀也有很具有競爭力的預(yù)測結(jié)果情竹,帶來了超過基線的顯著改進藐不。因此,TRN為卷積神經(jīng)網(wǎng)絡(luò)提供的實用解決方案解決了實用時序推理的行為識別任務(wù)。
1.1相關(guān)工作
用于行為識別的卷積神經(jīng)網(wǎng)絡(luò)
視頻行為識別是計算機視覺的一個核心問題雏蛮,隨著對圖像識別任務(wù)有著最優(yōu)異性能的深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的崛起涎嚼,很多工作針對行為識別已經(jīng)設(shè)計了有效的深度卷積神經(jīng)網(wǎng)絡(luò)[3,5,6,14,15,16]。例如挑秉,在Sport1M數(shù)據(jù)集[3]上探索了在時間維度上融合RGB幀的各種方法法梯。提出了兩個流的CNN,其中一個靜態(tài)圖像流和另一個光流被提出來融合物體外觀和短期運動信息[5]犀概。3D卷積神經(jīng)網(wǎng)絡(luò)[15]實用3D卷積核從稠密的RGB幀序列中提取特征立哑。時間段網(wǎng)絡(luò)在不同時間段上采樣幀和光流以提取行為識別特征[16]。CNN+LSTM的模型實用CNN網(wǎng)絡(luò)來提取幀的特征并實用LSTM網(wǎng)絡(luò)來整合隨時間推移的特征姻灶,也用于識別視頻中的活動[14]铛绰。最近,I3D網(wǎng)絡(luò)[6]在兩個流的CNN網(wǎng)絡(luò)并在稠密的RGB和光流序列上采用3D卷積产喉,它在Kinetics數(shù)據(jù)集上有最優(yōu)異的性能[17]∥骊現(xiàn)有CNN網(wǎng)絡(luò)用于行為識別存在幾個重要的問題:1)依賴與光流的預(yù)先提取降低了識別系統(tǒng)的效率;2)鑒于連續(xù)幀中的冗余曾沈,密集幀的序列使用3D卷積在計算上使昂貴的这嚣;3)因為輸入網(wǎng)絡(luò)的序列幀通常限制為20到30幀之間,所以網(wǎng)絡(luò)很難在這些幀中學(xué)習(xí)到長期的時序關(guān)系塞俱。為了解決這些問題姐帚,提出的時序網(wǎng)絡(luò)稀疏的對幀進行采樣,然后學(xué)習(xí)它們的因果關(guān)系敛腌,這比密集采樣并對其進行卷積更有效卧土。我們表明配備TRN的網(wǎng)絡(luò)可以在多個時間尺度上有效的捕捉時序關(guān)系,并且對視頻幀進行稀疏采樣的方法由于密集采樣的方法像樊。
行為識別中的時序信息
對于許多現(xiàn)存視頻數(shù)據(jù)集的行為識別來說(如UCF01[2],Sport1M[3],THUMOS[4]和Kinetics[17])尤莺,靜態(tài)幀的外觀和短時間動作(如光流)是識別動作最重要的信息。因此生棍,諸如雙流網(wǎng)絡(luò)[5]和I3D網(wǎng)絡(luò)[6]的活動識別網(wǎng)絡(luò)被定制以捕獲密集幀的這些短期動態(tài)颤霎。因此,現(xiàn)有網(wǎng)絡(luò)不需要建立時間關(guān)系推理能力涂滴。另一方面友酱,最近通過眾包收集了各種視頻數(shù)據(jù)集,這些數(shù)據(jù)集側(cè)重于順序活動識別:Something-Something數(shù)據(jù)集[9]被收集用于通用人 - 對象交互柔纵。它有視頻課程缔杉,如“將東西放入某物”,“推送某物”搁料,甚至“假裝打開某物而不實際打開它”或详。 Jester數(shù)據(jù)集[10]是另一個最近用于手勢識別的視頻數(shù)據(jù)集系羞。視頻由眾包工作者錄制,執(zhí)行27種手勢霸琴,如“向上翻閱”椒振,“向左滑動”和“逆時針轉(zhuǎn)動手”。 Charades數(shù)據(jù)集也是一個高級人類活動數(shù)據(jù)集梧乘,通過要求群眾工作人員執(zhí)行一系列家庭活動然后記錄自己來收集視頻[11]澎迎。為了識別這三個數(shù)據(jù)集中的復(fù)雜活動,將時間關(guān)系推理整合到網(wǎng)絡(luò)中至關(guān)重要选调。此外夹供,許多以前的作品使用詞袋,運動原子或動作語法模擬視頻的時間結(jié)構(gòu)学歧,以進行動作識別和檢測[18,19,20,21,22]罩引。我們不是手動設(shè)計時間結(jié)構(gòu),而是使用更通用的結(jié)構(gòu)來學(xué)習(xí)端到端訓(xùn)練中的時間關(guān)系枝笨。關(guān)于在視頻中建立因果關(guān)系的一項相關(guān)工作是[23]袁铐。 [23]使用雙流暹羅網(wǎng)絡(luò)來學(xué)習(xí)兩幀之間的變換矩陣,然后使用強力搜索來推斷動作類別横浑。因此計算成本很高剔桨。我們的TRN更有效地集成了培訓(xùn)和測試中的多幀信息。
關(guān)系推理和直覺物理
關(guān)系推理與直覺物理徙融。最近洒缀,關(guān)系推理模塊已被提出用于具有超人性能的視覺問答[7]。我們的工作受到這項工作的啟發(fā)欺冀,但我們專注于對視頻中的多尺度時間關(guān)系進行建模树绩。在機器人自我監(jiān)督學(xué)習(xí)領(lǐng)域,已經(jīng)提出了許多模型來學(xué)習(xí)幀之間的直觀物理學(xué)隐轩。給定初始狀態(tài)和目標(biāo)狀態(tài)饺饭,使用具有強化學(xué)習(xí)的逆動力學(xué)模型來推斷對象狀態(tài)之間的轉(zhuǎn)換[24]。物理相互作用和觀察也用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[25]职车。時間對比網(wǎng)絡(luò)用于從第三人視頻觀察中自我監(jiān)督模仿對象操作[26]瘫俊。我們的工作旨在通過監(jiān)督學(xué)習(xí)環(huán)境學(xué)習(xí)視頻中的各種時間關(guān)系。所提出的TRN可以擴展到用于機器人對象操縱的自我監(jiān)督學(xué)習(xí)悴灵。
2.時序關(guān)系網(wǎng)絡(luò)
在本節(jié)中扛芽,我們將介紹時態(tài)關(guān)系網(wǎng)絡(luò)的框架。 它很簡單积瞒,可以很容易地插入到任何現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中川尖,以實現(xiàn)時間關(guān)系推理。 在后面的實驗中茫孔,我們展示了配備TRN的網(wǎng)絡(luò)發(fā)現(xiàn)可解釋的視覺常識知識空厌,以識別視頻中的活動庐船。
2.1定義時序關(guān)系
受視覺問答[7]的關(guān)系推理模型的啟發(fā),我們將下面的復(fù)合函數(shù)定義為成對的時序關(guān)系:
其中李破,輸入為視頻V中被選取的有序視頻幀記作V={f1,f2,f3,...,fn},其中fi代表視頻中的第i幀的表示宠哄,比如說某個標(biāo)準(zhǔn)CNN的輸出。函數(shù)h和g融合了不同有序幀的特征嗤攻。這里我們簡單地使用分別具有參數(shù)φ和θ的多層感知機(MLP)毛嫉。為了高效的計算,我們沒有添加所有組合對妇菱,而是統(tǒng)一對幀i和j進行采樣并對每對進行排序承粤。
我們進一步將2幀時間關(guān)系的復(fù)合函數(shù)擴展到更高的幀關(guān)系,例如下面的3幀關(guān)系函數(shù):
其中幀數(shù)總和超過已經(jīng)統(tǒng)一采樣和排序的幀i闯团,j辛臊,k的集合。
2.2多尺度時序關(guān)系
為了捕捉多時間尺度上的時序關(guān)系房交,我們使用下面的復(fù)合函數(shù)來累計不同尺度上的幀關(guān)系:
每個關(guān)系項Td捕獲d個有序幀之間的時序關(guān)系彻舰。每個Td都有自己獨立的函數(shù)h和g。請注意候味,對于每個Td的任何給定d幀樣本刃唤,所有時序關(guān)系函數(shù)都是端到端的可區(qū)分的,因此它們都可以與用于提取每個視頻幀特征的CNN一起訓(xùn)練白群。整個網(wǎng)絡(luò)框架如圖2所示尚胞。
2.3有效的訓(xùn)練和測試
當(dāng)我們訓(xùn)練一個多尺度時序網(wǎng)絡(luò)時,我們可以通過為視頻的每個Td項選擇不同的d幀來對總和進行采樣川抡。然而辐真,我們使用了一種能顯著減小計算量的采樣方案。首先崖堤,我們從視頻的N個片段中均勻的采樣一組N幀侍咱,VN?V,并使用VN來計算TN(V)密幔。然后楔脯,對于每個d<N,我們選擇d幀的k個隨機下采樣Vkd?VN胯甩。這些被用于計算每個Td(V)的d幀關(guān)系昧廷。這允許僅在N幀上運行CNN的同時對KN個時序關(guān)系進行采樣堪嫂,且所有部分時端到端一起訓(xùn)練的。
在測試時木柬,我們可以將配備TRN的網(wǎng)絡(luò)與隊列相結(jié)合皆串,以非常有效地處理流視頻。隊列用于緩存從視頻采樣的等長幀的提取的CNN特征眉枕,然后將這些特征進一步組合成不同的關(guān)系元組恶复,其進一步相加以預(yù)測活動。 CNN特征僅從關(guān)鍵幀中提取一次然后排隊速挑,因此配備TRN的網(wǎng)絡(luò)能夠在桌面上實時運行以處理來自網(wǎng)絡(luò)攝像頭的流式視頻谤牡。
3.實驗
我們在各種行為識別任務(wù)上評估配備TRN的網(wǎng)絡(luò)。對于識別依賴于時間關(guān)系推理的行為姥宝,配備TRN的網(wǎng)絡(luò)大幅度的優(yōu)于沒有配備TRN的基準(zhǔn)網(wǎng)絡(luò)翅萤。我們在用于人類交互識別的Something-Something數(shù)據(jù)集[9]和用于手勢識別的Jester數(shù)據(jù)集上獲得了極具競爭力的結(jié)果[10]。配備TRN的網(wǎng)絡(luò)還在Charades數(shù)據(jù)集[11]中獲得了活動分類的競爭結(jié)果腊满,優(yōu)于僅使用稀疏采樣的RGB幀的Flow + RGB集合模型[27,11]套么。
三個數(shù)據(jù)集的統(tǒng)計:Something-Something數(shù)據(jù)集(Something-V1 [9]和Something-V2 [28]的統(tǒng)計數(shù)據(jù),其中Something-V2是2018年7月初數(shù)據(jù)集的第二個版本)[9,28]糜烹,Jester數(shù)據(jù)集[10]和Charades數(shù)據(jù)集[11]在表1中列出违诗。所有三個數(shù)據(jù)集都是來自網(wǎng)絡(luò)標(biāo)注(crowd-sourced)的,其中通過要求來自網(wǎng)絡(luò)標(biāo)注(crowd-sourced)的工作者記錄自己執(zhí)行指示行為來收集視頻疮蹦。與UCF101和Kinetics中的Youtube-type視頻不同诸迟,來自網(wǎng)絡(luò)標(biāo)注視頻(crowd-sourced)中的每個行為通常都有明確的開始和結(jié)束,強調(diào)時間關(guān)系推理的重要性愕乎。
3.1網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練
用于提取圖像特征的網(wǎng)絡(luò)在視覺識別任務(wù)中起著重要作用[29]。來自ResNet [30]等更深層網(wǎng)絡(luò)的功能通常表現(xiàn)更好感论。我們的目標(biāo)是評估TRN模塊在視頻中進行時間關(guān)系推理的有效性绅项。因此,我們在所有實驗中將基礎(chǔ)網(wǎng)絡(luò)架構(gòu)固定為相同比肄,并比較CNN模型在有和沒有被提出的的TRN模塊的情況下的性能快耿。
我們采用了在[31]中使用的ImageNet上預(yù)先進行的批量標(biāo)準(zhǔn)化(BN-Inception)的初始化,因為它在準(zhǔn)確性和效率之間取得了平衡芳绩。我們遵循部分BN的訓(xùn)練策略(凍結(jié)除第一個之外的所有批量標(biāo)準(zhǔn)化層)和在[16]中使用的全局池之后的退出掀亥。對于所有三個數(shù)據(jù)集上的訓(xùn)練模型,我們保持MultiScale TRN模塊的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練超參數(shù)相同妥色。我們在實驗中將k = 3設(shè)置為每個關(guān)系模塊中累積關(guān)系三元組的數(shù)量搪花。 gφ只是一個雙層MLP,每層256個單位,而hφ是一個單層MLP撮竿,單位數(shù)與類號相匹配吮便。給定幀的CNN特征是來自BN-Inception的全局平均合并層(在最終分類層之前)的激活。鑒于BN-Inception作為基礎(chǔ)CNN幢踏,在單個Nvidia Titan Xp GPU上的100個訓(xùn)練時期內(nèi)髓需,訓(xùn)練可以在不到24小時內(nèi)完成。在多尺度TRN中惑折,我們包括從2幀TRN到8幀TRN的所有TRN模塊(因此在方程式3中N = 8)授账,因為包括更高幀的TRN帶來了少量的改進并降低了效率。
3.2Something-Something數(shù)據(jù)集上的結(jié)果
Something-Something是最近用于人 - 對象交互識別的視頻數(shù)據(jù)集惨驶。有174個類,一些模糊的活動類別具有挑戰(zhàn)性敛助,例如“把某個東西撕成兩半”與“把某個東西撕一點”粗卜,“將某些內(nèi)容顛倒過來”與“假裝顛倒過來”。我們可以看到纳击,對象的時間關(guān)系和變換而不是對象的外觀表征了數(shù)據(jù)集中的活動续扔。
表2a中列出了Something-V1和Something-V2數(shù)據(jù)集的驗證集和測試集的結(jié)果』朗基線是在從每個視頻中隨機選擇的單幀上訓(xùn)練的基礎(chǔ)網(wǎng)絡(luò)纱昧。具有TRN的網(wǎng)絡(luò)大幅超越單幀基線。我們通過簡單地對來自任何給定視頻的兩個流的預(yù)測概率進行平均來構(gòu)建雙流TRN堡赔。 雙流TRN進一步將Something-v1和Something-v2的驗證集的準(zhǔn)確度分別提高到42.01%和55.52%识脆。注意,我們發(fā)現(xiàn)TSN中使用的對幀進行平均池化的光流[16]獲得了比提出的時間關(guān)系池化更好的得分善已,因此我們在光流量流上使用8幀TSN灼捂,得到31.63%和46.41%分別在Something-V1和Something-V2的驗證集上。我們在測試集上進一步提交MultiScale TRN和2流TRN預(yù)測换团,結(jié)果如表2.a所示悉稠。
我們將TRN與TSN [16]進行比較,以驗證時間順序的重要性艘包。 TSN不是連接時間幀的特征的猛,而是簡單地平均深度特征,以便模型僅捕獲特征中的模式的共現(xiàn)而不是時間排序想虎。我們保持所有訓(xùn)練條件相同卦尊,并改變兩個模型使用的幀數(shù)。如表2b所示磷醋,我們的模型大大超過了TSN猫牡。該結(jié)果顯示了幀順序?qū)r間關(guān)系推理的重要性。我們還看到該關(guān)系中包含的其他框架為TRN帶來了進一步的顯著改進邓线。
3.3Jester和Charades數(shù)據(jù)集上的結(jié)果
我們進一步評估Jester數(shù)據(jù)集上配備TRN的網(wǎng)絡(luò)瑰抵,Jester是一個用于手勢識別的具有27個類的視頻數(shù)據(jù)集。表3a中列出了Jester數(shù)據(jù)集驗證集的結(jié)果器联。 表3b中列出了測試集的結(jié)果以及與頂部方法的比較二汛。 MultiScale TRN再次實現(xiàn)了競爭性能,Top1精度接近95%拨拓。
我們在最近的Charades數(shù)據(jù)集上評估MultiScale TRN以進行日常行為識別肴颊。結(jié)果列于表4.我們的方法優(yōu)于各種方法,如雙流網(wǎng)絡(luò)和C3D [11]渣磷,以及最近的異步時域(TempField)方法[27]婿着。
三個數(shù)據(jù)集上的多尺度TRN的定性預(yù)測結(jié)果如圖3所示。圖3中的示例表明醋界,TRN模型是因為有為了成功預(yù)測所必須的整體時序序列幀竟宋,才有正確的識別動作的能力。例如形纺,逆時針轉(zhuǎn)動類別在反向顯示時將采用不同的類別標(biāo)簽丘侠。此外,成功預(yù)測個體假裝執(zhí)行動作的類別(例如逐样,“假裝將東西放入某物”蜗字,如第二行所示)表明網(wǎng)絡(luò)可以捕捉多個尺度的時間關(guān)系,其中短段中包含的幾個較低級別的動作傳達了關(guān)于整個活動類的關(guān)鍵語義信息官研。
這一出色的表現(xiàn)證明了TRN對時間關(guān)系推理的有效性及其在不同數(shù)據(jù)集中的強大泛化能力秽澳。
3.4TRN中的可解釋的視覺通用感知知識
與先前的視頻分類網(wǎng)絡(luò)(如C3D [15]和I3D [6])相比妄讯,所提出的TRN的一個獨特屬性是TRN具有更多可解釋的結(jié)構(gòu)。 在本節(jié)中酷宵,我們將通過解決這些時間推理任務(wù)來更深入地分析TRN所學(xué)習(xí)的視覺通用知識亥贸。 我們探討以下四個部分:
視頻代表幀通過TRN投票來識別一個行為
直覺上,一個人類觀察者能通過選取一小組視頻代表幀來捕捉一個行為的本質(zhì)浇垦。那么對于被訓(xùn)練用于識別行為的模型是否也適用呢炕置?為了獲得每個TRN的代表幀序列,我們首先從視頻計算等距幀的特征,然后隨機組合它們以生成不同的幀關(guān)系元組并將它們傳遞到TRN中默垄。最后我們用不同TRN的響應(yīng)對關(guān)系元組進行排名。圖4顯示了由不同TRN投票產(chǎn)生的頂級代表幀來識別同一視頻中的一個行為甚纲。我們可以看到TRN學(xué)習(xí)了表征行為的時序關(guān)系口锭。對于相對簡單的操作,單幀足以在正確的操作中建立一定程度的置信度介杆,但在存在轉(zhuǎn)換時容易出錯鹃操。 2幀TRN選取最能描述變換的兩幀。同時春哨,對于更加困難的活動類別荆隘,例如“假裝戳東西”,兩幀不足以讓人類觀察者區(qū)分悲靴。類似地臭胜,網(wǎng)絡(luò)需要TRN中的附加幀以正確識別行為。
因此癞尚,代表幀的進展及其相應(yīng)的類別預(yù)測告訴我們時間關(guān)系如何幫助模型推理更復(fù)雜的行為。一個特別的例子是圖4中的最后一個視頻:單個框架給出的動作上下文 - 一個靠近書的手 - 足以將頂部預(yù)測縮小到一個定性合理的動作乱陡,展開一些東西浇揩。類似的兩幀關(guān)系略微增加了初始預(yù)測的概率,盡管這兩個幀對于甚至人類觀察者來說都不足以做出正確的預(yù)測『┑撸現(xiàn)在胳徽,三個相關(guān)關(guān)系開始突出顯示Something-Somethings假裝類別的模式特征:初始幀非常類似于某個動作,但后面的幀與該動作的完成不一致爽彤,就像它從未發(fā)生過一樣养盗。這種關(guān)系有助于模型將其預(yù)測調(diào)整到正確的類。最后适篙,個人手在4幀關(guān)系的第三幀中的向上運動進一步增加了場景的預(yù)期和觀察到的最終狀態(tài)之間的不一致;類似于動作的動作似乎發(fā)生而對對象沒有影響往核,因此,鞏固了對正確的類預(yù)測的信心嚷节。
視頻的時間對齊
觀察到TRN識別的代表幀在一個動作類別的不同實例之間是一致的,這表明TRN非常適合于需要時間上將視頻彼此對齊的任務(wù)效斑。在這里非春,我們希望通過建立幀序列之間的對應(yīng)關(guān)系來同步多個視頻中的動作。給定相同動作的幾個視頻實例,我們首先為每個視頻選擇最具代表性的幀奇昙,并使用它們的幀索引作為“地標(biāo)”护侮,時間錨點。然后敬矩,我們改變兩個連續(xù)錨點之間的視頻片段的幀速率概行,使得所有單個視頻同時到達錨點。圖5顯示了對齊視頻的樣本弧岳。我們可以看到時間關(guān)系捕獲了動作的不同階段凳忙。時間對齊也是我們的TRN模型的獨家應(yīng)用,這是以前的視頻網(wǎng)絡(luò)3D卷積網(wǎng)絡(luò)或雙流網(wǎng)絡(luò)無法完成的禽炬。
行為識別中時間順序的重要性
為了驗證幀的時間順序?qū)τ谛袨樽R別的重要性柳恐,我們進行了一個實驗,以便在訓(xùn)練TRN時按時間順序和隨機順序比較場景和輸入幀热幔,如圖6a所示乐设。為了訓(xùn)練混洗的TRN,我們隨機地改變關(guān)系模塊中的幀绎巨。 在Something-Something數(shù)據(jù)集的顯著差異顯示了時間順序在行為識別中的重要性近尚。更有趣的是,我們在UCF101數(shù)據(jù)集[2]上重復(fù)相同的實驗场勤,并觀察到有序幀和混洗幀之間沒有區(qū)別戈锻。這表明UCF101中Youtube類型視頻的活動識別不一定需要時間推理能力,因為沒有那么多偶然關(guān)系與已經(jīng)在進行的活動相關(guān)聯(lián)和媳。
為了進一步研究時間排序如何影響TRN中的活動識別格遭,我們檢查并繪制了顯示在Something-Something數(shù)據(jù)集中繪制的有序和混洗輸入之間類別準(zhǔn)確度差異最大的類別,如圖6b所示留瞳。一般而言拒迅,具有強烈“方向性和大型單向運動的行為,例如”向下移動“撼港,似乎從保留正確的時間順序中獲益最多坪它。這一觀察結(jié)果與連續(xù)運動的破壞和改變視頻幀的潛在后果的觀點一致,可能會使人類觀察者感到困惑帝牡,因為這會違背我們直觀的物理概念往毡。
有趣的是,如果在某些情況下完全受到懲罰靶溜,那么對于相對靜態(tài)動作的混亂幀的懲罰就不那么嚴(yán)重了开瞭,其中幾個類別略微受益于改組輸入懒震,正如“推不能滾動到傾斜表面的東西”所觀察到的那樣留在原處。這里嗤详,簡單地學(xué)習(xí)幀的重合而不是時間變換可能足以使模型區(qū)分相似的活動并進行正確的預(yù)測个扰。特別是在具有挑戰(zhàn)性的模糊情況下,例如“假裝扔?xùn)|西”葱色,其中釋放點部分或完全模糊不清递宅,破壞強烈的“運動感”可能會使模型預(yù)測偏離可能的替代方案,“拋出某些東西”苍狰,經(jīng)常但是由有序模型錯誤地選擇办龄,從而導(dǎo)致該動作的準(zhǔn)確性的奇怪差異。
TSN和TRN之間的區(qū)別在于使用不同的幀特征池化策略,其中使用時間關(guān)系(TR)池化的TRN強調(diào)捕獲幀的時間依賴性材失,而TSN僅使用平均池化來忽略時間順序撩银。我們詳細(xì)評估了兩個池化策略,如表5所示豺憔。使用平均池化和TR池化的性能差異實際上反映了視頻數(shù)據(jù)集中時間順序的重要性。測試數(shù)據(jù)集按視頻源分類够庙,前三個是Youtube視頻恭应,另外三個是來自AMT的網(wǎng)絡(luò)標(biāo)注視頻≡耪#基礎(chǔ)CNN是BNInception昼榛。兩種模型都使用8幀。有趣的是剔难,具有平均池化和TR池化的模型在Youtube視頻上實現(xiàn)了類似的準(zhǔn)確性胆屿,因此識別Youtube視頻不需要太多的時間順序推理,這可能是由于隨機剪裁的Youtube視頻中的活動通常沒有明確的行動開始或結(jié)束偶宫。另一方面非迹,網(wǎng)絡(luò)標(biāo)注視頻只有一個具有明顯開始和結(jié)束的行為,因此時間關(guān)系池化帶來了顯著的改善纯趋。
行為相似性的t-SNE可視化
圖7顯示了用于嵌入來自單幀基線西剥,3幀TRN和5幀TRN的高級特征對驗證集中15個最頻繁行為視頻的t-SNE可視化。 我們可以看到亿汞,2幀和5幀TRN的特征可以更好地區(qū)分活動類別瞭空。 我們還觀察了可視化圖中類別之間的相似性。 例如疗我,“將某些東西分成兩部分”非常類似于“稍微撕掉一些東西”咆畏,類別“折疊某物”,“展開某物”碍粥,“拿著東西”鳖眼,“拿東西超過某物”聚集在一起。
提前行為識別
在行為發(fā)生或完全發(fā)生之前盡早識別行為或甚至預(yù)測和預(yù)測行為是行為識別中具有挑戰(zhàn)性但未被探索的問題枕面。在這里愿卒,我們評估我們的TRN模型在提前識別行為時,僅給出每個驗證視頻中的前25%和50%的幀潮秘。結(jié)果顯示在表6中琼开。為了比較,我們還包括單幀基線枕荞,其被訓(xùn)練在來自視頻的隨機采樣的單個幀上柜候。我們看到TRN可以使用學(xué)習(xí)到的時序關(guān)系來預(yù)測行為。隨著接收到更多有序幀躏精,性能會提高渣刷。圖8顯示了僅使用視頻的前25%和50%幀預(yù)測活動的一些示例。對這些例子的定性評估表明矗烛,盡管給予即使對于人類觀察者來說也具有高度不確定性的任務(wù)辅柴,僅對初始幀進行的模型預(yù)測確實可以作為非常合理的預(yù)測。
4.總結(jié)
我們提出了一個簡單且可解釋的網(wǎng)絡(luò)模型(名叫時序關(guān)系網(wǎng)絡(luò)(TRN))能對視頻使用神經(jīng)網(wǎng)絡(luò)進行時序關(guān)系推理葛闷。我們使用最近幾個數(shù)據(jù)集來評估提出的TRN并公布了僅使用離散幀的完整結(jié)果。最后牡拇,我們展示了TRN模型發(fā)現(xiàn)的視頻中的通用視覺感知知識魁瞪。
參考文獻
- Sigurdsson, G.A., Russakovsky, O., Gupta, A.: What actions are needed for un- derstanding human actions in videos? arXiv preprint arXiv:1708.02696 (2017)
- Soomro, K., Zamir, A.R., Shah, M.: Ucf101: A dataset of 101 human actions classes from videos in the wild. Proc. CVPR (2012)
- Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., Fei-Fei, L.: Large- scale video classification with convolutional neural networks. In: Proc. CVPR. (2014)
- Gorban, A., Idrees, H., Jiang, Y., Zamir, A.R., Laptev, I., Shah, M., Sukthankar, R.: Thumos challenge: Action recognition with a large number of classes. In: CVPR workshop. (2015)
- Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recog- nition in videos. In: In Advances in Neural Information Processing Systems. (2014) 568–576
- Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. arXiv preprint arXiv:1705.07750 (2017)
- Santoro, A., Raposo, D., Barrett, D.G., Malinowski, M., Pascanu, R., Battaglia, P., Lillicrap, T.: A simple neural network module for relational reasoning. arXiv preprint arXiv:1706.01427 (2017)
- Lake, B.M., Ullman, T.D., Tenenbaum, J.B., Gershman, S.J.: Building machines that learn and think like people. Behavioral and Brain Sciences (2016) 1–101
- Goyal, R., Kahou, S., Michalski, V., Materzy′nska, J., Westphal, S., Kim, H., Haenel, V., Fruend, I., Yianilos, P., Mueller-Freitag, M., et al.: The” something something” video database for learning and evaluating visual common sense. Proc. ICCV (2017)
- : Twentybn jester dataset: a hand gesture dataset. https://www.twentybn.com/datasets/jester (2017)
- Sigurdsson, G.A., Varol, G., Wang, X., Farhadi, A., Laptev, I., Gupta, A.: Hol- lywood in homes: Crowdsourcing data collection for activity understanding. In: European Conference on Computer Vision, Springer (2016) 510–526
- Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con- volutional neural networks. In: Advances in neural information processing systems. (2012) 1097–1105
- Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., Oliva, A.: Learning deep features for scene recognition using places database. In: Advances in neural information processing systems. (2014) 487–495
- Donahue, J., Anne Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., Darrell, T.: Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2015) 2625–2634
- Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotem- poral features with 3d convolutional networks. In: Proc. CVPR. (2015)
- Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X., Van Gool, L.: Temporal segment networks: Towards good practices for deep action recognition. In: Proc. ECCV. (2016)
- Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., et al.: The kinetics human action video dataset. arXiv preprint arXiv:1705.06950 (2017)
- Gaidon, A., Harchaoui, Z., Schmid, C.: Temporal localization of actions with actoms. IEEE transactions on pattern analysis and machine intelligence 35(11) (2013) 2782–2795
- Pirsiavash, H., Ramanan, D.: Parsing videos of actions with segmental grammars. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recog- nition. (2014) 612–619
- Wang, H., Schmid, C.: Action recognition with improved trajectories. In: Proc. ICCV. (2013) 3551–3558
- Gaidon, A., Harchaoui, Z., Schmid, C.: Activity representation with motion hier- archies. International journal of computer vision 107(3) (2014) 219–238
- Wang, L., Qiao, Y., Tang, X.: Mofap: A multi-level representation for action recognition. International Journal of Computer Vision 119(3) (2016) 254–271
- Wang, X., Farhadi, A., Gupta, A.: Actions? transformations. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. (2016) 2658–2667
- Agrawal, P., Nair, A.V., Abbeel, P., Malik, J., Levine, S.: Learning to poke by pok- ing: Experiential learning of intuitive physics. In: Advances in Neural Information Processing Systems. (2016) 5074–5082
- Pinto, L., Gandhi, D., Han, Y., Park, Y.L., Gupta, A.: The curious robot: Learn- ing visual representations via physical interactions. In: European Conference on Computer Vision, Springer (2016) 3–18
- Sermanet, P., Lynch, C., Hsu, J., Levine, S.: Time-contrastive networks: Self- supervised learning from multi-view observation. arXiv preprint arXiv:1704.06888 (2017)
- Sigurdsson, G.A., Divvala, S., Farhadi, A., Gupta, A.: Asynchronous temporal fields for action recognition. (2017)
- Mahdisoltani, F., Berger, G., Gharbieh, W., Fleet, D., Memisevic, R.: Fine-grained video classification and captioning. arXiv preprint arXiv:1804.09235 (2018)
- Sharif Razavian, A., Azizpour, H., Sullivan, J., Carlsson, S.: Cnn features off- the-shelf: an astounding baseline for recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops. (2014)
- He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2016) 770–778
- Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: International Conference on Machine Learn- ing. (2015) 448–456