文章地址:《TEA: Temporal Excitation and Aggregation for Action Recognition》
代碼地址:暫無
該文章發(fā)表于CVPR2020蜘矢,文章認為對于視頻動作識別需要將視頻的short-range信息和long-range信息都利用起來狂男。所以文章提出了兩個模塊,motion excitation (ME) module用來提取short-range信息品腹, multiple temporal aggregation (MTA) module用來提取long-range信息岖食。
一、網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示
對于一個輸入視頻舞吭,首先將視頻等分為T份泡垃,然后從每一份中隨機抽取一幀析珊,將抽取出的T幀作為網(wǎng)絡(luò)的輸入。文章的模型是基于2D CNN ResNet改進的兔毙,改進方法就是加入ME和MTA來構(gòu)成 Temporal Excitation and Aggregation(TEA) block。
ME和MTA的結(jié)構(gòu)如下圖所示
1.1 motion excitation (ME) module
文章認為特征的不同通道獲取到了不同的信息兄春,比如一部分通道用來學(xué)習(xí)背景信息澎剥,其它通道學(xué)習(xí)動態(tài)的運動信息,而ME模塊就是為了發(fā)現(xiàn)并加強學(xué)習(xí)動態(tài)運動信息的通道赶舆。
如上圖所示哑姚,ME的輸入為X,其維度為芜茵,N表示batch size叙量,T表示時間維度,C表示特征通道維度九串,H绞佩、W分別為特征的空間維度。
首先X經(jīng)過一個的2D卷積來減少通道數(shù)猪钮,提高計算效率品山。
其中表示卷積輸出的特征,*表示卷積操作烤低,
表示減少的通道數(shù)肘交。
接下來要估計計算t時刻兩個相鄰幀之間的差別,差別的體現(xiàn)不是直接采用原始特征相減扑馁,而是經(jīng)過一個channel-wise transformation然后在進行做差操作涯呻,公式表示為
其中,是t時刻的運動特征腻要。
是一個
的2D channel-wise卷積复罐。
這里還需要注意,上述做差操作雄家,在T時刻是沒有的市栗,這里定義,這樣將上述所有的差值進行從concatenate得到所有的運動特征
咳短。
接著將上述特征輸入空間的global average pooling層
再接著通過一個
的2D卷積
將特征的通道數(shù)還原為C填帽,再送入sigmoid function,從而得到了一個motion-attentive權(quán)重A咙好。
其中表示sigmoid操作篡腌。
因為ME模塊最終的目的是加強運動信息通道的特征,簡單的做法就是利用A與X相乘勾效,然而這樣直接相乘可能會影響模塊對背景提取的能力嘹悼,為了解決這個問題叛甫,文章采用了residual的方式,在增強運動信息的同時保留原始信息杨伙。公式表示如下:
是ME模塊最終的輸出其监,
表示channel-wise的乘積。
這一系列操作很像SEnet中的attention操作限匣,文章討論了與SE的幾點不同:
- ME模塊是針對視頻提出來的抖苦,SE是針對圖片任務(wù)
- SE是為了增強特征中通道信息,ME是為了增強motion-sensitive信息
- SE會抑制一些無用的通道米死,但ME會通過residual結(jié)構(gòu)保留靜態(tài)的背景信息
可以看出通過利用相鄰兩幀特征的差別锌历,來獲取motion-sensitive attention信息,這樣ME就可以很好的加強了short-range信息峦筒。
1.2 multiple temporal aggregation (MTA)
MTA結(jié)構(gòu)類似于Res2net究西,模塊輸入為X,然后將X在通道維度劃分為4部分物喷,每一部分的維度為卤材。
MTA模塊用公式表示如下:
其中表示每部分的輸出,
表示kernel size為3的1D channel-wise時序卷積峦失,
表示
2D空間卷積商膊。
MTA模塊最終的輸入為幾個部分輸出的concatenate結(jié)果
可以看出MTA每個部分的感受野是不一樣的,文章認為這種結(jié)構(gòu)比強行堆疊多個卷積操作效果要好且計算更高效宠进。
1.3 將ME與MTA整合進resnet block
整合方式如下圖所示