《TEA: Temporal Excitation and Aggregation for Action Recognition》算法詳解

文章地址:《TEA: Temporal Excitation and Aggregation for Action Recognition》

代碼地址:暫無

該文章發(fā)表于CVPR2020蜘矢,文章認為對于視頻動作識別需要將視頻的short-range信息和long-range信息都利用起來狂男。所以文章提出了兩個模塊,motion excitation (ME) module用來提取short-range信息品腹, multiple temporal aggregation (MTA) module用來提取long-range信息岖食。

一、網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示

1.png

對于一個輸入視頻舞吭,首先將視頻等分為T份泡垃,然后從每一份中隨機抽取一幀析珊,將抽取出的T幀作為網(wǎng)絡(luò)的輸入。文章的模型是基于2D CNN ResNet改進的兔毙,改進方法就是加入ME和MTA來構(gòu)成 Temporal Excitation and Aggregation(TEA) block。

ME和MTA的結(jié)構(gòu)如下圖所示

2.png

1.1 motion excitation (ME) module

文章認為特征的不同通道獲取到了不同的信息兄春,比如一部分通道用來學(xué)習(xí)背景信息澎剥,其它通道學(xué)習(xí)動態(tài)的運動信息,而ME模塊就是為了發(fā)現(xiàn)并加強學(xué)習(xí)動態(tài)運動信息的通道赶舆。

如上圖所示哑姚,ME的輸入為X,其維度為[N,T,C,H,W]芜茵,N表示batch size叙量,T表示時間維度,C表示特征通道維度九串,H绞佩、W分別為特征的空間維度。

首先X經(jīng)過一個1\times 1的2D卷積來減少通道數(shù)猪钮,提高計算效率品山。

X^r=conv_{red}*X, X^r\in R^{N\times T\times C/r \times H \times W}

其中X^r表示卷積輸出的特征,*表示卷積操作烤低,r=16表示減少的通道數(shù)肘交。

接下來要估計計算t時刻兩個相鄰幀之間的差別,差別的體現(xiàn)不是直接采用原始特征相減扑馁,而是經(jīng)過一個channel-wise transformation然后在進行做差操作涯呻,公式表示為

M(t)=conv_{trans}*X^r(t+1)-X^r(t),1\leq t\leq T-1

其中,M(t)\in R^{N\times C/r\times H\times W}是t時刻的運動特征腻要。conv_{trans}是一個3\times 3的2D channel-wise卷積复罐。

這里還需要注意,上述做差操作雄家,在T時刻是沒有的市栗,這里定義M(T)=0,這樣將上述所有的差值進行從concatenate得到所有的運動特征[M(1), ..., M(T)]咳短。

接著將上述特征輸入空間的global average pooling層

M^s=Pool(M), M^s\in R^{N\times T\times C/r\times 1 \times 1}

再接著M^s通過一個1\times 1的2D卷積conv_{exp}將特征的通道數(shù)還原為C填帽,再送入sigmoid function,從而得到了一個motion-attentive權(quán)重A咙好。

A=2\delta(conv_{exp}*M^s)-1, A\in R^{N\times T\times C\times 1\times 1}

其中\delta表示sigmoid操作篡腌。

因為ME模塊最終的目的是加強運動信息通道的特征,簡單的做法就是利用A與X相乘勾效,然而這樣直接相乘可能會影響模塊對背景提取的能力嘹悼,為了解決這個問題叛甫,文章采用了residual的方式,在增強運動信息的同時保留原始信息杨伙。公式表示如下:

X^o=X+X\odot A, X^o\in R^{N\times T\times C\times H\times W}

X^o是ME模塊最終的輸出其监,\odot表示channel-wise的乘積。

這一系列操作很像SEnet中的attention操作限匣,文章討論了與SE的幾點不同:

  1. ME模塊是針對視頻提出來的抖苦,SE是針對圖片任務(wù)
  2. SE是為了增強特征中通道信息,ME是為了增強motion-sensitive信息
  3. SE會抑制一些無用的通道米死,但ME會通過residual結(jié)構(gòu)保留靜態(tài)的背景信息

可以看出通過利用相鄰兩幀特征的差別锌历,來獲取motion-sensitive attention信息,這樣ME就可以很好的加強了short-range信息峦筒。

1.2 multiple temporal aggregation (MTA)

MTA結(jié)構(gòu)類似于Res2net究西,模塊輸入為X,然后將X在通道維度劃分為4部分物喷,每一部分的維度為[N,T,C/4,H,W]卤材。

MTA模塊用公式表示如下:
X^o_i=X_i, \quad i=1,

X^o_i=conv_{spa}*(conv_{temp}*X_i), \quad i=2,

X^o_i=conv_{spa}*(conv_{temp}*(X_i+X_{i-1})), \quad i=3,4,

其中X^o_i\in R^{N\times T\times C/4 \times H\times W}表示每部分的輸出,conv_{temp}表示kernel size為3的1D channel-wise時序卷積峦失,conv_{spa}表示3\times 3 2D空間卷積商膊。

MTA模塊最終的輸入為幾個部分輸出的concatenate結(jié)果

X^o=[X^o_1;X^o_2;X^o_3;X^o_4], X^o\in R^{N\times T\times C\times H\times W}

可以看出MTA每個部分的感受野是不一樣的,文章認為這種結(jié)構(gòu)比強行堆疊多個卷積操作效果要好且計算更高效宠进。

1.3 將ME與MTA整合進resnet block

整合方式如下圖所示


3.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末晕拆,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子材蹬,更是在濱河造成了極大的恐慌实幕,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件堤器,死亡現(xiàn)場離奇詭異昆庇,居然都是意外死亡,警方通過查閱死者的電腦和手機闸溃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進店門整吆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人辉川,你說我怎么就攤上這事表蝙。” “怎么了乓旗?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵府蛇,是天一觀的道長。 經(jīng)常有香客問我屿愚,道長汇跨,這世上最難降的妖魔是什么务荆? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮穷遂,結(jié)果婚禮上函匕,老公的妹妹穿的比我還像新娘。我一直安慰自己蚪黑,他們只是感情好盅惜,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著祠锣,像睡著了一般酷窥。 火紅的嫁衣襯著肌膚如雪咽安。 梳的紋絲不亂的頭發(fā)上伴网,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機與錄音妆棒,去河邊找鬼澡腾。 笑死,一個胖子當(dāng)著我的面吹牛糕珊,可吹牛的內(nèi)容都是我干的动分。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼红选,長吁一口氣:“原來是場噩夢啊……” “哼澜公!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起喇肋,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤坟乾,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蝶防,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體甚侣,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年间学,在試婚紗的時候發(fā)現(xiàn)自己被綠了殷费。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡低葫,死狀恐怖详羡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情嘿悬,我是刑警寧澤殷绍,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站鹊漠,受9級特大地震影響主到,放射性物質(zhì)發(fā)生泄漏茶行。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一登钥、第九天 我趴在偏房一處隱蔽的房頂上張望畔师。 院中可真熱鬧,春花似錦牧牢、人聲如沸看锉。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽伯铣。三九已至,卻和暖如春轮纫,著一層夾襖步出監(jiān)牢的瞬間腔寡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工掌唾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留放前,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓糯彬,卻偏偏與公主長得像凭语,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子撩扒,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容