[文獻(xiàn)翻譯]Action recognition using visual atteneion

摘要:針對(duì)視頻中的動(dòng)作識(shí)別任務(wù),我們提出了一種基于軟注意力的模型。 我們使用具有長(zhǎng)短期記憶(LSTM)單元的時(shí)空深度多層遞歸神經(jīng)網(wǎng)絡(luò)(RNN)爹谭。我們的模型學(xué)會(huì)了選擇性地關(guān)注視頻幀的各個(gè)部分寺谤,并在輸入后對(duì)視頻進(jìn)行了分類。 該模型從本質(zhì)上解釋框架中的哪些部分與任務(wù)高度相關(guān)起意,并對(duì)其賦予更高的權(quán)重鹰服。我們?cè)赨CF-11(YouTube動(dòng)作),HMDB-51和Hollywood2數(shù)據(jù)集上評(píng)估該模型揽咕,并分析該模型如何根據(jù)場(chǎng)景和所執(zhí)行的動(dòng)作來(lái)改變注意力悲酷。

1介紹

在視覺認(rèn)知文獻(xiàn)中已經(jīng)指出,人類不會(huì)立即將注意力集中在整個(gè)場(chǎng)景上(Rensink亲善,2000)设易。相反,他們順序關(guān)注場(chǎng)景的不同部分以提取相關(guān)信息蛹头。 大多數(shù)傳統(tǒng)的計(jì)算機(jī)視覺算法不采用注意力機(jī)制顿肺,并且對(duì)圖像/視頻的各個(gè)部分處理相同。隨著近來(lái)對(duì)深度神經(jīng)網(wǎng)絡(luò)的興趣激增渣蜗,基于注意力的模型已在一些具有挑戰(zhàn)性的任務(wù)上取得了可喜的結(jié)果屠尊,包括字幕生成(Xu等人,2015)袍睡,機(jī)器翻譯(Bahdanau等人知染,2015),游戲和跟蹤(Mnih等斑胜,2014)控淡,以及圖像識(shí)別(例如街景房數(shù)數(shù)據(jù)集(Ba等,2015b))止潘。這些模型許多已經(jīng)采用了基于LSTM(Hochreiter&Schmidhuber掺炭,1997)的RNN,并且在學(xué)習(xí)序列中顯示出良好的結(jié)果凭戴。

注意力模型可以分為軟注意和硬注意涧狮。軟注意力模型是確定性的,可以使用反向傳播進(jìn)行訓(xùn)練么夫,而硬注意力模型是隨機(jī)的者冤,可以通過(guò)REINFORCE算法進(jìn)行訓(xùn)練(Williams,1992档痪; Mnih等人涉枫,2014)。學(xué)習(xí)硬注意力模型會(huì)產(chǎn)生大量計(jì)算量腐螟,因?yàn)樗枰蓸印?另一方面愿汰,軟注意力方法中困后,可以使用從所有位置輸出到下一個(gè)輸入的可微分映射。 基于注意力的模型還可以通過(guò)僅關(guān)注每個(gè)幀中的相關(guān)位置來(lái)潛在地推斷視頻中發(fā)生的動(dòng)作衬廷。例如摇予,圖1a顯示了來(lái)自UCF-11視頻序列的屬于“高爾夫揮桿”類別的四個(gè)幀。該模型傾向于關(guān)注球吗跋,球桿和人侧戴,這使模型可以正確地將活動(dòng)識(shí)別為“高爾夫揮桿”。在圖1b中小腊,我們的模型關(guān)注蹦床救鲤,同時(shí)正確地將活動(dòng)標(biāo)識(shí)為“蹦床跳躍”。

在本文中秩冈,我們提出了一種基于軟注意力的動(dòng)作識(shí)別遞歸模型本缠。 我們描述了我們的模型如何動(dòng)態(tài)地融合卷積特征,并表明與許多現(xiàn)有模型所使用的平均或最大融合(Zha等人入问,2015)相比丹锹,使用這些特征進(jìn)行動(dòng)作識(shí)別可獲得更好的結(jié)果。 我們進(jìn)一步證明芬失,我們的模型傾向于根據(jù)其檢測(cè)到的活動(dòng)來(lái)識(shí)別視頻幀中的重要元素楣黍。

2相關(guān)工作

卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像分類和目標(biāo)識(shí)別任務(wù)中非常成功(Ren等人,2015; Wu等人棱烂,2015)租漂。分類視頻在圖像問(wèn)題上增加了時(shí)間維度何鸡。 學(xué)習(xí)時(shí)間動(dòng)作是一個(gè)困難的問(wèn)題臂容,早期的方法已經(jīng)使用光流,HOG和手工制作的特征來(lái)生成具有外觀和動(dòng)態(tài)信息編碼的描述符艾猜。最近顯示LSTM在語(yǔ)音識(shí)別(Graves等衬鱼,2013)业筏,機(jī)器翻譯(Sutskever等,2014)鸟赫,圖像描述(Xu等蒜胖,2015; Vinyals等,2015)和視頻描述(Yao等抛蚤,2015台谢; Venugopalan等,2014)等領(lǐng)域表現(xiàn)良好岁经。 他們也開始應(yīng)用在動(dòng)作識(shí)別(Srivastava等对碌,2015; Ng等蒿偎,2015)朽们。

大多數(shù)現(xiàn)有方法還傾向于將LSTMs作為CNN并直接對(duì)序列進(jìn)行分類或者在分類之前對(duì)特征進(jìn)行時(shí)間合并(Donahue等,2015诉位;Ng等骑脱,2015)。通過(guò)在編碼器-解碼器框架中使用LSTM苍糠,還可以使用LSTM來(lái)學(xué)習(xí)非監(jiān)督設(shè)置下的視頻的表示(Srivastava等叁丧,2015)。最近岳瞭,Yao等人(2015年)已提出在編碼器-解碼器框架中使用3-D CNN功能和LSTM解碼器來(lái)生成視頻描述拥娄。他們的模型通過(guò)定義用于生成單個(gè)單詞的幀的概率分布,將注意力集中在視頻級(jí)別瞳筏。但是稚瘾,他們沒有在幀級(jí)別上使用注意力機(jī)制。

通常姚炕,很難解釋由深度神經(jīng)網(wǎng)絡(luò)學(xué)到的內(nèi)部表示摊欠。注意模型通過(guò)捕獲執(zhí)行特定任務(wù)時(shí)模型將注意力集中在何處來(lái)增加可解釋性的維度。Karpathy等(2014年)使用了多分辨率CNN架構(gòu)來(lái)執(zhí)行視頻中的動(dòng)作識(shí)別柱宦。他們提到了中央凹的概念些椒,但他們將注意力集中在框架的中央。Xu等人(2015)使用軟注意力和硬注意力機(jī)制來(lái)生成圖像描述掸刊。他們的模型在生成描述時(shí)實(shí)際上會(huì)查看相應(yīng)的對(duì)象免糕。我們的工作直接建立在這項(xiàng)工作之上。然而忧侧,徐等(2015)主要研究靜態(tài)圖像中的字幕生成石窑,在本文中,我們著重于使用軟注意力機(jī)制對(duì)視頻中的活動(dòng)進(jìn)行識(shí)別苍柏。最近尼斧,Jaderberg等人(2015年)提出了一種稱為空間轉(zhuǎn)換模塊的軟注意力機(jī)制,將其添加到CNN的各層之間试吁。他們沒有使用我們做的softmax層來(lái)加權(quán)位置棺棵,而是將仿射變換應(yīng)用于其CNN的多個(gè)層以處理相關(guān)部分并在街景房數(shù)數(shù)據(jù)集(Netzer等人,2011年)上獲得最新結(jié)果熄捍。Yeung等(2015年)在輸入輸出中使用基于時(shí)間注意模型進(jìn)行密集動(dòng)作標(biāo)簽烛恤,并報(bào)告了較高的準(zhǔn)確性和對(duì)動(dòng)作視頻中時(shí)間關(guān)系的更好理解。

3模型和注意機(jī)制

3.1卷積特征

我們提取將視頻幀通過(guò)在ImageNet數(shù)據(jù)集(Deng等余耽,2009)上訓(xùn)練的GoogLeNet模型(Szegedy等缚柏,2015)而獲得的最后一個(gè)卷積層激活。最后一個(gè)卷積層具有D個(gè)卷積圖碟贾,并且形狀為K×K×D(在我們的實(shí)驗(yàn)中為7×7×1024)的特征立方體币喧。因此轨域,在每個(gè)時(shí)間步長(zhǎng)t,我們提取K*K個(gè)D維向量杀餐。 我們將這些向量稱為特征多維數(shù)據(jù)集中的特征切片:

這些KK垂直特征切片中的每一個(gè)都映射到輸入空間中的不同重疊區(qū)域干发,我們的模型選擇將注意力集中在這些KK區(qū)域上。

3.2:LSTM和注意機(jī)制

我們使用Zaremba等(2014)和Xu等(2015年)討論的LSTM實(shí)現(xiàn):

其中史翘,it是輸入門枉长,ft是忘門,ot是輸出門琼讽,gt如等式1所示計(jì)算必峰。ct是單元狀態(tài),ht是隱藏狀態(tài)钻蹬,xt(參見等式4吼蚁、5)表示在時(shí)間步t處LSTM的輸入.M:Ra→Rb是一個(gè)仿射變換,由具有a = d + D和b = 4d的可訓(xùn)練參數(shù)組成脉让,其中d是所有參數(shù)的維數(shù)桂敛,即ft,ot溅潜,gt术唬,ct和ht。

在每個(gè)時(shí)間步長(zhǎng)t滚澜,我們的模型都預(yù)測(cè)lt + 1(K×K位置上的softmax)和yt(標(biāo)簽類別上的softmax)以及帶有tanh激活的附加隱藏層(見圖2b)粗仓。 位置softmax定義如下:

其中Wi是映射到位置softmax的第i個(gè)元素的權(quán)重,而Lt是可以采用K*K值之一的隨機(jī)變量设捐。 這個(gè)softmax可以認(rèn)為是我們的模型認(rèn)為輸入幀中相應(yīng)區(qū)域重要的概率借浊。在計(jì)算了這些概率之后,軟注意力機(jī)制(Bahdanau等人萝招,2015)通過(guò)對(duì)不同區(qū)域的特征切片進(jìn)行期望蚂斤,計(jì)算出下一時(shí)間步長(zhǎng)xt的輸入期望值(見圖2a):

其中Xt是多維特征數(shù)據(jù)集,而Xti是在時(shí)間步t處多維特征數(shù)據(jù)集的第i個(gè)切片槐沼。在基于硬注意力的模型中曙蒸,我們將從等式4的softmax分布中采樣Lt。然后岗钩,輸入xt將是采樣位置處的特征切片纽窟,而不是對(duì)所有切片的預(yù)測(cè)。因此兼吓,基于硬注意力的模型是不可區(qū)分的臂港,必須使用某種形式的抽樣。

對(duì)于LSTM的單元狀態(tài)和隱藏狀態(tài),我們使用以下初始化策略(參見Xu等人(2015))以加快收斂速度:

其中审孽,finit县袱,c和finit,h是兩個(gè)多層感知器瓷胧,T是模型中的時(shí)間步數(shù)显拳。這些值用于計(jì)算確定初始輸入x1的第一位置softmax l1。在我們的實(shí)驗(yàn)中搓萧,我們使用多層深LSTM,如圖2b所示宛畦。

3.3損失函數(shù)和注意力機(jī)制

我們使用Xu等人(2015)引交叉熵?fù)p失和入的雙重隨機(jī)懲罰瘸洛。我們對(duì)位置softmax施加了附加約束,這是注意力正則化次和,其迫使模型在某個(gè)時(shí)間點(diǎn)查看幀的每個(gè)區(qū)域反肋。 損失函數(shù)定義如下:

其中yt是一個(gè)標(biāo)簽向量,y?t是時(shí)間步長(zhǎng)t上類別概率的向量踏施,T是時(shí)間步長(zhǎng)的總數(shù)石蔗,C是輸出類別的數(shù)量,λ是注意力懲罰系數(shù)畅形,γ是權(quán)重衰減系數(shù)养距,θ代表所有模型參數(shù)。有關(guān)體系結(jié)構(gòu)和超參數(shù)的詳細(xì)信息日熬,請(qǐng)參見第4.2節(jié)棍厌。

4實(shí)驗(yàn)

4.1數(shù)據(jù)集

我們?cè)趯?shí)驗(yàn)中使用了UCF-11,HMDB-51和Hollywood2數(shù)據(jù)集竖席。UCF-11是YouTube動(dòng)作數(shù)據(jù)集耘纱,包含1600個(gè)視頻和11個(gè)動(dòng)作-籃球投籃,騎自行車毕荐,潛水束析,高爾夫揮桿,騎馬憎亚,足球雜耍员寇,揮桿,網(wǎng)球揮桿虽填,蹦床跳躍丁恭,排球扣球和溜狗。剪輯的幀速率為29.97 fps斋日,每個(gè)視頻只有一個(gè)動(dòng)作牲览。 我們使用975個(gè)視頻進(jìn)行培訓(xùn),使用625個(gè)視頻進(jìn)行測(cè)試。

HMDB-51人體運(yùn)動(dòng)數(shù)據(jù)庫(kù)數(shù)據(jù)集提供三個(gè)訓(xùn)練測(cè)試拆分第献,每個(gè)拆分由5100個(gè)視頻組成贡必。 這些剪輯帶有51類人類動(dòng)作的標(biāo)簽,例如拍手庸毫,喝酒仔拟,擁抱,跳躍飒赃,翻筋斗利花,投擲等。 每個(gè)視頻只有一個(gè)相關(guān)的動(dòng)作载佳。 每個(gè)分組的訓(xùn)練集包含3570個(gè)視頻(每個(gè)類別70個(gè))炒事,測(cè)試集包含1530個(gè)視頻(每個(gè)類別30個(gè))。剪輯的幀速率為30 fps蔫慧。

Hollywood2人類行為數(shù)據(jù)集包含從電影中收集的1707個(gè)視頻剪輯挠乳。這些剪輯帶有12類動(dòng)作標(biāo)簽-打電話,開車姑躲,吃睡扬,打架,從車?yán)锍鰜?lái)黍析,握手卖怜,擁抱,接吻橄仍,跑步韧涨,直立,坐下和站起來(lái)侮繁。 某些視頻具有多個(gè)與之相關(guān)的動(dòng)作虑粥。訓(xùn)練集有823個(gè)視頻,測(cè)試集有884個(gè)視頻宪哩。

數(shù)據(jù)集中的所有視頻調(diào)整為224×224分辨率娩贷,然后輸入到在ImageNet數(shù)據(jù)集上訓(xùn)練的GoogLeNet模型。 最后一個(gè)卷積層的大小為7×7×1024锁孟,用作我們模型的輸入彬祖。

4.2訓(xùn)練細(xì)節(jié)和評(píng)估

在我們所有的實(shí)驗(yàn)中,使用交叉驗(yàn)證來(lái)設(shè)置模型體系結(jié)構(gòu)和其他各種超參數(shù)品抽。特別是储笑,對(duì)于所有數(shù)據(jù)集,我們訓(xùn)練了3層LSTM模型圆恤,其中LSTM隱藏狀態(tài)突倍,單元狀態(tài)和隱藏層的維數(shù)對(duì)于UCF-11和Hollywood2都設(shè)置為512,對(duì)于HMDB-51則設(shè)置為1024。 我們還對(duì)具有1個(gè)LSTM層到5個(gè)LSTM層的模型進(jìn)行了實(shí)驗(yàn)羽历,但是沒有觀察到模型性能的任何顯著改善焊虏。 對(duì)于注意力懲罰系數(shù),我們使用值0秕磷、1诵闭、10進(jìn)行了實(shí)驗(yàn)。在報(bào)告結(jié)果時(shí)澎嚣,我們已將權(quán)重衰減懲罰設(shè)置為10?5并在所有非循環(huán)麗連接使用了0.5隨機(jī)失活疏尿。所有模型都使用Adam優(yōu)化算法(Kingma&Ba,2015)在整個(gè)數(shù)據(jù)集中訓(xùn)練了15epoch币叹。但是润歉,我們發(fā)現(xiàn)Adam通常會(huì)在3個(gè)epochs后收斂。 我們的實(shí)現(xiàn)基于Theano(Bastien等人颈抚,2012)處理梯度的計(jì)算,代碼如下:<u>https://github.com/kracwarlock/action-recognition-visual-attention嚼鹉。</u>

對(duì)于訓(xùn)練和測(cè)試贩汉,我們的模型以固定的fps速率一次采樣30幀。從第一幀開始锚赤,我們將每個(gè)視頻分成30幀的組匹舞,fps速率選擇30幀,然后以1的步幅向前移動(dòng)线脚。因此赐稽,每個(gè)視頻都分為多個(gè)30個(gè)長(zhǎng)度的樣本。在測(cè)試時(shí)浑侥,我們計(jì)算每個(gè)時(shí)間步的類別預(yù)測(cè)姊舵,然后平均30幀內(nèi)的預(yù)測(cè)。為了獲得整個(gè)視頻片段的預(yù)測(cè)寓落,我們對(duì)視頻中所有30個(gè)幀塊的預(yù)測(cè)取平均括丁。

4.2.1基線

softmax回歸模型使用完整的7×7×1024特征作為輸入,在每個(gè)時(shí)間步t預(yù)測(cè)標(biāo)簽伶选,而所有其他模型僅使用1024維特征切片作為輸入史飞。平均合并和最大合并LSTM模型使用與我們的模型相同的體系結(jié)構(gòu),除了它們沒有任何注意力機(jī)制仰税,因此不會(huì)產(chǎn)生位置softmax构资。這些模型在每個(gè)時(shí)間步的輸入是通過(guò)對(duì)7×7×1024多維數(shù)據(jù)集進(jìn)行平均或最大合并以獲取1024維切片而獲得的,而我們的軟注意力模型將通過(guò)位置softmax對(duì)加權(quán)切片進(jìn)行動(dòng)態(tài)加權(quán)(參見方程5)陨簇。

4.3量化分析

表1報(bào)告了UCF-11和HMDB-51數(shù)據(jù)集的準(zhǔn)確性以及Hollywood2的平均精度(mAP)吐绵。雖然softmax基線將7×7×1024多維數(shù)據(jù)集作為其輸入,對(duì)于三個(gè)數(shù)據(jù)集,它的表現(xiàn)都比我們的模型差拦赠,并且比所有HMDB-51和Hollywood2模型都差巍沙。表1的結(jié)果表明,我們的注意力模型的表現(xiàn)優(yōu)于平均和最大合并LSTM荷鼠。

接下來(lái)句携,我們對(duì)雙隨機(jī)懲罰項(xiàng)λ進(jìn)行了實(shí)驗(yàn)(請(qǐng)參見等式7)。 圖3a顯示允乐,在沒有注意正則化項(xiàng)λ= 0的情況下矮嫉,模型傾向于減少其注意。設(shè)置λ= 1會(huì)鼓勵(lì)模型進(jìn)一步探索不同的關(guān)注位置牍疏。λ= 10的模型關(guān)注所有位置(見圖3c)蠢笋,在這種情況下,其行為趨于變得與平均池化情況相似鳞陨。這些之間的值對(duì)應(yīng)于切片的動(dòng)態(tài)加權(quán)平均昨寞。λ= 0和λ= 1的模型比λ= 10的模型表現(xiàn)更好。

在表2中厦滤,我們將模型的性能與其他最新的動(dòng)作識(shí)別模型進(jìn)行了比較援岩。 由于缺少標(biāo)準(zhǔn)的訓(xùn)練測(cè)試拆分,我們?cè)诖颂幉话║CF-11掏导。我們將表格分為三個(gè)部分享怀。第一部分中的模型僅使用RGB數(shù)據(jù),而第二部分中的模型同時(shí)使用RGB和光流數(shù)據(jù)趟咆。第三部分中的模型同時(shí)使用RGB添瓷,光流以及某些ImageNet類別上視頻的對(duì)象響應(yīng)。我們的模型與同類的深度學(xué)習(xí)模型(僅使用RGB特征的模型)相比具有優(yōu)勢(shì)值纱,同時(shí)提供了有關(guān)神經(jīng)網(wǎng)絡(luò)的一些剖析鳞贷。

4.4量化分析

圖4顯示了我們的模型在UCF-11數(shù)據(jù)集上所關(guān)注位置的一些測(cè)試示例。 在圖4a中计雌,我們看到該模型能夠?qū)W⒂趫A周的各個(gè)部分悄晃,同時(shí)正確地將活動(dòng)識(shí)別為騎車。類似地凿滤,在圖4b中妈橄,模型關(guān)注狗并將行為分類為“遛狗”。

我們還可以使用注意力機(jī)制更好地了解模型的錯(cuò)誤翁脆。例如眷蚓,圖5a顯示該模型主要關(guān)注背景,例如法院的淺藍(lán)色地板反番。模型將示例錯(cuò)誤地分類為“潛水”沙热。但是叉钥,如圖5b所示,使用不同的指定的關(guān)注位置篙贸,模型將相同的示例歸類為“排球扣球”投队。有趣的是,我們可以通過(guò)可視化它的關(guān)注位置來(lái)更好地理解這種深度關(guān)注模型的成功和失敗案例爵川。

該模型并不總是需要注意主體敷鸦。在許多情況下,相機(jī)距離很遠(yuǎn)寝贡,可能很難分辨出人在做什么或畫面中的物體是什么扒披。在這些情況下,模型傾向于查看背景并嘗試從背景信息中推斷活動(dòng)圃泡。例如碟案,該模型可以查看背景中的籃球場(chǎng)并預(yù)測(cè)正在執(zhí)行的動(dòng)作。因此颇蜡,取決于視頻价说,前景和背景都可能對(duì)活動(dòng)識(shí)別很重要。 圖6中顯示了一些示例风秤,其中模型關(guān)注圖像所有位置熔任。

有趣的是,在某些情況下唁情,該模型能夠關(guān)注視頻幀中的重要對(duì)象,并嘗試在一定程度上跟蹤它們甫匹,以便正確識(shí)別執(zhí)行的動(dòng)作甸鸟。在圖7b中,視頻以30fps采樣兵迅,后續(xù)幀幾乎相同抢韭。 在這種情況下,模型始終專注于高爾夫球恍箭,球桿和人刻恭。 但是,當(dāng)我們將采樣率更改為6fps時(shí)扯夭,如圖7a所示鳍贾,我們發(fā)現(xiàn)視頻幀變化很快。 現(xiàn)在交洗,模型在消失之前仍專注于球骑科。 當(dāng)人擊球后,我們看到模型試圖去看其他地方构拳,可能是跟蹤球和高爾夫球桿咆爽。

接下來(lái)梁棠,我們?cè)贖MDB-51數(shù)據(jù)集上測(cè)試了該模型的性能。在圖8a中斗埂,該模型試圖關(guān)注執(zhí)行俯臥撐的人來(lái)識(shí)別“俯臥撐”活動(dòng)符糊。在圖8c中,盡管關(guān)注動(dòng)作發(fā)生的位置呛凶,該模型仍將“踢球”錯(cuò)誤地分類為“突擊”男娄。但是,在某些情況下把兔,模型甚至無(wú)法關(guān)注相關(guān)位置(請(qǐng)參見圖8d)沪伙。對(duì)于Hollywood2,圖8b顯示了屬于“親吻”動(dòng)作的短片示例县好∥穑看起來(lái)該模型正確地預(yù)料到將會(huì)發(fā)生接吻,并試圖將注意力集中在男人和女人之間的區(qū)域上缕贡。

在最后一組實(shí)驗(yàn)中翁授,我們嘗試檢查注意力機(jī)制的一些失敗案例。作為示例晾咪,圖9顯示了“足球雜耸詹粒”的測(cè)試視頻剪輯(上排)。我們的模型著眼于場(chǎng)景(第二行)的白色邊界谍倦,同時(shí)錯(cuò)誤地將活動(dòng)識(shí)別為“網(wǎng)球揮拍”塞赂。為了查看是否可以通過(guò)強(qiáng)迫模型關(guān)注相關(guān)位置來(lái)糾正模型的錯(cuò)誤,我們采用了經(jīng)過(guò)訓(xùn)練的模型昼蛀,并將位置softmax權(quán)重初始化為原始模型中最大值和最小值之間的統(tǒng)一隨機(jī)數(shù)宴猾。在這種情況下,模型的關(guān)注效果如圖9的第三行所示叼旋。接下來(lái)仇哆,對(duì)于“足球雜耍”的特定示例夫植,我們僅對(duì)softmax權(quán)重或位置變量進(jìn)行優(yōu)化讹剔,找到模型可以對(duì)其進(jìn)行預(yù)測(cè)的注意效果。所有其他模型參數(shù)保持固定详民。這僅會(huì)更改關(guān)注順序或模型所處的位置延欠,而不會(huì)更改模型本身。有趣的是阐斜,為了正確地對(duì)該視頻片段進(jìn)行分類衫冻,模型學(xué)習(xí)到的關(guān)注(圖9的第四行)傾向于集中在足球運(yùn)動(dòng)員的腿上。

5結(jié)論

在本文中谒出,我們開發(fā)了基于循環(huán)網(wǎng)絡(luò)的軟注意力動(dòng)作識(shí)別模型隅俘,并分析了他們將注意力集中在哪里邻奠。我們提出的模型傾向于根據(jù)正在執(zhí)行的動(dòng)作來(lái)識(shí)別視頻幀中的重要部分。我們還表明为居,我們的模型比不使用任何注意力機(jī)制的基線表現(xiàn)更好碌宴。軟注意力模型雖然令人印象深刻,但在計(jì)算上仍然昂貴蒙畴,因?yàn)樗鼈內(nèi)匀恍枰刑卣鱽?lái)執(zhí)行動(dòng)態(tài)池化贰镣。 將來(lái),我們計(jì)劃探索硬注意力模型以及軟硬混合注意力方法膳凝,這些方法可以降低模型的計(jì)算成本碑隆,因此我們可以潛在地?cái)U(kuò)展到更大的數(shù)據(jù)集,例如UCF-101和Sports-1M數(shù)據(jù)集蹬音。 這些模型還可以擴(kuò)展到多分辨率設(shè)置上煤,在這種設(shè)置中,注意機(jī)制還可以選擇關(guān)注早期的卷積層著淆,以便關(guān)注視頻幀中的較低層特征劫狠。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市永部,隨后出現(xiàn)的幾起案子独泞,更是在濱河造成了極大的恐慌,老刑警劉巖苔埋,帶你破解...
    沈念sama閱讀 218,386評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懦砂,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡组橄,警方通過(guò)查閱死者的電腦和手機(jī)孕惜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)晨炕,“玉大人,你說(shuō)我怎么就攤上這事毫炉∥屠酰” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵瞄勾,是天一觀的道長(zhǎng)费奸。 經(jīng)常有香客問(wèn)我,道長(zhǎng)进陡,這世上最難降的妖魔是什么愿阐? 我笑而不...
    開封第一講書人閱讀 58,702評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮趾疚,結(jié)果婚禮上缨历,老公的妹妹穿的比我還像新娘以蕴。我一直安慰自己,他們只是感情好辛孵,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,716評(píng)論 6 392
  • 文/花漫 我一把揭開白布丛肮。 她就那樣靜靜地躺著,像睡著了一般魄缚。 火紅的嫁衣襯著肌膚如雪宝与。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評(píng)論 1 305
  • 那天冶匹,我揣著相機(jī)與錄音习劫,去河邊找鬼。 笑死嚼隘,一個(gè)胖子當(dāng)著我的面吹牛诽里,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嗓蘑,決...
    沈念sama閱讀 40,314評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼须肆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了桩皿?” 一聲冷哼從身側(cè)響起豌汇,我...
    開封第一講書人閱讀 39,230評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泄隔,沒想到半個(gè)月后拒贱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡佛嬉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,873評(píng)論 3 336
  • 正文 我和宋清朗相戀三年逻澳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暖呕。...
    茶點(diǎn)故事閱讀 39,991評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斜做,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出湾揽,到底是詐尸還是另有隱情瓤逼,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評(píng)論 5 346
  • 正文 年R本政府宣布库物,位于F島的核電站霸旗,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏戚揭。R本人自食惡果不足惜诱告,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,329評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望民晒。 院中可真熱鬧精居,春花似錦锄禽、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至空猜,卻和暖如春绽慈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背辈毯。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工坝疼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谆沃。 一個(gè)月前我還...
    沈念sama閱讀 48,158評(píng)論 3 370
  • 正文 我出身青樓钝凶,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親唁影。 傳聞我的和親對(duì)象是個(gè)殘疾皇子耕陷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,941評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容