論文 | 小樣本視頻動作分類few-shot video action recognition《Embodied One-Shot Video Recognition: Learning fro...

一寫在前面

未經允許铅协，不得轉載妻怎，謝謝~~~

有將近2個月的時間沒有在簡書上更文了瓷翻，這段時間小伙伴們的留言和評論也沒有及時處理赖歌，/抱歉(灬°ω°灬)

這篇文章是我自己的第一篇學術論文缺虐，從去年4月投稿到10月底參加學術會議，中間學到很多東西礁凡。

希望會是一個好的開始高氮，希望接下來能保持努力。?

文章基本信息：

會議：ACMMM2019
論文：Embodied One-Shot Video Recognition: Learning from Actions of a Virtual Embodied Agent
原文：https://dl.acm.org/citation.cfm?id=3351015
UnrealAction dataset：http://www.sdspeople.fudan.edu.cn/fuyanwei/dataset/UnrealAction/

二文章簡介

這個工作主要是針對小樣本視頻分類任務顷牌。

2.1 motivation

1. one-shot learning基本介紹

我們會有一個source domain（有充足的標注樣本）剪芍，和一個target domain（只有少量的標注樣本）；
小樣本學習旨在從source classes中遷移知識到只有非常少量標注信息的target classes中窟蓝；
所有source classes中的樣本都可以用來幫助訓練模型罪裹；
我們的最終目的是要在target dataset上達到較好的識別效果。

目前比較多的工作都還是基于image-domain上的研究运挫，并且在general setting下source domain和target domain中的樣本類別應該是不一樣的状共。

2. one-shot learning revisited

視頻相比于圖像而言會多一個時域維度，所以將小樣本學習從image-domain擴充到video-domain時就會碰到一些問題谁帕，這個是我們presentation時候畫的示意圖：

在視頻的小樣本學習中很容易會出現(xiàn)非常相近的視頻同時出現(xiàn)在source domain和target domain中的情況峡继，換句話說就是一個被標記為Action A的視頻里面會出現(xiàn)包含Action B的情況。例如shooting basketball這樣一個投籃的動作中就有非常大的可能包含running跑步的視頻片段匈挖；

這樣的一個overlapping issue本身會帶來一些不太好的影響：

對于overlapping的類別碾牌，由于其已經出現(xiàn)在source domain中，但是標注的是別的類別儡循，這對這個類別本身的識別不好舶吗；
很難判斷模型的性能好壞；

2.2 contribution

針對上面提到的overlapping問題择膝，我們在將小樣本學習從圖像域擴充到視頻域的時候引入virtual embodied agent誓琼，通過學習虛擬人物的動作來幫助我們學習理解現(xiàn)實世界中的視頻，然后基于這個想法提出了新的Embodied one-shot learning setting肴捉；
我們構建并提供了UnrealAction dataset踊赠，用于支持上面提到的Embodied one-shot learning的學習和測試；
針對小樣本學習中target classes中標注數(shù)據(jù)極度缺乏的情況每庆，我們提出一種簡單而有效的視頻段增強（video segment augmentation）方法筐带；

接下來我會依次對以上幾點進行介紹(〃''〃)

三新的小樣本學習任務：Embodied One-Shot Video Recognition

3.1 Learn from actions of virtual embodied agent

針對上面提到的overlapping問題，我們的key idea是通過學習虛擬的智能人體的動作來理解現(xiàn)實世界中的動作類別缤灵。

embodied agent：是一個能夠與虛擬環(huán)境進行智能交互的虛擬人體伦籍；
在我們的任務中蓝晒，agent的任務就是盡可能真實地模仿人類的動作，這個模仿的過程在一定程度上跟我們人類認識并理解一個新的動作有點相似帖鸦；
上圖展示的是兩個街舞break dancing的視頻截圖芝薇，感興趣的同學可以下載我們的數(shù)據(jù)集看看哦；

生成出來的動作就可以很自然地幫助我們學習和理解現(xiàn)實世界中的視頻作儿，而且理論上我們可以用一個動作生成大量不同人體不同背景的視頻洛二，為模型訓練提供樣本。

這樣做的另一個好處是由于我們生成的虛擬視頻扮演的動作都是非常純粹的攻锰，這樣就可以在一定程度上避免掉開頭我們提到的overlapping的問題晾嘶。

3.2 UnrealAction dataset

我們通過在Unreal Engine4虛擬引擎中構建虛擬世界，然后讓agent在里面perform不同的目標動作的方式生成大量的視頻娶吞。

以下是UnrealAction dataset的示意圖：

視頻類別：14 action classes垒迂；
視頻數(shù)量：每個類對應100個虛擬視頻，10個真實視頻的識別妒蛇；
視頻來源：虛擬視頻由我們生成机断，真實視頻在youtube等地方采集而來；

目前數(shù)據(jù)集從數(shù)量上來看還是挺小的绣夺，但是可以作為一個test benchmark吏奸。

3.3 Embodied One-shot Video Recognition

我們提出了一個新的小樣本視頻動作識別的setting：embodied one-shot video recognition。

然后又為這個新的setting提出了兩種具體的任務定義：embodied one-shot domain adapatation以及embodied one-shot transfer recognition;

左邊：source domain陶耍，右邊：target domain苦丁，黑色：真實視頻動作，紫色：虛擬視頻動作

classical one-shot setting： source 和 target都是真實的物臂，且動作類別不一致旺拉；
embodied one-shot domain adapatation: source是虛擬的，target是真實的棵磷，動作類別一樣蛾狗，旨在通過學習相同動作的虛擬視頻來幫助理解現(xiàn)實中的視頻；
embodied one-shot transfer recognition： source是虛擬的仪媒，target是真實的沉桌，且動作類別不一樣，這是最難的一種情況算吩，即要求算法有domain adapatation的能力留凭，又要求算法能快速識別只有少量標注樣本的新類別；

四視頻數(shù)據(jù)增強方法： Video Segment Augmentation Method

受到潛意識廣告實驗的啟發(fā)偎巢，我們提出了一種很簡單但是有效的視頻數(shù)據(jù)增強方法來處理小樣本學習情況下目標視頻標注數(shù)量非常少的情況蔼夜。

簡單來說，我們的想法就是給定一個待增強的視頻（probe video）压昼，其中該視頻的動作為c求冷，我們用一段幀數(shù)非常少的視頻片段（gallery video segment）來替換原視頻中的等長的視頻片段瘤运，來生成新的視頻augemented video。由于被替換的視頻片段非常的短匠题，我們可以認為生成的視頻動作仍然保持原來的c不變拯坟。

用這種方式我們就可以為原本有限的數(shù)據(jù)集進行數(shù)據(jù)增強的操作。

下面展示的這個是具體如何來選擇gallery video segment來保證生成的視頻在時序和語義空間上都盡量保持原有的連貫性：

這個算法的細節(jié)以及實驗部分我就不打算在這里仔細介紹了韭山，感興趣的同學歡迎看看原文哇~

五寫在最后

是我寫的很認真的一篇論文博客啦郁季，嘻嘻~~

之前糾結了很長一段時間要不要寫這篇博客，后來想了想還是寫叭钱磅，可能會很多做的不夠好的地方梦裂，歡迎大家指正啦！

如果你對這篇文章感興趣续搀，歡迎下載我們的論文and數(shù)據(jù)集塞琼，感謝~

最后菠净，感謝所有幫助我過的老師同學們禁舷，并且希望自己多多努力！

2019還有不到2個月就要結束了毅往，希望今年能再做一些工作牵咙，與大家共勉。

最后編輯于：2020.09.15 16:48:05

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末攀唯，一起剝皮案震驚了整個濱河市洁桌，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌侯嘀，老刑警劉巖另凌，帶你破解...
沈念sama閱讀 206,126評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異戒幔，居然都是意外死亡吠谢，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門诗茎，熙熙樓的掌柜王于貴愁眉苦臉地迎上來工坊，“玉大人，你說我怎么就攤上這事敢订⊥跷郏” “怎么了？”我有些...
開封第一講書人閱讀 152,445評論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵楚午，是天一觀的道長昭齐。經常有香客問我，道長矾柜，這世上最難降的妖魔是什么司浪？我笑而不...
開封第一講書人閱讀 55,185評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任泊业，我火速辦了婚禮，結果婚禮上啊易，老公的妹妹穿的比我還像新娘吁伺。我一直安慰自己，他們只是感情好租谈，可當我...
茶點故事閱讀 64,178評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布篮奄。她就那樣靜靜地躺著，像睡著了一般割去。火紅的嫁衣襯著肌膚如雪窟却。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評論 1贊 284
城市分裂傳說
那天呻逆，我揣著相機與錄音夸赫，去河邊找鬼。笑死咖城，一個胖子當著我的面吹牛茬腿，可吹牛的內容都是我干的。我是一名探鬼主播宜雀，決...
沈念sama閱讀 38,276評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼切平，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了辐董？” 一聲冷哼從身側響起悴品，我...
開封第一講書人閱讀 36,927評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎简烘，沒想到半個月后苔严，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經...
沈念sama閱讀 43,400評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡孤澎，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,883評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年届氢，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片亥至。...
茶點故事閱讀 37,997評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡悼沈，死狀恐怖，靈堂內的尸體忽然破棺而出姐扮，到底是詐尸還是另有隱情絮供，我是刑警寧澤，帶...
沈念sama閱讀 33,646評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布茶敏，位于F島的核電站壤靶，受9級特大地震影響，放射性物質發(fā)生泄漏惊搏。R本人自食惡果不足惜贮乳，卻給世界環(huán)境...
茶點故事閱讀 39,213評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一忧换、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧向拆，春花似錦亚茬、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評論 0贊 19
一樁弒父案刹缝，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至颈将，卻和暖如春梢夯，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背晴圾。一陣腳步聲響...
開封第一講書人閱讀 31,423評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工颂砸，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人死姚。一個月前我還...
沈念sama閱讀 45,423評論 2贊 352
代替公主和親
正文我出身青樓人乓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親知允。傳聞我的和親對象是個殘疾皇子撒蟀，可洞房花燭夜當晚...
茶點故事閱讀 42,722評論 2贊 345

論文 | 小樣本視頻動作分類few-shot video action recognition《Embodied One-Shot Video Recognition: Learning fro...

一 寫在前面

二 文章簡介