一 寫在前面
未經允許铅协,不得轉載妻怎,謝謝~~~
有將近2個月的時間沒有在簡書上更文了瓷翻,這段時間小伙伴們的留言和評論也沒有及時處理赖歌,/抱歉(灬°ω°灬)
這篇文章是我自己的第一篇學術論文缺虐,從去年4月投稿到10月底參加學術會議,中間學到很多東西礁凡。
希望會是一個好的開始高氮,希望接下來能保持努力。?
文章基本信息:
- 會議:ACMMM2019
- 論文:Embodied One-Shot Video Recognition: Learning from Actions of a Virtual Embodied Agent
- 原文:https://dl.acm.org/citation.cfm?id=3351015
- UnrealAction dataset:http://www.sdspeople.fudan.edu.cn/fuyanwei/dataset/UnrealAction/
二 文章簡介
這個工作主要是針對小樣本視頻分類任務顷牌。
2.1 motivation
1. one-shot learning基本介紹
- 我們會有一個source domain(有充足的標注樣本)剪芍,和一個target domain(只有少量的標注樣本);
- 小樣本學習旨在從source classes中遷移知識到只有非常少量標注信息的target classes中窟蓝;
- 所有source classes中的樣本都可以用來幫助訓練模型罪裹;
- 我們的最終目的是要在target dataset上達到較好的識別效果。
目前比較多的工作都還是基于image-domain上的研究运挫,并且在general setting下source domain和target domain中的樣本類別應該是不一樣的状共。
2. one-shot learning revisited
視頻相比于圖像而言會多一個時域維度,所以將小樣本學習從image-domain擴充到video-domain時就會碰到一些問題谁帕,這個是我們presentation時候畫的示意圖:
在視頻的小樣本學習中很容易會出現(xiàn)非常相近的視頻同時出現(xiàn)在source domain和target domain中的情況峡继,換句話說就是一個被標記為Action A的視頻里面會出現(xiàn)包含Action B的情況。例如shooting basketball這樣一個投籃的動作中就有非常大的可能包含running跑步的視頻片段匈挖;
這樣的一個overlapping issue本身會帶來一些不太好的影響:
- 對于overlapping的類別碾牌,由于其已經出現(xiàn)在source domain中,但是標注的是別的類別儡循,這對這個類別本身的識別不好舶吗;
- 很難判斷模型的性能好壞;
2.2 contribution
- 針對上面提到的overlapping問題择膝,我們在將小樣本學習從圖像域擴充到視頻域的時候引入virtual embodied agent誓琼,通過學習虛擬人物的動作來幫助我們學習理解現(xiàn)實世界中的視頻,然后基于這個想法提出了新的Embodied one-shot learning setting肴捉;
- 我們構建并提供了UnrealAction dataset踊赠,用于支持上面提到的Embodied one-shot learning的學習和測試;
- 針對小樣本學習中target classes中標注數(shù)據(jù)極度缺乏的情況每庆,我們提出一種簡單而有效的視頻段增強(video segment augmentation)方法筐带;
接下來我會依次對以上幾點進行介紹(〃''〃)
三 新的小樣本學習任務:Embodied One-Shot Video Recognition
3.1 Learn from actions of virtual embodied agent
針對上面提到的overlapping問題,我們的key idea是通過學習虛擬的智能人體的動作來理解現(xiàn)實世界中的動作類別缤灵。
- embodied agent:是一個能夠與虛擬環(huán)境進行智能交互的虛擬人體伦籍;
- 在我們的任務中蓝晒,agent的任務就是盡可能真實地模仿人類的動作,這個模仿的過程在一定程度上跟我們人類認識并理解一個新的動作有點相似帖鸦;
- 上圖展示的是兩個街舞break dancing的視頻截圖芝薇,感興趣的同學可以下載我們的數(shù)據(jù)集看看哦;
生成出來的動作就可以很自然地幫助我們學習和理解現(xiàn)實世界中的視頻作儿,而且理論上我們可以用一個動作生成大量不同人體不同背景的視頻洛二,為模型訓練提供樣本。
這樣做的另一個好處是由于我們生成的虛擬視頻扮演的動作都是非常純粹的攻锰,這樣就可以在一定程度上避免掉開頭我們提到的overlapping的問題晾嘶。
3.2 UnrealAction dataset
我們通過在Unreal Engine4虛擬引擎中構建虛擬世界,然后讓agent在里面perform不同的目標動作的方式生成大量的視頻娶吞。
以下是UnrealAction dataset的示意圖:
- 視頻類別:14 action classes垒迂;
- 視頻數(shù)量:每個類對應100個虛擬視頻,10個真實視頻的識別妒蛇;
- 視頻來源:虛擬視頻由我們生成机断,真實視頻在youtube等地方采集而來;
目前數(shù)據(jù)集從數(shù)量上來看還是挺小的绣夺,但是可以作為一個test benchmark吏奸。
3.3 Embodied One-shot Video Recognition
我們提出了一個新的小樣本視頻動作識別的setting:embodied one-shot video recognition。
然后又為這個新的setting提出了兩種具體的任務定義:embodied one-shot domain adapatation以及embodied one-shot transfer recognition;
- classical one-shot setting: source 和 target都是真實的物臂,且動作類別不一致旺拉;
- embodied one-shot domain adapatation: source是虛擬的,target是真實的棵磷,動作類別一樣蛾狗,旨在通過學習相同動作的虛擬視頻來幫助理解現(xiàn)實中的視頻;
- embodied one-shot transfer recognition: source是虛擬的仪媒,target是真實的沉桌,且動作類別不一樣,這是最難的一種情況算吩,即要求算法有domain adapatation的能力留凭,又要求算法能快速識別只有少量標注樣本的新類別;
四 視頻數(shù)據(jù)增強方法: Video Segment Augmentation Method
受到潛意識廣告實驗的啟發(fā)偎巢,我們提出了一種很簡單但是有效的視頻數(shù)據(jù)增強方法來處理小樣本學習情況下目標視頻標注數(shù)量非常少的情況蔼夜。
簡單來說,我們的想法就是給定一個待增強的視頻(probe video)压昼,其中該視頻的動作為c求冷,我們用一段幀數(shù)非常少的視頻片段(gallery video segment)來替換原視頻中的等長的視頻片段瘤运,來生成新的視頻augemented video。由于被替換的視頻片段非常的短匠题,我們可以認為生成的視頻動作仍然保持原來的c不變拯坟。
用這種方式我們就可以為原本有限的數(shù)據(jù)集進行數(shù)據(jù)增強的操作。
下面展示的這個是具體如何來選擇gallery video segment來保證生成的視頻在時序和語義空間上都盡量保持原有的連貫性:
這個算法的細節(jié)以及實驗部分我就不打算在這里仔細介紹了韭山,感興趣的同學歡迎看看原文哇~
五 寫在最后
是我寫的很認真的一篇論文博客啦郁季,嘻嘻~~
之前糾結了很長一段時間要不要寫這篇博客,后來想了想還是寫叭钱磅,可能會很多做的不夠好的地方梦裂,歡迎大家指正啦!
如果你對這篇文章感興趣续搀,歡迎下載我們的論文and數(shù)據(jù)集塞琼,感謝~
最后菠净,感謝所有幫助我過的老師同學們禁舷,并且希望自己多多努力!
2019還有不到2個月就要結束了毅往,希望今年能再做一些工作牵咙,與大家共勉。