動作識別 (action recognition) : 是對每個輸入視頻進(jìn)行分類浪箭,識別出視頻中人物做出的動作桩撮。即輸入視頻序列虐拓,得到視頻對應(yīng)的類別杂彭。
時序動作檢測 (temporal action detection) : 任務(wù)的輸入是一個未經(jīng)裁剪的視頻 (untrimmed video)炒瘟,即在這個視頻里有些幀是沒有動作發(fā)生的咏雌,因此需要檢測出動作開始和結(jié)束的區(qū)間绽昏,并判斷區(qū)間內(nèi)動作的類別。即輸入未經(jīng)裁剪的視頻序列实蓬,得到動作出現(xiàn)的區(qū)間和對應(yīng)的類別茸俭。
時空動作檢測 (spatio-temporal action detection) : 相比于時序動作檢測略有不同,時空動作檢測不僅需要識別動作出現(xiàn)的區(qū)間和對應(yīng)的類別安皱,還要在空間范圍內(nèi)用一個包圍框 (bounding box)標(biāo)記出人物的空間位置调鬓。
時序動作分割(temporal action segmentation): 任務(wù)的輸入是一個未經(jīng)裁剪的視頻,輸出是視頻中每一幀的動作類別酌伊。