1.Spatial stream Convnet:隨機(jī)采樣單幀圖片輸入搂橙,提取靜態(tài)特征(顏色,形狀)
網(wǎng)絡(luò)結(jié)構(gòu)很常用奇唤,類似于圖像領(lǐng)域上的應(yīng)用辫樱,可以現(xiàn)在Imagnet預(yù)訓(xùn)練峭拘,再微調(diào)。
2.Temporal stream Convnet:本文的亮點(diǎn)狮暑。
與以往將堆疊的視頻幀作為輸入不同鸡挠,本文采用堆疊的光流作為網(wǎng)絡(luò)的輸入。將多幀(L幀)光流作為多個(gè)輸入通道(2L)
以往堆疊的視頻幀心例,將堆疊的視頻幀作為輸入宵凌,未從時(shí)序上處理視頻幀鞋囊,只是簡(jiǎn)單地作為多個(gè)輸入通道止后,難以提取時(shí)空運(yùn)動(dòng)信息。
而將堆疊的光流輸入,光流本身已描述了運(yùn)動(dòng)的速度和方向译株,然而存在著計(jì)算量大的問(wèn)題瓜喇。
3.spatial stream convnet與Temporal stream convnet融合:
簡(jiǎn)單求平均或者兩者用L2范式融合再用SVM分類
summary:
1.光流的多種變體:
a。簡(jiǎn)單計(jì)算選定幀I的前向L幀光流
b歉糜。只計(jì)算稠密軌跡點(diǎn)上的光流(計(jì)算量減谐撕?效果差一些匪补?)
問(wèn)題Q:實(shí)驗(yàn)結(jié)果表明該效果比單純的光流效果差伞辛?為什么?
c夯缺。計(jì)算選定幀I的前L/2幀以及后L/2幀光流
2.相機(jī)運(yùn)動(dòng)消除
減去平均光流
3.多任務(wù)學(xué)習(xí)
針對(duì)數(shù)據(jù)集小蚤氏,樣本數(shù)量少:本文聯(lián)合UCF101與HMDB51數(shù)據(jù)集進(jìn)行訓(xùn)練,用兩層softmax分別進(jìn)行兩個(gè)數(shù)據(jù)集的分類
4.訓(xùn)練:
a踊兜。每次迭代從視頻樣本中隨機(jī)抽取一幀(I)作為空域卷積網(wǎng)絡(luò)的輸入
當(dāng)?shù)螖?shù)多時(shí)竿滨,可以保證隨機(jī)采樣得到的幀均勻分布整個(gè)視頻樣本。
問(wèn)題Q:迭代的次數(shù)能否滿足上述要求捏境?每次只學(xué)習(xí)到一幀于游?是否存在效率低的問(wèn)題?
b垫言。計(jì)算選定幀I的L幀光流贰剥,作為時(shí)域卷積網(wǎng)絡(luò)的輸入
問(wèn)題Q:選定幀I位于視頻的開(kāi)始,結(jié)束時(shí)筷频,如何計(jì)算L幀光流
5.測(cè)試
從待測(cè)試的視頻中均勻抽取固定數(shù)量的視頻幀作為輸入
問(wèn)題Q:不同長(zhǎng)度的視頻是否需要不一樣的數(shù)量