簡(jiǎn)介
雙流法 以及 C3D 算是行為識(shí)別中比較經(jīng)典也是比較基本的兩種方法舷胜,一下就對(duì)這兩種方法進(jìn)行一個(gè)簡(jiǎn)單的記錄。
簡(jiǎn)單來說活翩,其實(shí)雙流法與C3D卷積網(wǎng)絡(luò)所要處理的問題都是在一段視頻中的類別信息(這里的信息根據(jù)數(shù)據(jù)集暫時(shí)都是為單一的信息)烹骨,通過找到這個(gè)類別信息來表明這一段視頻的分類翻伺。
雙流法 (Two-Stream)
雙流法,顧名思義就好像是兩條小溪流各自流動(dòng)最后匯聚到了一塊展氓;其中一條小溪流的名稱為“RGB”圖信息,可以是3通道的信息脸爱,也可以是 RGB-D 的灰度圖信息遇汞; 而另一條小溪流的名稱是“光流”圖的信息,一般的光流圖為2通道的信息簿废,分別為在X軸上的信息變化與Y軸上的信息變化空入。【光流是通過對(duì)兩張圖進(jìn)行梯度計(jì)算得到族檬,抽象層面可以理解成是其關(guān)鍵點(diǎn)的像素點(diǎn)信息移動(dòng)的信息】
如圖所示歪赢,其實(shí)做法非常的簡(jiǎn)單,相當(dāng)于訓(xùn)練兩個(gè)CNN的分類器单料。一個(gè)是專門對(duì)于 RGB 圖的埋凯, 一個(gè)專門對(duì)于光流圖的, 然后將兩者的結(jié)果進(jìn)行一個(gè) fushion 的過程扫尖。RGB圖的選擇白对,是對(duì)于所給的一段視頻隨機(jī)挑選出視頻中的任意一幀;而光流圖是選擇視頻中的任意一幀的時(shí)間然后及其后面的N幀疊合成一個(gè)光流棧進(jìn)入訓(xùn)練换怖∷δ眨【這種光流的訓(xùn)練方式是論文作者認(rèn)為,這樣子的光流疊加可以獲得它的運(yùn)動(dòng)信息流沉颂,但是實(shí)際上光流圖并不是以motion的信息來得到結(jié)果条摸,有興趣可以參看(參考資料2)的內(nèi)容】
P.S: 因?yàn)檫@個(gè)雙流法是訓(xùn)練了兩個(gè)網(wǎng)絡(luò),在最后 softmax 前進(jìn)行了fushion铸屉,顯示效果不錯(cuò)钉蒲。這是一篇14年的開篇之作,在16年時(shí)候彻坛,有人對(duì)fushion的位置進(jìn)行了研究子巾。(有興趣可以去閱讀論文:https://arxiv.org/abs/1604.06573)
TSN
這里順便提一下 TSN ,一個(gè)根據(jù) two-stream 改進(jìn)的網(wǎng)絡(luò)框架小压。這一個(gè)框架的改進(jìn)初衷是因?yàn)樽钤及姹镜膖wo-stream對(duì)長(zhǎng)視頻的內(nèi)容分類效果并不好线梗。這里可以簡(jiǎn)單的舉個(gè)例子想象一下,比如各個(gè)學(xué)校都是有運(yùn)動(dòng)會(huì)的怠益,現(xiàn)在我們來到跳遠(yuǎn)場(chǎng)地拍了一段一位選手的跳遠(yuǎn)過程視頻仪搔。然后我們將這段視頻丟給原先的 Two-stream 框架進(jìn)行測(cè)試,結(jié)果得到了一個(gè)跑步的結(jié)果蜻牢。這是為什么呢烤咧?就是因?yàn)槲覀兂槿C(jī)制的方式偏陪,我們隨機(jī)抽取與訓(xùn)練的方式,不能覆蓋的這段視頻的過程煮嫌。因?yàn)樘h(yuǎn)是一個(gè)助跑與跳的過程笛谦,他有比較強(qiáng)烈的時(shí)間序列性質(zhì)。而TSN改進(jìn)的方面非常的簡(jiǎn)單昌阿,它只是將整段視頻切割成了3段(可以是3段)饥脑,然后對(duì)每段進(jìn)行 two-steam的訓(xùn)練,最后再進(jìn)行疊加懦冰。如下圖所示:
C3D 卷積網(wǎng)絡(luò)
C3D 網(wǎng)絡(luò)其實(shí)也非常簡(jiǎn)單灶轰,其實(shí)就是在2D卷積的過程中加上了時(shí)間維度的信息進(jìn)行時(shí)間維度上的卷積。一個(gè)2D的卷積對(duì)于一個(gè)3維的【這里說3維是 一般我們的圖像是 C * W * H 刷钢,這里先解釋成三維來進(jìn)行說明】笋颤,最后得到的是一個(gè)二維的feature map,假設(shè)當(dāng)我們有 K 個(gè)卷積核時(shí)内地,進(jìn)行面的堆疊伴澄,最后就形成一個(gè)三維結(jié)構(gòu) K * W * H (這里默認(rèn)卷積不降維)。同理阱缓, C3D相當(dāng)于是設(shè)計(jì)了一個(gè)3D的卷積對(duì)一個(gè)4維【抽象來看也可以是一個(gè)3維結(jié)構(gòu) (C * L)* W * H 】的結(jié)構(gòu)進(jìn)行卷積最后得到一個(gè)3維的結(jié)構(gòu)秉版。然后假設(shè)當(dāng)我們有K個(gè)卷積核時(shí),其實(shí)也可以算是3維deep時(shí)的疊加茬祷,也可以看做是堆疊成四維向量清焕。【這里你可以想象成祭犯,先進(jìn)行了一步 2D 卷積得到 feature map 后秸妥,對(duì)這些 feature map 再在空間上進(jìn)行卷積】
下圖,我們可以有一個(gè)直觀理解2D卷積和3D卷積的差別沃粗≈嗑澹【摘自論文】
我們可以根據(jù)這個(gè)箭頭的順序信息來理解卷積的過程【這里最好將圖片先看做 RGB-D 來理解,比較容易最盅,因?yàn)檫@種方式它的通道數(shù)是 1 】突雪,先進(jìn)行一個(gè)平面的卷積來得到這張圖的 feature map 之后在其時(shí)間序列上再進(jìn)行卷積。
得到 feature map 后的圖形卷積過程涡贱,可以類似如下圖所示:
筆者個(gè)人認(rèn)為咏删,C3D的卷積過程其實(shí)可以看做時(shí)序序列的附近信息逐步疊合的過程∥蚀剩可以用感受野來去想象督函,他有點(diǎn)類似從散到點(diǎn)的過程(如下圖的類似過程)。筆者個(gè)人認(rèn)為可能在這樣的一個(gè)過程中,對(duì)于動(dòng)作的序列信息比如最開始一張圖片對(duì)于后續(xù)的動(dòng)作影響比重比例稍有欠妥辰狡,可能是可以提升的地方锋叨。【這里也就是個(gè)人的推測(cè)而已宛篇,可以當(dāng)做笑話】
【參考資料】
- http://www.reibang.com/p/0b4964261673
- https://blog.csdn.net/elaine_bao/article/details/80891173【光流在視頻識(shí)別中的作用】
- https://zhuanlan.zhihu.com/p/34929782 【two-stream】