科研:
一檐晕、C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)
1.首先介紹一下3D卷積:(與2D卷積對比)
2D不管有多少通道猾编,一個卷積核只能對應(yīng)輸出一張?zhí)卣鲌D睬罗,這樣就只存在了空間關(guān)系搪锣,喪失了時間關(guān)系
上面進(jìn)行卷積操作的時間維度為3(kernel temporal depth)汗茄,即對連續(xù)的三幀圖像進(jìn)行卷積操作,上面的? 3D卷積是通過堆疊多個連續(xù)的幀組成一個立方體四康,然后在立方體中運(yùn)用3D卷積核搪搏。在這個結(jié)構(gòu)中,卷積層中每一個特征map都會與上一層中多個鄰近的連續(xù)幀相連闪金,因此捕捉運(yùn)動信息疯溺。例如上面左圖论颅,一個卷積map的某一位置的值是通過卷積上一層的三個連續(xù)的幀的同一個位置的局部感受野得到的。
需要注意的是:3D卷積核只能從cube中提取一種類型的特征囱嫩,因?yàn)樵谡麄€cube中卷積核的權(quán)值都是一樣的恃疯,也就是共享權(quán)值,都是同一個卷積核(圖中同一個顏色的連接線表示相同的權(quán)值)墨闲。我們可以采用多種卷積核今妄,以提取多種特征。
2.下面分析一下對kernel temporal depth的選取問題
@數(shù)值選為多少合適损俭?文中做了實(shí)驗(yàn)
其中證明depth=3效果最好蛙奖,同時也證明了3D卷積比2D卷積效果好(depth=1即為2D卷積)
@各個卷積層如何選擇depth?
兩種方式:一種是所有層的depth相同潘酗,另一種是所有層depth不同(increase:3-5-5-7杆兵,decrease:7-5-5-3)
經(jīng)過兩個實(shí)驗(yàn)得出結(jié)論,3*3*3的卷積層效果最好仔夺!
3.文中還提到了Slow Fusion模型
該模型在前幾層的卷積過程中琐脏,包含了時間信息,作者認(rèn)為這是它表現(xiàn)好的原因缸兔,但是在最后一層fusion的過程中日裙,還是完全喪失了時間信息,所以造成了一定缺陷惰蜜。
二昂拂、mxnet編譯
CUDA_VISIBLE_DEVICES=1 python ./rfcn/demo.py (使用RFCN網(wǎng)絡(luò)一幀一幀進(jìn)行測試)
CUDA_VISIBLE_DEVICES=1 python ./dff_rfcn/demo.py (使用deep feature flow進(jìn)行測試)
對比后可以明顯看出,dff速度的提高抛猖,但從標(biāo)注的準(zhǔn)確性上來說格侯,略有欠缺。
而且DFF第一幀的訓(xùn)練時間與rfcn相同财著,也符合其提出的方法联四。