時域卷積網絡
參考論文:Temporal Convolutional Networks for Action Segmentation and Detection
1. 任務和模型簡介
? ? ? ?本文講述了對于視頻中人類動作片段的切分與檢測任務應用了TCN的編碼器解碼器架構。Action segmentation and detection任務主要是用于將視頻中人物在不同時段的動作切分出來敲霍,并進行識別俊马。據說在監(jiān)控和機器人行為的研究中比較有用。
? ? ? ?TCN全稱為Temporal convolutional network肩杈,中文為時域卷積網絡柴我,融合了時域上的建模能力,卷積的低參數量下的特征提取能力扩然。本文提出的TCN encoder-decoder如下圖所示艘儒。
? ? ? ? 使用TCN對任務進行建模的好處:
? ? ? ? 1.比基于LSTM的循環(huán)神經網絡模型訓練更快,因為RNN存在時序上的計算連接夫偶;
? ? ? ? 2.TCN更加擅長捕捉時序上的依賴關系宠默,而且因為使用了卷積徒恋,可以捕捉到局部信息堕担。
? ? ? ? 3. 感受野的尺寸可以靈活調整吮廉。
2. 模型剖析
基本TCN的特征:
- 計算是layer-wise的,即每個時刻被同時計算说铃,而非時序上串行访惜。
- 卷積是跨時域進行的。
- predictions at each frame are a function of a fixed-length period of time, which is referred to as the receptive field腻扇。
- 可實現(xiàn)接收任意長度的輸入序列作為輸入债热,同時將其映射為等長的輸出序列,這方面比較像RNN衙解。
TCN的基本結構:
TCN的輸入:視頻特征的集合阳柔,從視頻的每一幀中提取。對于時刻t來說蚓峦,對應了第t個幀舌剂,每個時刻會提取出來一個特征向量。對于整個視頻暑椰,提取出來的是一個特征向量的序列霍转。對于每一幀,都有一個對應的正確的動作標簽(action label)一汽。輸出是和輸入等長的序列避消。
因果卷積(causal convolution)convolutions where an output at time t is convolved only with elements from time t and earlier in the previous layer。
擴大卷積(dilated convolution)是通過跳過部分輸入來使filter可以應用于大于filter本身長度的區(qū)域召夹。等同于通過增加零來從原始filter中生成更大的filter岩喷。
3. FCN 全卷積網絡
FCN同CNN的區(qū)別:
全連接層轉換為卷積層:
假設一個卷積神經網絡的輸入是224x224x3的圖像,一系列的卷積層和下采樣層將圖像數據變?yōu)槌叽鐬?x7x512數據形式监憎。AlexNet使用了兩個尺寸為4096的全連接層纱意,最后一個有1000個神經元的全連接層用于計算分類評分。我們可以將這3個全連接層轉化為卷積層:
- 針對第一個連接區(qū)域是[7x7x512]的全連接層鲸阔,令其濾波器尺寸為(7*7)偷霉,這樣輸出數據體就為[1x1x4096]了。
- 針對第二個全連接層褐筛,令其濾波器尺寸為(1*1)类少,這樣輸出數據形狀為[1x1x4096]。
- 對最后一個全連接層也做類似的渔扎,濾波器尺寸為(1*1)硫狞,最終輸出數據形狀為[1x1x1000]。