一艰争、序列模型
1、定義
1.1 對桂对,存在函數(shù)使得注意甩卓,任意只與有關(guān),而與無關(guān)蕉斜。
1.2?序列模型就是通過機(jī)器學(xué)習(xí)等方法來擬合這個函數(shù)? 逾柿,最小化實(shí)際輸出和預(yù)測之間的一些預(yù)期損失。
2宅此、示例
正例:句子生成机错;反例:機(jī)器翻譯,與無關(guān)父腕。
二弱匪、TCN模型
1、TCN模型概要
形式簡潔:卷積形式 convolutions
試用序列模型:因果卷積 causal convolution
對歷史有記憶:擴(kuò)張卷積 dilated convolutions +殘差模塊 residual block
輸入輸出維度一致:全卷積網(wǎng)絡(luò) fully-convolutional network
一維因果卷積與擴(kuò)張卷積作為標(biāo)準(zhǔn)卷積層璧亮,并將每兩個這樣的卷積層與恒等映射可以封裝為一個殘差模塊萧诫。再由殘差模塊堆疊起深度網(wǎng)絡(luò),并在最后幾層使用全卷積層代替全連接層枝嘶。
2财搁、網(wǎng)絡(luò)結(jié)構(gòu)
2.1 因果卷積
從直觀上來說,它類似于將卷積運(yùn)算「劈」去一半躬络,令其只能對過去時間步的輸入進(jìn)行運(yùn)算尖奔。對于 TCN 所使用的一維卷積來說,因果卷積可以簡單將一般卷積的輸出移動幾個時間步而實(shí)現(xiàn)穷当。TCN使用因果卷積提茁,其中時間t的輸出僅與來自前一層中的時間t和更早的元素卷積。
2.2 擴(kuò)張卷積
因果卷積其實(shí)還有一個問題馁菜,它需要非常多的層級數(shù)或較大的卷積核來擴(kuò)寬感受野茴扁,而較大的感受野正式構(gòu)建長期記憶所必須的。增加感受野一種方法是卷積層數(shù)的增加汪疮,但是卷積層數(shù)的增加就帶來:梯度消失峭火,訓(xùn)練復(fù)雜,擬合效果不好的問題智嚷,為了決絕這個問題卖丸,出現(xiàn)了擴(kuò)張卷積(dilated)。
擴(kuò)展卷積在保持參數(shù)個數(shù)不變的情況下增大了卷積核的感受野盏道,同時它可以保證輸出的特征映射(featuremap)的大小保持不變稍浆。
2.3 殘差模塊
殘差網(wǎng)絡(luò)在計(jì)算機(jī)視覺中有非常強(qiáng)大的表達(dá)能力,它因?yàn)榻鉀Q了深層網(wǎng)絡(luò)的訓(xùn)練問題而可以大大增加網(wǎng)絡(luò)的層數(shù)。
殘差網(wǎng)絡(luò)加入跨層連接的恒等映射衅枫。
學(xué)習(xí)變換函數(shù)H(X)改為學(xué)習(xí)殘差函數(shù)F(X)=H(X)-X,即學(xué)習(xí)對輸入X的整體變換嫁艇,改為學(xué)習(xí)對輸入X的部分修改。
殘差引入殘差模塊可以解決梯度消失的問題弦撩,淺層網(wǎng)絡(luò)很容易擴(kuò)展為深層網(wǎng)絡(luò)步咪。
2.4 全卷積網(wǎng)絡(luò)
TCN使用1D全卷積網(wǎng)絡(luò)(FCN)架構(gòu)(Longetal。益楼,2015)猾漫,其中每個隱藏層與輸入層的長度相同,并且零填充長度(內(nèi)核大小-1)是添加以保持后續(xù)圖層與之前圖層的長度相同偏形。使用卷積層代替全連接層静袖,使得輸出與輸入維度一致觉鼻,實(shí)現(xiàn)端對端序列建模的預(yù)測效果俊扭。
2.5 網(wǎng)絡(luò)結(jié)構(gòu)模型
三、TCN的優(yōu)缺點(diǎn)
1坠陈、優(yōu)點(diǎn)
不同于RNN結(jié)構(gòu)萨惑,TCN可以大規(guī)模并行處理,因此在訓(xùn)練和驗(yàn)證時網(wǎng)絡(luò)的速度都會更快仇矾;
TCN可以通過增加層數(shù)庸蔼、改變膨脹系數(shù)和濾波器的大小改變感受野,歷史信息長短上更加靈活贮匕,且避免了RNN中的梯度彌散和梯度爆炸的問題姐仅;
訓(xùn)練時占用的內(nèi)存更少,尤其是對于長序列刻盐。
2掏膏、缺點(diǎn)
在測試中,RNN只需要維護(hù)一個隱藏狀態(tài)并接受當(dāng)前輸入敦锌,便可以生成一個預(yù)測馒疹,這意味著觀察到的序列可以被丟棄。但是TCN仍舊需要完整的序列才能進(jìn)行預(yù)測乙墙。
不同領(lǐng)域的超參數(shù)(如K和d)可能不同颖变,遷移模型調(diào)整參數(shù)比較麻煩。
An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling:https://arxiv.org/abs/1803.01271
Fully Convolutional Networks for Semantic Segmentation:https://arxiv.org/pdf/1605.06211.pdf