卷積神經(jīng)網(wǎng)絡(luò)的條件時間序列預(yù)測
摘要
我們提出了一種基于最新深度卷積WaveNet架構(gòu)的條件時間序列預(yù)測方法怠噪。擬議的網(wǎng)絡(luò)包含堆疊的卷積堆棧下隧,使它們可以在預(yù)測時訪問廣泛的歷史記錄沮尿,ReLU激活函數(shù)和條件是通過將多個卷積濾波器并行應(yīng)用于單獨的時間序列來執(zhí)行的檐束,從而可以快速處理數(shù)據(jù)和利用多元時間序列之間的相關(guān)結(jié)構(gòu)。我們使用S&P500酌媒,波動率指數(shù)仁烹,CBOE利率和幾種匯率來無條件和有條件地對卷積網(wǎng)絡(luò)的性能進行測試和分析耸弄,并將其與眾所周知的自回歸的性能進行廣泛比較模型和長期記憶網(wǎng)絡(luò)。我們表明卓缰,卷積網(wǎng)絡(luò)非常適合回歸類型的問題计呈,并且能夠有效地學(xué)習(xí)序列中以及序列之間的依賴關(guān)系砰诵,而無需較長的歷史時間序列,它是一種省時且易于實現(xiàn)的替代遞歸類型的方法網(wǎng)絡(luò)捌显,并且往往優(yōu)于線性模型和遞歸模型茁彭。關(guān)鍵字:卷積神經(jīng)網(wǎng)絡(luò),金融時間序列扶歪,預(yù)測理肺,深度學(xué)習(xí),多元時間序列
簡介
由于明顯的原因善镰,使用過去的觀察來預(yù)測財務(wù)時間序列已成為人們非常感興趣的話題妹萨。眾所周知,盡管數(shù)據(jù)中存在時間關(guān)系炫欺,但由于序列中存在非線性趨勢乎完,粗尾和噪聲,它們很難準(zhǔn)確分析和預(yù)測[6]品洛。在開發(fā)用于預(yù)測財務(wù)數(shù)據(jù)的模型時树姨,希望它們既能夠?qū)W習(xí)數(shù)據(jù)中的非線性依存關(guān)系,又具有很高的抗噪性桥状。傳統(tǒng)的自回歸模型(例如VAR和ARMA [9])無法捕獲非線性模式帽揪。前饋神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)數(shù)據(jù)中依存關(guān)系的流行方法,因為前饋神經(jīng)網(wǎng)絡(luò)無需使用預(yù)先指定特定的模型形式辅斟,參見[28]或[4]转晰。Hybrid還提出了使用神經(jīng)網(wǎng)絡(luò)和計量經(jīng)濟學(xué)模型的混合方法,傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的一個缺點是需要大量的數(shù)據(jù)樣本才能獲得穩(wěn)定的預(yù)測結(jié)果砾肺。
本文的主要重點是多元時間序列預(yù)測挽霉,特別是金融時間序列。特別是变汪,我們預(yù)測以其他相關(guān)序列為條件的時間序列。眾所周知蚁趁,金融時間序列既具有高噪聲成分裙盾,又具有有限的持續(xù)時間–即使可用,由于金融環(huán)境的變化他嫡,使用長期股價歷史記錄也可能很困難番官。同時,存在許多不同但密切相關(guān)的財務(wù)時間序列钢属。在這里徘熔,我們旨在利用條件的概念來開發(fā)多變量預(yù)測,以減少短時序列中的噪聲淆党。實際上酷师,我們將多個財務(wù)時間序列用作神經(jīng)網(wǎng)絡(luò)的輸入讶凉,從而根據(jù)其自身的歷史以及多個其他時間序列的歷史來對時間序列的預(yù)測進行調(diào)整。在多個股票系列上訓(xùn)練模型可以使網(wǎng)絡(luò)利用這些系列之間的相關(guān)結(jié)構(gòu)山孔,以便網(wǎng)絡(luò)可以在較短的數(shù)據(jù)序列中了解市場動態(tài)懂讯。如圖所示[30]對于分類,使用多個條件時間序列作為輸入可以通過學(xué)習(xí)序列之間的長期時間依賴性來提高模型的魯棒性和預(yù)測質(zhì)量台颠。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)褐望,參見[18],是一種生物啟發(fā)型的深度神經(jīng)網(wǎng)絡(luò)(DNN)串前,由于其在分類問題(例如圖像識別[16]或時間序列分類[ 26])瘫里。 CNN由一系列卷積層組成,其輸出僅連接到輸入中的局部區(qū)域荡碾。這是通過在輸入上滑動濾波器或權(quán)重矩陣并在每個點計算兩者之間的點積(即輸入和濾波器之間的卷積)來實現(xiàn)的谨读。這種結(jié)構(gòu)允許模型學(xué)習(xí)能夠識別輸入數(shù)據(jù)中特定模式的過濾器。 CNN用于時間序列預(yù)測的最新進展包括[20]玩荠,其中作者提出了基于未抽取小波變換的時間序列建模的未抽取卷積網(wǎng)絡(luò)漆腌,[3]作者建議使用自回歸型加權(quán)系統(tǒng)來預(yù)測金融時間序列,其中權(quán)重通過通過CNN進行學(xué)習(xí)而被允許與數(shù)據(jù)相關(guān)阶冈。在一般的文獻中闷尿,關(guān)于卷積架構(gòu)的金融時間序列預(yù)測的文獻仍然很少,因為這些類型的網(wǎng)絡(luò)更常用于分類問題女坑。直觀地填具,將CNN應(yīng)用于時間序列預(yù)測的想法是學(xué)習(xí)表示代表該序列中某些重復(fù)模式的過濾器,并使用它們來預(yù)測未來值匆骗。由于CNN的分層結(jié)構(gòu)劳景,它們可以在嘈雜序列上很好地工作,通過在每個后續(xù)層中丟棄噪聲并僅提取有意義的模式碉就,從而與使用小波變換時間序列的神經(jīng)網(wǎng)絡(luò)(即盟广,高頻和低頻分量)作為輸入,請參見例如[1]瓮钥,[17]筋量。
當(dāng)前,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)碉熄,尤其是長期短期記憶單元(LSTM)[12]桨武,[5]是時間序列預(yù)測的最新技術(shù),另請參見[14]和特別是[7]的財務(wù)預(yù)測結(jié)果锈津。這些網(wǎng)絡(luò)的效率可以通過循環(huán)連接來解釋呀酸,循環(huán)連接允許網(wǎng)絡(luò)訪問以前時間序列值的整個歷史記錄。另一種選擇是采用多層卷積的卷積神經(jīng)網(wǎng)絡(luò)[27]琼梆。通過跳過輸入中的某些元素來應(yīng)用濾波器的擴張卷積允許網(wǎng)絡(luò)的接收場呈指數(shù)增長性誉,從而允許網(wǎng)絡(luò)類似于RNN窿吩,訪問范圍廣泛的歷史記錄。 CNN相對于遞歸型網(wǎng)絡(luò)的優(yōu)勢在于艾栋,由于網(wǎng)絡(luò)的卷積結(jié)構(gòu)爆存,可訓(xùn)練權(quán)重的數(shù)量很少,從而可以更有效地進行訓(xùn)練和預(yù)測蝗砾。
受[25]的影響先较,作者將PixelCNN與用于圖像生成的網(wǎng)絡(luò)PixelRNN [24]的性能進行了比較。在本文中悼粮,我們旨在研究卷積神經(jīng)網(wǎng)絡(luò)與自回歸算法和自回歸算法相比的性能闲勺。預(yù)測嘈雜的財務(wù)時間序列的遞歸模型。我們使用的CNN是受最早為音頻預(yù)測而開發(fā)的[23]的卷積WaveNet模型啟發(fā)的網(wǎng)絡(luò)扣猫,我們對其結(jié)構(gòu)進行了簡化和優(yōu)化以進行多元時間序列預(yù)測菜循。我們的網(wǎng)絡(luò)專注于學(xué)習(xí)多元,嘈雜的時間序列內(nèi)以及之間的長期關(guān)系申尤。與[23]相似癌幕,它使用膨脹卷積,但是這些卷積與輸入時間序列以及我們所依據(jù)的時間序列中的參數(shù)化跳過連接[11]一起應(yīng)用昧穿,從而學(xué)習(xí)了長和短術(shù)語相互依存關(guān)系的有效方式勺远。此外,原始WaveNet模型的門控激活功能被整流線性單元(ReLU)取代时鸵,簡化了模型并減少了訓(xùn)練時間胶逢。
本文包括幾個主要的貢獻。首先饰潜,我們介紹了受WaveNet模型啟發(fā)的CNN初坠,其結(jié)構(gòu)經(jīng)過簡化和優(yōu)化以用于時間序列預(yù)測,即使用ReLU激活以及通過參數(shù)化跳過連接進行新穎彭雾,更優(yōu)化的調(diào)節(jié)方式碟刺。其次,據(jù)我們所知薯酝,知道CNN在分類問題上的出色表現(xiàn)南誊,我們的工作是(據(jù)我們所知)第一個表明它們可以成功地用于預(yù)測有限長度的金融時間序列。通過對WaveNet模型進行廣泛的分析并將性能與LSTM蜜托,當(dāng)前最新的預(yù)測技術(shù)以及計量經(jīng)濟學(xué)中流行的自回歸模型進行比較,我們證明WaveNet模型是一種高效的方法且易于實施以替代遞歸型網(wǎng)絡(luò)霉赡,并且往往優(yōu)于線性模型和遞歸模型橄务。最后蔑担,我們使用人工時間序列以及S&P500月腋,VIX挠乳,CBOE利率和五種匯率的示例表明垦江,WaveNet模型中有效的條件調(diào)節(jié)方式使人們能夠提取時間序列之間的時間關(guān)系,從而改善預(yù)測棠涮,而同時限制了長期歷史價格序列的需求并降低了噪音谬哀,因為它允許人們利用相關(guān)時間序列之間的相關(guān)性⊙戏荆總體而言史煎,我們表明卷積網(wǎng)絡(luò)可以更簡單,更容易地訓(xùn)練循環(huán)網(wǎng)絡(luò)的替代方法驳糯,同時在非線性篇梭,嘈雜的預(yù)測任務(wù)上至少達到相同或更高的準(zhǔn)確性。
模型
在這一節(jié)中酝枢,我們首先回顧一下神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)恬偷。然后,我們介紹了將用于時間序列預(yù)測的特定卷積網(wǎng)絡(luò)結(jié)構(gòu)帘睦。
前饋神經(jīng)網(wǎng)絡(luò)
略
Convolutions(卷積)
兩個一維信號f和g的離散卷積被定義為f?g
根據(jù)卷積的定義袍患,可以將輸入中不存在的樣本定義為0,通常稱為補零竣付,或者僅在樣本同時存在于兩個信號中的點處計算乘積诡延。請注意,卷積是可交換的卑笨,即(f?g) = (g?f)如果信號是有限的孕暇,那么無限的卷積可能會被截斷。換句話說赤兴,假設(shè)f = [f(0)妖滔,…, f(N - 1)]和g = [g(0)桶良,…座舍, g(M?1)],兩者的卷積由下面公式給出
卷積輸出的大小取決于處理未定義樣本的方式陨帆。如果將一定數(shù)量的未定義樣本設(shè)置為0曲秉,這稱為零填充。如果我們不應(yīng)用0填充疲牵,則輸出的大小為N - M + 1(因為i = 0..N-M)當(dāng)在輸入信號f的兩邊填充p個0時承二,輸出的大小為N - M + 2p+ 1。因此纲爸,零填充允許一個人控制卷積的輸出大小亥鸠,調(diào)整它或減少,或相同,或增加相對于輸入大小负蚊。因此神妹,通過將信號g在輸入f上沿j移動并計算兩者的加權(quán)和,可以計算出在點i處的卷積家妆。
Convolutional neural networks
卷積神經(jīng)網(wǎng)絡(luò)是在局部連通的思想下發(fā)展起來的鸵荠。每個節(jié)點只連接到輸入中的一個局部區(qū)域,參見圖2.1伤极。這種連接的空間范圍被稱為節(jié)點的接受域蛹找。局部連通是通過卷積代替神經(jīng)網(wǎng)絡(luò)的加權(quán)和來實現(xiàn)的。在卷積神經(jīng)網(wǎng)絡(luò)的每一層塑荒,輸入與權(quán)矩陣(也稱為過濾器)進行卷積熄赡,以創(chuàng)建一個特征映射。換句話說齿税,權(quán)重矩陣在輸入上滑動并計算輸入和權(quán)重矩陣之間的點積彼硫。注意,與常規(guī)的神經(jīng)網(wǎng)絡(luò)不同凌箕,輸出特征圖中的所有值共享相同的權(quán)值拧篮。這意味著輸出中的所有節(jié)點都檢測到完全相同的模式。CNNs的局部連通性和共享權(quán)值方面減少了可學(xué)習(xí)參數(shù)的總數(shù)牵舱,從而提高了訓(xùn)練的效率串绩。因此,卷積神經(jīng)網(wǎng)絡(luò)背后的直覺是芜壁,在每一層中學(xué)習(xí)一個權(quán)重矩陣礁凡,該矩陣將能夠從輸入中提取必要的、平移不變的特征慧妄。
卷積層的輸入通常是三維的:高度顷牌、重量和通道數(shù)。在第一層塞淹,這個輸入與一組應(yīng)用于所有輸入通道的m1三維過濾器進行卷積(換句話說窟蓝,過濾器映射的第三維總是等于輸入中的通道數(shù)),以創(chuàng)建特征輸出映射”テ眨現(xiàn)在考慮一個沒有填充0的一維輸入:
x =
然后通過卷積每個過濾器: for h=1,....,
得到第一層的輸出特征圖运挫,…, m1套耕,輸入:
= ()(i)=
where ?
注意谁帕,由于在本例中輸入通道的數(shù)量為1,因此權(quán)重矩陣也只有一個通道冯袍。與前饋神經(jīng)網(wǎng)絡(luò)相似雇卷,輸出通過非線性h(·)得到= h()。
在每個后續(xù)層l = 2,...关划,L中,輸入特征圖∈翘瓮,其中是輸出濾波器圖的大小從先前的 = 的卷積中贮折,與一組filters ∈,h = 1资盅,...调榄,進行卷積以創(chuàng)建特征圖∈:=
然后將其輸出通過非線性傳遞,得出呵扛。濾波器尺寸參數(shù)k因此控制每個輸出節(jié)點的接收場每庆。如果沒有零填充,則對于l = 1今穿,..缤灵,L,每層卷積輸出的寬度蓝晒。由于特征圖中的所有元素共享相同的權(quán)重腮出,因此可以將特征以時不變的方式進行檢測,同時減少了可訓(xùn)練參數(shù)的數(shù)量芝薇。經(jīng)過L個卷積層后胚嘲,網(wǎng)絡(luò)的輸出將為矩陣,其大小取決于濾波器大小和最終層中使用的濾波器數(shù)量洛二。根據(jù)我們希望模型學(xué)習(xí)的內(nèi)容馋劈,對模型中的權(quán)重進行訓(xùn)練,以最小化網(wǎng)絡(luò)的輸出與我們感興趣的真實輸出之間的誤差晾嘶。
圖2.1:具有三層(L)的前饋神經(jīng)網(wǎng)絡(luò)與具有兩層且過濾器大小為1×2的卷積神經(jīng)網(wǎng)絡(luò)妓雾,因此每個節(jié)點的感受野都包含來自上一層的兩個輸入神經(jīng)元,并且權(quán)重是共享的跨層变擒,用相同的顏色(R)表示君珠。
Structure
考慮一維時間序列。給定一個具有參數(shù)值θ的模型娇斑,預(yù)測變量的任務(wù)是根據(jù)序列的歷史記錄輸出下一個值策添。這可以通過最大化似然函數(shù)來完成
其中d是擴張因子,M是通道數(shù)毫缆。換句話說唯竹,在膨脹卷積中,將濾波器應(yīng)用于輸入向量中的第d個輸入向量中苦丁,從而使模型可以有效地學(xué)習(xí)相距甚遠的數(shù)據(jù)點之間的連接浸颓。我們使用類似于[27]和[23]的架構(gòu),其中L層膨脹的卷積l = 1,...产上,L棵磷,并且膨脹增加了兩倍:。選擇濾波器w的大小為1×k:= 1×2晋涣。圖2.2給出了一個三層膨脹卷積網(wǎng)絡(luò)的示例仪媒。使用膨脹卷積代替常規(guī)卷積可以使輸出y受到輸入中更多節(jié)點的影響。網(wǎng)絡(luò)的輸入由時間序列給出谢鹊。在隨后的每個層中算吩,我們應(yīng)用膨脹的卷積,然后進行非線性處理佃扼,得到輸出特征圖fl偎巢,l = 1,...兼耀,L压昼。然后,這L層膨脹的卷積層之后是1×1卷積將通道數(shù)減少回一翠订,因此模型輸出一維向量巢音。由于我們對預(yù)測時間序列的后續(xù)值感興趣,因此我們將對模型進行訓(xùn)練尽超,以使該輸出為預(yù)測的時間序列官撼。
神經(jīng)元的感受野被定義為其輸入中修改該神經(jīng)元輸出值的一組元素。現(xiàn)在似谁,我們將模型的接收場r定義為第一層輸入中的神經(jīng)元數(shù)量(即時間序列)傲绣,它可以修改最后一層中的輸出(即預(yù)測時間序列)。然后巩踏,這取決于層數(shù)L和濾波器大小k秃诵,由下式給出
???????????????????????r:=
在圖2.2中,接收場由r = 8給出塞琼。一個輸出值受八個輸入神經(jīng)元的影響
如前所述菠净,有時在邊界周圍用零填充輸入很方便。然后彪杉,此零填充的大小將控制輸出的大小毅往。在我們的案例中,為了不違反對x的適應(yīng)性約束派近,我們要確保預(yù)測時網(wǎng)絡(luò)的接收場僅包含攀唯。為此,我們使用因果卷積渴丸,其中因果一詞表示卷積輸出不應(yīng)依賴于將來的輸入侯嘀。在時間序列中另凌,這等效于用接受域大小的零向量填充輸入,因此輸入由下式給出:
?????????
L層Wavenet的輸出是:
?????????
因此戒幔,在訓(xùn)練時吠谢,通過將輸入與每一層中的內(nèi)核l = 1,...溪食,L卷積囊卜,然后進行1×1卷積,可以計算出的預(yù)測错沃。在測試時,通過在訓(xùn)練中輸入給出(t + 1)≥r的單步提前預(yù)測prediction 模型雀瓢。通過在下一個時間步將每個預(yù)測反饋回網(wǎng)絡(luò)枢析,依次進行n步提前預(yù)測。使用進行兩步提前的樣本外預(yù)測?刃麸。
因此醒叁,網(wǎng)絡(luò)的思想是使用卷積神經(jīng)網(wǎng)絡(luò)的功能作為自回歸預(yù)測模型。在簡單的p階自回歸模型中泊业,的預(yù)測值由給出把沼,其中,i = 1吁伺,... 饮睬,p是可學(xué)習(xí)的權(quán)重,是白噪聲篮奄。使用上面定義的WaveNet模型捆愁,每個t∈{0,...窟却,N}的預(yù)測條件期望為
其中函數(shù)βi昼丑,i = 1,...夸赫,r與數(shù)據(jù)相關(guān)菩帝,并通過卷積網(wǎng)絡(luò)進行了優(yōu)化。我們指出茬腿,即使權(quán)重取決于基礎(chǔ)數(shù)據(jù)呼奢,由于網(wǎng)絡(luò)的卷積結(jié)構(gòu),權(quán)重也會在輸出的過濾器映射圖之間共享滓彰,從而導(dǎo)致權(quán)重矩陣平移不變控妻。
目標(biāo)函數(shù):訓(xùn)練網(wǎng)絡(luò)權(quán)重(濾波器wl h)以使平均絕對誤差(MAE)最小化;為了避免過度擬合揭绑,即權(quán)重過大弓候,我們使用帶有正則項γ的L2正則化郎哭,因此成本函數(shù)為
其中? x(t +1)表示使用x(0),...菇存,x(t)的x(t +1)預(yù)測夸研。最小化E(w)會導(dǎo)致權(quán)重的選擇,從而在擬合訓(xùn)練數(shù)據(jù)與減小訓(xùn)練數(shù)據(jù)之間進行權(quán)衡依鸥。權(quán)重過大通常會導(dǎo)致網(wǎng)絡(luò)過度擬合訓(xùn)練數(shù)據(jù)亥至,因此L2正則化(通過強制權(quán)重不要太大)使模型可以更好地針對看不見的數(shù)據(jù)進行泛化。
備注1(與貝葉斯框架有關(guān)):在貝葉斯框架中贱迟,使此成本函數(shù)最小化等效于最大化Laplace分布似然函數(shù)下的后驗分布姐扮,該函數(shù)的中心為由模型^輸出的值,具有固定比例參數(shù)β= 1/2
并在模型參數(shù)上具有高斯先驗衣吠。
通過運行通過網(wǎng)絡(luò)的前向通行獲得輸出茶敏,最佳權(quán)重是來自后驗分布的點估計。由于MAE是依賴于比例尺的精度度量缚俏,因此應(yīng)該對輸入數(shù)據(jù)進行歸一化處理惊搏,以使誤差在不同的時間序列中具有可比性。
Weight optimization
訓(xùn)練模型的目的是要找到使(1)中的成本函數(shù)最小的權(quán)重忧换。一種標(biāo)準(zhǔn)的權(quán)重優(yōu)化基于梯度下降恬惯,其中,根據(jù)誤差函數(shù)的梯度來增量更新權(quán)重亚茬,
對于τ= 1酪耳,...,T才写,其中T是訓(xùn)練迭代的次數(shù)葡兑,η是學(xué)習(xí)率。因此赞草,每次迭代τ都由一個正向運行和一個向后遍歷組成讹堤,前者在其中計算預(yù)測矢量? x和相應(yīng)的誤差E(w(τ)),后者由梯度矢量?E(w(τ))計算厨疙。根據(jù)(2)計算關(guān)于每個權(quán)重的權(quán)重洲守,并更新權(quán)重。梯度矢量是通過反向傳播計算的沾凄,相當(dāng)于從最終層中計算出的誤差函數(shù)迭代應(yīng)用鏈規(guī)則梗醇,直到獲得所需層權(quán)重的梯度為止:
在這里我們對感興趣權(quán)重發(fā)生的所有節(jié)點求和。選擇訓(xùn)練迭代的次數(shù)T以實現(xiàn)誤差的收斂撒蟀。在這里叙谨,我們使用亞當(dāng)梯度下降法[15],對權(quán)重進行了稍微修改保屯。該方法通過保持過去梯度和平方梯度的指數(shù)衰減平均值手负,并使用這些參數(shù)來更新參數(shù)涤垫,從而為每個參數(shù)計算自適應(yīng)學(xué)習(xí)率。自適應(yīng)學(xué)習(xí)率允許梯度下降更準(zhǔn)確地找到最小值竟终。
Activation functions
在每一層中蝠猬,我們使用非線性或激活函數(shù)來轉(zhuǎn)換卷積的輸出,從而允許模型學(xué)習(xí)數(shù)據(jù)的非線性表示统捶。在我們的模型中榆芦,非線性采用定義為ReLU(x):= max(x,0)的整流線性單位(ReLU)的形式喘鸟,因此層l的輸出為
其中b∈R表示將輸入轉(zhuǎn)換為非線性的偏差匆绣,* d照常表示具有膨脹d的卷積,而表示具有濾波器什黑,h=1,...的卷積的輸出犬绒。層l中的M1。與[23]中用于音頻生成的門控激活函數(shù)不同兑凿,在這里我們建議使用ReLU,因為當(dāng)將其應(yīng)用于非平穩(wěn)茵瘾,嘈雜的時間序列的預(yù)測時礼华,它是最有效的。同時使用ReLU減少了訓(xùn)練時間拗秘,從而簡化了模型圣絮。最后一層l = L,具有線性激活函數(shù)雕旨,隨后是1×1卷積扮匠,然后輸出時間序列的預(yù)測值? x = [? x(0),...凡涩,? x(N) ]棒搜。
當(dāng)訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)時,使網(wǎng)絡(luò)無法學(xué)習(xí)最佳權(quán)重的問題之一就是消失/爆炸梯度[2] [8]活箕。當(dāng)反向傳播通過鏈?zhǔn)揭?guī)則計算梯度時力麸,當(dāng)激活函數(shù)的導(dǎo)數(shù)取小值或大值時,這些數(shù)字的乘積可導(dǎo)致初始層中權(quán)重的梯度分別消失或爆炸育韩。這導(dǎo)致權(quán)重由于梯度太小而更新得太慢克蚂,或者由于梯度下降步幅太大而無法收斂到最小值。該問題的一種解決方案是以這種方式初始化卷積層的權(quán)重筋讨,使得無論是在網(wǎng)絡(luò)的正向傳播還是在反向傳播中埃叭,權(quán)重都不會分別減小或放大輸入信號和梯度的幅度。權(quán)重的正確初始化將使信號和梯度在整個層中的值范圍內(nèi)保持合理悉罕,從而在訓(xùn)練網(wǎng)絡(luò)時不會丟失任何信息赤屋。如[10]中所推導(dǎo)的立镶,為了確保輸入的方差與輸出的方差相似,充分條件是
這導(dǎo)致零均值高斯分布益缎,其標(biāo)準(zhǔn)偏差為谜慌,其中z是層中可訓(xùn)練參數(shù)的總數(shù)。換句話說莺奔,將ReLU單元的權(quán)重初始化為(對于τ= 0)為
當(dāng)時欣范,層l中的濾波器數(shù)量乘以濾波器大小1×k
Residual learning
當(dāng)向網(wǎng)絡(luò)添加更多層時,標(biāo)準(zhǔn)反向傳播將無法找到最佳權(quán)重令哟,從而導(dǎo)致更高的訓(xùn)練誤差恼琼。因此,這個問題稱為退化問題[11]屏富,它不是由過度擬合引起的晴竞。考慮一個具有少量層的淺層網(wǎng)絡(luò)狠半,以及更深的對應(yīng)層噩死。更深層次的模型不應(yīng)導(dǎo)致更高的訓(xùn)練誤差,因為存在一種構(gòu)造上的解決方案:將添加的層中的所有權(quán)重設(shè)置為標(biāo)識映射神年。然而已维,在實踐中,梯度下降算法在學(xué)習(xí)身份映射時往往會遇到問題已日。解決此問題的建議方法是使用殘差連接[11]垛耳,該殘差迫使網(wǎng)絡(luò)逼近所需映射H(x)-x,而不是H(x)飘千,以便可以通過驅(qū)動所有權(quán)重來學(xué)習(xí)身份映射堂鲜。歸零。通過將權(quán)重驅(qū)動為零來優(yōu)化殘差映射往往比學(xué)習(xí)身份更容易护奈。殘余連接的實現(xiàn)方式是使用快捷連接缔莲,該連接跳過一個或多個層,因此可以不修改地添加到跳過層的輸出中逆济。盡管實際上酌予,最佳權(quán)重不太可能完全是身份映射,但是如果最佳功能比零映射更接近身份奖慌,則建議的殘差連接仍將幫助網(wǎng)絡(luò)學(xué)習(xí)更好的最佳權(quán)重抛虫。
類似于[23],在我們的網(wǎng)絡(luò)中简僧,我們在從輸入到卷積再到輸出的每個膨脹卷積之后添加一個殘差連接建椰。在> 1的情況下,來自非線性的輸出在添加剩余連接之前經(jīng)過1×1卷積岛马。這樣做是為了確保殘留連接和膨脹卷積的輸出都具有相同數(shù)量的通道棉姐。這使我們可以堆疊多個層屠列,同時保留網(wǎng)絡(luò)正確映射初始層中學(xué)習(xí)到的依賴項的能力
Relation to discrete wavelet transform
網(wǎng)絡(luò)的結(jié)構(gòu)與離散小波變換(DWT)密切相關(guān)。小波分析可用于通過將具有不同比例(寬度)和位置的小波函數(shù)與該函數(shù)匹配伞矩,來了解給定函數(shù)如何從一個周期到下一個周期變化笛洛。 DWT是且的線性變換,通過將信號與高通和低通濾波器進行卷積乃坤,將信號分解為高頻和低頻分量苛让。特別是,在變換的每個級別j湿诊,輸入信號都被分解為小波狱杰,并且縮放系數(shù)和(也稱為近似值和細節(jié)),其中k = 0厅须,... 仿畸,? 1,同時將輸入x與濾波器h和g進行卷積
其中ψ(·)是小波朗和,而φ(·)是縮放函數(shù)错沽。在隨后的每個級別中,我們都將變換應(yīng)用于近似系數(shù)眶拉,以這種方式丟棄高頻分量(細節(jié))并最終得到輸入信號的平滑版本甥捺。這與CNN的結(jié)構(gòu)非常相似,在CNN的每個后續(xù)層中镀层,我們使用可學(xué)習(xí)的濾波器對來自上一層的輸入進行卷積。在每一層中皿曲,過濾器用于識別數(shù)據(jù)中的局部依存關(guān)系唱逢,隨后將其組合以表示更多的全局特征,直到在最后一層中我們計算出感興趣的輸出為止屋休。與DWT中的固定á優(yōu)先級相反坞古,通過允許濾波器是可學(xué)習(xí)的,我們的目標(biāo)是通過以這種方式識別數(shù)據(jù)中的某些模式劫樟,從而找到使目標(biāo)函數(shù)(1)最小的濾波器權(quán)重痪枫。時間序列的準(zhǔn)確預(yù)測。
Conditioning
當(dāng)以另一個序列預(yù)測一個時間序列時叠艳,我們的目標(biāo)是最大化條件似然奶陈,
時間序列y的條件是通過計算卷積的激活函數(shù)來完成的,其中第一層的濾波器and 為
對于每個濾波器h = 1附较,...吃粒,。預(yù)測x(t + 1)時拒课,網(wǎng)絡(luò)的接收場必須僅包含x(0)徐勃,...事示,x(t)和y(0),...僻肖,y(t)肖爵。因此,類似于輸入臀脏,為保持因果關(guān)系劝堪,條件后會附加一個零值的矢量,大小為接收場的大小谁榜。在[23]中幅聘,作者建議采用具有1×1的濾波器。給定較短的輸入窗口窃植,這種類型的條件并不總是能夠捕獲時間序列之間的所有依賴關(guān)系帝蒿。因此,我們使用1×k卷積巷怜,以較少的層數(shù)增加了學(xué)習(xí)正確依賴項的可能性葛超。因此,網(wǎng)絡(luò)的接收域包含輸入和條件的k個元素
代替第一層中的剩余連接延塑,我們從輸入以及條件到膨脹卷積的結(jié)果中添加由1×1卷積參數(shù)化的跳過連接绣张。通過使用來自每個單獨條件的M個擴張卷積并將它們與輸入相加,可以輕松地將條件擴展為多元M×N時間序列关带。跳過連接的參數(shù)化確保我們的模型能夠正確提取預(yù)測與輸入和條件之間的必要關(guān)系侥涵。具體而言,如果特定條件不能改善預(yù)測宋雏,則模型可以簡單地通過將參數(shù)化跳過連接(即1×1卷積)中的權(quán)重設(shè)置為零來簡單地學(xué)習(xí)舍棄該條件芜飘。這使條件能夠以區(qū)分方式增強預(yù)測。如果濾波器的數(shù)量filers大于1磨总,則參數(shù)化的跳過連接將使用與filers的1×1卷積嗦明,從而使跳過連接與原始卷積之和有效。網(wǎng)絡(luò)結(jié)構(gòu)如圖2.3所示蚪燕。
圖2.3:網(wǎng)絡(luò)結(jié)構(gòu)娶牌。在第一層(L)中,對輸入和條件(具有零填充)進行卷積馆纳,通過非線性傳遞并與參數(shù)化的跳過連接求和诗良。來自該第一層的結(jié)果是后續(xù)擴張的卷積層中的輸入,并且從卷積的輸入到輸出都有剩余連接鲁驶。對其他層重復(fù)此操作累榜,直到獲得層L(M)的輸出。該輸出通過1×1卷積傳遞,得到最終輸出:預(yù)測的時間序列(R)壹罚。
備注2(學(xué)習(xí)非線性依賴性的能力)葛作。我們在這里對模型學(xué)習(xí)時間序列內(nèi)部和之間的非線性相關(guān)性的能力進行評論。前饋神經(jīng)網(wǎng)絡(luò)需要至少一個具有足夠大量隱藏單元的隱藏層猖凛,以便近似非線性函數(shù)[13]赂蠢。如果在CNN中將濾波器寬度設(shè)置為1,則模型學(xué)習(xí)非線性相關(guān)性的必要條件將是> 1辨泳,因為在這種情況下虱岂,濾波器的作用類似于隱藏單元的作用。替代地菠红,在CNN中學(xué)習(xí)非線性要求同時使用濾波器寬度和大于一層的層數(shù)第岖。每一層實質(zhì)上是計算一個點積和前一層中幾個輸出的非線性變換之和。該輸出又是輸入和條件的組合试溯,并且隱藏單元的作用通過濾波器寬度上的總和來發(fā)揮蔑滓,從而允許在時間序列中和時間序列之間學(xué)習(xí)非線性關(guān)系。
討論與結(jié)論在本文中遇绞,我們介紹并分析了基于卷積神經(jīng)網(wǎng)絡(luò)WaveNet架構(gòu)[23]的條件時間序列預(yù)測方法的性能键袱。該網(wǎng)絡(luò)利用了應(yīng)用于輸入和多種條件的膨脹卷積層,從而了解了數(shù)據(jù)中以及數(shù)據(jù)之間的趨勢和關(guān)系摹闽。我們分析了WaveNet模型在各種時間序列上的性能蹄咖,并將其與時間序列預(yù)測的最新技術(shù),LSTM模型和線性自回歸模型進行了比較付鹿。我們得出結(jié)論澜汤,即使時間序列預(yù)測仍然是一項復(fù)雜的任務(wù),并且很難找到一個適合所有人的模型舵匾,但我們已經(jīng)證明银亲,WaveNet是一個簡單,高效且易于解釋的網(wǎng)絡(luò)纽匙,可以作為預(yù)測的強大基準(zhǔn)。盡管如此拍谐,仍有改進的空間烛缔。提高CNN學(xué)習(xí)非線性依賴性的能力的一種方法是使用大量的層和濾波器。從圖3.3中我們可以看到轩拨,在學(xué)習(xí)非線性(需要大量的層和濾波器)的能力與過度擬合之間存在權(quán)衡的問題践瓷,因為大量的層會導(dǎo)致較大的接受度字段和許多參數(shù)。通過使用自回歸模型和CNN的組合亡蓉,在[3]中也解決了內(nèi)存需求和非線性之間不平衡的問題晕翠。解決此問題的另一種方法可能是將參數(shù)化的跳過連接與自適應(yīng)濾波器結(jié)合使用,并將在我們的進一步工作中進行研究。此外淋肾,WaveNet模型被證明是LSTM模型的強大競爭者硫麻,尤其是在考慮訓(xùn)練時間時。盡管在相對較短的時間序列上樊卓,與訓(xùn)練時間相比拿愧,預(yù)測時間可以忽略不計,但對于較長的時間序列碌尔,可以通過實施利用網(wǎng)絡(luò)存儲結(jié)構(gòu)的最新變體來加快自回歸模型的預(yù)測浇辜,請參見[21]。 ]或通過在頻域中進行傅里葉變換來加快卷積唾戚,如[19]柳洋,[22]中所述。最后叹坦,眾所周知熊镣,數(shù)據(jù)點之間的相關(guān)性在日內(nèi)基礎(chǔ)上更強。因此立由,可能有必要在日間數(shù)據(jù)上測試模型轧钓,以查看該模型學(xué)習(xí)長期依賴項的能力在這種情況下是否更有價值
文獻綜述
[1] A. Aussem and F. Murtagh, Combining neural network forecasts on wavelet-transformed time series,Connection Science, 9 (1997), pp. 113–122.
[1] A. Aussem和F. Murtagh,結(jié)合小波變換時間序列的神經(jīng)網(wǎng)絡(luò)預(yù)測,Connection Science节吮,9(1997)睦疫,第113-122頁。
[2] Y. Bengio, P. Simard, and P. Frasconi, Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 5 (1994).
[3] M. Binkowski, G. Marti, and P. Donnat, Autoregressive convolutional neural networks for asyn-chronous time series, ICML 2017 Time Series Workshop, (2017).
[4] K. Chakraborty, K. Mehrotra, C. K. Mohan, and S. Ranka, Forecasting the Behavior of Multivariate Time Series using Neural Networks, Neural networks, 5 (1992), pp. 961–970.
[5] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, (2014).
[6] R. Cont, Empirical properties of asset returns: Stylized facts and statistical issues, (2001).
[7] T. Fisher and C. Krauss, Deep learning with Long Short-Term Memory networks for financial market predictions, F AU Discussion papers in Economics, (2017).
[8] X. Glorot and Y. Bengio, Understanding the Difficulty of Training Deep Feedforward Neural Net-works, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, (2010).
[9] J. D. Hamilton, Time series analysis, vol. 2, Princeton university press Princeton, 1994.
[10] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level per-formance on imagenet classification, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034.
[11] , Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[12] S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural computation, 9 (1997),pp. 1735–1780.
[13] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural networks, 4 (1991),pp. 251–257.
[14] D. Hsu, Time series forecasting based on augmented Long Short-Term Memory, arXiv preprint arXiv:1707.00666, (2017).
[15] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980,(2014).
[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, (2012), pp. 1097–1105.
[17] S. Lahmiri, Wavelet low- and high- frequency components as features for predicting stock prices with backpropagation neural networks, Journal of King Saud University - Computer and Information Sciences,26 (2014), pp. 218–227.
[2] Y. Bengio而柑,P。Simard和P. Frasconi荷逞,用梯度下降學(xué)習(xí)長期依賴性很困難媒咳,IEEE Transactions on Neural Networks,5(1994)种远。
[3] M. Binkowski涩澡,G。Marti和P. Donnat坠敷,異步時間序列的自回歸卷積神經(jīng)網(wǎng)絡(luò)妙同,ICML 2017時間序列研討會,(2017年)膝迎。
[4] K. Chakraborty粥帚,K。Mehrotra限次,C芒涡。K. Mohan和S. Ranka,《使用神經(jīng)網(wǎng)絡(luò)預(yù)測多元時間序列的行為》,《神經(jīng)網(wǎng)絡(luò)》费尽,第5期(1992年)赠群,第961–970頁。
[5] J. Chung依啰,C乎串。Gulcehre,K速警。Cho和Y. Bengio叹誉,門控循環(huán)神經(jīng)網(wǎng)絡(luò)在序列建模上的經(jīng)驗評估,arXiv預(yù)印本arXiv:1412.3555闷旧,(2014年)长豁。
[6] R. Cont,資產(chǎn)收益的經(jīng)驗性質(zhì):程式化的事實和統(tǒng)計問題忙灼,(2001年)匠襟。
[7] T. Fisher和C. Krauss,《用長短期記憶網(wǎng)絡(luò)進行深度學(xué)習(xí)進行金融市場預(yù)測》该园,《非盟經(jīng)濟學(xué)討論》酸舍,(2017年)。
[8] X. Glorot和Y. Bengio里初,“理解深度前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度”啃勉,第13屆人工智能與統(tǒng)計國際會議論文集,(2010年)双妨。
[9] J. D. Hamilton淮阐,時間序列分析,第一卷刁品。 2泣特,普林斯頓大學(xué)出版社,普林斯頓挑随,1994年状您。
[10] K. He,X兜挨。Zhang膏孟,S。Ren和J. Sun暑劝,深入研究整流器:在IEEE國際會議論文集上超越了人類在圖像網(wǎng)絡(luò)分類方面的性能。計算機視覺颗搂,2015年担猛,第1026至1034頁。
[11],用于圖像識別的深度殘差學(xué)習(xí)傅联,在IEEE計算機視覺和模式識別會議論文集先改,2016年,第770–778頁蒸走。
[12] S. Hochreiter和J. Schmidhuber仇奶,《長短期記憶,神經(jīng)計算》比驻,第9期该溯,1997年,第1735-1780頁别惦。
[13] K. Hornik狈茉,多層前饋網(wǎng)絡(luò)的逼近能力,神經(jīng)網(wǎng)絡(luò)掸掸,第4期(1991)氯庆,第251-257頁。
[14] D. Hsu扰付,基于增強的長期短期記憶的時間序列預(yù)測堤撵,arXiv預(yù)印本arXiv:1707.00666,(2017年)羽莺。
[15] D. Kingma和J. Ba实昨,亞當(dāng):一種隨機優(yōu)化方法,arXiv預(yù)印本arXiv:1412.6980禽翼,(2014年)屠橄。
[16] A. Krizhevsky,I闰挡。Sutskever和G. E. Hinton锐墙,《深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類》,神經(jīng)信息處理系統(tǒng)進展25长酗,(2012年)溪北,第1097-1105頁。
[17] S. Lahmiri夺脾,“小波低頻和高頻分量作為利用反向傳播神經(jīng)網(wǎng)絡(luò)預(yù)測股票價格的特征”之拨,《沙特國王大學(xué)學(xué)報-計算機與信息科學(xué)》,第26卷(2014年)咧叭,第218-227頁蚀乔。
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[19] M. Mathieu, M. Henaff, and Y. LeCun, Fast training of convolutional networks through FFTs,ArXiv e-prints, (2013).
[20] R. Mittelman, Time-series modeling with undecimated fully convolutional neural networks, arXiv preprint arXiv:1508.00317, (2015).
[21] P. Ramachandran, T. L. Paine, P. Khorrami, M. Babaeizadeh, S. Chang, Y. Zhang, M. A.Hasegawa-Johnson, R. H. Campbell, and T. S. Huang, Fast generation for convolutional autore-gressive models, arXiv preprint arXiv:1704.06001, (2017).
[22] O. Rippel, J. Snoek, and R. P. Adams, Spectral representations for convolutional neural networks,NIPS15 Proceedings of the 28th International Conference on Neural Information Processing Systems,(2015), pp. 2449–2457.
[23] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalch-brenner, A. Senior, and K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, ArXiv e-prints, (2016).
[24] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, Pixel Recurrent Neural Networks,CoRR, abs/1601.06759 (2016).
[25] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and
K. Kavukcuoglu, Conditional Image Generation with PixelCNN Decoders, CoRR, abs/1606.05328 (2016).
[26] Z. W ang, W. Yan, and T. Oates, Time Series Classification from Scratch with Deep Neural Net-works: A Strong Baseline, CoRR, abs/1611.06455 (2016).
[27] F. Yu and V. Koltun, Multi-Scale Context Aggregation by Dilated Convolutions, ArXiv e-prints,(2015).
[28] G. Zhang, B. E. Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art, International journal of forecasting, 14 (1998), pp. 35–62.
[29] G. P. Zhang, Time series forecasting using a hybrid ARIMA and neural network model, Neurocom-puting, 50 (2003), pp. 159–175.
[30] Y. Zheng, Q. Liu, E. Chen, Y. Ge, and J. Zhao, Exploiting Multi-Channels Deep Convolutional Neural Networks for Multivariate Time Series Classification, Front. Comput. Sci., 10 (2016), pp. 96–112.
[18] Y. LeCun,L菲茬。Bottou吉挣,Y派撕。Bengio和P. Haffner,基于梯度的學(xué)習(xí)應(yīng)用于文檔識別睬魂,IEEE终吼,86(1998),pp氯哮。2278-2324际跪。
[19] M. Mathieu,M喉钢。Henaff和Y. LeCun姆打,通過FFT快速訓(xùn)練卷積網(wǎng)絡(luò),ArXiv電子版出牧,(2013年)穴肘。
[20] R. Mittelman,使用未抽取的全卷積神經(jīng)網(wǎng)絡(luò)進行時間序列建模舔痕,arXiv預(yù)印本arXiv:1508.00317评抚,(2015年)。
[21] P. Ramachandran伯复,TL Paine慨代,P。Khorrami啸如,M侍匙。Babaeizadeh,S叮雳。Chang想暗,Y。Zhang帘不,MA Hasegawa-Johnson说莫,RH Campbell和TS Huang,卷積自回歸模型的快速生成寞焙,arXiv預(yù)印本arXiv:1704.06001 储狭,(2017年)。
[22] O. Rippel捣郊,J辽狈。Snoek和R. P. Adams,卷積神經(jīng)網(wǎng)絡(luò)的頻譜表示呛牲,第28屆國際神經(jīng)信息處理系統(tǒng)會議NIPS15論文集刮萌,(2015年),第2449-2457頁娘扩。
[23] A. van den Oord着茸,S僧凤。Dieleman,H元扔。Zen,K旋膳。Simonyan澎语,O。Vinyals验懊,A擅羞。Graves,N义图。Kalchbrenner减俏,A。Senior和K. Kavukcuoglu碱工,WaveNet:原始音頻的生成模型娃承,ArXiv電子版,(2016年)怕篷。
[24] A. van den Oord历筝,N。Kalchbrenner和K. Kavukcuoglu廊谓,像素遞歸神經(jīng)網(wǎng)絡(luò)梳猪,CoRR,abs / 1601.06759(2016)蒸痹。
[25] A. van den Oord春弥,N。Kalchbrenner叠荠,O匿沛。Vinyals,L蝙叛。Espeholt俺祠,A。Graves和K. Kavukcuoglu借帘,《使用PixelCNN解碼器的條件圖像生成》蜘渣,CoRR,abs / 1606.05328(2016年)肺然。
[26] Z. Wang蔫缸,W。Yan和T. Oates际起,《使用深度神經(jīng)網(wǎng)絡(luò)從頭開始的時間序列分類:強大的基線》拾碌,CoRR吐葱,abs / 1611.06455(2016)。
[27] F. Yu和V. Koltun校翔,通過膨脹卷積進行多尺度上下文聚合弟跑,ArXiv電子版,(2015年)防症。
[28] G. Zhang孟辑,B。E. Patuwo和M. Y. Hu蔫敲,《使用人工神經(jīng)網(wǎng)絡(luò)進行預(yù)測:最新技術(shù)》饲嗽,國際預(yù)測雜志,第14期(1998年)奈嘿,第35-62頁貌虾。
[29] G. P. Zhang,使用混合ARIMA和神經(jīng)網(wǎng)絡(luò)模型進行時間序列預(yù)測裙犹,Neurocomputing尽狠,50(2003年),第159-175頁叶圃。
[30]鄭Y晚唇,劉Q,陳鄂盗似,葛Y哩陕,趙J,為多變量時間序列分類開發(fā)多通道深度卷積神經(jīng)網(wǎng)絡(luò)赫舒,前面悍及。計算Sci。接癌,10(2016)心赶,第96–112頁。
下面就是我閱讀論文后對論文的理解