現(xiàn)實(shí)世界的各種應(yīng)用都依賴于遙遠(yuǎn)未來的信息來進(jìn)行決策,因此需要高效哥童、準(zhǔn)確的長序列多元時(shí)間序列預(yù)測(cè)廊营。雖然最近的基于注意力的預(yù)測(cè)模型顯示出在捕獲長期相關(guān)性方面的強(qiáng)大能力娘香,但它們?nèi)匀皇艿絻蓚€(gè)關(guān)鍵限制。首先荤傲,規(guī)范自我注意的復(fù)雜度為輸入時(shí)間序列長度的二次多項(xiàng)式垮耳,效率不高;第二,不同變量的時(shí)間序列往往具有不同的時(shí)間動(dòng)態(tài)遂黍,這是現(xiàn)有研究未能捕捉到的终佛,因?yàn)樗麄兪褂孟嗤摹?/p>
為了確保高效率和準(zhǔn)確性,我們提出了Triformer雾家,一個(gè)三角形的查蓉,可變的具體注意。(i)線性復(fù)雜度:我們引入了一種新的具有線性復(fù)雜度的patch attention榜贴。在將patch attention多層疊加時(shí)豌研,提出了一種三角形結(jié)構(gòu)妹田,使層大小呈指數(shù)收縮,從而保持線性復(fù)雜度鹃共。(ii)特定于變量的參數(shù):我們提出了一種輕量級(jí)方法鬼佣,使不同變量時(shí)間序列的不同模型參數(shù)集能夠提高準(zhǔn)確性,而不影響效率和內(nèi)存使用霜浴。來自多個(gè)領(lǐng)域的四個(gè)數(shù)據(jù)集的強(qiáng)有力的經(jīng)驗(yàn)證據(jù)證明我們的設(shè)計(jì)選擇是正確的晶衷,它表明,Triformer優(yōu)于最先進(jìn)的方法在準(zhǔn)確性和效率阴孟。
背景:
1)High complexity??我們提出了線性復(fù)雜度為O(H)的Triformer
2)Variable-agnostic parameters?現(xiàn)有的預(yù)測(cè)模型通常使用不確定變量的參數(shù)晌纫,盡管不同的變量可能表現(xiàn)出不同的時(shí)間模式
問題定義:
時(shí)間序列預(yù)測(cè)學(xué)習(xí)一個(gè)函數(shù)F,它將作為歷史H時(shí)間戳中的觀測(cè)值永丝,并預(yù)測(cè)未來F時(shí)間戳
Triformer
我們提出Triformer用于學(xué)習(xí)多元時(shí)間序列中的長期和多尺度依賴關(guān)系锹漱。Triformer的設(shè)計(jì)選擇有三個(gè)方面。首先慕嚷,我們提出了一種高效的Patch Attention哥牍,它具有線性復(fù)雜度。其次喝检,我們提出了一個(gè)三角形結(jié)構(gòu)嗅辣,當(dāng)疊加多層斑塊注意時(shí),使層大小以指數(shù)方式收縮挠说。這保證了多層patch關(guān)注點(diǎn)的線性復(fù)雜性澡谭,也使提取多尺度特征成為可能。第三损俭,我們提出了一種輕量級(jí)的方法來實(shí)現(xiàn)特定變量的建模蛙奖,從而能夠從不同的變量捕獲不同的時(shí)間模式,而不影響效率
1)Linear Patch Attention
我們提出了一種線性復(fù)雜度的高效Patch Attention算法撩炊,以保證競爭的整體效率外永。我們將長度為H的輸入時(shí)間序列在時(shí)間維度上分解為P = H/S的patch,其中S為patch的大小
將復(fù)雜性降低到線性拧咳,對(duì)于每個(gè)patch p伯顶,我們引入了一個(gè)可學(xué)習(xí)的偽時(shí)間戳. pseudo時(shí)間戳充當(dāng)數(shù)據(jù)占位符,patch中的所有時(shí)間戳都可以寫入有用的信息骆膝,然后將這些信息傳遞給下一層祭衩。在Triformer中,我們選擇使用注意機(jī)制來更新偽時(shí)間戳阅签,其中偽時(shí)間戳作為自我注意中的查詢工作掐暮。偽時(shí)間戳查詢補(bǔ)丁中所有的真實(shí)時(shí)間戳,因此對(duì)每個(gè)真實(shí)時(shí)間戳只計(jì)算一個(gè)關(guān)注分?jǐn)?shù)政钟,線性復(fù)雜度高
Triangular Stacking
在使用PAs時(shí)路克,我們只將patch中的偽時(shí)間戳提供給下一層樟结,這將以指數(shù)方式縮小層大小。
我們將每一層的所有偽時(shí)間戳聚合成一個(gè)聚合的輸出精算。
最后瓢宦,所有層的聚合輸出連接到預(yù)測(cè)器。這比僅僅使用最后一層的總輸出有兩個(gè)好處灰羽。首先驮履,聚合的輸出代表不同時(shí)間尺度的特征,形成不同的時(shí)間視圖廉嚼。其次玫镐,它提供了多個(gè)梯度反饋短路徑,從而簡化了學(xué)習(xí)過程怠噪。
Variable-Specific Modeling
針對(duì)變量的建目炙疲可以通過簡單的方式,對(duì)每個(gè)變量引入不同的投影矩陣來實(shí)現(xiàn)舰绘,這導(dǎo)致參數(shù)空間非常大蹂喻。這可能會(huì)導(dǎo)致過擬合葱椭,導(dǎo)致內(nèi)存占用過高捂寿,并且不能很好地?cái)U(kuò)展變量的數(shù)量N。
Experiments
Baselines: We select six recent and strong baselines from different categories shown in Table 1, including StemGNN [Cao et al., 2020], AGCRN [Bai et al., 2020], Informer [Zhou et al., 2021], Reformer [Kitaev et al., 2020], LogTrans [Li et al., 2019], and Autoformer [Wu et al., 2021].
Experiments for Longer Sequences
Ablation Study
Hyper-Parameter-Sensitivity Analysis
1)效率:
Conclusion and Outlook
我們提出了Triformer孵运,一種采用新穎的patch attention的三角形結(jié)構(gòu)秦陋,確保了線性復(fù)雜性。此外治笨,我們提出了一種輕量級(jí)的方法來生成特定于變量的投影矩陣驳概,該投影矩陣是量身定制的,以捕捉每個(gè)變量的時(shí)間序列的不同時(shí)間模式旷赖。在四個(gè)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明顺又,我們的建議優(yōu)于其他先進(jìn)的長序列多元時(shí)間序列預(yù)測(cè)方法。在未來的工作中等孵,我們有興趣探索支持動(dòng)態(tài)輸入長度的不同方式稚照,并利用課程學(xué)習(xí)加強(qiáng)模型培訓(xùn)[Yang等人,2021;Yang等俯萌,2022]果录。