2021AAAI-BestPaper-Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

作者以及單位

周號益 北航

解決問題

從論文作者演講的ppt來看,Transformer存在一些嚴(yán)重的問題:二次時(shí)間復(fù)雜度、高內(nèi)存使用率以及encoder-decoder體系結(jié)構(gòu)的固有限制祟身。

論文作者的ppt

簡單的說本文解決的核心問題:比其他的sota工作样眠,在設(shè)定預(yù)測時(shí)間更長的情況下,要更準(zhǔn)盯捌!,如下圖所示:長度從96開始,預(yù)測就走下坡路了闸昨。

問題說明

研究動(dòng)機(jī)

縱觀以下參考提供的兩個(gè)視頻原作者對自己工作的解讀,我感覺本文最好的地方就是邏輯特別清晰薄风,動(dòng)機(jī)解釋的 特別好饵较,建議好好讀一下原文。

原始Transformer的問題

1.self-attention的二次計(jì)算復(fù)雜度遭赂,self-attention機(jī)制的操作循诉,會導(dǎo)致我們模型的時(shí)間復(fù)雜度為O(L^2);
2.長輸入的stacking層的內(nèi)存瓶頸:J個(gè)encoder/decoder的stack會導(dǎo)致內(nèi)存的使用為O(J*L^2);
3.預(yù)測長輸出的速度驟降:動(dòng)態(tài)的decoding會導(dǎo)致step-by-step的inference非常慢。

本文的研究動(dòng)機(jī)歸為以下幾點(diǎn):

首先撇他,LSTF任務(wù)具有重要研究意義茄猫,對政策計(jì)劃和投資避險(xiǎn)等多種需要長時(shí)預(yù)測的任務(wù)至關(guān)重要;
目前現(xiàn)有方法多專注于短期預(yù)測困肩,模型缺乏長期預(yù)測能力划纽;
Transformer具有較強(qiáng)捕獲長距離依賴的能力,但是锌畸,在計(jì)算時(shí)間復(fù)雜度和空間復(fù)雜度以及如何加強(qiáng)長序列輸入和輸出關(guān)聯(lián)上都需要優(yōu)化勇劣;

上述三點(diǎn)對應(yīng)Informer的主要貢獻(xiàn)點(diǎn):

ProbSparse self-attention,作者稱其為概率稀疏自注意力潭枣,通過“篩選”Query中的重要部分比默,減少相似度計(jì)算。
Self-attention distilling盆犁,作者稱其為自注意力蒸餾命咐,通過卷積和最大池化減少維度和網(wǎng)絡(luò)參數(shù)量。
Generative style decoder谐岁,作者稱為生成式解碼器醋奠,一次前向計(jì)算輸出所有預(yù)測結(jié)果瓮下。

研究方法

左邊:編碼過程,編碼器接收長序列輸入(綠色部分)钝域,通過ProbSparse自注意力模塊和自注意力蒸餾模塊讽坏,得到特征表示。(堆疊結(jié)構(gòu)增加模型魯棒性)
右邊:解碼過程例证,解碼器接收長序列輸入(預(yù)測目標(biāo)部分設(shè)置為0)路呜,通過多頭注意力與編碼特征進(jìn)行交互,最后直接預(yù)測輸出目標(biāo)部分(橙黃色部分)织咧。


核心架構(gòu)

創(chuàng)新點(diǎn)

和上述動(dòng)機(jī)對應(yīng)的貢獻(xiàn)是一樣胀葱,對應(yīng)以下這三點(diǎn),現(xiàn)在分別簡單敘述笙蒙,詳情請見論文抵屿。1.概率稀疏注意力機(jī);2. 自注意力蒸餾編碼器捅位;3. 生成式解碼器

1.概率稀疏注意力機(jī)制

我們首先對典型自我注意的學(xué)習(xí)注意模式進(jìn)行定性評估轧葛。“稀疏性” self-attention得分形成長尾分布艇搀,即少數(shù)點(diǎn)積對主要注意有貢獻(xiàn)尿扯,其他點(diǎn)積對可以忽略。那么焰雕,這個(gè)問題可以進(jìn)一步推為如何區(qū)分它們衷笋?。我直接引用一些文章的分析矩屁,如下:


其實(shí)這一部分核心工作就是紅框所示(解釋和推理工作比較長)辟宗。

2. 自注意力蒸餾編碼器

編碼器的主要功能是捕獲長序列輸入之間的長范圍依賴。在輸入表示部分吝秕,筆者已經(jīng)介紹過輸入為X^t泊脐。包含了三個(gè)部分(卷積后的序列輸入,全局位置嵌入郭膛,局部位置表示)晨抡。

預(yù)處理核心:scalar+stamp

作者的ppt

此后將輸入送至自注意力模塊氛悬,值得注意的是這里采用的是自注意力蒸餾操作则剃,可以減少網(wǎng)絡(luò)參數(shù),并且隨著堆疊層數(shù)增加如捅,不斷”蒸餾“突出特征棍现。
具體而言,”蒸餾”操作主要為使用1D卷積和最大池化镜遣,將上一層的輸出送至模型后的多頭注意力模塊之前做維度修剪和降低內(nèi)存占用己肮。
作者的圖還是畫的蠻好的

3. 生成式解碼器

解決方法加入concat士袄,不選擇一個(gè)額定的標(biāo)記作為標(biāo)記,這樣不用依賴前一個(gè)才能預(yù)測后一個(gè)(這個(gè)是問題核心)谎僻。在公式中娄柳,就是加X_0

結(jié)論

無論是單變量的長序列預(yù)測還是多變量的長序列預(yù)測艘绍,Informer均能在多數(shù)數(shù)據(jù)集上取得最優(yōu)表現(xiàn)赤拒。
Informer能獲得AAAI的Best Paper確實(shí)有很多值得肯定的地方。首先诱鞠,從邏輯上對本工作的研究動(dòng)機(jī)挎挖、研究內(nèi)容,講故事的能力確實(shí)很重要航夺。此外蕉朵,實(shí)驗(yàn)部分比較充實(shí),能夠把動(dòng)機(jī)提出的疑惑都一一解答了阳掐,堪稱完美始衅。
在研究內(nèi)容上,Best Paper肯定不是靠A+B缭保。確實(shí)觅闽,本文在self-attention模型的問題上認(rèn)識較為深刻。

參考

作者 周號益視頻講解:
【AI TIME PhD AAAI-8】類Transformer模型的長序列分析預(yù)測新方向-周號益_嗶哩嗶哩_bilibili
B站講解:
【AI Drive】AAAI 2021最佳論文:比Transformer更有效的長時(shí)間序列預(yù)測_嗶哩嗶哩_bilibili
源代碼:
GitHub - zhouhaoyi/Informer2020: The GitHub repository for the paper "Informer" accepted by AAAI 2021.
基于Transformer的時(shí)間序列預(yù)測-Informer-AAAI21 BEST PAPER - 知乎 (zhihu.com)
AAAI21最佳論文Informer:效果遠(yuǎn)超Transformer的長序列預(yù)測神器涮俄! (qq.com)
Attention 注意力機(jī)制 - 知乎 (zhihu.com)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蛉拙,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子彻亲,更是在濱河造成了極大的恐慌孕锄,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件苞尝,死亡現(xiàn)場離奇詭異畸肆,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)宙址,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門轴脐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抡砂,你說我怎么就攤上這事大咱。” “怎么了注益?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵碴巾,是天一觀的道長。 經(jīng)常有香客問我丑搔,道長厦瓢,這世上最難降的妖魔是什么提揍? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮煮仇,結(jié)果婚禮上劳跃,老公的妹妹穿的比我還像新娘。我一直安慰自己浙垫,他們只是感情好售碳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著绞呈,像睡著了一般贸人。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上佃声,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天艺智,我揣著相機(jī)與錄音,去河邊找鬼圾亏。 笑死十拣,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的志鹃。 我是一名探鬼主播夭问,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼曹铃!你這毒婦竟也來了缰趋?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤陕见,失蹤者是張志新(化名)和其女友劉穎秘血,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體评甜,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡灰粮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了忍坷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粘舟。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖佩研,靈堂內(nèi)的尸體忽然破棺而出柑肴,到底是詐尸還是另有隱情,我是刑警寧澤韧骗,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布嘉抒,位于F島的核電站,受9級特大地震影響袍暴,放射性物質(zhì)發(fā)生泄漏些侍。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一政模、第九天 我趴在偏房一處隱蔽的房頂上張望岗宣。 院中可真熱鬧,春花似錦淋样、人聲如沸耗式。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽刊咳。三九已至,卻和暖如春儡司,著一層夾襖步出監(jiān)牢的瞬間娱挨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工捕犬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留跷坝,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓碉碉,卻偏偏與公主長得像柴钻,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子垢粮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容