作者以及單位
周號益 北航
解決問題
從論文作者演講的ppt來看,Transformer存在一些嚴(yán)重的問題:二次時(shí)間復(fù)雜度、高內(nèi)存使用率以及encoder-decoder體系結(jié)構(gòu)的固有限制祟身。
簡單的說本文解決的核心問題:比其他的sota工作样眠,在設(shè)定預(yù)測時(shí)間更長的情況下,要更準(zhǔn)盯捌!,如下圖所示:長度從96開始,預(yù)測就走下坡路了闸昨。
研究動(dòng)機(jī)
縱觀以下參考提供的兩個(gè)視頻原作者對自己工作的解讀,我感覺本文最好的地方就是邏輯特別清晰薄风,動(dòng)機(jī)解釋的 特別好饵较,建議好好讀一下原文。
原始Transformer的問題
1.self-attention的二次計(jì)算復(fù)雜度遭赂,self-attention機(jī)制的操作循诉,會導(dǎo)致我們模型的時(shí)間復(fù)雜度為;
2.長輸入的stacking層的內(nèi)存瓶頸:J個(gè)encoder/decoder的stack會導(dǎo)致內(nèi)存的使用為;
3.預(yù)測長輸出的速度驟降:動(dòng)態(tài)的decoding會導(dǎo)致step-by-step的inference非常慢。
本文的研究動(dòng)機(jī)歸為以下幾點(diǎn):
首先撇他,LSTF任務(wù)具有重要研究意義茄猫,對政策計(jì)劃和投資避險(xiǎn)等多種需要長時(shí)預(yù)測的任務(wù)至關(guān)重要;
目前現(xiàn)有方法多專注于短期預(yù)測困肩,模型缺乏長期預(yù)測能力划纽;
Transformer具有較強(qiáng)捕獲長距離依賴的能力,但是锌畸,在計(jì)算時(shí)間復(fù)雜度和空間復(fù)雜度以及如何加強(qiáng)長序列輸入和輸出關(guān)聯(lián)上都需要優(yōu)化勇劣;
上述三點(diǎn)對應(yīng)Informer的主要貢獻(xiàn)點(diǎn):
ProbSparse self-attention,作者稱其為概率稀疏自注意力潭枣,通過“篩選”Query中的重要部分比默,減少相似度計(jì)算。
Self-attention distilling盆犁,作者稱其為自注意力蒸餾命咐,通過卷積和最大池化減少維度和網(wǎng)絡(luò)參數(shù)量。
Generative style decoder谐岁,作者稱為生成式解碼器醋奠,一次前向計(jì)算輸出所有預(yù)測結(jié)果瓮下。
研究方法
左邊:編碼過程,編碼器接收長序列輸入(綠色部分)钝域,通過ProbSparse自注意力模塊和自注意力蒸餾模塊讽坏,得到特征表示。(堆疊結(jié)構(gòu)增加模型魯棒性)
右邊:解碼過程例证,解碼器接收長序列輸入(預(yù)測目標(biāo)部分設(shè)置為0)路呜,通過多頭注意力與編碼特征進(jìn)行交互,最后直接預(yù)測輸出目標(biāo)部分(橙黃色部分)织咧。
創(chuàng)新點(diǎn)
和上述動(dòng)機(jī)對應(yīng)的貢獻(xiàn)是一樣胀葱,對應(yīng)以下這三點(diǎn),現(xiàn)在分別簡單敘述笙蒙,詳情請見論文抵屿。1.概率稀疏注意力機(jī);2. 自注意力蒸餾編碼器捅位;3. 生成式解碼器
1.概率稀疏注意力機(jī)制
我們首先對典型自我注意的學(xué)習(xí)注意模式進(jìn)行定性評估轧葛。“稀疏性” self-attention得分形成長尾分布艇搀,即少數(shù)點(diǎn)積對主要注意有貢獻(xiàn)尿扯,其他點(diǎn)積對可以忽略。那么焰雕,這個(gè)問題可以進(jìn)一步推為如何區(qū)分它們衷笋?。我直接引用一些文章的分析矩屁,如下:
其實(shí)這一部分核心工作就是紅框所示(解釋和推理工作比較長)辟宗。
2. 自注意力蒸餾編碼器
編碼器的主要功能是捕獲長序列輸入之間的長范圍依賴。在輸入表示部分吝秕,筆者已經(jīng)介紹過輸入為泊脐。包含了三個(gè)部分(卷積后的序列輸入,全局位置嵌入郭膛,局部位置表示)晨抡。
此后將輸入送至自注意力模塊氛悬,值得注意的是這里采用的是自注意力蒸餾操作则剃,可以減少網(wǎng)絡(luò)參數(shù),并且隨著堆疊層數(shù)增加如捅,不斷”蒸餾“突出特征棍现。
具體而言,”蒸餾”操作主要為使用1D卷積和最大池化镜遣,將上一層的輸出送至模型后的多頭注意力模塊之前做維度修剪和降低內(nèi)存占用己肮。
3. 生成式解碼器
解決方法加入concat士袄,不選擇一個(gè)額定的標(biāo)記作為標(biāo)記,這樣不用依賴前一個(gè)才能預(yù)測后一個(gè)(這個(gè)是問題核心)谎僻。在公式中娄柳,就是加。
結(jié)論
無論是單變量的長序列預(yù)測還是多變量的長序列預(yù)測艘绍,Informer均能在多數(shù)數(shù)據(jù)集上取得最優(yōu)表現(xiàn)赤拒。
Informer能獲得AAAI的Best Paper確實(shí)有很多值得肯定的地方。首先诱鞠,從邏輯上對本工作的研究動(dòng)機(jī)挎挖、研究內(nèi)容,講故事的能力確實(shí)很重要航夺。此外蕉朵,實(shí)驗(yàn)部分比較充實(shí),能夠把動(dòng)機(jī)提出的疑惑都一一解答了阳掐,堪稱完美始衅。
在研究內(nèi)容上,Best Paper肯定不是靠A+B缭保。確實(shí)觅闽,本文在self-attention模型的問題上認(rèn)識較為深刻。
參考
作者 周號益視頻講解:
【AI TIME PhD AAAI-8】類Transformer模型的長序列分析預(yù)測新方向-周號益_嗶哩嗶哩_bilibili
B站講解:
【AI Drive】AAAI 2021最佳論文:比Transformer更有效的長時(shí)間序列預(yù)測_嗶哩嗶哩_bilibili
源代碼:
GitHub - zhouhaoyi/Informer2020: The GitHub repository for the paper "Informer" accepted by AAAI 2021.
基于Transformer的時(shí)間序列預(yù)測-Informer-AAAI21 BEST PAPER - 知乎 (zhihu.com)
AAAI21最佳論文Informer:效果遠(yuǎn)超Transformer的長序列預(yù)測神器涮俄! (qq.com)
Attention 注意力機(jī)制 - 知乎 (zhihu.com)