題目:Transformer-XL: Attentive Language Models
Beyond a Fixed-Length Context
摘要:Transformer 網(wǎng)絡(luò)具有學(xué)習(xí)更長期依賴性的潛力匠楚,但這種潛力往往會(huì)受到語言建模中上下文長度固定的限制。因此,我們提出了一種叫做 Transformer-XL 的新神經(jīng)架構(gòu)來解決這一問題徊都,它可以在不破壞時(shí)間一致性的情況下薛窥,讓 Transformer 超越固定長度學(xué)習(xí)依賴性。具體來說,它是由片段級(jí)的循環(huán)機(jī)制和全新的位置編碼策略組成的舵盈。我們的方法不僅可以捕獲更長的依賴關(guān)系,還可以解決上下文碎片化的問題球化。
模型:
1)片段級(jí)遞歸機(jī)制:上面兩圖分別是傳統(tǒng)的transformer和transformer-XL模型的對(duì)比秽晚,可以看到,tansformer-XL模型在計(jì)算下一片段的隱藏層狀態(tài)時(shí)用到了上一片段的隱藏層信息筒愚,這樣可以捕獲更長距離的上下文信息
2)相對(duì)位置編碼方案:
上面分別是原始的絕對(duì)位置編碼和改進(jìn)后的相對(duì)位置編碼赴蝇,將Uj替換成了Ri,j,Ri,j描述了i和j之間的相對(duì)距離