Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. 2018. Self-Attention with Relative Position Representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, March. arXiv: 1803.02155.
非遞歸的模型(attention,CNN等)并沒(méi)有考慮輸入序列中元素的順序,因此在很多任務(wù)中可能需要顯式地編碼位置信息篙挽。這篇文章將元素與元素之間的相對(duì)位置表示引入了self-attention機(jī)制漾月。在兩個(gè)機(jī)器翻譯的任務(wù)中栋烤,引入相對(duì)位置表示的self-attention比絕對(duì)位置編碼的self-attention有明顯的提升炭菌。
背景知識(shí)
-
Attention Mechanism
這篇文章把普通的self-attention的輸出表示為:
注:
的計(jì)算方式采用的是Scaled Dot-Product,詳見(jiàn)Attention Mechanism
模型
Relation-aware Self-Attention
在普通self-attention的基礎(chǔ)上杯道,這篇文章引入了兩個(gè)與相對(duì)位置相關(guān)的向量:夹厌,之所以采用
維向量的表示形式豹爹,主要是為了套用原來(lái)self-attention的計(jì)算公式。
也就是說(shuō)矛纹,如果attention的目標(biāo)詞是的話臂聋,那么在計(jì)算
對(duì)
的注意力特征的時(shí)候,需要額外考慮
對(duì)
的兩個(gè)與位置相關(guān)的向量或南。
引入這兩個(gè)向量之后孩等,上述self-attention的計(jì)算可以修改為:
Relative Position Representations
Relative Position Representations的目標(biāo)是給出的計(jì)算方式。作者假設(shè)如果序列中兩個(gè)元素的距離超過(guò)
采够,則這兩元素之間的位置信息就沒(méi)有意義了肄方。同時(shí),
應(yīng)該只跟相對(duì)位置有關(guān)蹬癌,而與
沒(méi)有關(guān)系权她。作者直接將
定義為了可訓(xùn)練的向量,本質(zhì)上是訓(xùn)練
和
: