Transformer-xl

Transformer-xl

原文:https://blog.csdn.net/Magical_Bubble/article/details/89060213

循環(huán)機制

訓練階段,每個隱層接收兩個輸入

  1. 該段下層隱藏層的輸出藤违,與原始Transformer相同
  2. 前段下層隱藏層的輸出项秉,使其建模長期依賴關系

\widetilde{h}_{\tau + 1} ^ {n-1} = [SG(h_{\tau}^{n-1}) \circ h_{\tau + 1} ^{n-1}] \tag{extened context}

\mathbf{q}_{\tau+1}^{n}, \mathbf{k}_{\tau+1}^{n}, \mathbf{v}_{\tau+1}^{n}=\mathbf{h}_{\tau+1}^{n-1} \mathbf{W}_{q}^{\top}, \widetilde{\mathbf{h}}_{\tau+1}^{n-1} \mathbf{W}_{k}^{\top}, \widetilde{\mathbf{h}}_{\tau+1}^{n-1} \mathbf{W}_{v}^{\top}

\mathbf{h}_{\tau+1}^{n}=\text { Transformer-Layer }\left(\mathbf{q}_{\tau+1}^{n}, \mathbf{k}_{\tau+1}^{n}, \mathbf{v}_{\tau+1}^{n}\right)

相對位置編碼

若是每個段繼續(xù)使用相同的位置編碼扣溺,比如段1的編碼[0, 1, 2]澡为,段2的編碼也是[0, 1, 2]懈词,則組合后谴供,位置編碼變成了[0, 1, 2, 0, 1, 2]脂信,而每個位置的語義在整個序列中應當是不一致的。

在原Transformer中漠酿,計算查詢q_i^T與鍵k_j之間的注意力方式為:

\mathbf{A}_{i, j}^{\mathrm{abs}}=q_{i}^{\top} k_{j} \\ =\left(W_{q}\left(E_{x_{i}}+U_{i}\right)\right)^{T} \cdot\left(W_{k}\left(E_{x_{j}}+U_{j}\right)\right) \\ =\underbrace{\mathbf{E}_{x_{i}}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k} \mathbf{E}_{x_{j}}}_{(a)}+\underbrace{\mathbf{E}_{x_{i}}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k} \mathbf{U}_{j}}_{(b)}+\underbrace{\mathbf{U}_{i}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k} \mathbf{E}_{x_{j}}}_{(c)}+\underbrace{\mathbf{U}_{i}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k} \mathbf{U}_{j}}_{(d)}

其中冯凹,E_{x_i}是詞i的詞向量,U_i是對應的位置向量炒嘲。

而在Transformer-XL中

\mathbf{A}_{i, j}^{\mathrm{rel}}=\underbrace{\mathbf{E}_{x_{i}}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k, E} \mathbf{E}_{x_{j}}}_{(a)}+\underbrace{\mathbf{E}_{x_{i}}^{\top} \mathbf{W}_{q}^{\top} \mathbf{W}_{k, R} \mathbf{R}_{i-j}}_{(b)}+\underbrace{u^{\top} \mathbf{W}_{k, E} \mathbf{E}_{x_{j}}}_{(c)}+\underbrace{v^{\top} \mathbf{W}_{k, R} R_{i-j}}_{(d)}

對比來看宇姚,主要有三點變化:

  • 在(b)和(d)這兩項中,將所有絕對位置向量U_j都轉為相對位置向量R_{i-j}夫凸,與Transformer一樣浑劳,這是一個固定的編碼向量,不需要學習夭拌。此外魔熏,與其他相對位置編碼方案不同衷咽,該公式使用具有可學習變換的固定嵌入,而不是可學習嵌入蒜绽,因此更適用于在測試時使用較長的序列镶骗。
  • 在(c)這一項中,將查詢的U_i^TW_q^T向量轉為一個需要學習的參數(shù)向量u躲雅,因為在考慮相對位置的時候鼎姊,不需要查詢的絕對位置i,因此對于任意的i相赁,都可以采用同樣的向量相寇。同理,在(d)這一項中钮科,也將查詢的U_i^TW_q^T向量轉為另一個需要學習的參數(shù)向量v唤衫。
  • 將鍵的權重W_k變換矩陣轉為W_{k,E}W_{k,R}分別作為content-based key vectors和location-based key vectors。
    從另一個角度來解讀這個公式的話绵脯,可以將attention的計算分為如下四個部分:

a. 基于內(nèi)容的“尋址”佳励,即沒有添加原始位置編碼的原始分數(shù)。
b. 基于內(nèi)容的位置偏置蛆挫,即相對于當前內(nèi)容的位置偏差植兰。
c. 全局的內(nèi)容偏置,用于衡量key的重要性璃吧。
d. 全局的位置偏置,根據(jù)query和key之間的距離調(diào)整重要性废境。

整體計算過程

For \ n=1, \ldots, N : \quad \tilde{\mathbf{h}}_{\tau}^{n-1}=\left[\mathrm{SG}\left(\mathbf{m}_{\tau}^{n-1}\right) \circ \mathbf{h}_{\tau}^{n-1}\right]

\mathbf{q}_{\tau}^{n}, \mathbf{k}_{\tau}^{n}, \mathbf{v}_{\tau}^{n}=\mathbf{h}_{\tau}^{n-1} \mathbf{W}_{q}^{n \top}, \widetilde{\mathbf{h}}_{\tau}^{n-1} \mathbf{W}_{k, E}^{n}, \mathbf{\tilde { h }}_{\tau}^{n-1} \mathbf{W}_{v}^{n \top}

\mathbf{A}_{\tau, i, j}^{n}={\mathbf{q}_{\tau, i}^{n}}^T\mathbf{k}_{\tau, j}^{n}+{\mathbf{q}_{\tau, i}^{n}}^T\mathbf{W}_{k, R}^{n} \mathbf{R}_{i-j}+u^{\top} \mathbf{k}_{\tau, j}+v^{\top} \mathbf{W}_{k, R}^{n} \mathbf{R}_{i-j}

\mathbf{a}_{\tau}^{n}=\operatorname{Masked}-\operatorname{Softmax}\left(\mathbf{A}_{\tau}^{n}\right) \mathbf{v}_{\tau}^{n}

\mathbf{o}_{\tau}^{n}=\text { LayerNorm (Linear }\left(\mathbf{a}_{\tau}^{n}\right)+\mathbf{h}_{\tau}^{n-1} )

\mathbf{h}_{\tau}^{n}=\text { Positionwise-Feed-Forward }\left(\mathbf{o}_{\tau}^{n}\right)

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末畜挨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子噩凹,更是在濱河造成了極大的恐慌巴元,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件驮宴,死亡現(xiàn)場離奇詭異逮刨,居然都是意外死亡,警方通過查閱死者的電腦和手機堵泽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進店門修己,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人迎罗,你說我怎么就攤上這事睬愤。” “怎么了纹安?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵尤辱,是天一觀的道長砂豌。 經(jīng)常有香客問我,道長光督,這世上最難降的妖魔是什么阳距? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮结借,結果婚禮上筐摘,老公的妹妹穿的比我還像新娘。我一直安慰自己映跟,他們只是感情好蓄拣,可當我...
    茶點故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著努隙,像睡著了一般球恤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上荸镊,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天咽斧,我揣著相機與錄音,去河邊找鬼躬存。 笑死张惹,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的岭洲。 我是一名探鬼主播宛逗,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼盾剩!你這毒婦竟也來了雷激?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤告私,失蹤者是張志新(化名)和其女友劉穎屎暇,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體驻粟,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡根悼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蜀撑。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挤巡。...
    茶點故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖屯掖,靈堂內(nèi)的尸體忽然破棺而出玄柏,到底是詐尸還是另有隱情,我是刑警寧澤贴铜,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布粪摘,位于F島的核電站瀑晒,受9級特大地震影響,放射性物質發(fā)生泄漏徘意。R本人自食惡果不足惜苔悦,卻給世界環(huán)境...
    茶點故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望椎咧。 院中可真熱鬧玖详,春花似錦、人聲如沸勤讽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脚牍。三九已至向臀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間诸狭,已是汗流浹背券膀。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留驯遇,地道東北人芹彬。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像叉庐,于是被迫代替她去往敵國和親舒帮。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,452評論 2 348