閱讀論文筆記:Neural Machine Translation by Jointly Learning to Align and Translate
一绿鸣、進食前提
這里要弄明白RNN,LSTM淀弹,BiRNN她混,Seq2Seq
二爵嗅、RNN With Encoder-Decoder
在Encoder-Decoder框架中吃媒,編碼器讀取輸入語句烙如,即向量序列涂籽,生成中間語義向量
我們先看一個大概的流程
當作 Decoder 的每一時刻輸入苹祟,則是 Seq2Seq 模型的第一種模型:
如果直接將 輸入到 Decoder 中,則是 Seq2Seq 模型的第二種模型:
即我們要在Encoder內(nèi)計算隱狀態(tài) 评雌,最后得到中間語義向量
树枫,將其送入Decoder,再由Decode進行解析景东,輸出每次對應的
在其先驗條件下的輸出概率最大的詞砂轻。
從目前來看,我們僅需知道三個參數(shù)斤吐,
搔涝,
就可以進行翻譯了
該論文最后給出了兩種實現(xiàn)模型,通用框架A1和 A2
我們可以將翻譯步驟略縮為①和②
①Encoder部分
當前的隱層輸出由上一層的隱層輸出
和當前層輸入
計算得出
這里對于RNN的激活函數(shù)和措,作者使用Choet 等人(2014a)Learning phrase representations using RNN encoder-decoder for statistical machine translation.提出的門控隱藏單元庄呈。
再通過計算得到中間語義向量
接下來將中間語義向量送入Decoder
②Decoder部分
給出了定義的條件概率,用以計算在當前時刻輸出概率最高的詞語
大概結構和流程搞清楚后派阱,進入Encoder部分诬留,計算方法已經(jīng)給出,來看看剩下的個參數(shù)是如何計算得出的
一贫母、論文提出的第一種通用框架A1
A1 Encoder
由權重
和 隱層輸出
計算加權和得到
每個注釋的權重
通過下式計算
是單詞
的K維(1-K)的詞向量嵌入文兑,
為
的嵌入矩陣
,
是復位門的輸出腺劣。論文里忽略了偏差項绿贞,使方程變得更簡潔。
對于長度為和
的每個句子誓酒,設計對齊模型時應考慮需要評估模型
×
次樟蠕,為了減少計算,使用單層多層感知器
為權重矩陣靠柑,由于
和
不依賴于
寨辩,我們可以對其進行預先計算以最大程度地減少計算成本
A1 Decoder
利用解碼器狀態(tài),上下文
和最后生成的單詞
歼冰,我們將目標單詞yi的概率定義為
為圖一上面部分RNN結構i時刻隱層的狀態(tài)
公式的展開
權重矩陣:
where ? is an element-wise multiplication靡狞,即該符號代表點積
where σ (·) is a logistic sigmoid function,即該符號代表sigmoid函數(shù)
更新門允許每個隱藏單元保持其先前的激活狀態(tài)
二隔嫡、論文提出的第二種模型 A2
A2 Encoder
輸入 1-of-K 詞向量
輸出 1-of-K 詞向量
其中和
分別是源語言和目標語言的詞匯量甸怕。
首先甘穿,計算雙向遞歸神經(jīng)網(wǎng)絡(BiRNN)的前向狀態(tài)
是詞向量矩陣,
反向傳播狀態(tài) 計算與上面相似梢杭,與權重矩陣不同温兼,我們在前向傳播和反向傳播RNN之間共享單詞嵌入矩陣
,將前向傳播和反向傳播狀態(tài)連接起來得到
A2 Decoder
給出了定義的條件概率武契,用以計算在當前時刻輸出概率最高的詞語
解碼器的隱藏狀態(tài)募判,是通過編碼器給出的注釋經(jīng)過計算得到的(應該是這個意思)
注意,這里計算公式與上面的A1在細節(jié)有差異了
公式的展開
是目標語言的單詞嵌入矩陣咒唆,權重矩陣:
届垫,m和n是詞的嵌入維數(shù)和隱藏單位數(shù)
where ? is an element-wise multiplication,即該符號代表點積
where σ (·) is a logistic sigmoid function全释,即該符號代表sigmoid函數(shù)
初始隱藏狀態(tài) =
装处,
參考
[1] Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. arXiv:1406.1078v3 (2014).
[2] Sequence to Sequence Learning with Neural Networks. arXiv:1409.3215v3 (2014)
[3] Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)
[4] 詳解從 Seq2Seq模型、RNN結構浸船、Encoder-Decoder模型 到 Attention模型