閱讀論文筆記：Neural Machine Translation by Jointly Learning to Align and Translate

一绿鸣、進食前提

這里要弄明白RNN，LSTM淀弹，BiRNN她混，Seq2Seq

二爵嗅、RNN With Encoder-Decoder

在Encoder-Decoder框架中吃媒，編碼器讀取輸入語句烙如，即向量序列 $\mathbf{x}=\left(x_{1}, \cdots, x_{T_{x}}\right)$ 涂籽，生成中間語義向量 $c_{i}$

我們先看一個大概的流程

$c$ 當作 Decoder 的每一時刻輸入苹祟，則是 Seq2Seq 模型的第一種模型：

如果直接將 $c$ 輸入到 Decoder 中，則是 Seq2Seq 模型的第二種模型：

即我們要在Encoder內(nèi)計算隱狀態(tài) $h_{i}$ 评雌，最后得到中間語義向量 $c$ 树枫，將其送入Decoder，再由Decode進行解析景东，輸出每次對應的 $y_{i}$ 在其先驗條件下的輸出概率最大的詞砂轻。

從目前來看，我們僅需知道三個參數(shù) $h_{t}$ 斤吐， $c$ 搔涝， $s_{t}$ 就可以進行翻譯了

該論文最后給出了兩種實現(xiàn)模型，通用框架A1和 A2

我們可以將翻譯步驟略縮為①和②

①Encoder部分

當前的隱層輸出 $h_{t}$ 由上一層的隱層輸出 $h_{t-1}$ 和當前層輸入 $x_{t}$ 計算得出

$h_{t}=f\left(x_{t}, h_{t-1}\right) \tag{1}$
這里對于RNN的激活函數(shù) $f$ 和措，作者使用Choet 等人(2014a)Learning phrase representations using RNN encoder-decoder for statistical machine translation.提出的門控隱藏單元庄呈。

再通過計算得到中間語義向量 $c$
$c=q\left(\left\{h_{1}, \cdots, h_{T_{x}}\right\}\right)\tag{2}$
接下來將中間語義向量 $c$ 送入Decoder

②Decoder部分

給出了定義的條件概率，用以計算 $y_{i}$ 在當前時刻輸出概率最高的詞語

$p\left(y_{i} | y_{1}, \ldots, y_{i-1}, \mathbf{x}\right)=g\left(y_{i-1}, s_{i}, c_{i}\right) \tag{3}$

論文中的模型圖

大概結構和流程搞清楚后派阱，進入Encoder部分诬留， $h_{t}$ 計算方法已經(jīng)給出，來看看剩下的個參數(shù)是如何計算得出的

一贫母、論文提出的第一種通用框架A1

A1 Encoder

$c_{i}$ 由權重 $\alpha_{i j}$ 和隱層輸出 $h_{i}$ 計算加權和得到

$c_{i}=\sum_{j=1}^{T_{x}} \alpha_{i j} h_{j}\tag{4}$

每個注釋 $h_{i}$ 的權重 $\alpha_{i j}$ 通過下式計算

$\alpha_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{T_{x}} \exp \left(e_{i k}\right)} \tag{5.1}$

$e\left(y_{i-1}\right) \in \mathbb{R}^{m}$ 是單詞 $y_{i-1}$ 的K維(1-K)的詞向量嵌入文兑， $e\left(y_{i}\right)$ 為 $m * K$ 的嵌入矩陣 $E \in \mathbb{R}^{m \times K}$ ， $r_{i}$ 是復位門的輸出腺劣。論文里忽略了偏差項绿贞，使方程變得更簡潔。

$e_{i j}=a\left(s_{i-1}, h_{j}\right) \tag{5.2}$

對于長度為 $T_{x}$ 和 $T_{y}$ 的每個句子誓酒，設計對齊模型時應考慮需要評估模型 $T_{x}$ × $T_{y}$ 次樟蠕，為了減少計算，使用單層多層感知器

$a\left(s_{i-1}, h_{j}\right)=v_{a}^{\top} \tanh \left(W_{a} s_{i-1}+U_{a} h_{j}\right)\tag{5.3}$

$v_{a} \in \mathbb{R}^{n'}$ $W_{a} \in \mathbb{R}^{n' \times n}$ $U_{a} \in \mathbb{R}^{n' \times 2n}$ 為權重矩陣靠柑，由于 $U_{a}$ 和 $h_{j}$ 不依賴于 $i$ 寨辩，我們可以對其進行預先計算以最大程度地減少計算成本

A1 Decoder

利用解碼器狀態(tài) $s_{i-1}$ ，上下文 $c_{i}$ 和最后生成的單詞 $y_{i-1}$ 歼冰，我們將目標單詞yi的概率定義為

$p\left(y_{i} | y_{1}, \ldots, y_{i-1}, \mathbf{x}\right)=g\left(y_{i-1}, s_{i}, c_{i}\right) \tag{6}$

$s_{i}$ 為圖一上面部分RNN結構i時刻隱層的狀態(tài)
$s_{i}=f\left(s_{i-1}, y_{i-1}, c_{i}\right)\tag{7.1}$

公式的展開

$f\left(s_{i-1}, y_{i-1}, c_{i}\right)=\left(1-z_{i}\right) \circ s_{i-1}+z_{i} \circ \tilde{s}_{i} \tag{7.2}$
$\tilde{s}_{i}=\tanh \left(W e\left(y_{i-1}\right)+U\left[r_{i} \circ s_{i-1}\right]+C c_{i}\right)\tag{7.3}$
$z_{i}=\sigma\left(W_{z} e\left(y_{i-1}\right)+U_{z} s_{i-1}+C_{z} c_{i}\right) \tag{7.4}$
$r_{i}=\sigma\left(W_{r} e\left(y_{i-1}\right)+U_{r} s_{i-1}+C_{r} c_{i}\right) \tag{7.5}$

權重矩陣： $W, W_{z}, W_{r} \in \mathbb{R}^{n \times m}$ $U, U_{z}, U_{r} \in \mathbb{R}^{n \times n}$ $C, C_{z}, C_{r} \in \mathbb{R}^{n \times 2 n}$

where ? is an element-wise multiplication靡狞，即該符號代表點積
where σ (·) is a logistic sigmoid function，即該符號代表sigmoid函數(shù)

更新門 $z_{i}$ 允許每個隱藏單元保持其先前的激活狀態(tài)

二隔嫡、論文提出的第二種模型 A2

A2 Encoder

輸入 1-of-K 詞向量 $\mathbf{x}=\left(x_{1}, \ldots, x_{T_{x}}\right), x_{i} \in \mathbb{R}^{K_{x}}$
輸出 1-of-K 詞向量 $\mathbf{y}=\left(y_{1}, \ldots, y_{T_{y}}\right), y_{i} \in \mathbb{R}^{K_{y}}$
其中 $K_{x}$ 和 $K_{y}$ 分別是源語言和目標語言的詞匯量甸怕。

首先甘穿，計算雙向遞歸神經(jīng)網(wǎng)絡（BiRNN）的前向狀態(tài)

$\overrightarrow{h}_{i}=\left\{\begin{array}{ll}{\left(1-\overrightarrow{z}_{i}\right) \circ \overrightarrow{h}_{i-1}+\overrightarrow{z}_{i} \circ \overrightarrow{\underline{h}}_{i}} & {, \text { if } i>0} \\ {0} & {, \text { if } i=0}\end{array}\right. \tag{8.1}$

$\overrightarrow{\underline{h}}_{i}=\tanh \left(\overrightarrow{W} \overline{E} x_{i}+\overrightarrow{U}\left[\overrightarrow{r}_{i} \circ \overrightarrow{h}_{i-1}\right]\right) \tag{8.2}$
$\overrightarrow{z}_{i}=\sigma\left(\overrightarrow{W}_{z} \overline{E} x_{i}+\overrightarrow{U}_{z} \overrightarrow{h}_{i-1}\right)\tag{8.3}$

$\overrightarrow{r}_{i}=\sigma\left(\overrightarrow{W}_{r} \overline{E} x_{i}+\overrightarrow{U}_{r} \overrightarrow{h}_{i-1}\right)\tag{8.4}$

$\overline{E} \in \mathbb{R}^{m \times K_{x}}$ 是詞向量矩陣， $\overrightarrow{W}, \overrightarrow{W}_{z}, \overrightarrow{W}_{r} \in \mathbb{R}^{n \times m}$ $\overrightarrow{U},\overrightarrow{U}_{z}, \overrightarrow{U}_{r} \in \mathbb{R}^{n \times n}$

反向傳播狀態(tài) $\left(\overleftarrow{h}_{1}, \ldots, \overleftarrow{h}_{T_{x}}\right)$ 計算與上面相似梢杭，與權重矩陣不同温兼，我們在前向傳播和反向傳播RNN之間共享單詞嵌入矩陣 $\overline{E}$ ，將前向傳播和反向傳播狀態(tài)連接起來得到 $\left({h}_{1},{h}_{2}, \ldots, {h}_{T_{x}}\right)$

$\begin{bmatrix} \overrightarrow{h}_{i}\\ \overleftarrow{h}_{i} \end{bmatrix} \tag{9}$

A2 Decoder

給出了定義的條件概率武契，用以計算 $y_{i}$ 在當前時刻輸出概率最高的詞語

$p\left(y_{i} | y_{1}, \ldots, y_{i-1}, \mathbf{x}\right)=\propto exp\left ( y_{i}^{\top }W_{o}t_{i} \right )\tag{3}$

$t_{i} = \left [ max\left \{ \tilde{t}_{i,2j-1},\tilde{t}_{i,2j} \right \} \right ]_{j=1,\dots,l}^{\top } \tag{4}$

$\tilde{t}_{i}= U_{o}s_{i-1}+V_{o}Ey_{i-1}+C_{o}c_{i}\tag{5}$

解碼器的隱藏狀態(tài) $s_{i}$ 募判，是通過編碼器給出的注釋經(jīng)過計算得到的(應該是這個意思)

$s_{i}=f\left(s_{i-1}, y_{i-1}, c_{i}\right)\tag{7.1}$

注意，這里計算公式與上面的A1在細節(jié)有差異了
公式的展開
$s_{i}=\left(1-z_{i}\right) \circ s_{i-1}+z_{i} \circ \tilde{s}_{i} \tag{7.2}$
$\tilde{s}_{i}=\tanh \left(W Ey_{i-1}+U\left[r_{i} \circ s_{i-1}\right]+C c_{i}\right)\tag{7.3}$
$z_{i}=\sigma\left(W_{z} Ey_{i-1}+U_{z} s_{i-1}+C_{z} c_{i}\right) \tag{7.4}$
$r_{i}=\sigma\left(W_{r} Ey_{i-1}+U_{r} s_{i-1}+C_{r} c_{i}\right) \tag{7.5}$

$E$ 是目標語言的單詞嵌入矩陣咒唆，權重矩陣： $W, W_{z}, W_{r} \in \mathbb{R}^{n \times m}$ $U, U_{z}, U_{r} \in \mathbb{R}^{n \times m}$ $C, C_{z}, C_{r} \in \mathbb{R}^{n \times 2n}$ 届垫，m和n是詞的嵌入維數(shù)和隱藏單位數(shù)