NMT 機(jī)器翻譯模型
在Assignment4,5中址愿,進(jìn)一步理解encoder-decoder模型亚亲,并且認(rèn)識到在實(shí)現(xiàn)項(xiàng)目之前蚜锨,要清楚的了解每一個(gè)輸入輸出的矩陣的維度氏堤。
A4 詞向量翻譯模型
詞向量輸入的模型為嵌入LSTM的encoder-decoder。如下圖所示搏明,這是在翻譯時(shí)鼠锈,某一時(shí)刻的狀態(tài):
將這些嵌入內(nèi)容饋送到雙向編碼器,從而為前向(→)和向后(←)LSTM生成隱藏狀態(tài)和單元狀態(tài)星著。
使用編碼器的最終隱藏狀態(tài)和最終單元狀態(tài)的線性投影來初始化解碼器的第一個(gè)隱藏狀態(tài)和單元狀態(tài)
购笆。
將與上一個(gè)時(shí)間步的組合輸出矢量
連接起來,以產(chǎn)生
虚循。 請注意同欠,對于第一個(gè)目標(biāo)字(即開始標(biāo)記)样傍,
是零向量。 然后將
作為輸入提供給解碼器铺遂。
使用計(jì)算注意力層
將注意輸出與解碼器隱藏狀態(tài)連接起來衫哥,并將其通過線性層
和
以獲得組合輸出矢量
。
然后襟锐,在第t個(gè)時(shí)間步生成目標(biāo)詞的概率分布:
最后撤逢,為了訓(xùn)練網(wǎng)絡(luò),計(jì)算與
之間的
交叉熵?fù)p失粮坞,其中
是目標(biāo)單詞在時(shí)間步
處的一熱向量:
A5 字符型翻譯模型
首先通過CNN卷積得到輸入的特征向量蚊荣,然后將其作為特征詞向量輸入到模型中。
其他步驟和詞模型一樣莫杈,只不過提取的特征是具有字符特征的互例,當(dāng)預(yù)測出<UNK>字符時(shí),啟動簡單的LSTM預(yù)測結(jié)構(gòu)筝闹,進(jìn)行輸出詞的生成媳叨。