Asynchronous Bidirectional Decoding for Neural Machine Translatio

用于神經(jīng)機(jī)器翻譯的異步雙向解碼

Abstract

主導(dǎo)神經(jīng)機(jī)器翻譯(NMT)模型應(yīng)用統(tǒng)一注意力編碼器 - 解碼器神經(jīng)網(wǎng)絡(luò)進(jìn)行翻譯瞧挤。 傳統(tǒng)上稽莉,NMT解碼器采用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)以從左到右的方式執(zhí)行轉(zhuǎn)換赎懦,使得在翻譯期間從右到左生成的目標(biāo)側(cè)上下文未被開發(fā)。在本文中谊迄,我們?yōu)閭鹘y(tǒng)的注意力編碼器 - 解碼器NMT框架配備了一個(gè)后向解碼器窑多,以探索NMT的雙向解碼。根據(jù)編碼器產(chǎn)生的隱藏狀態(tài)序列拳芙,我們的后向解碼器首先學(xué)習(xí)從右到左生成目標(biāo)側(cè)隱藏狀態(tài)序列察藐。 然后,前向解碼器在前向方向上執(zhí)行翻譯舟扎,而在每個(gè)翻譯預(yù)測(cè)時(shí)間步長(zhǎng)中分飞,它同時(shí)應(yīng)用兩個(gè)注意力模型以分別考慮源端和反向目標(biāo)端隱藏狀態(tài)。通過(guò)這種新架構(gòu)睹限,我們的模型能夠充分利用源和目標(biāo)端上下文來(lái)完全提高翻譯質(zhì)量譬猫。NIST中英文和WMT英德翻譯任務(wù)的實(shí)驗(yàn)結(jié)果表明讯檐,我們的模型分別實(shí)現(xiàn)了3.14和1.38 BLEU點(diǎn)對(duì)傳統(tǒng)NMT的實(shí)質(zhì)性改進(jìn)。

Introduction

image.png

Table1具有不同解碼方式的NMT系統(tǒng)的翻譯示例染服。 L2R / R2L表示由NMT系統(tǒng)以從左到右/從右到左解碼產(chǎn)生的翻譯裂垦。 以波浪/虛線突出顯示的文本分別是不正確/正確的翻譯。
  通常肌索,大多數(shù)NMT解碼器基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)并以從左到右的方式生成翻譯蕉拢。 因此,盡管在每個(gè)時(shí)間步驟為先前編碼無(wú)界目標(biāo)詞被預(yù)測(cè)的優(yōu)點(diǎn)诚亚,但是這些解碼器不能捕獲用于翻譯的反向目標(biāo)側(cè)上下文晕换。 一旦在先前的預(yù)測(cè)中發(fā)生錯(cuò)誤,由于嘈雜的前向編碼的目標(biāo)側(cè)上下文的負(fù)面影響站宗,后續(xù)預(yù)測(cè)的質(zhì)量將被破壞闸准。 直觀地,反向目標(biāo)端上下文對(duì)于翻譯預(yù)測(cè)也是至關(guān)重要的梢灭,因?yàn)樗鼈儾粌H提供互補(bǔ)信號(hào)夷家,而且還給NMT模型帶來(lái)不同的偏差(Hoang,Haffari和Cohn 2017)敏释。以表1中的示例為例库快。 由傳統(tǒng)NMT系統(tǒng)誤解的中文句子的后半部分被由具有從右到左的解碼的NMT系統(tǒng)準(zhǔn)確翻譯。 因此钥顽,研究如何將反向目標(biāo)端上下文集成到解碼器中以提高NMT的翻譯性能是很重要的义屏。
為此,許多研究人員采用雙向解碼技術(shù)引入NMT(Liu et al蜂大。2016; Sennrich闽铐,Haddow和Birch 2016a; Hoang,Haffari和Cohn 2017)奶浦。他們中的大多數(shù)使用雙向解碼分?jǐn)?shù)對(duì)候選翻譯進(jìn)行重新排序兄墅,以便選擇具有適當(dāng)前綴和后綴的翻譯。然而澳叉,這些方法也帶來(lái)一些限制NMT中雙向解碼潛力的缺點(diǎn)隙咸。一方面,由于有限的搜索空間和beam search的搜索誤差耳高,所產(chǎn)生的最佳翻譯通常遠(yuǎn)非令人滿意扎瓶,因此它不能提供足夠的信息作為其他解碼器的補(bǔ)充所踊。 另一方面泌枪,因?yàn)?strong>雙向解碼器在翻譯期間通常彼此獨(dú)立,所以單向解碼器不能完全利用由另一解碼器產(chǎn)生的目標(biāo)側(cè)上下文秕岛,因此生成的候選翻譯仍然是不期望的碌燕。 因此误证,如何有效地發(fā)揮雙向解碼對(duì)NMT的影響還有待進(jìn)一步研究。
  在本文中修壕,我們通過(guò)引入反向解碼器來(lái)顯著擴(kuò)展傳統(tǒng)的注意編碼器 - 解碼器NMT框架愈捅,以便充分利用反向目標(biāo)側(cè)上下文來(lái)改善NMT。如圖1所示慈鸠,與我們的新型異步雙向解碼器一起蓝谨,所提出的模型仍然是端到端的注意NMT框架,其主要由三個(gè)部分組成:1)將輸入源句子嵌入雙向隱藏狀態(tài)的編碼器; 2)后向解碼器青团,其類似于傳統(tǒng)的NMT解碼器譬巫,但是以從右到左的方式執(zhí)行翻譯,其中所生成的隱藏狀態(tài)編碼反向目標(biāo)端上下文; 3)前向解碼器督笆,其從左到右生成最終翻譯芦昔,并且考慮用于翻譯預(yù)測(cè)的源端雙向和目標(biāo)端反向隱藏狀態(tài)向量,同時(shí)引入兩個(gè)注意力模型娃肿。與之前的相關(guān)NMT模型相比咕缎,我們的模型具有以下優(yōu)點(diǎn):1)后向解碼器學(xué)習(xí)產(chǎn)生隱藏狀態(tài)向量,其實(shí)質(zhì)上編碼潛在假設(shè)的語(yǔ)義料扰,允許隨后的前向解碼器利用更豐富的目標(biāo)端上下文進(jìn)行翻譯凭豪。 2)通過(guò)將從右到左的目標(biāo)端上下文建模和從左到右的翻譯生成集成到端到端的聯(lián)合框架中,我們的模型在一定程度上減輕了反向目標(biāo)端上下文建模的誤差傳播晒杈。
本文主要貢獻(xiàn):
我們通過(guò)雙向解碼深入分析并指出了NMT研究存在的弊端墅诡。
我們引入了一個(gè)后向解碼器來(lái)編碼從左到右的目標(biāo)端上下文,作為NMT傳統(tǒng)上下文建模機(jī)制的補(bǔ)充桐智。 據(jù)我們所知末早,這是首次嘗試用異步雙向解碼器研究端到端注意力NMT模型的有效性。
實(shí)驗(yàn)很成功

我們的模型

主要包括三部分:神經(jīng)編碼器參數(shù)集θe
神經(jīng)后向解碼 參數(shù)集 θb;
神經(jīng)前向解碼 參數(shù)集 θf(wàn)
選擇GRU去創(chuàng)建編碼解碼器说庭,

Neural Encoder

使用一個(gè)雙向RNN去建模
前向RNN在left-to-right方向上讀一個(gè)source sentence x = x1,x2...xN

我們使用反向編碼器的第一個(gè)隱藏狀態(tài)然磷,表示為h1,去初始化正向解碼器的第一個(gè)隱藏狀態(tài)s0刊驴。更重要的是姿搜,我們介紹了兩種attention模型去直接捕獲源端和目標(biāo)端上下文:一個(gè)是encoder-forward decoder attention model 這個(gè)模型是重點(diǎn)在源端注釋,另一個(gè)是backward decoder-forward decoder attention model 考慮所有的反向目標(biāo)端隱藏狀態(tài)捆憎。
正向編碼器的最后一個(gè)隱層狀態(tài)hN 去初始化反向解碼器的第一個(gè)隱層狀態(tài)Sm

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末舅柜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子躲惰,更是在濱河造成了極大的恐慌致份,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件础拨,死亡現(xiàn)場(chǎng)離奇詭異氮块,居然都是意外死亡绍载,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門滔蝉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)击儡,“玉大人,你說(shuō)我怎么就攤上這事蝠引⊙舻” “怎么了?”我有些...
    開封第一講書人閱讀 165,871評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵螃概,是天一觀的道長(zhǎng)边坤。 經(jīng)常有香客問(wèn)我,道長(zhǎng)谅年,這世上最難降的妖魔是什么茧痒? 我笑而不...
    開封第一講書人閱讀 58,963評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮融蹂,結(jié)果婚禮上旺订,老公的妹妹穿的比我還像新娘。我一直安慰自己超燃,他們只是感情好区拳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評(píng)論 6 393
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著意乓,像睡著了一般樱调。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上届良,一...
    開封第一講書人閱讀 51,763評(píng)論 1 307
  • 那天笆凌,我揣著相機(jī)與錄音,去河邊找鬼士葫。 笑死乞而,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的慢显。 我是一名探鬼主播爪模,決...
    沈念sama閱讀 40,468評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼荚藻!你這毒婦竟也來(lái)了屋灌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤应狱,失蹤者是張志新(化名)和其女友劉穎共郭,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡落塑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評(píng)論 3 338
  • 正文 我和宋清朗相戀三年纽疟,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了罐韩。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片憾赁。...
    茶點(diǎn)故事閱讀 40,144評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖散吵,靈堂內(nèi)的尸體忽然破棺而出龙考,到底是詐尸還是另有隱情,我是刑警寧澤矾睦,帶...
    沈念sama閱讀 35,823評(píng)論 5 346
  • 正文 年R本政府宣布晦款,位于F島的核電站,受9級(jí)特大地震影響枚冗,放射性物質(zhì)發(fā)生泄漏缓溅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評(píng)論 3 331
  • 文/蒙蒙 一赁温、第九天 我趴在偏房一處隱蔽的房頂上張望坛怪。 院中可真熱鬧,春花似錦股囊、人聲如沸袜匿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)居灯。三九已至,卻和暖如春内狗,著一層夾襖步出監(jiān)牢的瞬間怪嫌,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工柳沙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留喇勋,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,415評(píng)論 3 373
  • 正文 我出身青樓偎行,卻偏偏與公主長(zhǎng)得像川背,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蛤袒,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容