姓名:張萌? ? ? ? ? 學(xué)號(hào)17021211113
轉(zhuǎn)自:http://mp.weixin.qq.com/s/4fYvp9XFyJP4fE9BYvYLBw
【嵌牛導(dǎo)讀】:近日,AAAI 2018 公布論文接收列表,百度機(jī)器翻譯團(tuán)隊(duì)的論文《Multi-channel Encoder for Neural Machine Translation》上榜蜡坊。文章提出了一種多信道編碼器(MCE)模型,可改進(jìn)傳統(tǒng)神經(jīng)機(jī)器翻譯(NMT)模型單一信道編碼的缺點(diǎn)赎败。該模型在中英翻譯上的 BLEU 值提升了超過(guò) 6 個(gè)百分點(diǎn)秕衙,在英法翻譯上用單層模型取得了可與深層模型媲美的效果。本文對(duì)該論文的主要內(nèi)容做了介紹僵刮。
【嵌牛鼻子】:NMT模型
【嵌牛提問(wèn)】:新的NMT模型是什么据忘?
【嵌牛正文】:
基于注意力的神經(jīng)機(jī)器翻譯無(wú)疑成為 NMT 最有效的架構(gòu),在許多語(yǔ)言對(duì)上超越了傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(SMT)系統(tǒng)(Sen-nrich et al. 2017)搞糕∮碌酰基于注意力的模型之所以能夠大大超越典型的編碼器-解碼器模型,在于它能夠通過(guò)一個(gè)相對(duì)簡(jiǎn)單的匹配函數(shù)動(dòng)態(tài)檢索相關(guān)聯(lián)的源語(yǔ)塊(類(lèi)似 SMT 中的對(duì)齊)窍仰。換言之汉规,基于注意力的模型受益于豐富的源語(yǔ)句表征及其表示局部結(jié)構(gòu)的靈活性。
在典型的基于注意力的 NMT 系統(tǒng)中驹吮,使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(biRNN) 對(duì)源語(yǔ)句進(jìn)行編碼针史,利用 RNN 生成向量序列,粗略來(lái)說(shuō)這些向量就是源語(yǔ)句單詞的上下文感知嵌入(context-aware embedding)碟狞。這種設(shè)計(jì)下啄枕,編碼器學(xué)習(xí)相對(duì)一致的句子組合。如今族沃,編碼器中的 RNN 已經(jīng)被一些先進(jìn)的門(mén)控機(jī)制變體所替代频祝,例如 LSTM 和 GRU。對(duì)翻譯來(lái)說(shuō)脆淹,普遍希望解碼器采用極其符合自己語(yǔ)言架構(gòu)的語(yǔ)句組合塊智润。
在此需求下,百度研究員提出了一種多信道編碼模型(MCE)未辆,采用不同層次組合的編碼組件窟绷。更具體而言,除了編碼 RNN 的隱態(tài)咐柜,MCE 為不帶組合的原始編碼采取了原始詞嵌入兼蜈,并在 NTM 中以類(lèi)似于帶有不同頻率的視覺(jué)信道的方式為更復(fù)雜的組合專(zhuān)門(mén)設(shè)計(jì)了外部存儲(chǔ)器攘残。所有三個(gè)編碼策略在由參數(shù)控制的解碼過(guò)程中被適當(dāng)混合,并能夠以端到端的方式被學(xué)習(xí)为狸。更具體說(shuō)歼郭,百度設(shè)計(jì)了一個(gè)可以自動(dòng)調(diào)節(jié)不同編碼信道權(quán)重的門(mén)控機(jī)制。
在此論文中辐棒,作者們也調(diào)查了 MCE 在不同的翻譯任務(wù)上的表現(xiàn)病曾。首先,在 NIST 中翻英任務(wù)上測(cè)試了該模型漾根,相比于強(qiáng)大的 DL4MT 系統(tǒng)平均提升了 6.52 的 BLEU 得分泰涂。此外,在 WMT 2014 英翻法任務(wù)上辐怕,單個(gè)淺層模型獲得了 38.8 的 BLEU 得分逼蒙,可媲美于頂級(jí)模型。
論文:Multi-channel Encoder for Neural Machine Translation
論文鏈接:https://arxiv.org/abs/1712.02109
摘要:基于注意力的編碼器-解碼器是非常有效的神經(jīng)機(jī)器翻譯(NMT)架構(gòu)寄疏,它通常依賴(lài)于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在解碼過(guò)程中構(gòu)建由 attentive reader 調(diào)用的塊是牢。盡管使用門(mén)控機(jī)制編碼 RNN,但這種編碼器的設(shè)計(jì)在源語(yǔ)句上產(chǎn)生了相對(duì)一致的組合陕截。另一方面驳棱,我們常常希望解碼器能夠在不同層次上采取若干個(gè)源語(yǔ)句來(lái)匹配其自身語(yǔ)言結(jié)構(gòu):比如,我們也許想采取原始形式的實(shí)體名农曲,同時(shí)采取一個(gè)習(xí)語(yǔ)(idiom)作為一個(gè)完美的組成單元社搅。受此需求啟發(fā),我們提出了多信道編碼器(Multi-channel Encoder/MCE)朋蔫,它增強(qiáng)了不同層面組合的編碼組件罚渐。更具體的是,除卻編碼 RNN 的隱藏狀態(tài)驯妄,1)MCE 為不帶組合的原始編碼采取了原始詞嵌入荷并;2)神經(jīng)圖靈機(jī)(NTM)專(zhuān)門(mén)設(shè)計(jì)的外部存儲(chǔ)器用于更加復(fù)雜的組合,而所有三種編碼策略在解碼時(shí)被恰當(dāng)?shù)鼗旌锨嗳印h英翻譯的實(shí)證研究表明源织,我們的模型在強(qiáng)大的開(kāi)源 NMT 系統(tǒng) DL4MT1 上實(shí)現(xiàn)了 6.52 個(gè) BLEU 百分點(diǎn)的提升。在 WMT14 英法語(yǔ)翻譯務(wù)中微猖,我們的單一淺層系統(tǒng)達(dá)到了 38.8 的 BLEU 值谈息,與當(dāng)前最優(yōu)的深度模型相當(dāng)。
圖 1:左圖是傳統(tǒng)的基于注意力的 NMT 模型凛剥,包含編碼器侠仇、解碼器和一個(gè)注意力機(jī)制。右邊是我們的全新 NMT 模型,帶有多個(gè)信道編碼器逻炊,包含來(lái)自雙向 RNN 的隱藏狀態(tài)互亮、NTM 中的外部存儲(chǔ)和直接來(lái)自輸入序列的嵌入,并設(shè)計(jì)了一種門(mén)控注釋?zhuān)╣ated annotation)自動(dòng)學(xué)習(xí)不同解碼組件的權(quán)重余素。
圖 2:編碼器中 NTM 的圖示豹休,每一時(shí)間步上 RNN 在 NTM 中的讀和寫(xiě)。
表 1:不同系統(tǒng)在中翻英任務(wù)上的表現(xiàn)桨吊。相比于強(qiáng)大的開(kāi)源系統(tǒng) DL4MT威根,我們的模型有極大的改進(jìn)。我們也列出了與近期開(kāi)源的兩個(gè)工具包 T2T视乐、ConvS2S 的對(duì)比洛搀。要知道,T2T 和 ConvS2S 都是多層的深度模型炊林。
表 2:英翻法任務(wù):BLEU 得分姥卢。其中 RNN 表示基礎(chǔ)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型卷要,MCE 模型結(jié)合了從 RNN 的嵌入渣聚、隱藏狀態(tài)以及 NTM 中的外部存儲(chǔ)三種編碼組件。注意僧叉,我們的模型不執(zhí)行 PosUNK奕枝,且使用小型詞匯量。
圖 3:不同語(yǔ)句長(zhǎng)度下的性能瓶堕。
百度機(jī)器翻譯簡(jiǎn)介:百度機(jī)器翻譯團(tuán)隊(duì)繼 2015 年推出全球首個(gè) NMT 線上翻譯服務(wù)之后隘道,通過(guò)持續(xù)不斷的技術(shù)創(chuàng)新,在 NMT 模型研究和產(chǎn)品商業(yè)化應(yīng)用上屢創(chuàng)佳績(jī)郎笆。在今年的百度世界大會(huì)上成功展示了自動(dòng)同聲傳譯系統(tǒng)谭梗,語(yǔ)音識(shí)別和機(jī)器翻譯技術(shù)無(wú)縫銜接,翻譯結(jié)果流暢自然宛蚓。同時(shí)激捏,百度也在今年推出了一鍵式多語(yǔ)種 WIFI 翻譯機(jī),產(chǎn)品自帶 80 多個(gè)國(guó)家的 4G 網(wǎng)絡(luò)凄吏、語(yǔ)種自動(dòng)識(shí)別远舅,提供多語(yǔ)種高質(zhì)量語(yǔ)音翻譯。