1咕宿,Going beyond zero-shot MT: combining phonological, morphological and semantic factors
本文將多語(yǔ)種詞匯的多種特征融入到NMT編碼器的embedding信息中圆存,特征包括語(yǔ)言語(yǔ)義標(biāo)注信息吮旅、詞性信息、Lemma尤揣、Stem,近似的發(fā)音編碼、Babel Synset同義詞信息男旗、toptic信息。文中詳細(xì)分析了多語(yǔ)種語(yǔ)料特征欣鳖,相比拉丁語(yǔ)系(ro\it\es\gr)察皇,日耳曼語(yǔ)系(en\de\nl)共享更多的詞匯。本文NMT系統(tǒng)采用Nematus工具泽台,在訓(xùn)練語(yǔ)料源句子加上<2trg>標(biāo)簽什荣,源語(yǔ)言詞匯的表征是其所有特征的合并。從結(jié)果來(lái)看怀酷,所有特征融合在smalldata上可以提升0.7個(gè)bleu稻爬。
2,The Samsung and University of Edinburgh’s submission to IWSLT17
本文系統(tǒng)只參加了雙語(yǔ)翻譯任務(wù)蜕依,en-de桅锄,使用Nematus工具。IWSLT提供了大量的平行訓(xùn)練語(yǔ)料样眠,本文使用句子對(duì)齊和語(yǔ)言識(shí)別來(lái)清洗和過(guò)濾語(yǔ)料友瘤。句子對(duì)齊:使用NMT系統(tǒng)自動(dòng)翻譯原文本,使用翻譯結(jié)果和目標(biāo)文本的bleu值左右預(yù)測(cè)對(duì)齊概率的一個(gè)特征檐束。具體是訓(xùn)練一個(gè)PSMT系統(tǒng)來(lái)清除不合適的短語(yǔ)辫秧,然后把德語(yǔ)翻譯成英語(yǔ),最后使用句子對(duì)齊工具來(lái)處理每一個(gè)平行句對(duì)被丧。本文選擇3K句子進(jìn)行人工打分盟戏,然后訓(xùn)練模型根據(jù)句子對(duì)齊分?jǐn)?shù)預(yù)測(cè)人工分?jǐn)?shù),然后使用回歸模型應(yīng)用與整個(gè)語(yǔ)料晚碾,挑選出得分比較高的句子抓半。反向翻譯語(yǔ)料是使用NMT翻譯單語(yǔ)語(yǔ)料來(lái)構(gòu)成平行語(yǔ)料。最終用來(lái)訓(xùn)練的語(yǔ)料包括允許格嘁、過(guò)濾的平行語(yǔ)料笛求、過(guò)采樣的域內(nèi)數(shù)據(jù)和反向翻譯的數(shù)據(jù)。通過(guò)調(diào)參和finetuning之后,效果總體提升5個(gè)bleu探入。
3狡孔,F(xiàn)BK’s Multilingual Neural Machine Translation System for IWSLT 2017
本文參與multilingual和zero-shot任務(wù),系統(tǒng)使用many2many訓(xùn)練方法蜂嗽。本文使用OpenNMT工具苗膝,encoder和decoder各4層網(wǎng)絡(luò)。本文做了以下對(duì)比試驗(yàn)植旧,multilingual model和Single Pair model辱揭,multilingual model和zero-shot,zero-shot和pivoting病附。從實(shí)驗(yàn)結(jié)果來(lái)看问窃,單個(gè)multilingual model效果好于Single Pair model,Zero-shot model proved效果要好于Single Pair model pivoting完沪。
4域庇,KIT’s Multilingual Neural Machine Translation systems for IWSLT 2017
本文將NMT網(wǎng)絡(luò)結(jié)構(gòu)分成五個(gè)主要的組成單元:embedding layers, encoders, decoders, attention and output layers。本文研究了對(duì)于multilingual任務(wù)覆积,哪些單元可以共享听皿。數(shù)據(jù)處理:句子長(zhǎng)度超過(guò)50,句對(duì)長(zhǎng)度差異較大的句子被清除宽档,特殊的日期尉姨、數(shù)字和符號(hào)進(jìn)行歸一化,使用Smartcasing吗冤,BPE詞典大小為40K啊送。embedding layers和output layers不共享,smal data上欣孤,share-rnn效果好于share-all0.7個(gè)bleu,large data上兩者效果一致昔逗。