<Paper Reading Series>
本文基于Facebook 2019的文章:Cross-lingual Language Model Pretraining
- 研究背景
- 前人的解決方式
- 模型核心思想
- 具體實(shí)現(xiàn)細(xì)節(jié)
- 實(shí)驗(yàn)結(jié)果
- 結(jié)論
研究背景
TODO
前人的解決方式
TODO
模型核心思想
Contribution:
- 提出了一種新的無(wú)監(jiān)督方法(CLM把曼,MLM),用于使用跨語(yǔ)言建模來(lái)學(xué)習(xí)跨語(yǔ)言表示皇型,并研究了兩種單語(yǔ)預(yù)訓(xùn)練的目標(biāo)绘面。
- 提出一個(gè)新的監(jiān)督方法(TLM)十性,即當(dāng)并行數(shù)據(jù)可用時(shí),該目標(biāo)可以增強(qiáng)跨語(yǔ)言的預(yù)訓(xùn)練效果。
原文: we present the three language modeling objectives we consider throughout this work. Two of them only require monolingual data (unsupervised), while the third one requires parallel sentences (supervised).
兩種方法在跨語(yǔ)言分類灌危、無(wú)監(jiān)督機(jī)器翻譯和有監(jiān)督機(jī)器翻譯方面都取得了最先進(jìn)的成果制肮。
細(xì)節(jié)可參考
具體實(shí)現(xiàn)細(xì)節(jié)
-
BPE編碼
在建模之前冒窍,需要先對(duì)多語(yǔ)言進(jìn)行編碼。作者采用BPE(Byte Pair Encoding)編碼方式對(duì)多語(yǔ)言輸入進(jìn)行編碼豺鼻。訓(xùn)練BPE編碼方式時(shí)需要對(duì)句子進(jìn)行采樣综液,由于不同語(yǔ)言句子的數(shù)量不同,我們根據(jù)概率進(jìn)行采樣儒飒,但會(huì)加一個(gè)參數(shù)谬莹,使這個(gè)概率分布稍微“柔和一些”,即增加低資源語(yǔ)言采樣到的概率桩了,降低高資源語(yǔ)言采樣到的概率附帽。也就是防止低資源語(yǔ)言都被切分成character-level級(jí)。
因果語(yǔ)言建模 (Causal Language Modeling , CLM)
使用transformer模型去進(jìn)行預(yù)訓(xùn)練井誉,訓(xùn)練目標(biāo)是給定句子的前n個(gè)詞蕉扮,預(yù)測(cè)下一個(gè)詞。-
Masked Language Modeling (MLM)
Devlin et al. (2018) 論文中提出的 MLM 也是我們的一個(gè)語(yǔ)言建模目標(biāo)送悔,也成為完形填空任務(wù)慢显。根據(jù) Devlin 等人的研究,我們從文本流中隨機(jī)抽取 15% 的 BPE token欠啤,80%的時(shí)間用 [MASK] token 替換荚藻,10% 的時(shí)間用隨機(jī) token 替換,10% 的時(shí)間保持不變洁段。
不同的是不使用句子對(duì)应狱,而是使用任意長(zhǎng)度的句子集合組成的文本流(text streams of an arbitrary number of sentences)
翻譯語(yǔ)言建模 (TLM)
CLM 和 MLM 的目標(biāo)都是無(wú)監(jiān)督的,只需要單語(yǔ)數(shù)據(jù)祠丝。但是疾呻,當(dāng)并行數(shù)據(jù)可用時(shí)除嘹,這些目標(biāo)不能用于利用并行數(shù)據(jù)。我們提出一種新的翻譯語(yǔ)言建模方法 (TLM) 來(lái)提高跨語(yǔ)言訓(xùn)練的效果岸蜗。我們的 TLM 目標(biāo)是 MLM 的擴(kuò)展尉咕,其中不考慮單語(yǔ)文本流,而是將并行的句子連接起來(lái)璃岳。
訓(xùn)練細(xì)節(jié)見(jiàn)原文年缎。
實(shí)驗(yàn)結(jié)果
預(yù)訓(xùn)練流程:
簡(jiǎn)而言之就是:CLM/MLM (+TLM),也即從CLM或MLM中選一個(gè)進(jìn)行單語(yǔ)LM的預(yù)訓(xùn)練铃慷,然后再根據(jù)需求和數(shù)據(jù)情況单芜,決定要不要加入TLM進(jìn)行訓(xùn)練,加入的話就是和前面的CLM/MLM進(jìn)行交替訓(xùn)練犁柜。
先用CLM/MLM在各個(gè)語(yǔ)言的單語(yǔ)語(yǔ)料上進(jìn)行訓(xùn)練(也有加上額外的平行語(yǔ)料進(jìn)行TLM訓(xùn)練的部分)洲鸠,然后再用單語(yǔ)的訓(xùn)練集進(jìn)行finetune,最后在多個(gè)語(yǔ)種上評(píng)估馋缅。
結(jié)論
TODO