<Paper Reading Series>
本文基于2018 Facebook AI Research的文章:Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond
是Facebook2018年12月提出的跨語言零樣本遷移的LASER框架的實現(xiàn)“說明書”溪王。
- 研究背景
- 前人的解決方式
- 模型核心思想
- 具體實現(xiàn)細節(jié)
- 實驗結果
- 結論
研究背景
最近幾年基于大規(guī)模的unlabeled data進行預訓練猪叙,然后應用于下游NLP任務的思想得到了很大的發(fā)展,如word embedding和BERT等亚侠,都是基于預訓練。
然而板驳,這些模型都是針對某種語言訓練獨立的語言模型锥腻,無法應用于跨語言場景。
Nevertheless, all these works learn a sepa- rate model for each language and are thus unable to leverage information across different languages, greatly limiting their potential performance for low-resource languages.
前人的解決方式
TODO
模型核心思想
提出了一種跨語言的通用句子編碼方式性芬。
這么做的目的是:
-
希望那些資源有限的語言可以從聯(lián)合語言的訓練中學到通用的知識峡眶。
文章通過一個編碼器將所有語言都映射到一個共享的特征空間。不同語言中語義相近的句子在特征空間距離更近(類似Word2Vec)植锉。
圖左展示了一個單語嵌入空間辫樱;圖右則展示了 LASER 的方法——將所有語言嵌入到一個獨立的共享空間中。
Dataset:模型通過完全免費的平行語料庫進行訓練俊庇。
Our system is trained on freely available parallel texts only.
具體實現(xiàn)細節(jié)
模型結構如下:
方法建立在于神經(jīng)機器翻譯相同的底層技術上:編碼器/解碼器方法狮暑,也就是序列到序列處理鸡挠。Facebook 為所有的輸出語言使用一個共享編碼器,并使用一個共享解碼器來生成輸出語言搬男。
編碼器由n層BiLSTM組成拣展,其中輸入的embedding層采用了BPE(Byte Pair Encoding) 的方式。
對于BPE缔逛,這是2016年Neural Machine Translation of Rare Words with Subword Units中提出的基于subword來生成詞典的方法备埃。
核心思想是綜合word-level和char-level的優(yōu)勢,從語料中學習到所有詞里邊頻次高的字符串子串褐奴。然后把這些頻次高的字符串子串收集起來形成一個字典按脚。這個字典里邊,既存在char-level級別的子串歉糜,也存在word-level級別的子串乘寒。然后把這個字典用于模型的訓練。
Byte Pair Encoding 以單個字符為單位的詞典開始匪补,通過迭代,用出現(xiàn)頻次高的bi-gram字符串替換單個的字符烂翰,因此對于高頻詞來說夯缺,因為出現(xiàn)的次數(shù)足夠多,最終編碼的單元還是word-level甘耿,而對于OOV問題中的生僻單詞踊兜,編碼單元會是character-level,不會再被標記為#UNK佳恬。具體的實現(xiàn)原理可以參照論文中給出的python代碼理解捏境。
論文將所有語料的集合訓練一個聯(lián)合BPE詞典,迭代50k次毁葱,獲得的詞典認為已經(jīng)不具有l(wèi)anguage-specific的特征垫言,將BPE embedding輸入編碼器,獲得整個句子的embedding表示倾剿,此時這個句子已經(jīng)無法區(qū)分是來自哪個語言了筷频。
解碼器需要被告知生成哪種語言,同時獲取一個在每個時間步都連接到輸入和句子嵌入上的語言標識嵌入前痘。由于編碼器沒有指示輸入語言的顯式信號凛捏,因而該方法鼓勵它去學習與語言無關的表示。Facebook 在與英語和西班牙語對齊的公共平行數(shù)據(jù)中的 2.23 億個句子上訓練他們的系統(tǒng)芹缔,對于每個小批量坯癣,他們都隨機選擇一種輸入語言,并訓練系統(tǒng)將句子翻譯成英語或者西班牙語最欠。大多數(shù)語言都與目標語言保持對齊示罗,不過并不要求它們必須對齊蓬网。
實驗結果
該模型在跨語言自然語言推理(NLI)上獲得了出色的結果,其在這一任務上的表現(xiàn)也表明了該模型能夠很好地表示句子的意義鹉勒。Facebook 的研究人員考慮進行零樣本設置帆锋,換句話說,就是研究人員在沒有微調或者目標語言資源的情況下禽额,在英語上訓練 NLI 分類器锯厢,然后將它應用到目標語言中。對于 14 種語言脯倒,使用零樣本的模型在其中的 8 種語言(包括與英語關系很遠的俄語实辑、漢語以及越南語等)上的性能是其在英語上的性能的 5% 以內。同時藻丢,該模型也在斯瓦希里語和烏爾都語等低資源的語言上表現(xiàn)出色剪撬。最終,對于 14 種語言悠反,LASER 在其中的 13 種語言上的零樣本遷移表現(xiàn)残黑,都超越了此前的所有方法。
與此前要求句子一定要用英語表示的方法相比斋否,F(xiàn)acebook 的系統(tǒng)完全可以使用多種語言梨水,并且還支持任意組合不同語言的前提和假設。
結論
TODO