LASER:基于zero-shot的大規(guī)模多語言預訓練方法

<Paper Reading Series>

本文基于2018 Facebook AI Research的文章:Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

是Facebook2018年12月提出的跨語言零樣本遷移的LASER框架的實現(xiàn)“說明書”溪王。

  • 研究背景
  • 前人的解決方式
  • 模型核心思想
  • 具體實現(xiàn)細節(jié)
  • 實驗結果
  • 結論

研究背景

最近幾年基于大規(guī)模的unlabeled data進行預訓練猪叙,然后應用于下游NLP任務的思想得到了很大的發(fā)展,如word embedding和BERT等亚侠,都是基于預訓練。
然而板驳,這些模型都是針對某種語言訓練獨立的語言模型锥腻,無法應用于跨語言場景。

Nevertheless, all these works learn a sepa- rate model for each language and are thus unable to leverage information across different languages, greatly limiting their potential performance for low-resource languages.

前人的解決方式

TODO

模型核心思想

提出了一種跨語言的通用句子編碼方式性芬。
這么做的目的是:

  • 希望那些資源有限的語言可以從聯(lián)合語言的訓練中學到通用的知識峡眶。
    文章通過一個編碼器將所有語言都映射到一個共享的特征空間。不同語言中語義相近的句子在特征空間距離更近(類似Word2Vec)植锉。


圖左展示了一個單語嵌入空間辫樱;圖右則展示了 LASER 的方法——將所有語言嵌入到一個獨立的共享空間中。

Dataset:模型通過完全免費的平行語料庫進行訓練俊庇。

Our system is trained on freely available parallel texts only.

具體實現(xiàn)細節(jié)

模型結構如下:



方法建立在于神經(jīng)機器翻譯相同的底層技術上:編碼器/解碼器方法狮暑,也就是序列到序列處理鸡挠。Facebook 為所有的輸出語言使用一個共享編碼器,并使用一個共享解碼器來生成輸出語言搬男。
編碼器由n層BiLSTM組成拣展,其中輸入的embedding層采用了BPE(Byte Pair Encoding) 的方式。

對于BPE缔逛,這是2016年Neural Machine Translation of Rare Words with Subword Units中提出的基于subword來生成詞典的方法备埃。
核心思想是綜合word-level和char-level的優(yōu)勢,從語料中學習到所有詞里邊頻次高的字符串子串褐奴。然后把這些頻次高的字符串子串收集起來形成一個字典按脚。這個字典里邊,既存在char-level級別的子串歉糜,也存在word-level級別的子串乘寒。然后把這個字典用于模型的訓練。
Byte Pair Encoding 以單個字符為單位的詞典開始匪补,通過迭代,用出現(xiàn)頻次高的bi-gram字符串替換單個的字符烂翰,因此對于高頻詞來說夯缺,因為出現(xiàn)的次數(shù)足夠多,最終編碼的單元還是word-level甘耿,而對于OOV問題中的生僻單詞踊兜,編碼單元會是character-level,不會再被標記為#UNK佳恬。具體的實現(xiàn)原理可以參照論文中給出的python代碼理解捏境。

論文將所有語料的集合訓練一個聯(lián)合BPE詞典,迭代50k次毁葱,獲得的詞典認為已經(jīng)不具有l(wèi)anguage-specific的特征垫言,將BPE embedding輸入編碼器,獲得整個句子的embedding表示倾剿,此時這個句子已經(jīng)無法區(qū)分是來自哪個語言了筷频。
解碼器需要被告知生成哪種語言,同時獲取一個在每個時間步都連接到輸入和句子嵌入上的語言標識嵌入前痘。由于編碼器沒有指示輸入語言的顯式信號凛捏,因而該方法鼓勵它去學習與語言無關的表示。Facebook 在與英語和西班牙語對齊的公共平行數(shù)據(jù)中的 2.23 億個句子上訓練他們的系統(tǒng)芹缔,對于每個小批量坯癣,他們都隨機選擇一種輸入語言,并訓練系統(tǒng)將句子翻譯成英語或者西班牙語最欠。大多數(shù)語言都與目標語言保持對齊示罗,不過并不要求它們必須對齊蓬网。

實驗結果

該模型在跨語言自然語言推理(NLI)上獲得了出色的結果,其在這一任務上的表現(xiàn)也表明了該模型能夠很好地表示句子的意義鹉勒。Facebook 的研究人員考慮進行零樣本設置帆锋,換句話說,就是研究人員在沒有微調或者目標語言資源的情況下禽额,在英語上訓練 NLI 分類器锯厢,然后將它應用到目標語言中。對于 14 種語言脯倒,使用零樣本的模型在其中的 8 種語言(包括與英語關系很遠的俄語实辑、漢語以及越南語等)上的性能是其在英語上的性能的 5% 以內。同時藻丢,該模型也在斯瓦希里語和烏爾都語等低資源的語言上表現(xiàn)出色剪撬。最終,對于 14 種語言悠反,LASER 在其中的 13 種語言上的零樣本遷移表現(xiàn)残黑,都超越了此前的所有方法。
與此前要求句子一定要用英語表示的方法相比斋否,F(xiàn)acebook 的系統(tǒng)完全可以使用多種語言梨水,并且還支持任意組合不同語言的前提和假設。

結論

TODO

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末茵臭,一起剝皮案震驚了整個濱河市疫诽,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌旦委,老刑警劉巖奇徒,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異缨硝,居然都是意外死亡摩钙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門追葡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腺律,“玉大人,你說我怎么就攤上這事宜肉≡染” “怎么了?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵谬返,是天一觀的道長之斯。 經(jīng)常有香客問我,道長遣铝,這世上最難降的妖魔是什么佑刷? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任莉擒,我火速辦了婚禮,結果婚禮上瘫絮,老公的妹妹穿的比我還像新娘涨冀。我一直安慰自己,他們只是感情好麦萤,可當我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布鹿鳖。 她就那樣靜靜地躺著,像睡著了一般壮莹。 火紅的嫁衣襯著肌膚如雪翅帜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天命满,我揣著相機與錄音涝滴,去河邊找鬼。 笑死胶台,一個胖子當著我的面吹牛歼疮,可吹牛的內容都是我干的。 我是一名探鬼主播概作,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼腋妙,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了讯榕?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤匙睹,失蹤者是張志新(化名)和其女友劉穎愚屁,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痕檬,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡霎槐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了梦谜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片丘跌。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖唁桩,靈堂內的尸體忽然破棺而出闭树,到底是詐尸還是另有隱情,我是刑警寧澤荒澡,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布报辱,位于F島的核電站,受9級特大地震影響单山,放射性物質發(fā)生泄漏碍现。R本人自食惡果不足惜幅疼,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望昼接。 院中可真熱鬧爽篷,春花似錦、人聲如沸慢睡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽一睁。三九已至钻弄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間者吁,已是汗流浹背窘俺。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留复凳,地道東北人瘤泪。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像育八,于是被迫代替她去往敵國和親对途。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內容