FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding

FILTER

https://arxiv.org/pdf/2009.05166.pdf

背景

當前的跨語言學(xué)習(xí)主要有3種類型:

  1. unsupervised pre-training:訓(xùn)練一個統(tǒng)一編碼器處理不同語言锌唾,比如mBERT,Unicoder,XLM,將知識從一種語言遷移到另一種語言上的跨語言任務(wù)上取得很大成功;
  2. Supervised training:通過teacher-forcing或者對抗學(xué)習(xí)的方式,使得模型對不同語言的標簽數(shù)據(jù)不敏感;
  3. Translation:翻譯模型捆探。
    其中,翻譯的方式在多語言的benchmarks站粟,比如XTREME和XGLUE上都達到SOTA徐许。
    但是,翻譯實際上只是做數(shù)據(jù)增強卒蘸,將訓(xùn)練集擴充了一倍雌隅。因此,在做數(shù)據(jù)增強的微調(diào)時(zero-shot cross-lingual transfer tasks)缸沃,只輸入單語言恰起,而沒有用不同語種的跨語言對齊。而這趾牧,對多語種任務(wù)來說检盼,又是必不可少的。

因此:本文提出FILTER(Fusion in the Intermediate Layers of TransformER)翘单,將跨語言數(shù)據(jù)作為輸入吨枉,做XLM的微調(diào)蹦渣。模型首先在淺層(shallow layers)對輸入的原始語言及翻譯語言分別進行編碼,接著進行跨語言的融合貌亭,在中間層(intermediate layers)提取多語種知識柬唯,最后進行更進一步的特定語言編碼。在推理階段圃庭,模型基于目標語言的文本輸入和原語言的翻譯锄奢,來做預(yù)測。具體流程如下圖c剧腻。

模型結(jié)構(gòu)比較

特點

  1. Transformer-XLM為backbone的網(wǎng)絡(luò)架構(gòu)拘央,使用的是HuggingFace's Transformers的pretrained XLM-R 來初始化FILTER。模型一共24书在,分3種layers灰伟,分別進行編碼,融合和深層編碼的操作儒旬,通過對layers的層數(shù)控制栏账,構(gòu)造上圖3種模型結(jié)構(gòu);
  2. 引入self-teaching loss減少原語言和翻譯語言的gap:FILTER在進行分類或翻譯任務(wù)時义矛,和原語言共享標簽。但這種共享盟萨,在做QA凉翻,NER或POS任務(wù)時,準度會降低捻激,甚至不可用制轰。為解決這類問題,F(xiàn)ILTER在進行翻譯訓(xùn)練時胞谭,基于自生成的soft pseudo-labels垃杖,添加KL-divergence self-teaching loss

結(jié)果顯示丈屹,模型在XTREME和XGLUE這2種多語言的多任務(wù)benchmarks上调俘,都達到了SOTA。

常見跨語言模型

  1. cross-lingual zero-shot transfer
    僅使用原語言旺垒,帶標簽的數(shù)據(jù)進行訓(xùn)練彩库,在目標語言做推理。
    當前常見的跨語言預(yù)訓(xùn)練模型:mBERT, XLM, XLM-Roberta先蒋。
  2. translate-train/test
    有2種方式:
    2.1 將原語言的訓(xùn)練集骇钦,翻譯成目標語言,增強訓(xùn)練集竞漾;
    2.2 在原語言上做訓(xùn)練眯搭,測試時窥翩,將目標語言翻譯回原語言,做推理鳞仙。

FILTER

輸入:language pairs
S\in R^{d \times l_s}:輸入的源語言S對應(yīng)的詞嵌入矩陣
T \in R^{d \times l_t}:輸入的目標語言T對應(yīng)的詞嵌入矩陣
T是S通過Microsoft Machine Translator翻譯得到的寇蚊,d為詞維度。
當任務(wù)類型為pairwise data繁扎,S是序列對的拼接幔荒,比如QA任務(wù),將上下文和問題進行合并梳玫。

模型

  1. local transformer: m-layer Transformer-XLM
    對輸入的2種語言分別編碼爹梁,得到序列對的局部表征(local representations)。
    H_l^s = Transformer-XLM_{local}(S), H_l^s \in R^{d\times l_s}
    H_l^t = Transformer-XLM_{local}(T), H_l^t \in R^{d\times l_t}

  2. cross-lingual fusion layers: k-layer Transformer-XLM
    跨語言融合:對序列對的局部表征進行concatenation提澎,再進行融合姚垃。
    [H_f^s;H_f^t] = Transformer-XLM_{fuse}([H_l^s;H_l^t]),[H_f^s;H_f^t] \in R^{d \times(l_s + l_t)}
    分類任務(wù):用較小的k
    QA任務(wù):用較大的k

  3. deeper domain-specific transformer layers
    融合后的特定語言編碼。
    H_d^s = Transformer-XLM_{domain}(H_f^s), H_d^s \in R^{d\times l_s}
    H_d^t = Transformer-XLM_{domain}(H_f^t), H_d^t \in R^{d\times l_t}
    本文使用的是XLM-R盼忌,因此domain層的層數(shù)為:24-k-m积糯。
    當m=24,k=0谦纱,則模型表示為上圖a看成;
    當m=0,k=24跨嘉,則模型表示為上圖b川慌。

  4. task-specific linear layer
    在3之后,接一個linear layer做概率估計祠乃。
    p^s, p^t = FILTER(S,T)
    L^s = Loss_{task}(p^s, l^t)
    L^t = Loss_{task}(p^t, l^s)

Self-Teaching Loss

將原語言翻譯到目標語言后梦重,可能存在詞序甚至語義的變化,由此帶來噪聲亮瓷。因此琴拧,為減少源語言和翻譯語言的gap,借鑒蒸餾模型中的teacher-student框架嘱支,訓(xùn)練FILTER時蚓胸,加入self-teaching loss。

FILTER 訓(xùn)練過程

如上圖:

  1. 基于源語言的clean labels和目標語言的noisy label訓(xùn)練一個teacher FILTER除师;
  2. teacher FILTER生成pseudo soft-labels赢织;
  3. 噪聲主要來自翻譯的文本,只用soft-labels來訓(xùn)練student FILTER:
    p_{tea}^s, p_{tea}^t = FILTER_{tea}(S,T)
    p_{stu}^s, p_{stu}^t = FILTER_{stu}(S,T)
    L^{kl} = Loss_{KL}(p_{tea}^t, p_{stu}^t)

損失函數(shù)

L^{final} = L^s + \lambda L^t + (1-\lambda)L^{kl}
注意:

  1. 進行NER或者POS時馍盟,目標語言沒有標簽于置,因此\lambda = 0
  2. 進行分類和QA任務(wù)時,測試了[0.1, 0.3, 0.5]八毯,分別使用了0.5和0.1.

實驗

訓(xùn)練集

XTREME搓侄, XGLUE:跨語言理解,任務(wù)類型和對應(yīng)數(shù)據(jù)集見下圖:


訓(xùn)練數(shù)據(jù)集

模型比較

模型結(jié)果

XTREME的結(jié)果

  1. 和SOTA的VECO模型相比话速,模型在4個任務(wù)上都取得更好的結(jié)果讶踪,平均得分77,高SOTA平均得分2.2個點泊交;
  2. 和XLM-R模型相比乳讥,77-68.2 =8.8,模型提升了8.8個點廓俭。

同理XGLUE云石,和Unicoder模型比較,模型都差不多提高了4個點研乒。

實驗結(jié)果比較
不同語種準確率比較

在XTREME的不同數(shù)據(jù)集上汹忠,采用不同的訓(xùn)練方式的結(jié)果

  1. XLM-R的translate-train baseline,已經(jīng)在各個數(shù)據(jù)集上達到SOTA雹熬;
  2. 基于XLM-R的FILTER宽菜,效果又有提升,分別在分類和QA任務(wù)上竿报,提升了0.9和2.28铅乡;
  3. Self-Teaching可以更進一步提升模型效果。

消融實驗

Effect of different layers

前文提到烈菌,模型一共24層阵幸,用m和k調(diào)整不同類型transformers layers的層數(shù)。
而前面的實驗也顯示僧界,F(xiàn)ILTER在分類和QA上的效果很好侨嘀。同時臭挽,即便POS和NER任務(wù)捂襟,目標語言沒有對應(yīng)的標簽,模型仍然提升了2.9和1.3個點欢峰。論文認為葬荷,這是融合層的作用。


m和k的選擇
  1. local transformers越多(m)纽帖,POS和MLQA效果越好宠漩;
  2. 對PAWS-X,當k為10時懊直,m為0或者1效果更好扒吁,這意味著對分類任務(wù),m取惺夷摇雕崩;
  3. 當m為1時魁索,k從1到24, PAWS-X和POS數(shù)據(jù)集盼铁,準確率降低了2.5和16.5粗蔚;
  4. 當m為1時, k從1到20饶火,MLQA數(shù)據(jù)集鹏控,f1提升2.6。

Cross-lingual Transfer Gap

跨語言transfer gap

gap的計算:在英語語料的模型結(jié)果- 其他目標語言的模型平均結(jié)果
上圖顯示肤寝,F(xiàn)ILTER可以有效降低跨語言的gap当辐。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市醒陆,隨后出現(xiàn)的幾起案子瀑构,更是在濱河造成了極大的恐慌,老刑警劉巖刨摩,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寺晌,死亡現(xiàn)場離奇詭異,居然都是意外死亡澡刹,警方通過查閱死者的電腦和手機呻征,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來罢浇,“玉大人陆赋,你說我怎么就攤上這事∪卤眨” “怎么了攒岛?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長胞锰。 經(jīng)常有香客問我灾锯,道長,這世上最難降的妖魔是什么嗅榕? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任顺饮,我火速辦了婚禮,結(jié)果婚禮上凌那,老公的妹妹穿的比我還像新娘兼雄。我一直安慰自己,他們只是感情好帽蝶,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布赦肋。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪佃乘。 梳的紋絲不亂的頭發(fā)上局蚀,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天,我揣著相機與錄音恕稠,去河邊找鬼琅绅。 笑死劫灶,一個胖子當著我的面吹牛邮辽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播秃嗜,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼骆捧,長吁一口氣:“原來是場噩夢啊……” “哼澎羞!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起敛苇,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤妆绞,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后枫攀,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體括饶,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年来涨,在試婚紗的時候發(fā)現(xiàn)自己被綠了图焰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蹦掐,死狀恐怖技羔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情卧抗,我是刑警寧澤藤滥,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站社裆,受9級特大地震影響拙绊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜浦马,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一时呀、第九天 我趴在偏房一處隱蔽的房頂上張望张漂。 院中可真熱鬧晶默,春花似錦、人聲如沸航攒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至币他,卻和暖如春坞靶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蝴悉。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工彰阴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拍冠。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓尿这,卻偏偏與公主長得像,于是被迫代替她去往敵國和親庆杜。 傳聞我的和親對象是個殘疾皇子射众,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容