Facebook MUSE 無監(jiān)督跨語言遷移學習任務

<Paper Reading Series>

本文基于Facebook 2018-ICLR的文章:WORD TRANSLATION WITHOUT PARALLEL DATA

文本中提出了無監(jiān)督的跨語言詞對齊MUSE框架


  • 研究背景
  • 前人的解決方式
  • 模型核心思想
  • 具體實現(xiàn)細節(jié)

研究背景

TODO

前人的解決方式

TODO

模型核心思想

這篇文章提出了一種無監(jiān)督的雙語單詞對齊的方法,主題思想是用一個線性的映射矩陣W將源語言的embedding投影到目標語言中澈段。大致思路是先用對抗學習的思路學得一個大致的映射矩陣W(大致的意思是 在高頻詞上映射矩陣的準確率是不錯的讼积,但是低頻詞上表現(xiàn)不好),因此鸠信,我們需要對其進行優(yōu)化。
優(yōu)化的方式是通過選取一些高頻詞论寨,以及它在目標語言中的“最近鄰”的詞星立,形成高質量的雙語語料。從而進行精調(原文為Refine)葬凳。


總體思路
具體實現(xiàn)細節(jié)
  1. 對抗訓練獲得粗粒度的映射矩陣W
    對抗訓練的方法來源于GAN绰垂,即generator和discriminator兩個組件分別負責混淆和辨別任務。具體來說就是訓練一個discriminator來區(qū)分WX和Y火焰,這個discriminator的目標函數(shù)是最小化


    loss of discriminator

    generator(即M)目標是盡可能欺騙discriminator劲装,使之不能區(qū)分出一個representation是直接從Y中采樣得來的,還是從X采樣然后映射得來的:


    loss of generator

2.Refine細節(jié)
獲得粗粒度的映射矩陣W后昌简,我個人的理解是:在高頻詞的映射上準確率是不錯的占业,但是低頻詞上表現(xiàn)不好。因此我們對映射矩陣W進行精調(refine)纯赎。

W矩陣的計算

首先對于W矩陣的計算谦疾,這實際上是一個Procrustes問題。我們進行奇異值分解得到一個近似值犬金。(詳情可查奇異值分解降維)

考慮到一些低頻詞匯詞向量可能學得不充分念恍,作者選取了一些高頻詞六剥,以及它在另一種語言中的“最近鄰”的詞,形成高質量的雙語語料峰伙。從而獲得精調后的W疗疟。

3.最近鄰詞的選擇度量
最基本的想法是直接計算cosine相似度來選取最近鄰詞。但這會導致hubness現(xiàn)象:有些詞(稱為hubness)是很多詞的最近鄰點词爬,而有些詞(anti-hubness)卻不是任何點的最近鄰點秃嗜。為了懲罰這些hubness,作者定義了如下CSLS距離:



其中



rT表示W(wǎng)x在目標語言最相近的K個詞的cos相似度的平均值顿膨,rS代表y在源語言最相近的K個詞的cos相似度的平均值锅锨。

PS:部分資料參考

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市恋沃,隨后出現(xiàn)的幾起案子必搞,更是在濱河造成了極大的恐慌,老刑警劉巖囊咏,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恕洲,死亡現(xiàn)場離奇詭異,居然都是意外死亡梅割,警方通過查閱死者的電腦和手機霜第,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來户辞,“玉大人泌类,你說我怎么就攤上這事〉琢牵” “怎么了刃榨?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長双仍。 經(jīng)常有香客問我枢希,道長,這世上最難降的妖魔是什么朱沃? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任苞轿,我火速辦了婚禮,結果婚禮上逗物,老公的妹妹穿的比我還像新娘搬卒。我一直安慰自己,他們只是感情好敬察,可當我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著尔当,像睡著了一般莲祸。 火紅的嫁衣襯著肌膚如雪蹂安。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天锐帜,我揣著相機與錄音田盈,去河邊找鬼。 笑死缴阎,一個胖子當著我的面吹牛允瞧,可吹牛的內容都是我干的。 我是一名探鬼主播蛮拔,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼述暂,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了建炫?” 一聲冷哼從身側響起畦韭,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎肛跌,沒想到半個月后艺配,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡衍慎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年转唉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片稳捆。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡精肃,死狀恐怖,靈堂內的尸體忽然破棺而出骚灸,到底是詐尸還是另有隱情公你,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布驯嘱,位于F島的核電站镶苞,受9級特大地震影響,放射性物質發(fā)生泄漏鞠评。R本人自食惡果不足惜茂蚓,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望剃幌。 院中可真熱鬧聋涨,春花似錦、人聲如沸负乡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抖棘。三九已至茂腥,卻和暖如春狸涌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背最岗。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工帕胆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人般渡。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓懒豹,卻偏偏與公主長得像,于是被迫代替她去往敵國和親驯用。 傳聞我的和親對象是個殘疾皇子脸秽,可洞房花燭夜當晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內容