<Paper Reading Series>
本文基于Facebook 2018-ICLR的文章:WORD TRANSLATION WITHOUT PARALLEL DATA
文本中提出了無監(jiān)督的跨語言詞對齊MUSE框架
- 研究背景
- 前人的解決方式
- 模型核心思想
- 具體實現(xiàn)細節(jié)
研究背景
TODO
前人的解決方式
TODO
模型核心思想
這篇文章提出了一種無監(jiān)督的雙語單詞對齊的方法,主題思想是用一個線性的映射矩陣W將源語言的embedding投影到目標語言中澈段。大致思路是先用對抗學習的思路學得一個大致的映射矩陣W(大致的意思是 在高頻詞上映射矩陣的準確率是不錯的讼积,但是低頻詞上表現(xiàn)不好),因此鸠信,我們需要對其進行優(yōu)化。
優(yōu)化的方式是通過選取一些高頻詞论寨,以及它在目標語言中的“最近鄰”的詞星立,形成高質量的雙語語料。從而進行精調(原文為Refine)葬凳。
具體實現(xiàn)細節(jié)
-
對抗訓練獲得粗粒度的映射矩陣W
對抗訓練的方法來源于GAN绰垂,即generator和discriminator兩個組件分別負責混淆和辨別任務。具體來說就是訓練一個discriminator來區(qū)分WX和Y火焰,這個discriminator的目標函數(shù)是最小化
generator(即M)目標是盡可能欺騙discriminator劲装,使之不能區(qū)分出一個representation是直接從Y中采樣得來的,還是從X采樣然后映射得來的:
2.Refine細節(jié)
獲得粗粒度的映射矩陣W后昌简,我個人的理解是:在高頻詞的映射上準確率是不錯的占业,但是低頻詞上表現(xiàn)不好。因此我們對映射矩陣W進行精調(refine)纯赎。
首先對于W矩陣的計算谦疾,這實際上是一個Procrustes問題。我們進行奇異值分解得到一個近似值犬金。(詳情可查奇異值分解降維)
考慮到一些低頻詞匯詞向量可能學得不充分念恍,作者選取了一些高頻詞六剥,以及它在另一種語言中的“最近鄰”的詞,形成高質量的雙語語料峰伙。從而獲得精調后的W疗疟。
3.最近鄰詞的選擇度量
最基本的想法是直接計算cosine相似度來選取最近鄰詞。但這會導致hubness現(xiàn)象:有些詞(稱為hubness)是很多詞的最近鄰點词爬,而有些詞(anti-hubness)卻不是任何點的最近鄰點秃嗜。為了懲罰這些hubness,作者定義了如下CSLS距離:
其中
rT表示W(wǎng)x在目標語言最相近的K個詞的cos相似度的平均值顿膨,rS代表y在源語言最相近的K個詞的cos相似度的平均值锅锨。
PS:部分資料參考