一、背景
針對多義詞向量表示問題,提出了一個Probabilistic FastText model(簡稱:PFastText)田巴。每一個詞用高斯混合模型表示,即,一個詞的向量可以由它的子結構n-grams的向量求和求平均來表示补胚。
高斯模型就是用高斯概率密度函數(shù),精確地量化事物追迟,將一個事物分解為若干的基于高斯概率密度函數(shù)(正態(tài)分布曲線)形成的模型溶其。深度理解高斯混合模型
二、模型
圖中深黑色箭頭代表的是beautiful這個詞的最終的向量表示敦间,它由淺灰色箭頭的n-garm向量求和求均值得來瓶逃。這是該論文中用到的高斯混合思想。
beautiful這個詞廓块,它的3-grams/4-grams為:
·3-grams:{<be, bea, eau, aut, uti, tif, ful, ul>}
·4-grams:{<bea, beau, ..., iful, ful>}
其中‘<’表示一個詞的開頭標志符厢绝,‘>’表示一個詞的結尾標志符。所以上圖中畫出來的淺灰色箭頭是4-grams向量带猴。
三昔汉、理論分析
模型的參數(shù),每個詞w拴清,對應一個詞向量v靶病,那么所有的詞可構成一個詞向量表V。每個n-gram g口予,對應一個子詞結構向量z嫡秕,那么所有的n-grams可以構成一個字詞結構向量表Z。 這兩個向量表V苹威、Z是整個模型需要學習出來的參數(shù)昆咽。
模型的損失函數(shù)定義為:真實詞對(w,c)的分數(shù)要高于錯誤詞對(w,n),且設置一個分數(shù)邊界值m。