glove-論文閱讀

glove全稱是Global Vectors for Word Representation饺律,它是基于全局詞頻統(tǒng)計的詞表征工具窃页,他可以將一個單詞表示為一個向量,這些向量捕捉到了單詞之間的語義特征复濒。

  1. glove提出原因
    在glove提出之前脖卖,主流模型的特點分別是全局矩陣分解(例如LSA)和局部上下文窗口(例如cbow),但是這兩種模型都有顯著的缺點芝薇。對于全局矩陣分解來說胚嘲,沒能捕捉到語義信息,所以在詞語相似度等任務(wù)中表現(xiàn)較差洛二;對于局部上下文窗口方式?jīng)]能很好的利用數(shù)據(jù)中的統(tǒng)計信息馋劈。所以提出了一種新的詞向量生成方式。
  2. glove model
    原理
    golve綜合利用詞的全局統(tǒng)計信息和局部統(tǒng)計信息來生成詞向量晾嘶。模型利用了詞全局統(tǒng)計信息-共現(xiàn)矩陣妓雾。共現(xiàn)矩陣X中每一個元素ij表示單詞i和單詞j在特定大小的上下文窗口中出現(xiàn)到的次數(shù)。與傳統(tǒng)的共現(xiàn)矩陣不同垒迂,glove根據(jù)兩個單詞在上下文窗口的距離d,提出了一個衰減函數(shù):即decay=\frac{1}zdjjzp5用于計算權(quán)重械姻,也就是說單詞之間的距離越遠那么兩個單詞所占的總計數(shù)權(quán)重也越小。

損失函數(shù)
兩個詞之間的相關(guān)程度机断,可以通過第三個詞來衡量楷拳,如果這兩個詞都與第三個詞相關(guān)或不相關(guān),那么這兩個詞與第三個詞的共現(xiàn)概率比接近于1;如果第一個詞與第三個詞相關(guān)而第二個與第三個詞不相關(guān)吏奸,那么第一個詞和第三個詞的共線概率與第二個詞和第三個詞的共線概率比值要大于1.反之小于1;
設(shè)w_iw_j是要衡量的詞欢揖,w_k是第三個詞,用公式表示上述思路:
F((w_i-w_j)^T \tilde{w_k})=\frac{F(w_i^T \tilde{w_k})}{F(w_j^T\tilde{w_k})} \tag{1},
其中
F(w_i^T\tilde{w_k})=p_{ik}=\frac{X_{ik}}{X_i} \tag{2}
經(jīng)過變形奋蔚,可將公式(1)變?yōu)槿缦滤?br> w_{i}^{T}\tilde{w_{j}} + b_i + \tilde{b_j} = \log(X_{ij}) \tag{3}
公式(3)可以很好的近似地表達ij之間的關(guān)系她混。

使用最小二乘法作為損失函數(shù):
J = \sum_{i,j=1}^{V} (w_{i}^{T}\tilde{w_{j}} + b_i + \tilde{b_j} – \log(X_{ij}) )^2 \tag{4}

顯然烈钞,為不同共現(xiàn)程度的詞的損失賦予相同的權(quán)重是不合理的,所以提出根據(jù)共現(xiàn)頻率來為損失賦予權(quán)重
J = \sum_{i,j=1}^{V} f(X_{ij})(w_{i}^{T}\tilde{w_{j}} + b_i + \tilde{b_j} – \log(X_{ij}) )^2 \tag{5}
此時f(x)要具有以下性質(zhì):

  • 保證函數(shù)是非遞減的坤按,因為頻數(shù)越大毯欣,說明相關(guān)性越強
  • f(0)=0,因為當(dāng)出現(xiàn)頻率為0時臭脓,此時損失說明這兩個單詞沒有相關(guān)性
  • 當(dāng)頻率很大時酗钞,要給一個盡可能合理的值。如果值過大谢鹊,會導(dǎo)致共現(xiàn)次數(shù)很大的值被賦予過大權(quán)重
    綜上所述算吩,f(x)的函數(shù)如下所示
    f(x)=\begin{equation} \begin{cases} (x/x_{max})^{\alpha} & \text{if} \ x < x_{max} \\ 1 & \text{otherwise} \end{cases} \end{equation} \tag{6}
  1. 實驗
    作者將GloVe模型得到的詞向量分別用于Word analogies, Word similarity, Named entity recognition,在相同的數(shù)據(jù)集上和CBOW,SVD等方法進行比較佃扼。

  2. 最終詞向量表示i
    公式(5)中的參數(shù)w\tilde{w}就是訓(xùn)練好的詞向量偎巢,經(jīng)過驗證,w+\tilde{w}的效果要好于w\tilde{w}兼耀。

參考文獻

  1. https://cloud.tencent.com/developer/article/1183363 (推薦)
  2. https://blog.csdn.net/weixin_36711901/article/details/78508798
  3. http://www.fanyeong.com/2018/02/19/glove-in-detail/ (推薦)
  4. https://blog.csdn.net/czp_374/article/details/86757036
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末压昼,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子瘤运,更是在濱河造成了極大的恐慌窍霞,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拯坟,死亡現(xiàn)場離奇詭異但金,居然都是意外死亡,警方通過查閱死者的電腦和手機郁季,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門冷溃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人梦裂,你說我怎么就攤上這事似枕。” “怎么了年柠?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵凿歼,是天一觀的道長。 經(jīng)常有香客問我冗恨,道長答憔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任掀抹,我火速辦了婚禮攀唯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘渴丸。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布谱轨。 她就那樣靜靜地躺著戒幔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪土童。 梳的紋絲不亂的頭發(fā)上诗茎,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音献汗,去河邊找鬼敢订。 笑死,一個胖子當(dāng)著我的面吹牛罢吃,可吹牛的內(nèi)容都是我干的楚午。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼尿招,長吁一口氣:“原來是場噩夢啊……” “哼矾柜!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起就谜,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤怪蔑,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后丧荐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缆瓣,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年虹统,在試婚紗的時候發(fā)現(xiàn)自己被綠了弓坞。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡窟却,死狀恐怖昼丑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情夸赫,我是刑警寧澤菩帝,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站茬腿,受9級特大地震影響呼奢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜切平,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一握础、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧悴品,春花似錦禀综、人聲如沸简烘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽孤澎。三九已至,卻和暖如春欠窒,著一層夾襖步出監(jiān)牢的瞬間覆旭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工岖妄, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留型将,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓荐虐,卻偏偏與公主長得像七兜,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子缚俏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容