Glove模型

一菲茬、整體思路
獲取詞向量基本上有兩種思路:
1.利用全局統(tǒng)計(jì)信息赶促,進(jìn)行矩陣分解(如LSA)來獲取詞向量妒蔚,這樣獲得的詞向量往往在詞相似性任務(wù)上表現(xiàn)不好疮鲫,表明這是一個(gè)次優(yōu)的向量空間結(jié)構(gòu)蘸劈;
2.利用局部上下文窗口單獨(dú)訓(xùn)練昏苏,但是統(tǒng)計(jì)信息作為有用的先驗(yàn)知識(shí),沒有很好的利用到威沫。
Glove:結(jié)合兩種訓(xùn)練方式贤惯,獲取更好的詞向量
二、基本假設(shè)
詞的共現(xiàn)次數(shù)與其語義的相關(guān)性往往不是嚴(yán)格成比例壹甥,所以直接用共線性來表征詞之間相關(guān)性效果不好救巷,因此,作者通過引入第三個(gè)詞句柠,通過詞之間的差異來刻畫相關(guān)性浦译。差異選擇用兩個(gè)詞與同一個(gè)詞的共現(xiàn)概率的次數(shù)來更好的判斷詞之間的相關(guān)性棒假。比率:

image.png

看下面這個(gè)例子:

image.png

ice 與solid相關(guān)性高,而steam與solid相關(guān)性弱精盅,對(duì)應(yīng)比例大于1帽哑;ice與gas相關(guān)性弱,steam與gas相關(guān)性高叹俏,對(duì)應(yīng)比例小于1妻枕,ice與steam都與water相關(guān),對(duì)應(yīng)比例約等于1粘驰,ice與steam與fashion都不相關(guān)屡谐,對(duì)應(yīng)比例也是約等于1.
相關(guān)性的規(guī)律:
image.png

三、模型
模型的數(shù)學(xué)形式為:

其中wi, wj 與wk分屬不同的兩個(gè)詞向量空間(參考skipgram)蝌数,對(duì)于F函數(shù)愕掏,我們希望他能夠在向量空間內(nèi)預(yù)測(cè)pPik/Pjk這個(gè)比率,由于向量空間的線性結(jié)構(gòu)顶伞,最自然的方式就是用向量的差饵撑,即:

等式的右側(cè)是一個(gè)標(biāo)量,左側(cè)F函數(shù)可以是一個(gè)復(fù)雜函數(shù)唆貌,而我們上面提到我們希望捕捉向量的線性結(jié)構(gòu)滑潘,所以避免使用復(fù)雜函數(shù),首先將參數(shù)做內(nèi)積:

在窗口滑動(dòng)的過程中锨咙,中心詞與上下文詞的角色會(huì)相互轉(zhuǎn)化语卤,但是當(dāng)詞的位置互換后,其相關(guān)性應(yīng)該是保持一致的蓖租,所以粱侣,F(xiàn)函數(shù)需要對(duì)“和”操作與“商”操作上同態(tài)(這里同態(tài)的意思是F函數(shù)在左右兩側(cè)應(yīng)該是一致的,也就是F((wi - wj))=F(wi) / F(wj):

其中:

為了解決 上式4蓖宦,F(xiàn)函數(shù)的形式就是exp(指數(shù)形式),最終求解后:


上式中油猫,等式左側(cè)是對(duì)稱的稠茂,即WiTWj = WjTWi, 而右側(cè)是不對(duì)稱的,即log(pij) != log(Pji). 如果上式的右側(cè)沒有l(wèi)og(xi)則等式的左右就對(duì)稱了情妖,考慮到與k無關(guān)睬关,所以把這一項(xiàng)并入到i的偏差項(xiàng)中,即:

由于上式中有l(wèi)og毡证,所以需要處理0值电爹,同時(shí),對(duì)于低頻與高頻的共線詞都不能過度訓(xùn)練料睛,于是丐箩,優(yōu)化目標(biāo)就變成了:

其中摇邦,權(quán)重函數(shù)f(x)需要滿足:
1, f(0)=0
2, 非減以避免低頻共現(xiàn)過度訓(xùn)練
3屎勘,抑制高頻共現(xiàn)避免過度訓(xùn)練
最后采用的f(x) 形式為:

實(shí)驗(yàn)中他們采用的是xmax=100, a=3/4
完整過程

四施籍、對(duì)比
與局部窗口方式對(duì)比:

與local window對(duì)比

優(yōu)化目標(biāo)使用不同的損失函數(shù),并帶有調(diào)和函數(shù)來降低高頻詞的影響概漱。

語義相似性結(jié)果對(duì)比:

不同模型對(duì)比

五丑慎、思考
1.相對(duì)與word2vec, Glove引入了詞頻統(tǒng)計(jì)信息,這是很重要的全局信息瓤摧。
2.word2vec的訓(xùn)練次數(shù)與詞頻相關(guān)竿裂,Glove的訓(xùn)練中詞頻是loss的weight,高頻低頻詞的overweight的情況更低照弥。
3.將基于局部窗口的模型中腻异,相同詞進(jìn)行合并,修改對(duì)應(yīng)object:

其中H()為交叉熵产喉,相對(duì)Glove的object:

loss由交叉熵改為最小二乘捂掰,Xi改為f(Xi)函數(shù)進(jìn)行調(diào)和。
4.Glove中的左右詞向量也是兩個(gè)不同的詞向量空間曾沈,與word2vec一樣这嚣,雖然Glove模型上看上去可以使用同一個(gè)詞向量空間做,但是作者說是因?yàn)楦脙?yōu)化且模型更穩(wěn)定塞俱,不同的時(shí)姐帚,最后的結(jié)果是左右詞向量求和(雖然word2vec也可以這么做)

Demo:https://github.com/xv44586/Papers/blob/master/NLP/WordVector/GloveDemo.ipynb


再思考:
1.通常我們都是根據(jù)模型來推導(dǎo)其對(duì)應(yīng)的性質(zhì),而Glove是因?yàn)槠鋺?yīng)該具有的性質(zhì)障涯,來反推模型罐旗,這種方式也給人提供了一種新思路。
2.為什么兩種模型都有兩套詞向量空間(中心詞向量和上下文詞向量)唯蝶?雖然兩個(gè)作者都說是因?yàn)楦脙?yōu)化且模型更穩(wěn)定九秀,那有沒有更合理的理論上的解釋呢?我的理解是:對(duì)于word2vec粘我,模型直接對(duì)概率p(w|context),如skipgram中鼓蜒,直接對(duì)P(w2|w1)進(jìn)行建模,而P(w2|w1)與P(w1|w2)并不一定相等征字,所以需要針對(duì)詞的位置區(qū)分都弹,也就是需要兩套不一樣的詞向量空間;而Glove中匙姜,如上文中公式(6)所示畅厢,模型右側(cè)有一個(gè)與位置有關(guān)的參數(shù),雖然通過引入兩個(gè)bias可以一定程度上消除這個(gè)位置相關(guān)的參數(shù)氮昧,但是這個(gè)參數(shù)并不是均勻分布框杜,所以僅通過bias不能完全解決這個(gè)問題浦楣,而引入兩個(gè)不同的詞向量空間,相當(dāng)于是引入了位置信息霸琴,這樣能更好的解決這個(gè)問題椒振。其最本質(zhì)的原因是在窗口滑動(dòng)過程中,詞位置變化的同時(shí)信息可能是不對(duì)稱的梧乘,即以a為中心詞的窗口中的b在以b為窗口時(shí)澎迎,a可能丟失。
3.對(duì)于上式8选调,存在一個(gè)比較嚴(yán)重的問題夹供,模型為了消去位置相關(guān)參數(shù),將其吸收進(jìn)bias內(nèi)仁堪,而這個(gè)bias的引入哮洽,就導(dǎo)致了一個(gè)嚴(yán)重的問題,即模型不適定弦聂。



即當(dāng)你求得一組解后鸟辅,你可以給這組解加上一個(gè)常數(shù)向量,其還是一組解莺葫。那這個(gè)問題就很嚴(yán)重了匪凉,你無法評(píng)估你得到的解是哪組解。如果加上的是非常大的常數(shù)向量捺檬,那這組詞向量在很多度量上就失去了意義(如余弦距離)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末再层,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子堡纬,更是在濱河造成了極大的恐慌聂受,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烤镐,死亡現(xiàn)場(chǎng)離奇詭異蛋济,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)炮叶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門瘫俊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人悴灵,你說我怎么就攤上這事÷畋停” “怎么了积瞒?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)登下。 經(jīng)常有香客問我茫孔,道長(zhǎng)叮喳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任缰贝,我火速辦了婚禮馍悟,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘剩晴。我一直安慰自己锣咒,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布赞弥。 她就那樣靜靜地躺著毅整,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绽左。 梳的紋絲不亂的頭發(fā)上悼嫉,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音拼窥,去河邊找鬼戏蔑。 笑死,一個(gè)胖子當(dāng)著我的面吹牛鲁纠,可吹牛的內(nèi)容都是我干的总棵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼房交,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼彻舰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起候味,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤刃唤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后白群,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尚胞,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年帜慢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了笼裳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡粱玲,死狀恐怖躬柬,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抽减,我是刑警寧澤允青,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站卵沉,受9級(jí)特大地震影響颠锉,放射性物質(zhì)發(fā)生泄漏法牲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一琼掠、第九天 我趴在偏房一處隱蔽的房頂上張望拒垃。 院中可真熱鬧,春花似錦瓷蛙、人聲如沸悼瓮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽谤牡。三九已至,卻和暖如春姥宝,著一層夾襖步出監(jiān)牢的瞬間翅萤,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工腊满, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留套么,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓碳蛋,卻偏偏與公主長(zhǎng)得像胚泌,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子肃弟,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容