Glove模型

一菲茬、整體思路
獲取詞向量基本上有兩種思路：
1.利用全局統(tǒng)計(jì)信息赶促，進(jìn)行矩陣分解（如LSA）來獲取詞向量妒蔚，這樣獲得的詞向量往往在詞相似性任務(wù)上表現(xiàn)不好疮鲫，表明這是一個(gè)次優(yōu)的向量空間結(jié)構(gòu)蘸劈；
2.利用局部上下文窗口單獨(dú)訓(xùn)練昏苏，但是統(tǒng)計(jì)信息作為有用的先驗(yàn)知識(shí)，沒有很好的利用到威沫。
Glove：結(jié)合兩種訓(xùn)練方式贤惯，獲取更好的詞向量
二、基本假設(shè)
詞的共現(xiàn)次數(shù)與其語義的相關(guān)性往往不是嚴(yán)格成比例壹甥，所以直接用共線性來表征詞之間相關(guān)性效果不好救巷，因此，作者通過引入第三個(gè)詞句柠，通過詞之間的差異來刻畫相關(guān)性浦译。差異選擇用兩個(gè)詞與同一個(gè)詞的共現(xiàn)概率的次數(shù)來更好的判斷詞之間的相關(guān)性棒假。比率：

image.png

看下面這個(gè)例子：

image.png

ice 與solid相關(guān)性高，而steam與solid相關(guān)性弱精盅，對(duì)應(yīng)比例大于1帽哑；ice與gas相關(guān)性弱，steam與gas相關(guān)性高叹俏，對(duì)應(yīng)比例小于1妻枕，ice與steam都與water相關(guān)，對(duì)應(yīng)比例約等于1粘驰，ice與steam與fashion都不相關(guān)屡谐，對(duì)應(yīng)比例也是約等于1.
相關(guān)性的規(guī)律：

image.png

三、模型
模型的數(shù)學(xué)形式為：

其中wi, wj 與wk分屬不同的兩個(gè)詞向量空間（參考skipgram）蝌数，對(duì)于F函數(shù)愕掏，我們希望他能夠在向量空間內(nèi)預(yù)測(cè)pPik/Pjk這個(gè)比率，由于向量空間的線性結(jié)構(gòu)顶伞，最自然的方式就是用向量的差饵撑，即：

等式的右側(cè)是一個(gè)標(biāo)量，左側(cè)F函數(shù)可以是一個(gè)復(fù)雜函數(shù)唆貌，而我們上面提到我們希望捕捉向量的線性結(jié)構(gòu)滑潘，所以避免使用復(fù)雜函數(shù)，首先將參數(shù)做內(nèi)積：

在窗口滑動(dòng)的過程中锨咙，中心詞與上下文詞的角色會(huì)相互轉(zhuǎn)化语卤，但是當(dāng)詞的位置互換后，其相關(guān)性應(yīng)該是保持一致的蓖租，所以粱侣，F(xiàn)函數(shù)需要對(duì)“和”操作與“商”操作上同態(tài)（這里同態(tài)的意思是F函數(shù)在左右兩側(cè)應(yīng)該是一致的，也就是F((wi - wj)）=F(wi) / F(wj)：

其中：

為了解決上式4蓖宦，F(xiàn)函數(shù)的形式就是exp(指數(shù)形式），最終求解后：

上式中油猫，等式左側(cè)是對(duì)稱的稠茂，即WiTWj = WjTWi, 而右側(cè)是不對(duì)稱的，即log(pij) != log(Pji). 如果上式的右側(cè)沒有l(wèi)og(xi)則等式的左右就對(duì)稱了情妖，考慮到與k無關(guān)睬关，所以把這一項(xiàng)并入到i的偏差項(xiàng)中，即：

由于上式中有l(wèi)og毡证，所以需要處理0值电爹，同時(shí)，對(duì)于低頻與高頻的共線詞都不能過度訓(xùn)練料睛，于是丐箩，優(yōu)化目標(biāo)就變成了：

其中摇邦，權(quán)重函數(shù)f(x)需要滿足：
1， f(0)=0
2, 非減以避免低頻共現(xiàn)過度訓(xùn)練
3屎勘，抑制高頻共現(xiàn)避免過度訓(xùn)練
最后采用的f(x) 形式為：

實(shí)驗(yàn)中他們采用的是xmax=100, a=3/4

完整過程

四施籍、對(duì)比
與局部窗口方式對(duì)比：

與local window對(duì)比

優(yōu)化目標(biāo)使用不同的損失函數(shù)，并帶有調(diào)和函數(shù)來降低高頻詞的影響概漱。

語義相似性結(jié)果對(duì)比：

不同模型對(duì)比

五丑慎、思考
1.相對(duì)與word2vec, Glove引入了詞頻統(tǒng)計(jì)信息，這是很重要的全局信息瓤摧。
2.word2vec的訓(xùn)練次數(shù)與詞頻相關(guān)竿裂，Glove的訓(xùn)練中詞頻是loss的weight，高頻低頻詞的overweight的情況更低照弥。
3.將基于局部窗口的模型中腻异，相同詞進(jìn)行合并，修改對(duì)應(yīng)object：

其中H（）為交叉熵产喉，相對(duì)Glove的object：

loss由交叉熵改為最小二乘捂掰，Xi改為f(Xi)函數(shù)進(jìn)行調(diào)和。
4.Glove中的左右詞向量也是兩個(gè)不同的詞向量空間曾沈，與word2vec一樣这嚣，雖然Glove模型上看上去可以使用同一個(gè)詞向量空間做，但是作者說是因?yàn)楦脙?yōu)化且模型更穩(wěn)定塞俱，不同的時(shí)姐帚，最后的結(jié)果是左右詞向量求和（雖然word2vec也可以這么做）

Demo:https://github.com/xv44586/Papers/blob/master/NLP/WordVector/GloveDemo.ipynb

再思考：
1.通常我們都是根據(jù)模型來推導(dǎo)其對(duì)應(yīng)的性質(zhì)，而Glove是因?yàn)槠鋺?yīng)該具有的性質(zhì)障涯，來反推模型罐旗，這種方式也給人提供了一種新思路。
2.為什么兩種模型都有兩套詞向量空間（中心詞向量和上下文詞向量）唯蝶？雖然兩個(gè)作者都說是因?yàn)楦脙?yōu)化且模型更穩(wěn)定九秀，那有沒有更合理的理論上的解釋呢？我的理解是：對(duì)于word2vec粘我，模型直接對(duì)概率p(w|context),如skipgram中鼓蜒，直接對(duì)P(w2|w1)進(jìn)行建模，而P(w2|w1)與P(w1|w2)并不一定相等征字，所以需要針對(duì)詞的位置區(qū)分都弹，也就是需要兩套不一樣的詞向量空間；而Glove中匙姜，如上文中公式（6）所示畅厢，模型右側(cè)有一個(gè)與位置有關(guān)的參數(shù)，雖然通過引入兩個(gè)bias可以一定程度上消除這個(gè)位置相關(guān)的參數(shù)氮昧，但是這個(gè)參數(shù)并不是均勻分布框杜，所以僅通過bias不能完全解決這個(gè)問題浦楣，而引入兩個(gè)不同的詞向量空間，相當(dāng)于是引入了位置信息霸琴，這樣能更好的解決這個(gè)問題椒振。其最本質(zhì)的原因是在窗口滑動(dòng)過程中，詞位置變化的同時(shí)信息可能是不對(duì)稱的梧乘，即以a為中心詞的窗口中的b在以b為窗口時(shí)澎迎，a可能丟失。
3.對(duì)于上式8选调，存在一個(gè)比較嚴(yán)重的問題夹供，模型為了消去位置相關(guān)參數(shù)，將其吸收進(jìn)bias內(nèi)仁堪，而這個(gè)bias的引入哮洽，就導(dǎo)致了一個(gè)嚴(yán)重的問題，即模型不適定弦聂。

即當(dāng)你求得一組解后鸟辅，你可以給這組解加上一個(gè)常數(shù)向量，其還是一組解莺葫。那這個(gè)問題就很嚴(yán)重了匪凉，你無法評(píng)估你得到的解是哪組解。如果加上的是非常大的常數(shù)向量捺檬，那這組詞向量在很多度量上就失去了意義（如余弦距離）

最后編輯于：2019.07.17 15:43:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末再层，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子堡纬，更是在濱河造成了極大的恐慌聂受，老刑警劉巖，帶你破解...
沈念sama閱讀 218,122評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件烤镐，死亡現(xiàn)場(chǎng)離奇詭異蛋济，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)炮叶，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,070評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門瘫俊，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人悴灵，你說我怎么就攤上這事÷畋停” “怎么了积瞒？”我有些...
開封第一講書人閱讀 164,491評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)登下。經(jīng)常有香客問我茫孔，道長(zhǎng)叮喳，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,636評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任缰贝，我火速辦了婚禮馍悟，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘剩晴。我一直安慰自己锣咒，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,676評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布赞弥。她就那樣靜靜地躺著毅整，像睡著了一般。火紅的嫁衣襯著肌膚如雪绽左。梳的紋絲不亂的頭發(fā)上悼嫉，一...
開封第一講書人閱讀 51,541評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音拼窥，去河邊找鬼戏蔑。笑死，一個(gè)胖子當(dāng)著我的面吹牛鲁纠，可吹牛的內(nèi)容都是我干的总棵。我是一名探鬼主播，決...
沈念sama閱讀 40,292評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼房交，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼彻舰！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起候味，我...
開封第一講書人閱讀 39,211評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤刃唤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后白群，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尚胞，經(jīng)...
沈念sama閱讀 45,655評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,846評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年帜慢，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了笼裳。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,965評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡粱玲，死狀恐怖躬柬，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情抽减，我是刑警寧澤允青，帶...
沈念sama閱讀 35,684評(píng)論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站卵沉，受9級(jí)特大地震影響颠锉，放射性物質(zhì)發(fā)生泄漏法牲。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,295評(píng)論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一琼掠、第九天我趴在偏房一處隱蔽的房頂上張望拒垃。院中可真熱鬧，春花似錦瓷蛙、人聲如沸悼瓮。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,894評(píng)論 0贊 22
一樁弒父案速挑，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽谤牡。三九已至，卻和暖如春姥宝，著一層夾襖步出監(jiān)牢的瞬間翅萤，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,012評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工腊满，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留套么，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,126評(píng)論 3贊 370
代替公主和親
正文我出身青樓碳蛋，卻偏偏與公主長(zhǎng)得像胚泌，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子肃弟，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,914評(píng)論 2贊 355

Glove模型

推薦閱讀更多精彩內(nèi)容