【NLP論文筆記】Glove: Global Vectors for Word Representation（Glove詞向量理解）

本文主要用于記錄斯坦福nlp組發(fā)表于2014年的一篇論文（引用量直破5k）腺怯。該論文提出的Glove詞向量也是自Word2vec推出后另一個(gè)比較有影響力的詞向量生成方法闸衫。本筆記主要為方便初學(xué)者快速入門，以及自我回顧。

論文鏈接：https://www.aclweb.org/anthology/D14-1162
Github: https://github.com/stanfordnlp/GloVe
課程鏈接：http://cs224d.stanford.edu
（由于是斯坦福nlp實(shí)驗(yàn)組提出的，自然也上了斯坦福的cs224n的課程。）

基本目錄如下：

摘要
核心思想
總結(jié)

------------------第一菇 - 摘要------------------

1.1 論文摘要

現(xiàn)有詞向量模型（2013年仅孩，word2vec大熱）都對(duì)細(xì)粒度的語義和句法都有較好的表達(dá)，但論文作者們對(duì)其背后的機(jī)制仍有詬病印蓖。他們經(jīng)過仔細(xì)的分析辽慕，在當(dāng)前詞向量模型的基礎(chǔ)上又提出了一種新的清晰可解釋的語言模型來構(gòu)成詞向量。其實(shí)該模型的本質(zhì)就是融合了當(dāng)時(shí)最新的全局矩陣分解方法（Matrix Factorization）和局部文本框捕捉方法（代表word2vec）赦肃，美其名曰全局詞向量表達(dá)溅蛉。顧名思義公浪，該模型利用了全局詞詞共現(xiàn)矩陣中的非0數(shù)據(jù)來訓(xùn)練，而不是只用了某詞的局部窗口信息船侧。實(shí)驗(yàn)表明欠气，這種新的詞向量表達(dá)方法提高了很多NLP基礎(chǔ)任務(wù)的準(zhǔn)確率。

------------------第二菇 - 核心思想------------------

2.1 論文模型核心思想

論文在介紹部分就吐槽了現(xiàn)今的兩種詞向量模型的弊端镜撩，第一種就是全局的詞-文本矩陣分解（本文不展開预柒，詳情可見LSA算法解析），該方法能有效收集的每一個(gè)詞的統(tǒng)計(jì)信息袁梗，但他們卻不能捕捉到詞的上下文信息（語義的表達(dá)能力不夠）宜鸯；第二種就是基于局部窗口信息以word2vec為代表的，這種方法雖然能在詞的語義上有更豐富的表達(dá)遮怜，但是他們卻不能很好的捕捉詞的全局統(tǒng)計(jì)信息淋袖。那當(dāng)然本文肯定是要集兩者之精華，去兩者之弊端锯梁，提出了一種全新的結(jié)合兩種方式的Glove詞向量模型适贸。在具體深入公式推導(dǎo)之前（其實(shí)我也沒打（neng）算（li）詳細(xì)鋪開模型細(xì)節(jié)推導(dǎo)orz...），還是先跟著論文一起聊一聊模型的核心思想涝桅。

直接引用文章中的例子了～作者認(rèn)為詞與詞之間共現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)是作為詞向量的重要依據(jù)，因此Glove詞向量的本質(zhì)也是意圖利用這種共現(xiàn)的次數(shù)來構(gòu)造烙样。先學(xué)一波文章中的符號(hào)表達(dá)如下：

$X$ - 詞詞共現(xiàn)矩陣
$X_{ij}$ - 詞 $j$ 在詞 $i$ 的窗口中出現(xiàn)的次數(shù)
$X_{i}$ - 詞 $i$ 的所有窗口詞出現(xiàn)的次數(shù)總和（ $\sum_{k}(X_{ik})$ ）
$P_{ij}$ - 詞 $j$ 在詞 $i$ 的窗口詞中出現(xiàn)的概率（ $X_{ij}/X_{i}$ ）

然后核心的思想就是冯遂，對(duì)于任意的詞 $i$ 和詞 $j$ ，假如有第三個(gè)詞 $k$ 谒获，如果詞 $k$ 與詞 $i$ 相比于詞 $k$ 與詞 $j$ 有更深的關(guān)聯(lián)蛤肌，則我們從常理上來說，可以非常輕易的得出一個(gè)結(jié)論批狱，即裸准，

$P_{ik} > P_{jk}$

且這個(gè)比值較大，反之亦然赔硫。若詞 $k$ 與他們倆者的關(guān)系都不大，則我們應(yīng)該不難想象，

$P_{ik} \approx P_{jk}$

文章中也舉了真實(shí)語料中的例子盒犹，如下圖缰揪，

sample.png

可以看出，固體與冰的共現(xiàn)率就會(huì)大于固體與水蒸氣（其他以此類推）推盛。因此峦阁，根據(jù)剛才提出的核心思想，論文中所有接下來的公式推導(dǎo)就可以用一個(gè)公式來推導(dǎo)得出耘成，該公式如下榔昔，

$F(w_i, w_j, \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}$

其中 $w_i$ 驹闰， $w_j$ 就是我們拿來作比較的詞向量， $w_k$ 可以理解為額外的詞向量（這里學(xué)論文先留個(gè)扣哈哈）撒会。至此嘹朗，論文的核心思想算是介紹完了，下一節(jié)將進(jìn)一步推導(dǎo)模型的細(xì)節(jié)茧彤，不喜歡推導(dǎo)細(xì)節(jié)的小伙伴可以直接跳過下一章啦～

2.2 論文模型推導(dǎo)

首先骡显，向量空間本質(zhì)都是線性的，所以最普通的做法就是曾掂，倆個(gè)詞向量做差惫谤，來求解其關(guān)系，因此珠洗，上式可變?yōu)椋?/p>

$F(w_i - w_j, \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}$

然后我們發(fā)現(xiàn)溜歪，左邊是向量的計(jì)算，而右邊得出的值是一個(gè)標(biāo)量许蓖，因此我們做一套點(diǎn)積運(yùn)算蝴猪，

$F((w_i - w_j)^T \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}$

再之后，作者又在外面套了一層指數(shù)運(yùn)算（將差形式轉(zhuǎn)換為商形式）膊爪，因此自阱，使得，

$\frac{F(w_{i}^{T}\widetilde{w_k})}{F(w_{j}^{T}\widetilde{w_k})} = \frac{P_{ik}}{P_{jk}}$

因此米酬，為了使上式成立沛豌，我們可以得到，

$F(w_{i}^{T}\widetilde{w_k}) = P_{ik} = \frac{X_{ik}}{X_i}$

然后兩邊取對(duì)數(shù)赃额，我們得到加派，

$w_{i}^{T}\widetilde{w_k} =log(P_{ik}) = log(X_{ik}) - log(X_{i})$

這個(gè)時(shí)候仔細(xì)觀察上式，會(huì)發(fā)現(xiàn)一個(gè)對(duì)稱性的問題跳芳，即芍锦，

$w_{i}^{T}\widetilde{w_k} = w_{k}^{T}\widetilde{w_i}$

但是右邊的式子交換并不相等，而此時(shí)我們也發(fā)現(xiàn) $log(X_i)$ 也獨(dú)立于k飞盆，因此我們將其吸納進(jìn) $w_{i}$ 的偏置項(xiàng) $b_{i}$ 娄琉，然后同時(shí)引入 $w_k$ 的偏置項(xiàng) $\widetilde{b_k}$ ，最終得到桨啃，

$w_{i}^{T}\widetilde{w_k} + b_i + \widetilde{b_k} = log(X_{ik})$

然后作者認(rèn)為這樣的處理存在一個(gè)弊端车胡，即對(duì)于一個(gè)詞，他的每一個(gè)共現(xiàn)詞都享有相同的權(quán)重來決定該詞的詞向量照瘾，而這在常理上的理解是不合理的匈棘，因此，作者引入了一種帶權(quán)的最小二乘法來解決這種問題析命，最終的損失函數(shù)就為主卫，

$J = \sum_{i,j=1}^{V}f(X_{ij})(w_{i}^{T}\widetilde{w_j} + b_i + \widetilde{b_j} - logX_{ij})^2$

其中逃默，權(quán)重方程的定義與圖像如下，

weight_function.png

作者經(jīng)過實(shí)驗(yàn)得出簇搅， $\alpha取值為0.75$ 能得到最好的模型效果完域。至此，整一個(gè)模型已經(jīng)介紹完成了瘩将。接下來的論文部分還討論了一波Glove詞向量與其他詞向量的關(guān)系以及復(fù)雜度吟税，這邊我就不展開了，會(huì)在另一篇對(duì)詞向量的探索中進(jìn)行更加細(xì)致的對(duì)比姿现，有興趣的讀者可以仔細(xì)閱讀一下原論文肠仪。

2.3 論文模型分析

論文作者把自己提出的這一套詞向量構(gòu)建方法進(jìn)行了一系列的實(shí)驗(yàn)，包括但不限于語義相似度备典，近義詞异旧，NER等傳統(tǒng)NLP基線任務(wù)。具體的任務(wù)指標(biāo)數(shù)據(jù)我這里就不一一展現(xiàn)了提佣，有興趣的讀者可以看原論文吮蛹。值得一提的是，作者對(duì)模型的訓(xùn)練提出了許多細(xì)節(jié)的優(yōu)化點(diǎn)拌屏，并且給出了實(shí)驗(yàn)結(jié)論潮针，主要包括：1）詞向量緯度。2）窗口大小倚喂。3）語料數(shù)據(jù)大小然低。與我們傳統(tǒng)調(diào)節(jié)詞向量模型的超參數(shù)是一致的，作者也強(qiáng)調(diào)了該模型訓(xùn)練的高效性务唐，且在語料庫(kù)較小時(shí)，也能取得不錯(cuò)的效果带兜。

論文的最后枫笛，作者還特地與word2vec進(jìn)行了一番對(duì)比，那當(dāng)然作者的實(shí)驗(yàn)結(jié)論是Glove模型是優(yōu)于word2vec哈哈（outperform）刚照。

------------------第三菇 - 總結(jié)------------------

3.1 總結(jié)

到這里刑巧，整篇論文的核心思想及其創(chuàng)新點(diǎn)已經(jīng)說清楚了。本論文主要集中在于闡述Glove模型的核心思想及推導(dǎo)无畔，并在之后進(jìn)行了一系列模型的調(diào)參實(shí)驗(yàn)并且呈現(xiàn)了該詞向量模型與其他模型的效果驗(yàn)證對(duì)比啊楚。最終證明了該模型的實(shí)用性及穩(wěn)定性。

簡(jiǎn)單總結(jié)一下本文就是先羅列了一下該論文的摘要浑彰，再具體介紹了一下Glove模型的核心思想及推導(dǎo)恭理。希望大家讀完本文后能進(jìn)一步加深對(duì)該論文的理解。有說的不對(duì)的地方也請(qǐng)大家指出郭变，多多交流颜价，大家一起進(jìn)步～??

最后編輯于：2020.01.04 11:48:22

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末涯保，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子周伦，更是在濱河造成了極大的恐慌夕春，老刑警劉巖，帶你破解...
沈念sama閱讀 216,692評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件专挪，死亡現(xiàn)場(chǎng)離奇詭異及志，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)寨腔，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,482評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門速侈，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人脆侮，你說我怎么就攤上這事锌畸。” “怎么了靖避？”我有些...
開封第一講書人閱讀 162,995評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵潭枣，是天一觀的道長(zhǎng)。經(jīng)常有香客問我幻捏，道長(zhǎng)盆犁，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,223評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任篡九，我火速辦了婚禮谐岁，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘榛臼。我一直安慰自己伊佃，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,245評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布沛善。她就那樣靜靜地躺著航揉，像睡著了一般。火紅的嫁衣襯著肌膚如雪金刁。梳的紋絲不亂的頭發(fā)上帅涂，一...
開封第一講書人閱讀 51,208評(píng)論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音尤蛮，去河邊找鬼媳友。笑死，一個(gè)胖子當(dāng)著我的面吹牛产捞，可吹牛的內(nèi)容都是我干的醇锚。我是一名探鬼主播，決...
沈念sama閱讀 40,091評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼坯临，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼搂抒！你這毒婦竟也來了艇搀？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,929評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤求晶，失蹤者是張志新（化名）和其女友劉穎焰雕，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芳杏，經(jīng)...
沈念sama閱讀 45,346評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡矩屁，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,570評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爵赵。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吝秕。...
茶點(diǎn)故事閱讀 39,739評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖空幻，靈堂內(nèi)的尸體忽然破棺而出烁峭，到底是詐尸還是另有隱情，我是刑警寧澤秕铛，帶...
沈念sama閱讀 35,437評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布约郁，位于F島的核電站，受9級(jí)特大地震影響但两，放射性物質(zhì)發(fā)生泄漏鬓梅。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,037評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一谨湘、第九天我趴在偏房一處隱蔽的房頂上張望绽快。院中可真熱鬧，春花似錦紧阔、人聲如沸坊罢。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,677評(píng)論 0贊 22
一樁弒父案擅耽，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)艘绍。三九已至，卻和暖如春秫筏，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背挎挖。一陣腳步聲響...
開封第一講書人閱讀 32,833評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工这敬，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蕉朵。一個(gè)月前我還...
沈念sama閱讀 47,760評(píng)論 2贊 369
代替公主和親
正文我出身青樓崔涂，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親始衅。傳聞我的和親對(duì)象是個(gè)殘疾皇子冷蚂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,647評(píng)論 2贊 354