【NLP論文筆記】Glove: Global Vectors for Word Representation(Glove詞向量理解)

本文主要用于記錄斯坦福nlp組發(fā)表于2014年的一篇論文(引用量直破5k)腺怯。該論文提出的Glove詞向量也是自Word2vec推出后另一個(gè)比較有影響力的詞向量生成方法闸衫。本筆記主要為方便初學(xué)者快速入門,以及自我回顧。

論文鏈接:https://www.aclweb.org/anthology/D14-1162
Github: https://github.com/stanfordnlp/GloVe
課程鏈接:http://cs224d.stanford.edu
(由于是斯坦福nlp實(shí)驗(yàn)組提出的,自然也上了斯坦福的cs224n的課程。)

基本目錄如下:

  1. 摘要
  2. 核心思想
  3. 總結(jié)

------------------第一菇 - 摘要------------------

1.1 論文摘要

現(xiàn)有詞向量模型(2013年仅孩,word2vec大熱)都對(duì)細(xì)粒度的語義和句法都有較好的表達(dá),但論文作者們對(duì)其背后的機(jī)制仍有詬病印蓖。他們經(jīng)過仔細(xì)的分析辽慕,在當(dāng)前詞向量模型的基礎(chǔ)上又提出了一種新的清晰可解釋的語言模型來構(gòu)成詞向量。其實(shí)該模型的本質(zhì)就是融合了當(dāng)時(shí)最新的全局矩陣分解方法(Matrix Factorization)和局部文本框捕捉方法(代表word2vec)赦肃,美其名曰全局詞向量表達(dá)溅蛉。顧名思義公浪,該模型利用了全局詞詞共現(xiàn)矩陣中的非0數(shù)據(jù)來訓(xùn)練,而不是只用了某詞的局部窗口信息船侧。實(shí)驗(yàn)表明欠气,這種新的詞向量表達(dá)方法提高了很多NLP基礎(chǔ)任務(wù)的準(zhǔn)確率。

------------------第二菇 - 核心思想------------------

2.1 論文模型核心思想

論文在介紹部分就吐槽了現(xiàn)今的兩種詞向量模型的弊端镜撩,第一種就是全局的詞-文本矩陣分解(本文不展開预柒,詳情可見LSA算法解析),該方法能有效收集的每一個(gè)詞的統(tǒng)計(jì)信息袁梗,但他們卻不能捕捉到詞的上下文信息(語義的表達(dá)能力不夠)宜鸯;第二種就是基于局部窗口信息以word2vec為代表的,這種方法雖然能在詞的語義上有更豐富的表達(dá)遮怜,但是他們卻不能很好的捕捉詞的全局統(tǒng)計(jì)信息淋袖。那當(dāng)然本文肯定是要集兩者之精華,去兩者之弊端锯梁,提出了一種全新的結(jié)合兩種方式的Glove詞向量模型适贸。在具體深入公式推導(dǎo)之前(其實(shí)我也沒打(neng)算(li)詳細(xì)鋪開模型細(xì)節(jié)推導(dǎo)orz...),還是先跟著論文一起聊一聊模型的核心思想涝桅。

直接引用文章中的例子了~作者認(rèn)為詞與詞之間共現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)是作為詞向量的重要依據(jù),因此Glove詞向量的本質(zhì)也是意圖利用這種共現(xiàn)的次數(shù)來構(gòu)造烙样。先學(xué)一波文章中的符號(hào)表達(dá)如下:

X - 詞詞共現(xiàn)矩陣
X_{ij} - 詞j在詞i的窗口中出現(xiàn)的次數(shù)
X_{i} - 詞i的所有窗口詞出現(xiàn)的次數(shù)總和(\sum_{k}(X_{ik})
P_{ij} - 詞j在詞i的窗口詞中出現(xiàn)的概率(X_{ij}/X_{i}

然后核心的思想就是冯遂,對(duì)于任意的詞i和詞j,假如有第三個(gè)詞k谒获,如果詞k與詞i相比于詞k與詞j有更深的關(guān)聯(lián)蛤肌,則我們從常理上來說,可以非常輕易的得出一個(gè)結(jié)論批狱,即裸准,

P_{ik} > P_{jk}

且這個(gè)比值較大,反之亦然赔硫。若詞k與他們倆者的關(guān)系都不大,則我們應(yīng)該不難想象,

P_{ik} \approx P_{jk}

文章中也舉了真實(shí)語料中的例子盒犹,如下圖缰揪,

sample.png

可以看出,固體與冰的共現(xiàn)率就會(huì)大于固體與水蒸氣(其他以此類推)推盛。因此峦阁,根據(jù)剛才提出的核心思想,論文中所有接下來的公式推導(dǎo)就可以用一個(gè)公式來推導(dǎo)得出耘成,該公式如下榔昔,

F(w_i, w_j, \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}

其中w_i驹闰,w_j就是我們拿來作比較的詞向量,w_k可以理解為額外的詞向量(這里學(xué)論文先留個(gè)扣哈哈)撒会。至此嘹朗,論文的核心思想算是介紹完了,下一節(jié)將進(jìn)一步推導(dǎo)模型的細(xì)節(jié)茧彤,不喜歡推導(dǎo)細(xì)節(jié)的小伙伴可以直接跳過下一章啦~

2.2 論文模型推導(dǎo)

首先骡显,向量空間本質(zhì)都是線性的,所以最普通的做法就是曾掂,倆個(gè)詞向量做差惫谤,來求解其關(guān)系,因此珠洗,上式可變?yōu)椋?/p>

F(w_i - w_j, \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}

然后我們發(fā)現(xiàn)溜歪,左邊是向量的計(jì)算,而右邊得出的值是一個(gè)標(biāo)量许蓖,因此我們做一套點(diǎn)積運(yùn)算蝴猪,

F((w_i - w_j)^T \widetilde{w_k}) = \frac{P_{ik}}{P_{jk}}

再之后,作者又在外面套了一層指數(shù)運(yùn)算(將差形式轉(zhuǎn)換為商形式)膊爪,因此自阱,使得,

\frac{F(w_{i}^{T}\widetilde{w_k})}{F(w_{j}^{T}\widetilde{w_k})} = \frac{P_{ik}}{P_{jk}}

因此米酬,為了使上式成立沛豌,我們可以得到,

F(w_{i}^{T}\widetilde{w_k}) = P_{ik} = \frac{X_{ik}}{X_i}

然后兩邊取對(duì)數(shù)赃额,我們得到加派,

w_{i}^{T}\widetilde{w_k} =log(P_{ik}) = log(X_{ik}) - log(X_{i})

這個(gè)時(shí)候仔細(xì)觀察上式,會(huì)發(fā)現(xiàn)一個(gè)對(duì)稱性的問題跳芳,即芍锦,

w_{i}^{T}\widetilde{w_k} = w_{k}^{T}\widetilde{w_i}

但是右邊的式子交換并不相等,而此時(shí)我們也發(fā)現(xiàn)log(X_i)也獨(dú)立于k飞盆,因此我們將其吸納進(jìn)w_{i}的偏置項(xiàng)b_{i}娄琉,然后同時(shí)引入w_k的偏置項(xiàng)\widetilde{b_k},最終得到桨啃,

w_{i}^{T}\widetilde{w_k} + b_i + \widetilde{b_k} = log(X_{ik})

然后作者認(rèn)為這樣的處理存在一個(gè)弊端车胡,即對(duì)于一個(gè)詞,他的每一個(gè)共現(xiàn)詞都享有相同的權(quán)重來決定該詞的詞向量照瘾,而這在常理上的理解是不合理的匈棘,因此,作者引入了一種帶權(quán)的最小二乘法來解決這種問題析命,最終的損失函數(shù)就為主卫,

J = \sum_{i,j=1}^{V}f(X_{ij})(w_{i}^{T}\widetilde{w_j} + b_i + \widetilde{b_j} - logX_{ij})^2

其中逃默,權(quán)重方程的定義與圖像如下,

weight_function.png

作者經(jīng)過實(shí)驗(yàn)得出簇搅,\alpha取值為0.75能得到最好的模型效果完域。至此,整一個(gè)模型已經(jīng)介紹完成了瘩将。接下來的論文部分還討論了一波Glove詞向量與其他詞向量的關(guān)系以及復(fù)雜度吟税,這邊我就不展開了,會(huì)在另一篇對(duì)詞向量的探索中進(jìn)行更加細(xì)致的對(duì)比姿现,有興趣的讀者可以仔細(xì)閱讀一下原論文肠仪。

2.3 論文模型分析

論文作者把自己提出的這一套詞向量構(gòu)建方法進(jìn)行了一系列的實(shí)驗(yàn),包括但不限于語義相似度备典,近義詞异旧,NER等傳統(tǒng)NLP基線任務(wù)。具體的任務(wù)指標(biāo)數(shù)據(jù)我這里就不一一展現(xiàn)了提佣,有興趣的讀者可以看原論文吮蛹。值得一提的是,作者對(duì)模型的訓(xùn)練提出了許多細(xì)節(jié)的優(yōu)化點(diǎn)拌屏,并且給出了實(shí)驗(yàn)結(jié)論潮针,主要包括:1)詞向量緯度。2)窗口大小倚喂。3)語料數(shù)據(jù)大小然低。與我們傳統(tǒng)調(diào)節(jié)詞向量模型的超參數(shù)是一致的,作者也強(qiáng)調(diào)了該模型訓(xùn)練的高效性务唐,且在語料庫(kù)較小時(shí),也能取得不錯(cuò)的效果带兜。

論文的最后枫笛,作者還特地與word2vec進(jìn)行了一番對(duì)比,那當(dāng)然作者的實(shí)驗(yàn)結(jié)論是Glove模型是優(yōu)于word2vec哈哈(outperform)刚照。

------------------第三菇 - 總結(jié)------------------

3.1 總結(jié)

到這里刑巧,整篇論文的核心思想及其創(chuàng)新點(diǎn)已經(jīng)說清楚了。本論文主要集中在于闡述Glove模型的核心思想及推導(dǎo)无畔,并在之后進(jìn)行了一系列模型的調(diào)參實(shí)驗(yàn)并且呈現(xiàn)了該詞向量模型與其他模型的效果驗(yàn)證對(duì)比啊楚。最終證明了該模型的實(shí)用性及穩(wěn)定性。

簡(jiǎn)單總結(jié)一下本文就是先羅列了一下該論文的摘要浑彰,再具體介紹了一下Glove模型的核心思想及推導(dǎo)恭理。希望大家讀完本文后能進(jìn)一步加深對(duì)該論文的理解。有說的不對(duì)的地方也請(qǐng)大家指出郭变,多多交流颜价,大家一起進(jìn)步~??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末涯保,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子周伦,更是在濱河造成了極大的恐慌夕春,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,692評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件专挪,死亡現(xiàn)場(chǎng)離奇詭異及志,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)寨腔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門速侈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人脆侮,你說我怎么就攤上這事锌畸。” “怎么了靖避?”我有些...
    開封第一講書人閱讀 162,995評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵潭枣,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我幻捏,道長(zhǎng)盆犁,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評(píng)論 1 292
  • 正文 為了忘掉前任篡九,我火速辦了婚禮谐岁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘榛臼。我一直安慰自己伊佃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評(píng)論 6 388
  • 文/花漫 我一把揭開白布沛善。 她就那樣靜靜地躺著航揉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪金刁。 梳的紋絲不亂的頭發(fā)上帅涂,一...
    開封第一講書人閱讀 51,208評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音尤蛮,去河邊找鬼媳友。 笑死,一個(gè)胖子當(dāng)著我的面吹牛产捞,可吹牛的內(nèi)容都是我干的醇锚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼坯临,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼搂抒!你這毒婦竟也來了艇搀?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤求晶,失蹤者是張志新(化名)和其女友劉穎焰雕,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體芳杏,經(jīng)...
    沈念sama閱讀 45,346評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡矩屁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了爵赵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吝秕。...
    茶點(diǎn)故事閱讀 39,739評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖空幻,靈堂內(nèi)的尸體忽然破棺而出烁峭,到底是詐尸還是另有隱情,我是刑警寧澤秕铛,帶...
    沈念sama閱讀 35,437評(píng)論 5 344
  • 正文 年R本政府宣布约郁,位于F島的核電站,受9級(jí)特大地震影響但两,放射性物質(zhì)發(fā)生泄漏鬓梅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評(píng)論 3 326
  • 文/蒙蒙 一谨湘、第九天 我趴在偏房一處隱蔽的房頂上張望绽快。 院中可真熱鬧,春花似錦紧阔、人聲如沸坊罢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)艘绍。三九已至,卻和暖如春秫筏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背挎挖。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工这敬, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蕉朵。 一個(gè)月前我還...
    沈念sama閱讀 47,760評(píng)論 2 369
  • 正文 我出身青樓崔涂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親始衅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子冷蚂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容