本文主要用于記錄斯坦福nlp組發(fā)表于2014年的一篇論文(引用量直破5k)腺怯。該論文提出的Glove詞向量也是自Word2vec推出后另一個(gè)比較有影響力的詞向量生成方法闸衫。本筆記主要為方便初學(xué)者快速入門,以及自我回顧。
論文鏈接:https://www.aclweb.org/anthology/D14-1162
Github: https://github.com/stanfordnlp/GloVe
課程鏈接:http://cs224d.stanford.edu
(由于是斯坦福nlp實(shí)驗(yàn)組提出的,自然也上了斯坦福的cs224n的課程。)
基本目錄如下:
- 摘要
- 核心思想
- 總結(jié)
------------------第一菇 - 摘要------------------
1.1 論文摘要
現(xiàn)有詞向量模型(2013年仅孩,word2vec大熱)都對(duì)細(xì)粒度的語義和句法都有較好的表達(dá),但論文作者們對(duì)其背后的機(jī)制仍有詬病印蓖。他們經(jīng)過仔細(xì)的分析辽慕,在當(dāng)前詞向量模型的基礎(chǔ)上又提出了一種新的清晰可解釋的語言模型來構(gòu)成詞向量。其實(shí)該模型的本質(zhì)就是融合了當(dāng)時(shí)最新的全局矩陣分解方法(Matrix Factorization)和局部文本框捕捉方法(代表word2vec)赦肃,美其名曰全局詞向量表達(dá)溅蛉。顧名思義公浪,該模型利用了全局詞詞共現(xiàn)矩陣中的非0數(shù)據(jù)來訓(xùn)練,而不是只用了某詞的局部窗口信息船侧。實(shí)驗(yàn)表明欠气,這種新的詞向量表達(dá)方法提高了很多NLP基礎(chǔ)任務(wù)的準(zhǔn)確率。
------------------第二菇 - 核心思想------------------
2.1 論文模型核心思想
論文在介紹部分就吐槽了現(xiàn)今的兩種詞向量模型的弊端镜撩,第一種就是全局的詞-文本矩陣分解(本文不展開预柒,詳情可見LSA算法解析),該方法能有效收集的每一個(gè)詞的統(tǒng)計(jì)信息袁梗,但他們卻不能捕捉到詞的上下文信息(語義的表達(dá)能力不夠)宜鸯;第二種就是基于局部窗口信息以word2vec為代表的,這種方法雖然能在詞的語義上有更豐富的表達(dá)遮怜,但是他們卻不能很好的捕捉詞的全局統(tǒng)計(jì)信息淋袖。那當(dāng)然本文肯定是要集兩者之精華,去兩者之弊端锯梁,提出了一種全新的結(jié)合兩種方式的Glove詞向量模型适贸。在具體深入公式推導(dǎo)之前(其實(shí)我也沒打(neng)算(li)詳細(xì)鋪開模型細(xì)節(jié)推導(dǎo)orz...),還是先跟著論文一起聊一聊模型的核心思想涝桅。
直接引用文章中的例子了~作者認(rèn)為詞與詞之間共現(xiàn)的統(tǒng)計(jì)數(shù)據(jù)是作為詞向量的重要依據(jù),因此Glove詞向量的本質(zhì)也是意圖利用這種共現(xiàn)的次數(shù)來構(gòu)造烙样。先學(xué)一波文章中的符號(hào)表達(dá)如下:
- 詞詞共現(xiàn)矩陣
- 詞在詞的窗口中出現(xiàn)的次數(shù)
- 詞的所有窗口詞出現(xiàn)的次數(shù)總和()
- 詞在詞的窗口詞中出現(xiàn)的概率()
然后核心的思想就是冯遂,對(duì)于任意的詞和詞,假如有第三個(gè)詞谒获,如果詞與詞相比于詞與詞有更深的關(guān)聯(lián)蛤肌,則我們從常理上來說,可以非常輕易的得出一個(gè)結(jié)論批狱,即裸准,
且這個(gè)比值較大,反之亦然赔硫。若詞與他們倆者的關(guān)系都不大,則我們應(yīng)該不難想象,
文章中也舉了真實(shí)語料中的例子盒犹,如下圖缰揪,
可以看出,固體與冰的共現(xiàn)率就會(huì)大于固體與水蒸氣(其他以此類推)推盛。因此峦阁,根據(jù)剛才提出的核心思想,論文中所有接下來的公式推導(dǎo)就可以用一個(gè)公式來推導(dǎo)得出耘成,該公式如下榔昔,
其中驹闰,就是我們拿來作比較的詞向量,可以理解為額外的詞向量(這里學(xué)論文先留個(gè)扣哈哈)撒会。至此嘹朗,論文的核心思想算是介紹完了,下一節(jié)將進(jìn)一步推導(dǎo)模型的細(xì)節(jié)茧彤,不喜歡推導(dǎo)細(xì)節(jié)的小伙伴可以直接跳過下一章啦~
2.2 論文模型推導(dǎo)
首先骡显,向量空間本質(zhì)都是線性的,所以最普通的做法就是曾掂,倆個(gè)詞向量做差惫谤,來求解其關(guān)系,因此珠洗,上式可變?yōu)椋?/p>
然后我們發(fā)現(xiàn)溜歪,左邊是向量的計(jì)算,而右邊得出的值是一個(gè)標(biāo)量许蓖,因此我們做一套點(diǎn)積運(yùn)算蝴猪,
再之后,作者又在外面套了一層指數(shù)運(yùn)算(將差形式轉(zhuǎn)換為商形式)膊爪,因此自阱,使得,
因此米酬,為了使上式成立沛豌,我們可以得到,
然后兩邊取對(duì)數(shù)赃额,我們得到加派,
這個(gè)時(shí)候仔細(xì)觀察上式,會(huì)發(fā)現(xiàn)一個(gè)對(duì)稱性的問題跳芳,即芍锦,
但是右邊的式子交換并不相等,而此時(shí)我們也發(fā)現(xiàn)也獨(dú)立于k飞盆,因此我們將其吸納進(jìn)的偏置項(xiàng)娄琉,然后同時(shí)引入的偏置項(xiàng),最終得到桨啃,
然后作者認(rèn)為這樣的處理存在一個(gè)弊端车胡,即對(duì)于一個(gè)詞,他的每一個(gè)共現(xiàn)詞都享有相同的權(quán)重來決定該詞的詞向量照瘾,而這在常理上的理解是不合理的匈棘,因此,作者引入了一種帶權(quán)的最小二乘法來解決這種問題析命,最終的損失函數(shù)就為主卫,
其中逃默,權(quán)重方程的定義與圖像如下,
作者經(jīng)過實(shí)驗(yàn)得出簇搅,能得到最好的模型效果完域。至此,整一個(gè)模型已經(jīng)介紹完成了瘩将。接下來的論文部分還討論了一波Glove詞向量與其他詞向量的關(guān)系以及復(fù)雜度吟税,這邊我就不展開了,會(huì)在另一篇對(duì)詞向量的探索中進(jìn)行更加細(xì)致的對(duì)比姿现,有興趣的讀者可以仔細(xì)閱讀一下原論文肠仪。
2.3 論文模型分析
論文作者把自己提出的這一套詞向量構(gòu)建方法進(jìn)行了一系列的實(shí)驗(yàn),包括但不限于語義相似度备典,近義詞异旧,NER等傳統(tǒng)NLP基線任務(wù)。具體的任務(wù)指標(biāo)數(shù)據(jù)我這里就不一一展現(xiàn)了提佣,有興趣的讀者可以看原論文吮蛹。值得一提的是,作者對(duì)模型的訓(xùn)練提出了許多細(xì)節(jié)的優(yōu)化點(diǎn)拌屏,并且給出了實(shí)驗(yàn)結(jié)論潮针,主要包括:1)詞向量緯度。2)窗口大小倚喂。3)語料數(shù)據(jù)大小然低。與我們傳統(tǒng)調(diào)節(jié)詞向量模型的超參數(shù)是一致的,作者也強(qiáng)調(diào)了該模型訓(xùn)練的高效性务唐,且在語料庫(kù)較小時(shí),也能取得不錯(cuò)的效果带兜。
論文的最后枫笛,作者還特地與word2vec進(jìn)行了一番對(duì)比,那當(dāng)然作者的實(shí)驗(yàn)結(jié)論是Glove模型是優(yōu)于word2vec哈哈(outperform)刚照。
------------------第三菇 - 總結(jié)------------------
3.1 總結(jié)
到這里刑巧,整篇論文的核心思想及其創(chuàng)新點(diǎn)已經(jīng)說清楚了。本論文主要集中在于闡述Glove模型的核心思想及推導(dǎo)无畔,并在之后進(jìn)行了一系列模型的調(diào)參實(shí)驗(yàn)并且呈現(xiàn)了該詞向量模型與其他模型的效果驗(yàn)證對(duì)比啊楚。最終證明了該模型的實(shí)用性及穩(wěn)定性。
簡(jiǎn)單總結(jié)一下本文就是先羅列了一下該論文的摘要浑彰,再具體介紹了一下Glove模型的核心思想及推導(dǎo)恭理。希望大家讀完本文后能進(jìn)一步加深對(duì)該論文的理解。有說的不對(duì)的地方也請(qǐng)大家指出郭变,多多交流颜价,大家一起進(jìn)步~??