Glove詞向量

轉(zhuǎn)載自http://www.fanyeong.com/2018/02/19/glove-in-detail/

Glove詞向量出自于論文《Glove:Global Vectors for Word Representation》

什么是Glove苍在?

Glove的全稱是Global Vectors for Word Representation,中文意思是全局詞向量赤惊,它是一個(gè)基于全局詞頻統(tǒng)計(jì)(count-based&overall statistics)詞表征(word representation)工具塞淹。
跟word2vec一樣纽绍,它可以把一個(gè)單詞表示成一個(gè)由實(shí)數(shù)組成的向量,向量可以捕捉單詞之間的一些語(yǔ)義特性础芍,如相似性(similarity)旗闽、類比性(analogy)。并且通過(guò)對(duì)向量的運(yùn)算鲸郊,如歐幾里得距離或cosine相似度,可以計(jì)算兩個(gè)單詞之間的 語(yǔ)義相似性货邓。

Glove是如何實(shí)現(xiàn)的秆撮?

  1. 根據(jù)語(yǔ)料庫(kù)(corpus)構(gòu)建一個(gè)共現(xiàn)矩陣(Co-occurrence Matrix),矩陣中每一個(gè)元素X_{ij}代表單詞i和單詞j在特定大小的上下文窗口(context window)內(nèi)共同出現(xiàn)的次數(shù)换况。一般职辨,這個(gè)次數(shù)的最小值是1,但Glove做了進(jìn)一步處理:它根據(jù)兩個(gè)單詞在上下文窗口的距離d戈二,提出了一個(gè)衰減函數(shù)(decreasing weighting):decay=1/d用于計(jì)算權(quán)重舒裤,也就是說(shuō)距離越遠(yuǎn)的兩個(gè)單詞所占總計(jì)數(shù)(total count)的權(quán)重越小。

  2. 構(gòu)建詞向量(Word Vector)和共現(xiàn)矩陣(Co-occurrence Matrix)之間的近似關(guān)系:
    w_i^T\bar{w}_j+b_i+\bar b_j=\log(X_{ij})
    其中觉吭,w_i\bar{w}_j是要求的詞向量腾供,b_i\bar_j分別是兩個(gè)詞向量的偏置項(xiàng)鲜滩。

3.構(gòu)造loss function:
J=\sum_{i,j=1}^Vf(X_{ij})(w_i^T\bar{w}_j+b_i+\bar b_j-\log(X_{ij}))^2
這個(gè)損失函數(shù)是最簡(jiǎn)單的mean square loss伴鳖,只不過(guò)在此基礎(chǔ)上增加了一個(gè)權(quán)重函數(shù)f(X_{ij}),它的作用在于:對(duì)于在一個(gè)語(yǔ)料庫(kù)中經(jīng)常一起出現(xiàn)的單詞(frequent occurrence)绒北,

  • 這些單詞的權(quán)重要大于那些很少在一起出現(xiàn)的單詞(rare occurrence)黎侈,所以這個(gè)函數(shù)是非遞減函數(shù)察署;

  • 這些單詞的權(quán)重也不能太大(overweighted)闷游,當(dāng)?shù)竭_(dá)一定程度之后應(yīng)該不再增加;

  • 如果兩個(gè)單詞沒(méi)有在一起出現(xiàn),即X_{ij}=0脐往,那么它們不應(yīng)該參與到loss function 的計(jì)算中去休吠,即f(0)=0

文中,作者采用了符合上述條件的分段函數(shù):
f(x)=\begin{cases} (x/x_{max})^{\alpha},\, if x<x_{max} \\ 1,\, otherwise \end{cases}

分段函數(shù)

文中的所有實(shí)驗(yàn)业簿,\alpha的取值都是0.75瘤礁, x_{max}的取值都是1000

Glove是怎么訓(xùn)練的梅尤?

雖然很多人聲稱Glove是一種無(wú)監(jiān)督(unsupervised learning)的學(xué)習(xí)方式柜思,即不需要人工標(biāo)注數(shù)據(jù),但實(shí)際上它還是有標(biāo)簽的巷燥,這個(gè)標(biāo)簽就是\log(X_{ij})赡盘,而向量x_i\bar x_j就是要不斷更新學(xué)習(xí)的參數(shù)。因此缰揪,本質(zhì)上它的訓(xùn)練方式和監(jiān)督學(xué)習(xí)的訓(xùn)練方式?jīng)]有什么不同陨享,都是基于梯度下降的。

訓(xùn)練的具體做法是:采用AdaGrad的梯度下降算法钝腺,對(duì)矩陣X中的所有非零元素進(jìn)行隨機(jī)采樣抛姑,學(xué)習(xí)率設(shè)置為0.05,在vector size小于300的情況下迭代50次艳狐,其他大小的vector size迭代100次定硝,直至收斂。

因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=X" alt="X" mathimg="1">是對(duì)稱的毫目,所以最終學(xué)到的兩個(gè)詞向量w_i\bar{w}_j應(yīng)該也是對(duì)稱的喷斋,等價(jià)的,只不過(guò)由于初始值不一樣蒜茴,導(dǎo)致最終的值不一樣星爪。為了提高魯棒性,最終選擇兩者之和w_i+\bar{w}_j作為最終的詞向量(兩者的初始化不同相當(dāng)于加了不同的隨機(jī)噪聲所以能提高魯棒性)粉私。

實(shí)驗(yàn)結(jié)果

這個(gè)圖一共采用了三個(gè)指標(biāo):語(yǔ)義準(zhǔn)確度顽腾,語(yǔ)法準(zhǔn)確度以及總體準(zhǔn)確度。那么我們不難發(fā)現(xiàn)Vector Dimension在300時(shí)能達(dá)到最佳诺核,而context Windows size大致在6到10之間抄肖。

Glove與LSA、word2vec的比較

  • LSA(Latent Semantic Analysis)是一種比較早的count-based的詞向量 表征工具窖杀,是基于co-occurence matrix的漓摩。其采用基于奇異值分解(SVD)的矩陣分解技術(shù)對(duì)大矩陣進(jìn)行降維,因?yàn)镾VD的復(fù)雜度很高入客,所以計(jì)算代價(jià)比較大管毙。此外腿椎,它對(duì)所有單詞的統(tǒng)計(jì)權(quán)重都是一致的。
  • word2vec最大的缺點(diǎn)是只利用了固定窗口內(nèi)的語(yǔ)料夭咬,而沒(méi)有充分利用所有的語(yǔ)料啃炸。
    所以Glove是把兩者的優(yōu)點(diǎn)結(jié)合了起來(lái)。

參考實(shí)踐代碼

如果本身語(yǔ)料比較小卓舵,微調(diào)沒(méi)什么作用南用,或者自己直接訓(xùn)練沒(méi)有很強(qiáng)的算力,直接使用采用大數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的glove詞向量也會(huì)有比較好的效果掏湾。

import numpy as np

DEFAULT_FILE_PATH = "utils/datasets/glove.6B.50d.txt"

def loadWordVectors(tokens, filepath=DEFAULT_FILE_PATH, dimensions=50):
    """Read pretrained GloVe vectors"""
    wordVectors = np.zeros((len(tokens), dimensions))
    with open(filepath) as ifs:
        for line in ifs:
            line = line.strip()
            if not line:
                continue
            row = line.split()
            token = row[0]
            if token not in tokens:
                continue
            data = [float(x) for x in row[1:]]
            if len(data) != dimensions:
                raise RuntimeError("wrong number of dimensions")
            wordVectors[tokens[token]] = np.asarray(data)
    return wordVectors
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末吱瘩,一起剝皮案震驚了整個(gè)濱河市贷岸,隨后出現(xiàn)的幾起案子往果,更是在濱河造成了極大的恐慌桨啃,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砚嘴,死亡現(xiàn)場(chǎng)離奇詭異十酣,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)际长,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門耸采,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人工育,你說(shuō)我怎么就攤上這事虾宇。” “怎么了如绸?”我有些...
    開(kāi)封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵嘱朽,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我怔接,道長(zhǎng)搪泳,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任扼脐,我火速辦了婚禮岸军,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘瓦侮。我一直安慰自己艰赞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布肚吏。 她就那樣靜靜地躺著方妖,像睡著了一般。 火紅的嫁衣襯著肌膚如雪罚攀。 梳的紋絲不亂的頭發(fā)上党觅,一...
    開(kāi)封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天雌澄,我揣著相機(jī)與錄音,去河邊找鬼仔役。 笑死,一個(gè)胖子當(dāng)著我的面吹牛是己,可吹牛的內(nèi)容都是我干的又兵。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼卒废,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼沛厨!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起摔认,我...
    開(kāi)封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤逆皮,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后参袱,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體电谣,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年抹蚀,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了剿牺。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡环壤,死狀恐怖晒来,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情郑现,我是刑警寧澤湃崩,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站接箫,受9級(jí)特大地震影響攒读,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜辛友,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一整陌、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瞎领,春花似錦泌辫、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至驼修,卻和暖如春殿遂,著一層夾襖步出監(jiān)牢的瞬間诈铛,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工墨礁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留幢竹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓恩静,卻偏偏與公主長(zhǎng)得像焕毫,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子驶乾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容