學習筆記|Generating Word Embeddings

寫在最前:本篇學習筆記是我在DUTIR情感計算組組會準備主講過程的一些記錄蓖康,通過閱讀了一些博客以及論文筐眷,整理的學習筆記黎烈。初出茅廬,如有錯誤還請多多指教匀谣。

一照棋、前言

為了完成自然語言處理的任務我們需要將詞進行向量化,即將文字數(shù)字化武翎。最簡單的詞表示方法是One hot Representation烈炭,其實質就是構造一個維度是詞表大小的向量,其中絕大多數(shù)元素為 0宝恶,只有一個維度的值為 1符隙,這個維度就代表了當前的詞。One hot的詞表示方法很容易理解卑惜,可以將文字數(shù)字化膏执,但是卻不能很好的表達詞語的含義,而且NLP任務的語料通常很大露久,one hot的表示方法就會形成一個特別長的向量更米,不利于計算。

Word embedding[1]就是融合了語言模型和NLP特征學習技術的一種低維分布式詞表示毫痕。區(qū)別于one hot的詞表示方法征峦,word embedding可以避免大量詞匯的數(shù)據(jù)稀疏性迟几,同時對數(shù)據(jù)進行降維,以及在句子級上的表示融入了詞與詞之間的相互關系±赴剩現(xiàn)有的最常用类腮、最流行的生成語言模型及詞向量的方法就是Word2Vec和Glove。下面就簡單介紹一下Word2Vec和Glove的原理蛉加,以及一篇用ELM方法生成詞向量的論文蚜枢。

二、Word2Vec

在介紹Word2Vec之前针饥,簡單介紹一下神經(jīng)概率語言模型厂抽。該模型是Bengio等人[2]在2003年提出的。圖1是神經(jīng)概率語言模型的架構圖丁眼。

圖1 神經(jīng)概率語言模型架構圖[2]

從圖中可以看出筷凤,該模型主要包括輸入層,投影層苞七,隱藏層以及輸出層藐守。在隱藏層使用雙曲正切函數(shù)tanh作為激活函數(shù),在輸出層進行softmax歸一化運算蹂风。了解了神經(jīng)概率語言模型的基本架構卢厂,我們就可以將Word2Vec中使用的網(wǎng)絡結構與之進行對比了。Word2Vec包含兩種模型CBOW和Skip-gram硫眨,包含兩種架構Hierarchical Softmax和Negative Sampling足淆。

CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)都是三層的網(wǎng)絡結構[3],包括輸入層、投影層和輸出層族奢。CBOW的訓練目標是通過上下文預測目標詞姥闭,與之相反,Skip-gram的訓練目標則是輸入目標詞越走,輸出目標詞上下文的詞向量棚品。由圖2、3可以直觀地看出這兩個模型的結構廊敌。CBOW模型輸入的是context中2c個詞的詞向量铜跑,對于從輸入層到投影層的映射,沒有采取神經(jīng)網(wǎng)絡的線性變換加激活函數(shù)的方法骡澈,而是采用簡單的對所有輸入詞向量求和的方法锅纺,這也是與神經(jīng)概率語言模型不一樣的地方之一。對于Skip-gram模型肋殴,輸入層到投影層的過程則是一個恒等的映射囤锉。

?圖2 CBOW模型[4]
?圖3 Skip-gram模型[4]??

2.1基于Hierarchical Softmax的CBOW和Skip-gram

首先我們要明確上述兩個模型基于Hierarchical Softmax的訓練目標坦弟,CBOW的目標函數(shù)與神經(jīng)概率語言模型的一致:

而Skip-gram的目標函數(shù)則是:

我們的主要工作就是求解出上述公式中的兩個概率值。

為了避免要計算所有詞的softmax概率官地,Word2Vec采用了哈夫曼樹來代替從投影層到輸出層的映射酿傍。Word2Vec有自己的構造哈夫曼樹的規(guī)則:1.這棵哈夫曼樹構造的基礎是在語料中每個詞的詞頻;2.與常規(guī)不同驱入,Word2Vec中規(guī)定赤炒,詞頻大的為左孩子,詞頻小的為右孩子亏较;3.哈夫曼編碼時將0看做正類可霎,1看做負類。例如一個語料中有“他”宴杀、“十分”癣朗、“喜歡”、“喝”旺罢、“雪碧”這5個詞旷余,他們在語料中對應的詞頻分別為“15”、“8”扁达、“6”正卧、“3”、“2”跪解。我們可以構造如圖4的哈夫曼樹炉旷。

圖4 哈夫曼樹

我們現(xiàn)在想要輸出詞w =“雪碧”的情況,從根節(jié)點開始向下尋找這個詞叉讥,把每個分支看成一個二分類窘行,每次分類都會產生一個概率,我們將正類的概率記為p图仓,那么是負類的概率就是1-p罐盔,把各分支上的概率乘起來就是w =“雪碧”的概率值。也因為這種一層一層向下尋找的機制救崔,所以這種樹形的輸出被稱為層級式softmax惶看。具體的梯度計算過程本文就不在介紹了。

2.2基于 Negative Sampling 的CBOW和Skip-gram

如果遇到了一個生僻詞六孵,由于它在語料中的詞頻特別低纬黎,我們就需要在哈夫曼樹中走很久,為了解決這個問題劫窒,引入了Negative Sampling本今。其原理就是中心詞w和context(w),存在唯一正例,我們通過唯一正例和neg個負例诈泼,進行二元邏輯回歸懂拾,最終得到每個詞的詞向量。我們首先將語料中的每個詞按照詞頻映射到一條長度為1的線段上:

圖5 對應關系

三铐达、Glove

Word2Vec主要利用了局部上下文的關系岖赋,GloVe模型就是既使用了語料庫的全局統(tǒng)計特征,也使用了局部的上下文特征瓮孙,以此引入了詞對的共現(xiàn)矩陣(記為X)唐断。詞對共現(xiàn)矩陣X中的元素Xij表示語料庫中詞j出現(xiàn)在詞i上下文中的次數(shù),那么Xi就表示語料庫中所有詞出現(xiàn)在詞i上下文中的總次數(shù)杭抠。由此我們可以得出詞j出現(xiàn)在詞i上下文的概率Pij:

Glove的作者以目標詞語ice和steam為例脸甘,討論他們的共現(xiàn)概率。

圖6 概率和比率

作者在這里引入了Ratio這個值偏灿,通過觀察發(fā)現(xiàn)了Ratio這個值的一些規(guī)律丹诀,Glove模型就是利用的Ratio值的規(guī)律:

表1?Ratio值規(guī)律總結[5]

GloVe模型的訓練目標就是得到每一個詞的向量表示。假設現(xiàn)在已知詞i,j,k的詞向量wi,wj,wk翁垂。作者認為铆遭,這三個向量通過某種函數(shù)的作用后所呈現(xiàn)出來的規(guī)律和Ratio=Pik/Pjk具有一致性,即相等沿猜,也就可以認為詞向量中包含了共現(xiàn)概率矩陣中的信息枚荣。所以這里的問題就是尋找一個函數(shù)F使得下式成立:

這個函數(shù)的構造過程可以看出作者的膽大心細。感興趣的可以自行閱讀GloVe模型 - Weirping - 博客園啼肩。

四橄妆、論文

《Generating Word Embeddings?from an Extreme Learning Machine for Sentiment Analysis and Sequence Labeling Tasks》是發(fā)表在Cognitive Computation2018上的論文。

4.1模型介紹

這篇論文使用了極限學習機(ELM)與自動編碼器結合來生成詞向量祈坠。對ELM感興趣的可以參閱極限學習機(ELM)的使用 - CSDN博客害碾。

圖7 ELM模型

ELM的工作原理十分簡單,已知輸入X和期望T的輸出颁虐,可以求得隱藏層的輸出H蛮原。由已知的H和T,就可以求解出隱藏層到輸出層的權重值β另绩。自動編碼器是一種神經(jīng)網(wǎng)絡,通過壓縮隱藏層中的輸入特征向量花嘶,然后將其解壓縮到輸出層笋籽,實現(xiàn)特征提取和降維。將ELM模型與自動編碼器相結合椭员,即讓期望輸出近似等于輸入车海,計算得到的權重β作為最終的詞向量。

在設置詞對共現(xiàn)矩陣權重的時候,作者參考了文獻[6]的思想侍芝,認為上下文單詞在單詞-上下文矩陣中越接近目標單詞研铆,單詞對就越重要,因此應該給出更高的權重州叠,然后隨著距離的線性下降棵红。用1/distance給每個詞對分配權重。

4.2實驗部分

實驗中用來訓練詞向量的語料如圖8所示咧栗。

圖8

實驗步驟如下:

1.統(tǒng)計預料中最短文本次數(shù)記為M逆甜,統(tǒng)計每個詞的詞頻F,通過F≥M構建詞表V致板。

2.設置窗口大小C交煞,給詞對分配權重

3.對單詞-上下文矩陣進行歸一化

4.計算隱藏層輸出H

5.得到結果

作者將訓練好的詞向量應用到了情感分類和序列標注的任務中。情感分類任務使用的是邏輯回歸斟或,序列標注任務使用的是RNN素征。

圖9


圖10

圖9、圖10顯示了論文中生成詞向量的算法較之Glove和Word2Vec在完成NLP任務中有細微提升萝挤。

4.3小結

ELM和Word2Vec都是三層網(wǎng)絡御毅,Word2Vec需要不斷迭代得到最終結果,而ELM只需要一次計算平斩,同時ELM借鑒了Glove的思想亚享,既考慮了局部上下文,又考慮了全局上下文绘面。論文通過完成NLP實驗和語義分析論證算法的有效性欺税。

參考文獻:

[1]Lauren P, Qu G, Yang J, et al. Generating Word Embeddings from an Extreme Learning Machine for Sentiment Analysis and Sequence Labeling Tasks[J]. Cognitive Computation, 2018(3):1-14.

[2]Journal of Machine Learning Research 3 (2003) 1137--1155 Submitted 4/02; Published 2/03 A Neural Probabilistic Language Model

[3]博客:word2vec 中的數(shù)學原理詳解https://blog.csdn.net/itplus/article/details/37969519

[4]Mikolov T, Le Q V, Sutskever I. Exploiting Similarities among Languages for Machine Translation[J]. Computer Science, 2013.

[5]博客:Glove模型https://www.cnblogs.com/Weirping/p/7999979.html

[6]Bullinaria J A, Levy J P. Extracting semantic representations from word co-occurrence statistics: a computational study[J]. Behavior Research Methods, 2007, 39(3):510-526.

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市揭璃,隨后出現(xiàn)的幾起案子晚凿,更是在濱河造成了極大的恐慌,老刑警劉巖瘦馍,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件歼秽,死亡現(xiàn)場離奇詭異,居然都是意外死亡情组,警方通過查閱死者的電腦和手機燥筷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來院崇,“玉大人肆氓,你說我怎么就攤上這事〉装辏” “怎么了谢揪?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我拨扶,道長凳鬓,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任患民,我火速辦了婚禮缩举,結果婚禮上,老公的妹妹穿的比我還像新娘酒奶。我一直安慰自己蚁孔,他們只是感情好,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布惋嚎。 她就那樣靜靜地躺著杠氢,像睡著了一般。 火紅的嫁衣襯著肌膚如雪另伍。 梳的紋絲不亂的頭發(fā)上鼻百,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天,我揣著相機與錄音摆尝,去河邊找鬼温艇。 笑死,一個胖子當著我的面吹牛堕汞,可吹牛的內容都是我干的勺爱。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼讯检,長吁一口氣:“原來是場噩夢啊……” “哼琐鲁!你這毒婦竟也來了?” 一聲冷哼從身側響起人灼,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤围段,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后投放,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體奈泪,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年灸芳,在試婚紗的時候發(fā)現(xiàn)自己被綠了涝桅。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡烙样,死狀恐怖苹支,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情误阻,我是刑警寧澤,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站究反,受9級特大地震影響寻定,放射性物質發(fā)生泄漏。R本人自食惡果不足惜精耐,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一狼速、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧卦停,春花似錦向胡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至小槐,卻和暖如春拇派,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背凿跳。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工件豌, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人控嗜。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓茧彤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疆栏。 傳聞我的和親對象是個殘疾皇子曾掂,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內容