22.1 詞嵌入(word2vec)
- 自然語(yǔ)言是一套用來(lái)表達(dá)含義的復(fù)雜系統(tǒng)禽笑。
- 在這套系統(tǒng)中,詞是表義的基本單元焚刚。
- 詞向量是用來(lái)表示詞的向量屈梁,也可被認(rèn)為是詞的特征向量或表征嗤练。
- 把詞映射為實(shí)數(shù)域向量的技術(shù)也叫詞嵌入(word embedding)榛了。
22.1.1 詞向量
22.1.2 神經(jīng)網(wǎng)絡(luò)模型
22.2 為何不采用one-hot向量
- 假設(shè)詞典中不同詞的數(shù)量(詞典大小)為N潭苞,每個(gè)詞可以和從0到N-1的連續(xù)整數(shù)一一對(duì)應(yīng)忽冻。
- 這些與詞對(duì)應(yīng)的整數(shù)叫作詞的索引。
- 假設(shè)一個(gè)詞的索引為i此疹,為了得到該詞的one-hot向量表示僧诚,創(chuàng)建一個(gè)全0的長(zhǎng)為N的向量,并將其第i位設(shè)成1蝗碎。
- 雖然one-hot詞向量構(gòu)造起來(lái)很容易湖笨,但通常并不是一個(gè)好選擇。
- 一個(gè)主要的原因是蹦骑,one-hot詞向量無(wú)法準(zhǔn)確表達(dá)不同詞之間的相似度慈省,如常常使用的余弦相似度。
- word2vec工具的提出正是為了解決上面這個(gè)問(wèn)題眠菇。
- 它將每個(gè)詞表示成一個(gè)定長(zhǎng)的向量边败,并使得這些向量能較好地表達(dá)不同詞之間的相似和類(lèi)比關(guān)系。
- word2vec工具包含了兩個(gè)模型:
- 跳字模型(skip-gram)
- 連續(xù)詞袋模型(continuous bag of words捎废,CBOW)
22.3 跳字模型
- 跳字模型假設(shè)基于某個(gè)詞來(lái)生成它在文本序列周?chē)脑~笑窜。
舉個(gè)例子,假設(shè)文本序列是“the”“man”“l(fā)oves”“his”“son”登疗。以“l(fā)oves”作為中心詞排截,設(shè)背景窗口大小為2。
-
跳字模型所關(guān)心的是辐益,給定中心詞“l(fā)oves”断傲,生成與它距離不超過(guò)2個(gè)詞的背景詞“the”“man”“his”“son”的條件概率,即:
-
假設(shè)給定中心詞的情況下智政,背景詞的生成是相互獨(dú)立的认罩,那么上式可以改寫(xiě)成:
- 在跳字模型中,每個(gè)詞被表示成兩個(gè) d 維向量续捂,用來(lái)計(jì)算條件概率垦垂。
-
假設(shè)這個(gè)詞在詞典中索引為 i ,當(dāng)它為中心詞時(shí)向量表示為疾忍,
-
而為背景詞時(shí)向量表示為 。
-
-
給定中心詞Wc生成背景詞Wo的條件概率可以通過(guò)對(duì)向量?jī)?nèi)積做softmax運(yùn)算而得到:
-
任一中心詞生成所有背景詞的概率:
-
20.3.1 訓(xùn)練跳字模型
- 跳字模型的參數(shù)是每個(gè)詞所對(duì)應(yīng)的中心詞向量和背景詞向量床三。
-
損失函數(shù):
-
隨機(jī)梯度下降
- 梯度計(jì)算的關(guān)鍵是條件概率的對(duì)數(shù)有關(guān)中心詞向量和背景詞向量的梯度一罩。
-
根據(jù)定義,首先看到:
-
-
通過(guò)微分撇簿,可以得到上式中 Vc 的梯度
22.4 連續(xù)詞袋模型
-
連續(xù)詞袋模型假設(shè)基于某中心詞在文本序列前后的背景詞來(lái)生成該中心詞聂渊。
- 因?yàn)檫B續(xù)詞袋模型的背景詞有多個(gè)差购,將這些背景詞向量取平均,然后使用和跳字模型一樣的方法來(lái)計(jì)算條件概率汉嗽。
-
設(shè)
- 分別表示詞典中索引為 i 的詞作為背景詞和中心詞的向量
-
設(shè)中心詞 Wc 在詞典中索引為 c 欲逃,背景詞
-
在詞典中索引為
-
那么給定背景詞生成中心詞的條件概率:
-
-
記
-
那么上式可以簡(jiǎn)寫(xiě)成
-
-
連續(xù)詞袋模型的似然函數(shù)是由背景詞生成任一中心詞的概率
-
22.4.1 訓(xùn)練連續(xù)詞袋模型
- 訓(xùn)練連續(xù)詞袋模型同訓(xùn)練跳字模型基本一致。
-
最小化損失函數(shù)
-
通過(guò)微分饼暑,可以計(jì)算出上式中條件概率的對(duì)數(shù)有關(guān)任一背景詞向量
-
的梯度:
-
-
大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語(yǔ)音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門(mén)到精通