22.深度學(xué)習(xí)之自然語(yǔ)言處理-詞嵌入(word2vec)

22.1 詞嵌入(word2vec)

  • 自然語(yǔ)言是一套用來(lái)表達(dá)含義的復(fù)雜系統(tǒng)禽笑。
    • 在這套系統(tǒng)中,詞是表義的基本單元焚刚。
  • 詞向量是用來(lái)表示詞的向量屈梁,也可被認(rèn)為是詞的特征向量或表征嗤练。
    • 把詞映射為實(shí)數(shù)域向量的技術(shù)也叫詞嵌入(word embedding)榛了。

22.1.1 詞向量

22.1.2 神經(jīng)網(wǎng)絡(luò)模型

22.2 為何不采用one-hot向量

  • 假設(shè)詞典中不同詞的數(shù)量(詞典大小)為N潭苞,每個(gè)詞可以和從0到N-1的連續(xù)整數(shù)一一對(duì)應(yīng)忽冻。
    • 這些與詞對(duì)應(yīng)的整數(shù)叫作詞的索引。
  • 假設(shè)一個(gè)詞的索引為i此疹,為了得到該詞的one-hot向量表示僧诚,創(chuàng)建一個(gè)全0的長(zhǎng)為N的向量,并將其第i位設(shè)成1蝗碎。
  • 雖然one-hot詞向量構(gòu)造起來(lái)很容易湖笨,但通常并不是一個(gè)好選擇。
    • 一個(gè)主要的原因是蹦骑,one-hot詞向量無(wú)法準(zhǔn)確表達(dá)不同詞之間的相似度慈省,如常常使用的余弦相似度。
  • word2vec工具的提出正是為了解決上面這個(gè)問(wèn)題眠菇。
    • 它將每個(gè)詞表示成一個(gè)定長(zhǎng)的向量边败,并使得這些向量能較好地表達(dá)不同詞之間的相似和類(lèi)比關(guān)系。
    • word2vec工具包含了兩個(gè)模型:
      • 跳字模型(skip-gram)
      • 連續(xù)詞袋模型(continuous bag of words捎废,CBOW)

22.3 跳字模型

  • 跳字模型假設(shè)基于某個(gè)詞來(lái)生成它在文本序列周?chē)脑~笑窜。
    • 舉個(gè)例子,假設(shè)文本序列是“the”“man”“l(fā)oves”“his”“son”登疗。以“l(fā)oves”作為中心詞排截,設(shè)背景窗口大小為2。

    • 跳字模型所關(guān)心的是辐益,給定中心詞“l(fā)oves”断傲,生成與它距離不超過(guò)2個(gè)詞的背景詞“the”“man”“his”“son”的條件概率,即:


    • 假設(shè)給定中心詞的情況下智政,背景詞的生成是相互獨(dú)立的认罩,那么上式可以改寫(xiě)成:


  • 在跳字模型中,每個(gè)詞被表示成兩個(gè) d 維向量续捂,用來(lái)計(jì)算條件概率垦垂。
    • 假設(shè)這個(gè)詞在詞典中索引為 i ,當(dāng)它為中心詞時(shí)向量表示為疾忍,


      • 而為背景詞時(shí)向量表示為 。


    • 給定中心詞Wc生成背景詞Wo的條件概率可以通過(guò)對(duì)向量?jī)?nèi)積做softmax運(yùn)算而得到:


    • 任一中心詞生成所有背景詞的概率:


20.3.1 訓(xùn)練跳字模型

  • 跳字模型的參數(shù)是每個(gè)詞所對(duì)應(yīng)的中心詞向量和背景詞向量床三。
    • 損失函數(shù):


    • 隨機(jī)梯度下降

      • 梯度計(jì)算的關(guān)鍵是條件概率的對(duì)數(shù)有關(guān)中心詞向量和背景詞向量的梯度一罩。
      • 根據(jù)定義,首先看到:


  • 通過(guò)微分撇簿,可以得到上式中 Vc 的梯度


22.4 連續(xù)詞袋模型

  • 連續(xù)詞袋模型假設(shè)基于某中心詞在文本序列前后的背景詞來(lái)生成該中心詞聂渊。


  • 因?yàn)檫B續(xù)詞袋模型的背景詞有多個(gè)差购,將這些背景詞向量取平均,然后使用和跳字模型一樣的方法來(lái)計(jì)算條件概率汉嗽。
    • 設(shè)


      • 分別表示詞典中索引為 i 的詞作為背景詞和中心詞的向量
    • 設(shè)中心詞 Wc 在詞典中索引為 c 欲逃,背景詞


      • 在詞典中索引為


      • 那么給定背景詞生成中心詞的條件概率:



      • 那么上式可以簡(jiǎn)寫(xiě)成


    • 連續(xù)詞袋模型的似然函數(shù)是由背景詞生成任一中心詞的概率


22.4.1 訓(xùn)練連續(xù)詞袋模型

  • 訓(xùn)練連續(xù)詞袋模型同訓(xùn)練跳字模型基本一致。
    • 最小化損失函數(shù)


    • 通過(guò)微分饼暑,可以計(jì)算出上式中條件概率的對(duì)數(shù)有關(guān)任一背景詞向量


      • 的梯度:


大數(shù)據(jù)視頻推薦:
騰訊課堂
CSDN
大數(shù)據(jù)語(yǔ)音推薦:
企業(yè)級(jí)大數(shù)據(jù)技術(shù)應(yīng)用
大數(shù)據(jù)機(jī)器學(xué)習(xí)案例之推薦系統(tǒng)
自然語(yǔ)言處理
大數(shù)據(jù)基礎(chǔ)
人工智能:深度學(xué)習(xí)入門(mén)到精通

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末稳析,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子弓叛,更是在濱河造成了極大的恐慌彰居,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撰筷,死亡現(xiàn)場(chǎng)離奇詭異陈惰,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)毕籽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)抬闯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人关筒,你說(shuō)我怎么就攤上這事溶握。” “怎么了平委?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵奈虾,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我廉赔,道長(zhǎng)肉微,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任蜡塌,我火速辦了婚禮碉纳,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘馏艾。我一直安慰自己劳曹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布琅摩。 她就那樣靜靜地躺著铁孵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪房资。 梳的紋絲不亂的頭發(fā)上蜕劝,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼岖沛。 笑死暑始,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的婴削。 我是一名探鬼主播廊镜,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼唉俗!你這毒婦竟也來(lái)了嗤朴?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤互躬,失蹤者是張志新(化名)和其女友劉穎播赁,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體吼渡,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡容为,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了寺酪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坎背。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖寄雀,靈堂內(nèi)的尸體忽然破棺而出得滤,到底是詐尸還是另有隱情,我是刑警寧澤盒犹,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布懂更,位于F島的核電站,受9級(jí)特大地震影響急膀,放射性物質(zhì)發(fā)生泄漏沮协。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一卓嫂、第九天 我趴在偏房一處隱蔽的房頂上張望慷暂。 院中可真熱鬧,春花似錦晨雳、人聲如沸行瑞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)血久。三九已至,卻和暖如春帮非,著一層夾襖步出監(jiān)牢的瞬間氧吐,已是汗流浹背绷旗。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留副砍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓庄岖,卻偏偏與公主長(zhǎng)得像豁翎,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子隅忿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容