【word2vec學習筆記】1.什么是word2vec

@author: Panverson

背景和誕生

在word2vec誕生之前蚂踊,利用機器學習方法解決自然語言處理問題使脱货,一般都是用one-hot編碼(可以翻譯成“獨熱編碼”)去表征詞語城须。one-hot編碼是一種稀疏矩陣碘菜,計算時會帶來很多麻煩凹蜈,因為:

  1. 向量的維度會隨著句子的詞的數(shù)量類型增大而增大;
  2. 任意兩個詞之間都是孤立的忍啸,無法表示語義層面上詞匯之間的相關信息.

PS:當然踪区,在深度學習中涉及到矩陣相乘,有人會說one-hot編碼算起來十分麻煩(有多少單詞這個矩陣就有多少維數(shù))吊骤。事實上缎岗,one-hot編碼算起來一點也不麻煩,因為它是稀疏的白粉,矩陣中只有一個數(shù)字是1传泊,其他都是0。學過線代的都知道鸭巴,這種相乘的計算其實是很方便的眷细。


one-hot計算示意

傳統(tǒng)的獨熱表示僅僅將詞符號化,不包含任何語義信息鹃祖。如何將語義融入到詞表示中溪椎?Harris 在 1954 年提出的“分布假說”為這一設想提供了理論基礎:上下文相似的詞,其語義也相似恬口。Firth 在 1957年對分布假說進行了進一步闡述和明確:詞的語義由其上下文決定校读。
所以我們可以將我們的任務拆解成兩部分:

  1. 選擇一種方式描述上下文;
  2. 選擇一種“模型”刻畫某個詞(即“目標詞”)與其上下文之間的關系祖能。

什么意思呢歉秫?可以這么理解:
以CBOW模型為例,如果有一個句子“我今天聽了周杰倫的歌”养铸,在訓練的時候雁芙,將“我今天聽了周杰倫的”作為輸入轧膘,預測出最后一個詞是“歌”。
分布式表示的較大優(yōu)點在于它具有非常強大的表征能力兔甘,比如n維向量每維k個值谎碍,可以表征k的n次方個概念。下圖的神經(jīng)網(wǎng)絡語言模型(NNLM)采用的就是文本分布式表示洞焙。而詞向量(word embedding)是訓練該語言模型的一個附加產(chǎn)物蟆淀,即圖中的矩陣C。

文本的分布式表示

這個時候闽晦,word2vec就誕生了扳碍。其實,word2vec是詞嵌入(word embedding)的一種方式仙蛉。它將上文提到的one-hot的兩個缺點解決了:

  1. 將vector每一個元素由整形改為浮點型笋敞,變?yōu)檎麄€實數(shù)范圍的表示。將原來稀疏的巨大維度壓縮嵌入到一個更小維度的空間荠瘪。
  2. 矩陣的每個維度都代表一定的語義夯巷。
    例如:
    對于訓練好的幾個詞語,可能是這樣的:


    word2vec

    可以得出這個結論:


    Man - King = Woman - Queen

    這就是word2vec的神奇所在哀墓。這個特性意味著Word2Vec所生成的詞向量具有了語義推理能力趁餐。
    但很遺憾,我們自己去訓練詞向量的時候篮绰,其實很難復現(xiàn)這個結果出來(需要的計算資源實在是太龐大了)后雷。幸運的是,對于小型的預料庫吠各,還是有一定的效果的臀突。

兩種模型

兩個訓練方案分別是CBOW和Skip-Gram,如圖所示


兩個模型

其中贾漏,CBOW通過上下文來預測當前詞候学;而Skip-gram通過當前詞預測上下文。至于原理纵散,咱們下次再說梳码。

參考資料

博客:
蘇劍林. (2017, Apr 02). 《【不可思議的Word2Vec】 1.數(shù)學原理 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/4299
word2vec原始論文:

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市伍掀,隨后出現(xiàn)的幾起案子掰茶,更是在濱河造成了極大的恐慌,老刑警劉巖硕盹,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件符匾,死亡現(xiàn)場離奇詭異,居然都是意外死亡瘩例,警方通過查閱死者的電腦和手機啊胶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垛贤,“玉大人焰坪,你說我怎么就攤上這事∑傅耄” “怎么了某饰?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長善绎。 經(jīng)常有香客問我黔漂,道長,這世上最難降的妖魔是什么禀酱? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任炬守,我火速辦了婚禮,結果婚禮上剂跟,老公的妹妹穿的比我還像新娘减途。我一直安慰自己,他們只是感情好曹洽,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布鳍置。 她就那樣靜靜地躺著,像睡著了一般送淆。 火紅的嫁衣襯著肌膚如雪税产。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天偷崩,我揣著相機與錄音辟拷,去河邊找鬼。 笑死环凿,一個胖子當著我的面吹牛梧兼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播智听,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼羽杰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了到推?” 一聲冷哼從身側響起考赛,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎莉测,沒想到半個月后颜骤,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡捣卤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年忍抽,在試婚紗的時候發(fā)現(xiàn)自己被綠了八孝。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡鸠项,死狀恐怖干跛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情祟绊,我是刑警寧澤楼入,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站牧抽,受9級特大地震影響嘉熊,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扬舒,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一阐肤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧呼巴,春花似錦泽腮、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至府瞄,卻和暖如春碧磅,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背遵馆。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工鲸郊, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人货邓。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓秆撮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親换况。 傳聞我的和親對象是個殘疾皇子职辨,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容