【word2vec學習筆記】1.什么是word2vec

背景和誕生

在word2vec誕生之前蚂踊，利用機器學習方法解決自然語言處理問題使脱货，一般都是用one-hot編碼（可以翻譯成“獨熱編碼”）去表征詞語城须。one-hot編碼是一種稀疏矩陣碘菜，計算時會帶來很多麻煩凹蜈，因為：

向量的維度會隨著句子的詞的數(shù)量類型增大而增大；
任意兩個詞之間都是孤立的忍啸，無法表示語義層面上詞匯之間的相關信息.

PS：當然踪区，在深度學習中涉及到矩陣相乘，有人會說one-hot編碼算起來十分麻煩（有多少單詞這個矩陣就有多少維數(shù)）吊骤。事實上缎岗，one-hot編碼算起來一點也不麻煩，因為它是稀疏的白粉，矩陣中只有一個數(shù)字是1传泊，其他都是0。學過線代的都知道鸭巴，這種相乘的計算其實是很方便的眷细。

one-hot計算示意

傳統(tǒng)的獨熱表示僅僅將詞符號化，不包含任何語義信息鹃祖。如何將語義融入到詞表示中溪椎？Harris 在 1954 年提出的“分布假說”為這一設想提供了理論基礎：上下文相似的詞，其語義也相似恬口。Firth 在 1957年對分布假說進行了進一步闡述和明確：詞的語義由其上下文決定校读。
所以我們可以將我們的任務拆解成兩部分：

選擇一種方式描述上下文；
選擇一種“模型”刻畫某個詞（即“目標詞”）與其上下文之間的關系祖能。

什么意思呢歉秫？可以這么理解：
以CBOW模型為例，如果有一個句子“我今天聽了周杰倫的歌”养铸，在訓練的時候雁芙，將“我今天聽了周杰倫的”作為輸入轧膘，預測出最后一個詞是“歌”。
分布式表示的較大優(yōu)點在于它具有非常強大的表征能力兔甘，比如n維向量每維k個值谎碍，可以表征k的n次方個概念。下圖的神經(jīng)網(wǎng)絡語言模型（NNLM）采用的就是文本分布式表示洞焙。而詞向量(word embedding)是訓練該語言模型的一個附加產(chǎn)物蟆淀，即圖中的矩陣C。

文本的分布式表示

這個時候闽晦，word2vec就誕生了扳碍。其實，word2vec是詞嵌入（word embedding）的一種方式仙蛉。它將上文提到的one-hot的兩個缺點解決了：

將vector每一個元素由整形改為浮點型笋敞，變?yōu)檎麄€實數(shù)范圍的表示。將原來稀疏的巨大維度壓縮嵌入到一個更小維度的空間荠瘪。
矩陣的每個維度都代表一定的語義夯巷。
例如：
對于訓練好的幾個詞語，可能是這樣的：

word2vec

可以得出這個結論：

Man - King = Woman - Queen

這就是word2vec的神奇所在哀墓。這個特性意味著Word2Vec所生成的詞向量具有了語義推理能力趁餐。
但很遺憾，我們自己去訓練詞向量的時候篮绰，其實很難復現(xiàn)這個結果出來（需要的計算資源實在是太龐大了）后雷。幸運的是，對于小型的預料庫吠各，還是有一定的效果的臀突。

兩種模型

兩個訓練方案分別是CBOW和Skip-Gram，如圖所示

兩個模型

其中贾漏，CBOW通過上下文來預測當前詞候学；而Skip-gram通過當前詞預測上下文。至于原理纵散，咱們下次再說梳码。

參考資料

博客：
蘇劍林. (2017, Apr 02). 《【不可思議的Word2Vec】 1.數(shù)學原理》[Blog post]. Retrieved from https://spaces.ac.cn/archives/4299
word2vec原始論文：

[1] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市伍掀，隨后出現(xiàn)的幾起案子掰茶，更是在濱河造成了極大的恐慌，老刑警劉巖硕盹，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件符匾，死亡現(xiàn)場離奇詭異，居然都是意外死亡瘩例，警方通過查閱死者的電腦和手機啊胶，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來垛贤，“玉大人焰坪，你說我怎么就攤上這事∑傅耄” “怎么了某饰？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長善绎。經(jīng)常有香客問我黔漂，道長，這世上最難降的妖魔是什么禀酱？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任炬守，我火速辦了婚禮，結果婚禮上剂跟，老公的妹妹穿的比我還像新娘减途。我一直安慰自己，他們只是感情好曹洽，可當我...
茶點故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布鳍置。她就那樣靜靜地躺著，像睡著了一般送淆。火紅的嫁衣襯著肌膚如雪税产。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天偷崩，我揣著相機與錄音辟拷，去河邊找鬼。笑死环凿，一個胖子當著我的面吹牛梧兼，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播智听，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼羽杰，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了到推？” 一聲冷哼從身側響起考赛，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎莉测，沒想到半個月后颜骤，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡捣卤，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年忍抽，在試婚紗的時候發(fā)現(xiàn)自己被綠了八孝。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鸠项，死狀恐怖干跛，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情祟绊，我是刑警寧澤楼入，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站牧抽，受9級特大地震影響嘉熊，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扬舒，卻給世界環(huán)境...
茶點故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一阐肤、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧呼巴，春花似錦泽腮、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案诊赊，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至府瞄，卻和暖如春碧磅，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背遵馆。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工鲸郊，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人货邓。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓秆撮，卻偏偏與公主長得像，于是被迫代替她去往敵國和親换况。傳聞我的和親對象是個殘疾皇子职辨，可洞房花燭夜當晚...
茶點故事閱讀 45,092評論 2贊 355

【word2vec學習筆記】1.什么是word2vec

背景和誕生

兩種模型

參考資料

推薦閱讀更多精彩內(nèi)容