利用Python實(shí)現(xiàn)wiki中文語(yǔ)料的word2vec模型構(gòu)建

本實(shí)例主要介紹的是選取wiki中文語(yǔ)料逐哈，并使用python完成Word2vec模型構(gòu)建的實(shí)踐過(guò)程书释，不包含原理部分竟贯，旨在一步一步的了解自然語(yǔ)言處理的基本方法和步驟盗誊。文章主要包含了開(kāi)發(fā)環(huán)境準(zhǔn)備圣猎、數(shù)據(jù)的獲取士葫、數(shù)據(jù)的預(yù)處理、模型構(gòu)建和模型測(cè)試四大內(nèi)容送悔，對(duì)應(yīng)的是實(shí)現(xiàn)模型構(gòu)建的五個(gè)步驟慢显。

一、開(kāi)發(fā)環(huán)境準(zhǔn)備

1.1 python環(huán)境

在python官網(wǎng)下載計(jì)算機(jī)對(duì)應(yīng)的python版本欠啤，本人使用的是Python2.7.13的版本荚藻。

1.2 gensim模塊

（1）下載模塊

Word2vec需要使用第三方gensim模塊， gensim模塊依賴numpy和scipy兩個(gè)包洁段，因此需要依次下載對(duì)應(yīng)版本的numpy应狱、scipy、gensim祠丝。下載地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/

（2）安裝模塊

下載完成后疾呻，在python安裝目錄下的Scripts目錄中執(zhí)行cmd命令進(jìn)行安裝。

    pip install numpy*.whl
    pip install scipy*.whl
    pip install gensim.whl

（3）驗(yàn)證模塊是否安裝成功

輸入python命令進(jìn)入python命令行写半，分別輸入*import numpy; import scipy; import gensim; *沒(méi)有報(bào)錯(cuò)岸蜗，即安裝成功！

二污朽、Wiki數(shù)據(jù)獲取

2.1 Wiki中文數(shù)據(jù)的下載

到wiki官網(wǎng)下載中文語(yǔ)料散吵，下載完成后會(huì)得到命名為zhwiki-latest-pages-articles.xml.bz2的文件，大小約為1.3G蟆肆，里面是一個(gè)XML文件矾睦。
下載地址如下：https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2.2 將XML的Wiki數(shù)據(jù)轉(zhuǎn)換為text格式

（1）python實(shí)現(xiàn)

編寫(xiě)python程序?qū)ML文件轉(zhuǎn)換為text格式，使用到了gensim.corpora中的WikiCorpus函數(shù)來(lái)處理維基百科的數(shù)據(jù)炎功。python代碼實(shí)現(xiàn)如下所示枚冗，文件命名為1_process.py。

1_process.py--wiki文件轉(zhuǎn)換代碼

（2）運(yùn)行程序文件

在代碼文件夾下運(yùn)行如下cmd命令行蛇损，即可得到轉(zhuǎn)換后生成的文件wiki.zh.txt赁温。

    D:\PyRoot\iDemo\wiki_zh>python 1_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.txt

（3）得到運(yùn)行結(jié)果

   2017-04-18 09:24:28,901: INFO: running 1_process.py zhwiki-latest-pages-articles.xml.bz2 wiki.zh.txt
   2017-04-18 09:25:31,154: INFO: Saved 10000 articles.
   2017-04-18 09:26:21,582: INFO: Saved 20000 articles.
   2017-04-18 09:27:05,642: INFO: Saved 30000 articles.
   2017-04-18 09:27:48,917: INFO: Saved 40000 articles.
   2017-04-18 09:28:35,546: INFO: Saved 50000 articles.
   2017-04-18 09:29:21,102: INFO: Saved 60000 articles.
   2017-04-18 09:30:04,540: INFO: Saved 70000 articles.
   2017-04-18 09:30:48,022: INFO: Saved 80000 articles.
   2017-04-18 09:31:30,665: INFO: Saved 90000 articles.
   2017-04-18 09:32:17,599: INFO: Saved 100000 articles.
   2017-04-18 09:33:13,811: INFO: Saved 110000 articles.
   2017-04-18 09:34:06,316: INFO: Saved 120000 articles.
   2017-04-18 09:35:01,007: INFO: Saved 130000 articles.
   2017-04-18 09:35:52,628: INFO: Saved 140000 articles.
   2017-04-18 09:36:47,148: INFO: Saved 150000 articles.
   2017-04-18 09:37:41,137: INFO: Saved 160000 articles.
   2017-04-18 09:38:33,684: INFO: Saved 170000 articles.
   2017-04-18 09:39:37,957: INFO: Saved 180000 articles.
   2017-04-18 09:43:36,299: INFO: Saved 190000 articles.
   2017-04-18 09:45:21,509: INFO: Saved 200000 articles.
   2017-04-18 09:46:40,865: INFO: Saved 210000 articles.
   2017-04-18 09:47:55,453: INFO: Saved 220000 articles.
   2017-04-18 09:49:07,835: INFO: Saved 230000 articles.
   2017-04-18 09:50:27,562: INFO: Saved 240000 articles.
   2017-04-18 09:51:38,755: INFO: Saved 250000 articles.
   2017-04-18 09:52:50,240: INFO: Saved 260000 articles.
   2017-04-18 09:53:57,526: INFO: Saved 270000 articles.
   2017-04-18 09:55:01,720: INFO: Saved 280000 articles.
   2017-04-18 09:55:22,565: INFO: finished iterating over Wikipedia corpus of 28285 5 documents with 63427579 positions (total 2908316 articles, 75814559 positions before pruning articles shorter than 50 words)
   2017-04-18 09:55:22,568: INFO: Finished Saved 282855 articles.

由結(jié)果可知，31分鐘運(yùn)行完成282855篇文章淤齐，得到一個(gè)931M的txt文件股囊。

三、Wiki數(shù)據(jù)預(yù)處理

3.1 中文繁體替換成簡(jiǎn)體

Wiki中文語(yǔ)料中包含了很多繁體字更啄，需要轉(zhuǎn)成簡(jiǎn)體字再進(jìn)行處理稚疹，這里使用到了OpenCC工具進(jìn)行轉(zhuǎn)換。

（1）安裝OpenCC

到以下鏈接地址下載對(duì)應(yīng)版本的OpenCC祭务，本人下載的版本是opencc-1.0.1-win32内狗。
https://bintray.com/package/files/byvoid/opencc/OpenCC
另外怪嫌，資料顯示還有python版本的，使用pip install opencc-python進(jìn)行安裝柳沙，未實(shí)踐不做贅述岩灭。

（2）使用OpenCC進(jìn)行繁簡(jiǎn)轉(zhuǎn)換

進(jìn)入解壓后的opencc的目錄（opencc-1.0.1-win32），雙擊opencc.exe文件赂鲤。在當(dāng)前目錄打開(kāi)dos窗口（Shift+鼠標(biāo)右鍵->在此處打開(kāi)命令窗口）噪径，輸入如下命令行：

 opencc -i wiki.zh.txt -o wiki.zh.simp.txt -c t2s.json

則會(huì)得到文件wiki.zh.simp.txt，即轉(zhuǎn)成了簡(jiǎn)體的中文蛤袒。

（3）結(jié)果查看

解壓后的txt有900多M熄云，用notepad++無(wú)法打開(kāi)，所以采用python自帶的IO進(jìn)行讀取妙真。Python代碼如下：

   import codecs,sys
   f = codecs.open(‘wiki.zh.simp.txt‘,‘r‘,encoding="utf8")
   line = f.readline()
   print(line)

繁體中文示例截圖如下所示：

wiki原始數(shù)據(jù)

轉(zhuǎn)換后的簡(jiǎn)體中文截圖如下所示：

Wiki轉(zhuǎn)換后簡(jiǎn)體數(shù)據(jù)

3.2 結(jié)巴分詞

本例中采用結(jié)巴分詞對(duì)字體簡(jiǎn)化后的wiki中文語(yǔ)料數(shù)據(jù)集進(jìn)行分詞，在執(zhí)行代碼前需要安裝jieba模塊荚守。由于此語(yǔ)料已經(jīng)去除了標(biāo)點(diǎn)符號(hào)珍德，因此在分詞程序中無(wú)需進(jìn)行清洗操作，可直接分詞矗漾。若是自己采集的數(shù)據(jù)還需進(jìn)行標(biāo)點(diǎn)符號(hào)去除和去除停用詞的操作锈候。
Python實(shí)現(xiàn)代碼如下：

2_jieba_participle.py--結(jié)巴分詞代碼

代碼執(zhí)行完成后得到一個(gè)1.12G大小的文檔wiki.zh.simp.seg.txt。分詞結(jié)果截圖如下所示：

Wiki結(jié)巴分詞

四敞贡、Word2Vec模型訓(xùn)練

（1）word2vec模型實(shí)現(xiàn)

分好詞的文檔即可進(jìn)行word2vec詞向量模型的訓(xùn)練了泵琳。文檔較大，本人在4GWin7的電腦中報(bào)內(nèi)存的錯(cuò)誤誊役，更換成8G內(nèi)容的Mac后即可訓(xùn)練完成获列，且速度很快。具體Python代碼實(shí)現(xiàn)如下所示蛔垢，文件命名為3_train_word2vec_model.py击孩。

3_train_word2vec_model.py--模型訓(xùn)練代碼

（2）運(yùn)行結(jié)果查看

   2017-05-03 21:54:14,887: INFO: training on 822697865 raw words (765330910 effective words) took 1655.2s, 462390 effective words/s
   2017-05-03 21:54:14,888: INFO: saving Word2Vec object under /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model, separately None
   2017-05-03 21:54:14,888: INFO: not storing attribute syn0norm
   2017-05-03 21:54:14,889: INFO: storing np array 'syn0' to /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model.wv.syn0.npy
   2017-05-03 21:54:16,505: INFO: storing np array 'syn1neg' to /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model.syn1neg.npy
   2017-05-03 21:54:18,123: INFO: not storing attribute cum_table
   2017-05-03 21:54:26,542: INFO: saved /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.model
   2017-05-03 21:54:26,543: INFO: storing 733434x400 projection weights into /Users/sy/Desktop/pyRoot/wiki_zh_vec/wiki.zh.text.vector

摘取了最后幾行代碼運(yùn)行信息，代碼運(yùn)行完成后得到如下四個(gè)文件鹏漆，其中wiki.zh.text.model是建好的模型巩梢，wiki.zh.text.vector是詞向量。

生成模型

五艺玲、模型測(cè)試

模型訓(xùn)練好后括蝠，來(lái)測(cè)試模型的結(jié)果。Python代碼如下饭聚，文件名為4_model_match.py忌警。

4_model_match.py--模型測(cè)試代碼

運(yùn)行文件得到結(jié)果，即可查看給定詞的相關(guān)詞若治。

模型匹配結(jié)果

至此慨蓝，使用python對(duì)中文wiki語(yǔ)料的詞向量建模就全部結(jié)束了感混，wiki.zh.text.vector中是每個(gè)詞對(duì)應(yīng)的詞向量，可以在此基礎(chǔ)上作文本特征的提取以及分類(lèi)礼烈。所有代碼都已上傳至本人GitHub中弧满，歡迎指教！

最后編輯于：2017.12.07 02:33:09

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末此熬，一起剝皮案震驚了整個(gè)濱河市庭呜，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌犀忱，老刑警劉巖募谎，帶你破解...
沈念sama閱讀 216,402評(píng)論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異阴汇，居然都是意外死亡数冬，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)搀庶，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拐纱，“玉大人，你說(shuō)我怎么就攤上這事哥倔〗占埽” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵咆蒿，是天一觀的道長(zhǎng)东抹。經(jīng)常有香客問(wèn)我，道長(zhǎng)沃测，這世上最難降的妖魔是什么缭黔？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮芽突，結(jié)果婚禮上试浙，老公的妹妹穿的比我還像新娘。我一直安慰自己寞蚌，他們只是感情好田巴，可當(dāng)我...
茶點(diǎn)故事閱讀 67,176評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著挟秤，像睡著了一般壹哺。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上艘刚，一...
開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1贊 297
城市分裂傳說(shuō)
那天管宵，我揣著相機(jī)與錄音，去河邊找鬼。笑死箩朴，一個(gè)胖子當(dāng)著我的面吹牛岗喉，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播炸庞，決...
沈念sama閱讀 40,032評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼钱床，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了埠居？” 一聲冷哼從身側(cè)響起查牌，我...
開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎滥壕，沒(méi)想到半個(gè)月后纸颜，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,311評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡绎橘，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,536評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年胁孙，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片称鳞。...
茶點(diǎn)故事閱讀 39,696評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡浊洞，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出胡岔，到底是詐尸還是另有隱情，我是刑警寧澤枷餐，帶...
沈念sama閱讀 35,413評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布靶瘸，位于F島的核電站，受9級(jí)特大地震影響毛肋，放射性物質(zhì)發(fā)生泄漏怨咪。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,008評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一润匙、第九天我趴在偏房一處隱蔽的房頂上張望诗眨。院中可真熱鬧，春花似錦孕讳、人聲如沸匠楚。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案厂财，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)芋簿。三九已至，卻和暖如春璃饱，著一層夾襖步出監(jiān)牢的瞬間与斤，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留撩穿，地道東北人磷支。一個(gè)月前我還...
沈念sama閱讀 47,698評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像食寡，于是被迫代替她去往敵國(guó)和親雾狈。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,592評(píng)論 2贊 353