使用 word2vec 訓(xùn)練wiki中英文語料庫

上學(xué)期讀了有關(guān)word2vec的兩篇paper之后，不是很明白致份，這學(xué)期重新花時間再讀变抽，并且根據(jù)這兩篇paper進(jìn)行一個詞向量相關(guān)的實(shí)驗(yàn)，選來選去氮块，發(fā)現(xiàn)網(wǎng)上有大神就wiki中英文語料庫進(jìn)行訓(xùn)練绍载，鑒于渣渣水平，于是就選擇了訓(xùn)練使用詞向量來訓(xùn)練wiki中英文語料庫滔蝉。

整個過程參考：“我愛自然語言處理”：www.52nlp.cn

準(zhǔn)備工作

為了訓(xùn)練語料庫击儡，當(dāng)然需要去下載。英文wiki語料庫（11.9G)?中文wiki語料庫(1.2G)

然后就是準(zhǔn)備好編譯環(huán)境蝠引，語言選擇的是python阳谍，使用了gensim的庫蛀柴，該庫是由Radim ?eh??ek博士基于google發(fā)布的C語言版本的word2vec編寫的Python庫。如何安裝該庫就不多說了矫夯。

處理流程

1鸽疾、英文wiki訓(xùn)練

首先需要將xml的文件轉(zhuǎn)換成txt文件，主要通過process_wiki.py這個腳本來進(jìn)行训貌，在參考文考網(wǎng)頁中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})"將lemmatize設(shè)置為False避免使用Pattern來講英文單詞詞干化處理制肮，以免變得很慢，于是就華麗麗的接受递沪。整個過程大概用了5個小時左右豺鼻，共有差不多400W的articles。

執(zhí)行命令為：python3 process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text

生成了wiki.en.text款慨，生成的效果如下：

wiki.en.text效果圖

接下來就是拿wiki.en.text的文本進(jìn)行詞向量的調(diào)用處理儒飒，通過train_word2vec_model.py的腳本對該文件進(jìn)行處理。

執(zhí)行的命令為：

python3 train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector.?

同樣采取參考blog的方式樱调，保存了vector方便debug约素。訓(xùn)練了大概8個小時左右，之后在ipython中對已經(jīng)訓(xùn)練好的model進(jìn)行調(diào)試笆凌，調(diào)試如下：

英文wiki結(jié)果圖(一)

英文wiki結(jié)果圖(二)

在這里調(diào)試的時候并沒有遇到參考blog中說到得問題圣猎，這里具體原因是什么,還是需要討論。但是可以看出效果其實(shí)不怎么好乞而，以后有機(jī)會會使用word2vec的C版本進(jìn)行試驗(yàn)送悔。當(dāng)然，這里可以使用model的其他函數(shù)進(jìn)行調(diào)試爪模，具體可以看gensim的文檔進(jìn)行查看欠啤。

2、中文wiki訓(xùn)練

同樣地和英文一樣屋灌，使用process_wiki.py 進(jìn)行腳本處理洁段，處理了10分鐘，執(zhí)行命令為：

python3 process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

處理得到的效果如下：

wiki.cn.text效果圖

咦共郭，全是繁體字祠丝，那么由于某種原因，wiki中文版本都是繁體字的語料除嘹，而且可以看出有一些英文写半，還有一些其他字符，而且還需要對中文進(jìn)行分詞尉咕，這些都是需要處理的部分叠蝇。那么我們一步一步的來。

1）繁體轉(zhuǎn)簡體

繁體轉(zhuǎn)成簡體年缎，通過blog得知了一種叫opencc的工具:OpenCC（github地址）

由于是OS X的系統(tǒng)悔捶，參見安裝說明铃慷，但是發(fā)現(xiàn)并沒有安裝brew，于是又去安裝brew炎功，興致沖沖的點(diǎn)進(jìn)homebrew安裝枚冗，結(jié)果發(fā)現(xiàn)主頁無法進(jìn)去，無奈又開始尋找解決方法蛇损，百度之赁温。百度排名第一的英文界面貌似可以解決。

百度brew效果圖

然而點(diǎn)進(jìn)去淤齐，依然無法找到網(wǎng)頁股囊，于是機(jī)智的我點(diǎn)了百度快照。

安裝brew代碼

接下來就是一路安裝更啄，完成OpenCC的安裝后稚疹。

執(zhí)行命令：opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json

2）分詞

中文不像英文一樣，天生自帶空格祭务，于是就有了中文分詞内狗，在python中中文分詞做的比較好的庫是jieba分詞庫jieba（github地址）

通過代碼庫的實(shí)例，于是寫了分詞腳本seperate_words.py.

執(zhí)行命令：python3 separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq?

得到了分好詞的文件

3）去除多余的其他字符

最后通過python中自帶的re庫义锥，使用正則表達(dá)式將其他字符去除柳沙，代碼在remove_words.py

執(zhí)行命令：python3 separate_words.py?wiki.cn.text.jian.seq wiki.cn.text.jian.removed

之后就和英文分詞一樣，通過train_word2vec_model.py 進(jìn)行處理

執(zhí)行命令：python3 train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector.

最后測試一下運(yùn)行的效果：

中文wiki結(jié)果圖（一）

中文wiki結(jié)果圖（二）

中文wiki效果圖（三）

代碼：word2vec-for-wiki

----

代碼已經(jīng)進(jìn)行了review拌倍，在python3的情況下赂鲤，存在bytes和str不兼容的問題已經(jīng)解決了，另外將所有py文件全部放入一個文件中不同函數(shù)柱恤，在main()函數(shù)中也已經(jīng)進(jìn)行了各種處理的demo数初。由于gensim版本變化快，所以在載入model的時候可以參考最新gensim的api梗顺。

個人公眾號泡孩，分享一下所思所想

最后編輯于：2019.01.06 20:57:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市寺谤，隨后出現(xiàn)的幾起案子珍德，更是在濱河造成了極大的恐慌，老刑警劉巖矗漾，帶你破解...
沈念sama閱讀 217,406評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異薄料，居然都是意外死亡敞贡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,732評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門摄职，熙熙樓的掌柜王于貴愁眉苦臉地迎上來誊役，“玉大人获列，你說我怎么就攤上這事』坠福” “怎么了击孩？”我有些...
開封第一講書人閱讀 163,711評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長鹏漆。經(jīng)常有香客問我巩梢，道長，這世上最難降的妖魔是什么艺玲？我笑而不...
開封第一講書人閱讀 58,380評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任括蝠，我火速辦了婚禮，結(jié)果婚禮上饭聚，老公的妹妹穿的比我還像新娘忌警。我一直安慰自己，他們只是感情好秒梳，可當(dāng)我...
茶點(diǎn)故事閱讀 67,432評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布法绵。她就那樣靜靜地躺著，像睡著了一般酪碘。火紅的嫁衣襯著肌膚如雪朋譬。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,301評論 1贊 301
城市分裂傳說
那天婆跑，我揣著相機(jī)與錄音此熬，去河邊找鬼。笑死滑进，一個胖子當(dāng)著我的面吹牛犀忱，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播扶关，決...
沈念sama閱讀 40,145評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼阴汇，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了节槐？” 一聲冷哼從身側(cè)響起搀庶，我...
開封第一講書人閱讀 39,008評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎铜异，沒想到半個月后哥倔，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,443評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡揍庄，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,649評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年咆蒿，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,795評論 1贊 347
活死人
序言：一個原本活蹦亂跳的男人離奇死亡沃测，死狀恐怖缭黔，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情蒂破，我是刑警寧澤馏谨，帶...
沈念sama閱讀 35,501評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站附迷，受9級特大地震影響惧互，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜挟秤，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,119評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一壹哺、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧艘刚，春花似錦管宵、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,731評論 0贊 22
一樁弒父案箩朴，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至秋度，卻和暖如春炸庞，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背荚斯。一陣腳步聲響...
開封第一講書人閱讀 32,865評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工埠居，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人事期。一個月前我還...
沈念sama閱讀 47,899評論 2贊 370
代替公主和親
正文我出身青樓滥壕，卻偏偏與公主長得像，于是被迫代替她去往敵國和親兽泣。傳聞我的和親對象是個殘疾皇子绎橘，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,724評論 2贊 354