使用 word2vec 訓(xùn)練wiki中英文語料庫

上學(xué)期讀了有關(guān)word2vec的兩篇paper之后,不是很明白致份,這學(xué)期重新花時間再讀变抽,并且根據(jù)這兩篇paper進(jìn)行一個詞向量相關(guān)的實(shí)驗(yàn),選來選去氮块,發(fā)現(xiàn)網(wǎng)上有大神就wiki中英文語料庫進(jìn)行訓(xùn)練绍载,鑒于渣渣水平,于是就選擇了訓(xùn)練使用詞向量來訓(xùn)練wiki中英文語料庫滔蝉。

整個過程參考:“我愛自然語言處理”:www.52nlp.cn


準(zhǔn)備工作

為了訓(xùn)練語料庫击儡,當(dāng)然需要去下載。英文wiki語料庫(11.9G)?中文wiki語料庫(1.2G)

然后就是準(zhǔn)備好編譯環(huán)境蝠引,語言選擇的是python阳谍,使用了gensim的庫蛀柴,該庫是由Radim ?eh??ek博士基于google發(fā)布的C語言版本的word2vec編寫的Python庫。如何安裝該庫就不多說了矫夯。

處理流程

1鸽疾、英文wiki訓(xùn)練

首先需要將xml的文件轉(zhuǎn)換成txt文件,主要通過process_wiki.py這個腳本來進(jìn)行训貌,在參考文考網(wǎng)頁中提出了注意“wiki = WikiCorpus(inp, lemmatize=False, dictionary={})"將lemmatize設(shè)置為False避免使用Pattern來講英文單詞詞干化處理制肮,以免變得很慢,于是就華麗麗的接受递沪。整個過程大概用了5個小時左右豺鼻,共有差不多400W的articles。

執(zhí)行命令為:python3 process_wiki.py enwiki-latest-pages-articles.xml.bz2 wiki.en.text

生成了wiki.en.text款慨,生成的效果如下:

wiki.en.text效果圖

接下來就是拿wiki.en.text的文本進(jìn)行詞向量的調(diào)用處理儒飒,通過train_word2vec_model.py的腳本對該文件進(jìn)行處理。

執(zhí)行的命令為:

python3 train_word2vec_model.py wiki.en.text wiki.en.text.model wiki.en.text.vector.?

同樣采取參考blog的方式樱调,保存了vector方便debug约素。訓(xùn)練了大概8個小時左右,之后在ipython中對已經(jīng)訓(xùn)練好的model進(jìn)行調(diào)試笆凌,調(diào)試如下:

英文wiki結(jié)果圖(一)



英文wiki結(jié)果圖(二)

在這里調(diào)試的時候并沒有遇到參考blog中說到得問題圣猎,這里具體原因是什么,還是需要討論。但是可以看出效果其實(shí)不怎么好乞而,以后有機(jī)會會使用word2vec的C版本進(jìn)行試驗(yàn)送悔。當(dāng)然,這里可以使用model的其他函數(shù)進(jìn)行調(diào)試爪模,具體可以看gensim的文檔進(jìn)行查看欠啤。

2、中文wiki訓(xùn)練

同樣地和英文一樣屋灌,使用process_wiki.py 進(jìn)行腳本處理洁段,處理了10分鐘,執(zhí)行命令為:

python3 process_wiki.py zhwiki-latest-pages-articles.xml.bz2 wiki.cn.text

處理得到的效果如下:


wiki.cn.text效果圖

咦共郭,全是繁體字祠丝,那么由于某種原因,wiki中文版本都是繁體字的語料除嘹,而且可以看出有一些英文写半,還有一些其他字符,而且還需要對中文進(jìn)行分詞尉咕,這些都是需要處理的部分叠蝇。那么我們一步一步的來。


1)繁體轉(zhuǎn)簡體

繁體轉(zhuǎn)成簡體年缎,通過blog得知了一種叫opencc的工具:OpenCC(github地址)

由于是OS X的系統(tǒng)悔捶,參見安裝說明铃慷,但是發(fā)現(xiàn)并沒有安裝brew,于是又去安裝brew炎功,興致沖沖的點(diǎn)進(jìn)homebrew安裝枚冗,結(jié)果發(fā)現(xiàn)主頁無法進(jìn)去,無奈又開始尋找解決方法蛇损,百度之赁温。百度排名第一的英文界面貌似可以解決。

百度brew效果圖

然而點(diǎn)進(jìn)去淤齐,依然無法找到網(wǎng)頁股囊,于是機(jī)智的我點(diǎn)了百度快照。


安裝brew代碼

接下來就是一路安裝更啄,完成OpenCC的安裝后稚疹。

執(zhí)行命令:opencc -i wiki.cn.text -o wiki.cn.text.jian -c t2s.json

2)分詞

中文不像英文一樣,天生自帶空格祭务,于是就有了中文分詞内狗,在python中中文分詞做的比較好的庫是jieba分詞庫jieba(github地址)

通過代碼庫的實(shí)例,于是寫了分詞腳本seperate_words.py.

執(zhí)行命令:python3 separate_words.py wiki.cn.text.jian wiki.cn.text.jian.seq?

得到了分好詞的文件

3)去除多余的其他字符

最后通過python中自帶的re庫义锥,使用正則表達(dá)式將其他字符去除柳沙,代碼在remove_words.py

執(zhí)行命令:python3 separate_words.py?wiki.cn.text.jian.seq wiki.cn.text.jian.removed


之后就和英文分詞一樣,通過train_word2vec_model.py 進(jìn)行處理

執(zhí)行命令:python3 train_word2vec_model.py wiki.cn.text.jian.removed wiki.en.text.jian.model wiki.en.text.jian.vector.

最后測試一下運(yùn)行的效果:


中文wiki結(jié)果圖(一)


中文wiki結(jié)果圖(二)


中文wiki效果圖(三)

代碼:word2vec-for-wiki

----

代碼已經(jīng)進(jìn)行了review拌倍,在python3的情況下赂鲤,存在bytes和str不兼容的問題已經(jīng)解決了,另外將所有py文件全部放入一個文件中不同函數(shù)柱恤,在main()函數(shù)中也已經(jīng)進(jìn)行了各種處理的demo数初。由于gensim版本變化快,所以在載入model的時候可以參考最新gensim的api梗顺。


個人公眾號泡孩,分享一下所思所想
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市寺谤,隨后出現(xiàn)的幾起案子珍德,更是在濱河造成了極大的恐慌,老刑警劉巖矗漾,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異薄料,居然都是意外死亡敞贡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門摄职,熙熙樓的掌柜王于貴愁眉苦臉地迎上來誊役,“玉大人获列,你說我怎么就攤上這事』坠福” “怎么了击孩?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鹏漆。 經(jīng)常有香客問我巩梢,道長,這世上最難降的妖魔是什么艺玲? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任括蝠,我火速辦了婚禮,結(jié)果婚禮上饭聚,老公的妹妹穿的比我還像新娘忌警。我一直安慰自己,他們只是感情好秒梳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布法绵。 她就那樣靜靜地躺著,像睡著了一般酪碘。 火紅的嫁衣襯著肌膚如雪朋譬。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天婆跑,我揣著相機(jī)與錄音此熬,去河邊找鬼。 笑死滑进,一個胖子當(dāng)著我的面吹牛犀忱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播扶关,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼阴汇,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了节槐?” 一聲冷哼從身側(cè)響起搀庶,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铜异,沒想到半個月后哥倔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡揍庄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年咆蒿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡沃测,死狀恐怖缭黔,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蒂破,我是刑警寧澤馏谨,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站附迷,受9級特大地震影響惧互,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜挟秤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一壹哺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧艘刚,春花似錦管宵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至秋度,卻和暖如春炸庞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背荚斯。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工埠居, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人事期。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓滥壕,卻偏偏與公主長得像,于是被迫代替她去往敵國和親兽泣。 傳聞我的和親對象是個殘疾皇子绎橘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容