1.選擇語料庫
這個(gè)是我項(xiàng)目私人的語料庫
具體操作方法就是把所有要處理的文字放到一個(gè)文件里坊萝,標(biāo)點(diǎn)符號(hào)什么的可以等在分詞的時(shí)候逐行處理空盼,反正要逐行分詞~
如圖:
只能窺探一角~
2.分詞處理
分詞工具我選擇的是jieba
項(xiàng)目地址:https://github.com/fxsjy/jieba
這上面的文檔齊全,足夠
1)安裝jieba:
看到網(wǎng)站上“全自動(dòng)”安裝幾個(gè)大字了吧~安裝好之后測(cè)試效果:
2)自定義詞典
參考官方解釋:https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
我的語料庫是體育相關(guān)的比勉,所以很多詞匯jieba里面是沒有的,所以要添加自定義詞典,把新詞加進(jìn)去屎债。
看他的官方解釋,如果你想讓你自定義的詞必須一定要被分出來垢油,可以把最后一列的值調(diào)的很大盆驹,例如2000
我的詞典如下:
添加了一些自定義的詞
3)編寫分詞代碼
逐行進(jìn)行分詞,并且處理標(biāo)點(diǎn)符號(hào)以及停用詞等滩愁。
代碼放上來:
可以看到我把分詞結(jié)果保存到了一個(gè)txt文件當(dāng)中躯喇。
注意:我這里寫的有問題,不要把換行符處理掉硝枉, word2vec 把一個(gè)單詞的前面和后面的k個(gè)單詞作為context訓(xùn)練廉丽, 其中會(huì)自動(dòng)把換行符替換成 倦微,也就是句子分隔符。
ok雅倒,前期工作處理結(jié)束璃诀,下面進(jìn)行word2vec訓(xùn)練,輕松愉快~