這里做一個概述,主要介紹我遇到過得坑~
1.關于平臺
首先我想說的是平臺唧席,也就是windows和linux疾呻。我之前自己電腦一直是windows澈歉,裝tensorflow和其他一些工具也喜歡極力尋找windows的安裝和解決辦法圾叼,總是認為windows比較容易使用蛤克,并且認為任何東西都可以找到windows的解決辦法,事實上不是這樣夷蚊,也很沒有必要。
我想說的是windows越到后面越來越體現(xiàn)出他的坑髓介,開始使用linux會發(fā)現(xiàn)惕鼓,世界如此簡單。
所以關于word2vec詞向量的訓練方面我也沒有考慮windows唐础,倒是在網(wǎng)上有幾篇文章可供參考箱歧。
linux下訓練是非常極其相當簡單的。
2.關于兩種幾種語言的訓練方法
word2vec有好幾種語言的版本一膨,官方應該是C和C++呀邢,但是這個東西移植太簡單了,所以也不必在意豹绪。
但是我遇到的問題是:
使用C語言版訓練的詞向量价淌,在python中無法使用,無論是二進制文件還是txt文件
所以,我用了gensim也就是python版的訓練蝉衣,可以使用
3.關于中文
順序大概就是:選擇語料庫->分詞->訓練
當然分詞當中還有一些操作括尸,比如去重用,去標點符號病毡,添加自定義詞等等濒翻。
下面開始記錄我訓練的過程。