要想詞向量模型能夠繼續(xù)訓(xùn)練,首先要保證用model.save()方法保存吕朵;
然后再用model=gensim.models.Word2Vec.load()加載模型
model.train()? ?只可以設(shè)置增加新語(yǔ)料他巨,設(shè)置迭代次數(shù)
詞向量訓(xùn)練
詞向量繼續(xù)訓(xùn)練
提問(wèn):BrownCorpus,Text8Corpus或lineSentence 這三者的區(qū)別是什么澡匪?
BrownCorpus是一個(gè)語(yǔ)料庫(kù)
Test8Corpus是另一個(gè)語(yǔ)料庫(kù),可以通過(guò)鏈接http://mattmahoney.net/dc/text8.zip下載
LineSentence是處理已經(jīng)切分好的拆融,且用空格切分的句子
提問(wèn):word2vec對(duì)于評(píng)論數(shù)據(jù)集(即蠢琳,就幾十個(gè)字的短文本)能否訓(xùn)練出詞向量?word2vec可以做到識(shí)別一行為一句短文本從而訓(xùn)練嗎镜豹? ---答:當(dāng)然可以傲须。
用以下代碼和以下數(shù)據(jù)格式:
注:看word2vec的源碼中的注釋就可以知道,word2vec是按句子來(lái)處理的Sentences(句子們)趟脂,就算是一個(gè)大的文本泰讽,它也會(huì)給你自動(dòng)切分成句子,按句子來(lái)訓(xùn)練模型。? ? ? word2vec提供了很多有用的方法菇绵,基本上跳入源碼中看看注釋肄渗,基本上就能明白,函數(shù)的輸入格式咬最,和輸出格式翎嫡,再加上百度百度就能了解word2vec更多,也會(huì)掌握得更好永乌。
如果按照我的代碼來(lái)惑申,這里就會(huì)得到字向量。? 如果你要得到詞向量翅雏,那么tokens.append()這里應(yīng)該是放的詞組圈驼,你用jieba或其他分詞工具,將line切分望几,然后把切分的詞放在tokens.append()里绩脆,候選訓(xùn)練得到的就是詞向量。
代碼
數(shù)據(jù)格式
word2vec.py?源碼