本文首發(fā)于我的博客:gongyanli.com
前言:本文是一些關于jieba分詞的簡單操作搜吧,把文檔進行分詞后相速,然后利用wordcloud輸出。
一叔扼、安裝
pip install jieba
二、準備數(shù)據(jù)
依然是維基百科文章保存為txt漫雷,地址https://zh.wikipedia.org/wiki/%E6%AC%A7%E9%98%B3%E4%BF%AE
下載文件simsun.ttf瓜富,如果沒有這個文件,生成的詞云將會是亂碼降盹,不是中文与柑。因為wordcloud默認字體是英文,不包含中文編碼蓄坏。
三价捧、分詞
`import jieba # 導入jieba
import matplotlib.pyplot as plt
from wordcloud import WordCloud
filename = "ouyangxiu.txt"
with open(filename) as f:
mytext = f.read()
mytext=" ".join(jieba.cut(mytext)) # 進行jieba分詞
wordcloud=WordCloud(font_path="simsun.ttf").generate(mytext)
# 中文分詞后再生成詞云,同時注意指定輸出字體simsun.ttf
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis("off")
plt.show()
# print(mytext)
`