泛讀文章的時(shí)候您单,有時(shí)想想快速知道一些主旨主題实牡,便可通過(guò)關(guān)鍵詞渲染的方式陌僵,將關(guān)鍵詞可視化轴合,從而快速得到我們想知道的主題创坞。即可通過(guò)生成詞云的方式將關(guān)鍵詞可視化,出現(xiàn)頻率越多的詞受葛,在詞云中將顯示的越大题涨。但是同樣woedcolud庫(kù)默認(rèn)是不識(shí)別中文的,所以生成過(guò)程中會(huì)出現(xiàn)方框顯示总滩。如下圖所示:
需要設(shè)置為電腦中所下載的中文字體纲堵,才能正常顯示。
import jieba
import wordcloud
filename ='文件路徑'
text =open(filename,'r',encoding='utf-8').read()
ls = jieba.lcut(text)
txt =' '.join(ls)
w = wordcloud.WordCloud(font_path='Songti.ttc',width=800,height=400,background_color='white')
w.generate(txt)
w.to_file('report.png')
通過(guò)font_path='Songti.ttc'將字體設(shè)置為宋體后闰渔,即可正常顯示席函。
進(jìn)一步優(yōu)化方法:對(duì)于初步生成的詞云,可能之間又一些并不是重點(diǎn)的詞匯冈涧,比如“萬(wàn)億元”茂附、“強(qiáng)化”,“提高”這類無(wú)關(guān)緊要的詞語(yǔ)因?yàn)槌霈F(xiàn)頻率過(guò)高而被列入詞云中督弓∮可通過(guò)stopwords=‘詞語(yǔ)’的方式將其剔除。最后愚隧,為了美觀蒂阱,還可導(dǎo)入圖片生成個(gè)性化的詞云。
import jieba
import wordcloud
from imageioimport imread
mask = imread('圖片路徑')
filename ='文本路徑'
text =open(filename,'r',encoding='utf-8').read()
ls = jieba.lcut(text)
txt =' '.join(ls)
words = ['提高','增長(zhǎng)','我們','增加','加強(qiáng)','推進(jìn)']
w = wordcloud.WordCloud(font_path='Songti.ttc',width=800,height=400,mask=mask,background_color='white',stopwords=words)
w.generate(txt)
w.to_file('report.png')
環(huán)境(Macbook狂塘,python3.7录煤,wordcolud1.6.0)