使用到的知識(shí)點(diǎn):
- 制作詞云的基本步驟和原理
- Python3實(shí)現(xiàn)詞云制作
- wordcloud擴(kuò)展包的使用
- 使用圖片制作詞云,分析十九大的關(guān)鍵詞
思路:
詞云的原理是對輸入的文本數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)永品,根據(jù)詞匯出現(xiàn)頻率的不同圃酵,按不同比例顯示出詞匯,生成圖片嘿歌。頻率高的詞匯顯示的大掸掏,頻率低的詞匯顯示的小。文本數(shù)據(jù)可以是本地?cái)?shù)據(jù)宙帝,也可是是爬蟲動(dòng)態(tài)從網(wǎng)絡(luò)中獲取的丧凤。
需要安裝包:
$ pip install numpy
$ pip install python-matplotlib
$ pip install python-pil
$ pip install wordcloud
實(shí)現(xiàn)代碼:
from os import path
from wordcloud import WordCloud
import numpy as np
from PIL import Image
from os import path
import matplotlib.pyplot as plt
import random
d = path.dirname(__file__)
# 使用numpy中的mask
mask = np.array(Image.open(path.join(d, "stormtrooper_mask.png")))
# 讀取數(shù)據(jù)來源
text = open(path.join(d, '19meeting.txt')).read()
# 生成詞云圖片
wordcloud = WordCloud().generate(text)
# 顯示生成的圖片
wc = WordCloud(max_words=2000, mask=mask, margin=10,
random_state=1).generate(text)
plt.figure()
plt.imshow(wc)
plt.axis("off")
plt.show()
以上代碼里面用到了兩個(gè)文件,一個(gè)是詞云的原圖片(可以看得出來原圖片是什么嗎茄唐?哈哈)息裸,一個(gè)是十九大報(bào)告的原文蝇更。
看,是不是秒讀 十九大報(bào)告呼盆。