pytohn3+pycharm實現(xiàn)將txt文件 使用jieba分詞 worldcloud制作詞云 ——以《三國演義》的txt文件為例

代碼以及釋義如下:

```

import jieba

import jieba.analyse

import wordcloud

from PIL import Image, ImageSequence

import numpy as np

import matplotlib.pyplot as plt

from wordcloud import WordCloud, ImageColorGenerator

import jieba

import jieba.analyse

##============分詞===============

stopwords=[lines.strip() for lines in open('chineseStopWords.txt',encoding='utf-8').readlines()]? ? ? #停用詞文件的讀取

stopwords.append('')

path = '《三國演義》羅貫中.txt'? ? #第一步爬蟲結(jié)果存儲的路徑

file_in = open(path,'r',encoding='utf-8').read()

jieba.del_word("卻說")? ? #刪除一些不想要的詞

jieba.del_word("二人")? ?

jieba.del_word("荊州")

words=jieba.lcut(file_in)? ? #分詞

# cut_text=" ".join(words)

##==============詞頻統(tǒng)計=============

word_freq={}? ? #詞頻統(tǒng)計的字典

for word in words:? ? ? ? ? #這一步是對近義詞進行統(tǒng)計

? ? if (word in stopwords) or len(word)==1 :? ? ? ? #禁用詞和低頻詞不統(tǒng)計了

? ? ? ? continue

? ? elif word=='玄德' or word == '玄德曰':

? ? ? ? newword='劉備'

? ? elif word=='丞相':

? ? ? ? newword='曹操'

? ? elif word=='孔明' or word=='孔明曰':

? ? ? ? newword='諸葛亮'

? ? elif word=='關公' or word=='云長':

? ? ? ? newword='關羽'

? ? else:

? ? ? ? newword=word

? ? if newword in word_freq:

? ? ? ? word_freq[newword]+=1

? ? else:

? ? ? ? word_freq[newword]=1

? ? ? ? # word_freq[word]=word_freq.get(word,0)+1

# print(word_freq)

freq_word=[]

for word,freq in word_freq.items():

? ? fenci=freq_word.append((word,freq))

freq_word.sort(key=lambda x:x[1],reverse=True)? ? #詞語根據(jù)詞頻排序

for word,freq in freq_word[:50]:

? ? with open('wukaiaaaaa.txt','a',encoding='utf-8')as fp:

? ? ? ? fp.write(word+'\n')? #將前五十詞頻文件保存

? ? print(word,freq)? #打印排名前50%的單詞


##===========詞云制作=======================

#background_image=np.array(Image.open("music.png"))

c=[lines.strip("\n") for lines in open('wukaiaaaaa.txt',encoding='utf-8').readlines()]? #讀取詞頻前五十的文本文件

cc=" ".join(c)? #必要羽戒,否則 expected string or bytes-like object:應為字符串或類似對象的字節(jié)

wordcloud=WordCloud(

? ? font_path = 'C:/Users/Windows/fonts/simkai.ttf',? #字體樣式設置

? ? background_color="white",width=2000,height=2000,

? ? mask=np.array(Image.open("music.png"))? #mask=background_image?

).generate(cc)? ? ? ? ? #詞云圖設置

plt.imshow(wordcloud,interpolation="bilinear")

plt.axis("off")? ? #不展示坐標軸 否則為plt.axis("off")? 梁棠,可以試一下結(jié)果如何

plt.show()? #詞云圖的展示

```

結(jié)果如圖:

詞頻:


詞云:背景圖隨便選了張彻桃,有點丑州邢,但是不難發(fā)現(xiàn)詞頻與字體大小的關系


?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末届巩,一起剝皮案震驚了整個濱河市避归,隨后出現(xiàn)的幾起案子礼烈,更是在濱河造成了極大的恐慌峭拘,老刑警劉巖匹摇,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件咬扇,死亡現(xiàn)場離奇詭異,居然都是意外死亡廊勃,警方通過查閱死者的電腦和手機懈贺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門经窖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人梭灿,你說我怎么就攤上這事画侣。” “怎么了堡妒?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵配乱,是天一觀的道長。 經(jīng)常有香客問我皮迟,道長搬泥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任伏尼,我火速辦了婚禮忿檩,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘爆阶。我一直安慰自己燥透,他們只是感情好,可當我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布辨图。 她就那樣靜靜地躺著班套,像睡著了一般。 火紅的嫁衣襯著肌膚如雪故河。 梳的紋絲不亂的頭發(fā)上吱韭,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天,我揣著相機與錄音忧勿,去河邊找鬼杉女。 笑死瞻讽,一個胖子當著我的面吹牛鸳吸,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播速勇,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼晌砾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了烦磁?” 一聲冷哼從身側(cè)響起养匈,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎都伪,沒想到半個月后呕乎,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡陨晶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年猬仁,在試婚紗的時候發(fā)現(xiàn)自己被綠了帝璧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡湿刽,死狀恐怖的烁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情诈闺,我是刑警寧澤渴庆,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站雅镊,受9級特大地震影響襟雷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜漓穿,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一嗤军、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晃危,春花似錦叙赚、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鳍鸵,卻和暖如春苇瓣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背偿乖。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工击罪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人贪薪。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓媳禁,卻偏偏與公主長得像,于是被迫代替她去往敵國和親画切。 傳聞我的和親對象是個殘疾皇子竣稽,可洞房花燭夜當晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 沒錯毫别,寫錯啊在傳統(tǒng)平臺上發(fā)表過程中,我們總看不到自己實際的貢獻典格。所以建立一個虛擬的簡書鉆制度 岛宦,我們可以擁有更多的...
    樹蕙閱讀 323評論 0 0
  • 老滕在群眾藝術館已經(jīng)工作了三十年了,三十年間耍缴,雖談不上兢兢業(yè)業(yè)砾肺,但也能做到按部就班齐佳。可是身邊的同事高升了一...
    唱通閱讀 656評論 3 8
  • 今天的事情也沒有什么不好债沮,就是莫名的不舒服炼吴,需要謹慎,要讓自己好起來疫衩,也沒有什么問題需要解決的硅蹦,只是自己的原因,懟...
    Serene湯先允閱讀 183評論 0 0