Python詞云

很少記錄自己的學(xué)習(xí)歷程,無奈太健忘你辣,而且剛?cè)胧諴ython,還是寫下來供以后參考和思考尘执。

本篇主要利用python jieba分詞和wordcloud進(jìn)行詞的可視化舍哄,其中去了停用詞,單獨(dú)計(jì)算了詞頻誊锭。也可以利用結(jié)巴自帶的關(guān)鍵詞提取方法表悬。

附網(wǎng)址jieba:https://github.com/fxsjy/jieba

wordcloud:https://github.com/amueller/word_cloud

#導(dǎo)入要用的包

import pandas as pd

import numpy as np

import jieba

import jieba.analyse

import wordcloud.WordCloud

import os

import matplotlib.pyplot as plt

import matplotlib

matplotlib.style.use('ggplot')

%matplotlib inline


#我將要處理的文件放在了D盤,文件類似dataframe結(jié)構(gòu)

os.chdir('D:')

comtent = pd.read_csv('dataframe.csv',dtype = 'object')


#將每列的keyword合并成一個字符串以便于處理

action = ''

for kw in content['keyword']:

? ? ? action += kw.strip() + ' '


stopwords = open('stopword.txt').read().strip().splitlines()

seg = jieba.cut(action)

seg = ' '.join(seg).split() ? ? ?######分詞后的詞都是Unicode格式

words = ''

for word in seg:

? ? word = word.encode('utf-8') ? ? ?#####因?yàn)橥S迷~是utf-8編碼的丧靡,所以將其也編碼為utf-8

? ? if word not in stopwords:

? ? ? ? words += word.strip() + ' '

words =words.decode('utf-8')

此處可以直接用wordcloud直接畫圖啦蟆沫,用generate()函數(shù)

#計(jì)算詞頻

words = ?words.split()

word_freq = {}

for word in words:

? ? if word in word_freq:

? ? ? ? word_freq[word] += 1

? ? else:

? ? ? ? word_freq[word] = 1


#按詞頻排序,將dict類型轉(zhuǎn)換成list類型

sort_word = []

for word,freq in word_freq.items():

? ? sort_word.append((word,freq))

sorted_word = sorted(sort_word,key = lambda x:x[1]温治,reverse = True)

##查看前100個高頻詞

for word in sorted_word[:100]:

? ? print word[0],word[1]


#發(fā)現(xiàn)一個字的挺多饭庞,所以選擇長度大于2的詞

lengther = []

for word in sorted_word:

? ? if len(word[0]) > 1:

? ? ? ? lengther.append(word)


#畫圖啦

wordcloud1 = WordCloud(font_path = '..matplotlib\\mpl-data\\fonts\\ttf\\msyh.ttf',background_color = 'white',max_words = 200,stopwords = ? ? ? ? ? ? ? stopwords).generate_from_frequencies(dict(lengther))

plt.imshow(wordcloud1)

plt.axis('off')

plt.show()


結(jié)巴自動關(guān)鍵詞提取(tf-idf罐盔,textrank)

tf-idf = jieba.analyse.extract_tags(action,topK = 200,withWeight = True)

textrank = jieba.analyse.textrank(action,topK = 200,withWeight = True)

畫圖部分省略但绕,和上面的一樣。。捏顺。


注:本文為原創(chuàng)六孵,轉(zhuǎn)載請注明出處。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末幅骄,一起剝皮案震驚了整個濱河市颤难,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宰僧,老刑警劉巖笋敞,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異挪凑,居然都是意外死亡孕索,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門躏碳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來搞旭,“玉大人,你說我怎么就攤上這事菇绵∫奚” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵咬最,是天一觀的道長翎嫡。 經(jīng)常有香客問我,道長永乌,這世上最難降的妖魔是什么惑申? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮翅雏,結(jié)果婚禮上硝桩,老公的妹妹穿的比我還像新娘。我一直安慰自己枚荣,他們只是感情好碗脊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著橄妆,像睡著了一般衙伶。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上害碾,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天矢劲,我揣著相機(jī)與錄音,去河邊找鬼慌随。 笑死芬沉,一個胖子當(dāng)著我的面吹牛躺同,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播丸逸,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蹋艺,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了黄刚?” 一聲冷哼從身側(cè)響起捎谨,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎憔维,沒想到半個月后涛救,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡业扒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年检吆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片程储。...
    茶點(diǎn)故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡咧栗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出虱肄,到底是詐尸還是另有隱情,我是刑警寧澤交煞,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布咏窿,位于F島的核電站,受9級特大地震影響素征,放射性物質(zhì)發(fā)生泄漏集嵌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一御毅、第九天 我趴在偏房一處隱蔽的房頂上張望根欧。 院中可真熱鬧,春花似錦端蛆、人聲如沸凤粗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嫌拣。三九已至,卻和暖如春呆躲,著一層夾襖步出監(jiān)牢的瞬間异逐,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工插掂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留灰瞻,地道東北人腥例。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像酝润,于是被迫代替她去往敵國和親燎竖。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容