Python-分詞&云圖

jieba分詞

import jieba

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所窘哈,后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

輸出:
Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)

Default Mode: 我/ 來到/ 北京/ 清華大學(xué)

,小明, 碩士, 畢業(yè), 于, 中國, 科學(xué), 學(xué)院, 科學(xué)院, 中國科學(xué)院, 計算, 計算所, 后, 在, 日本, 京都, 大學(xué), 日本京都大學(xué), 深造

一般用默認(rèn)的精確模式就可以倦沧。

使用add_word(word, freq=None, tag=None)del_word(word)調(diào)整詞頻。

wordcloud云圖

正常生成云圖

from wordcloud import WordCloud

wc = WordCloud(font_path='simsun.ttc',
               background_color="white", max_words=800, max_font_size=800, 
               random_state=200, collocations=False).generate(text)

根據(jù)指定背景圖生成云圖

image = Image.open(r'2.jpg')
graph = np.array(image)
wc = WordCloud(font_path='simsun.ttc',
               background_color="white", max_words=200, mask=graph,
               max_font_size=1000, random_state=200, collocations=False).generate(text)

進(jìn)行顯示

import matplotlib.pyplot as plt

plt.imshow(wc)
plt.axis('off')
plt.show()

保存云圖兩種方式

plt.savefig("H:/temp/temp.jpg",dpi=200) #默認(rèn)尺寸是和終端中顯示差不多的縮略版的圖(大小432×288)奖恰,可以通過dpi調(diào)節(jié)精度改善清晰度,
wc.to_file('pic.jpg')                   #輸出的是每個字都精確顯示的完整云詞圖,非常清晰

所有參數(shù)及方法

font_path : string //字體路徑三痰,需要展現(xiàn)什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf'

width : int (default=400) //輸出的畫布寬度窜管,默認(rèn)為400像素

height : int (default=200) //輸出的畫布高度散劫,默認(rèn)為200像素

prefer_horizontal : float (default=0.90) //詞語水平方向排版出現(xiàn)的頻率,默認(rèn) 0.9 (所以詞語垂直方向排版出現(xiàn)頻率為 0.1 )

mask : nd-array or None (default=None) //如果參數(shù)為空幕帆,則使用二維遮罩繪制詞云获搏。如果 mask 非空,設(shè)置的寬高值將被忽略失乾,遮罩形狀被 mask 取代常熙。除全白(#FFFFFF)的部分將不會繪制纬乍,其余部分會用于繪制詞云。

scale : float (default=1) //按照比例進(jìn)行放大畫布裸卫,如設(shè)置為1.5仿贬,則長和寬都是原來畫布的1.5倍。

min_font_size : int (default=4) //顯示的最小的字體大小

font_step : int (default=1) //字體步長墓贿,如果步長大于1茧泪,會加快運(yùn)算但是可能導(dǎo)致結(jié)果出現(xiàn)較大的誤差。

max_words : number (default=200) //要顯示的詞的最大個數(shù)

stopwords : set of strings or None //設(shè)置需要屏蔽的詞聋袋,如果為空队伟,則使用內(nèi)置的STOPWORDS

background_color : color value (default=”black”) //背景顏色,如background_color='white',背景顏色為白色幽勒。

max_font_size : int or None (default=None) //顯示的最大的字體大小

mode : string (default=”RGB”) //當(dāng)參數(shù)為“RGBA”并且background_color不為空時嗜侮,背景為透明。

relative_scaling : float (default=.5) //詞頻和字體大小的關(guān)聯(lián)性

color_func : callable, default=None //生成新顏色的函數(shù)代嗤,如果為空棘钞,則使用 self.color_func

regexp : string or None (optional) //使用正則表達(dá)式分隔輸入的文本

collocations : bool, default=True //是否包括兩個詞的搭配

colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機(jī)分配顏色,若指定color_func干毅,則忽略該方法宜猜。



fit_words(frequencies)  //根據(jù)詞頻生成詞云
generate(text)  //根據(jù)文本生成詞云
generate_from_frequencies(frequencies[, ...])   //根據(jù)詞頻生成詞云
generate_from_text(text)    //根據(jù)文本生成詞云
process_text(text)  //將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實現(xiàn)硝逢,使用上面的 fit_words(frequencies) )
recolor([random_state, color_func, colormap])   //對現(xiàn)有輸出重新著色姨拥。重新上色會比重新生成整個詞云快很多。
to_array()  //轉(zhuǎn)化為 numpy array
to_file(filename)   //輸出到文件

附上爬取知乎20萬用戶職業(yè)的云圖

知乎職業(yè)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末渠鸽,一起剝皮案震驚了整個濱河市叫乌,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌徽缚,老刑警劉巖憨奸,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異凿试,居然都是意外死亡排宰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門那婉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來板甘,“玉大人,你說我怎么就攤上這事详炬⊙卫啵” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長在跳。 經(jīng)常有香客問我枪萄,道長,這世上最難降的妖魔是什么硬毕? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任呻引,我火速辦了婚禮,結(jié)果婚禮上吐咳,老公的妹妹穿的比我還像新娘逻悠。我一直安慰自己,他們只是感情好韭脊,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布童谒。 她就那樣靜靜地躺著,像睡著了一般沪羔。 火紅的嫁衣襯著肌膚如雪饥伊。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天蔫饰,我揣著相機(jī)與錄音琅豆,去河邊找鬼。 笑死篓吁,一個胖子當(dāng)著我的面吹牛茫因,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播杖剪,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼冻押,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了盛嘿?” 一聲冷哼從身側(cè)響起洛巢,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎次兆,沒想到半個月后稿茉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡芥炭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年狈邑,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚤认。...
    茶點(diǎn)故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖糕伐,靈堂內(nèi)的尸體忽然破棺而出砰琢,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布陪汽,位于F島的核電站训唱,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏挚冤。R本人自食惡果不足惜况增,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望训挡。 院中可真熱鬧澳骤,春花似錦、人聲如沸澜薄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽肤京。三九已至颊艳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間忘分,已是汗流浹背棋枕。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留妒峦,地道東北人重斑。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像舟山,于是被迫代替她去往敵國和親绸狐。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 目錄 1.jieba下載安裝 2.算法實現(xiàn) 3.分詞功能 1.jieba下載安裝 Jieba是一個中文分詞組件累盗,...
    云上小白鴿閱讀 4,275評論 0 2
  • 注:參考文檔 一寒矿、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前若债,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,004評論 1 8
  • 1符相、分詞數(shù)據(jù)源基于之前采集公共管理學(xué)院老師的數(shù)據(jù),一共得到10個字段蠢琳。本次分詞是對大文本字段進(jìn)行分詞啊终,因此將所得到...
    _dami閱讀 2,187評論 1 1
  • 不知道究竟是我選擇了這些書籍,還是這些書籍選擇了我傲须。最近接觸的所有小說蓝牲,都會觸碰到一個命題:死亡。但這是生命的常態(tài)...
    懶兔少女閱讀 243評論 0 0
  • 已經(jīng)進(jìn)入這家互聯(lián)網(wǎng)公司已經(jīng)一年多泰讽,在各種混亂的工作里找到適合自己的工作模式例衍,同時也顛覆了一些自己的固有想法昔期。 好的...
    芙筱筱Elaine閱讀 407評論 4 3