< 制作詞云 E02 >—Python

在前兩章佩耳,介紹了文本材料的準(zhǔn)備 以及 WordArt 可視化干厚。這里我介紹如何自己動(dòng)手DIY屬于自己的詞云。

  • 材料:

    • 文本數(shù)據(jù)
    • python (jieba悬嗓,wordcloud)
      安裝 jiebawordcloud

      pip install jieba
      pip install wordcloud

      wordcloud 用于生成詞云裕坊,Github地址: https://github.com/amueller/word_cloud
      wordcloud 生成需要詞語(yǔ)作為元素籍凝,由于wordcloud是國(guó)外的苗缩,對(duì)中文支持不好,所以我們需要提前對(duì)文本進(jìn)行分詞統(tǒng)計(jì)處理退盯,得到關(guān)鍵詞進(jìn)行可視化泻肯。
  • 實(shí)現(xiàn):

    • 方式一:
      直接將分詞結(jié)果放入wordcloud.generate()函數(shù)中進(jìn)行處理(wrd_dict是分詞的結(jié)果)
        import matplotlib.pyplot as plt
        from wordcloud import WordCloud 
        #可視化
        BKImg=np.array(Image.open("heart.jpg"))# 加入自定義背景圖片
        my_wordcloud = WordCloud(      
              background_color='white',    # 設(shè)置背景顏色
              mask = BKImg,        # 設(shè)置背景圖片
              max_words = rank_K,            # 設(shè)置最大現(xiàn)實(shí)的字?jǐn)?shù)
              #stopwords = "小嫣嫣小星星",        # 設(shè)置停用詞
              font_path = 'FZLTHJW.TTF',# 設(shè)置字體格式灶挟,如不設(shè)置顯示不了中文
              max_font_size = 80,            # 設(shè)置字體最大值
              min_font_size = 10,
              # relative_scaling=0.5,
              random_state = 30,            # 設(shè)置有多少種隨機(jī)生成狀態(tài),即有多少種配色方案
                  scale=1
                  ).generate(wrd_dict)
        clr=ImageColorGenerator(BKImg) # 加入背景的配色方案
        plt.imshow(my_wordcloud.recolor(color_func=clr))`
        plt.imshow(my_wordcloud)
        plt.axis("off")
        plt.show() #顯示
        my_wordcloud.to_file("result1.png") # 將結(jié)果寫入png
    
    • 方式二:
      • 方式一是將分好的詞加入自定義詞典箱叁,加入generate() 函數(shù)耕漱,但是這樣得到的結(jié)果卻不是很理想,最終 wordcloud 整理出來(lái)的結(jié)果將人名和一些人所說(shuō)的話并在一起灾梦,導(dǎo)致“小王 哈哈哈”齐鲤,“小王”都被分進(jìn)詞云的詞典,導(dǎo)致“小王”這個(gè)詞重復(fù)出現(xiàn)牡肉。
      • 為了解決這個(gè)問(wèn)題,查看 WordCloud 這個(gè)類(對(duì)象)淆九,找到generate_from_frequencies(wrd_dict)這個(gè)函數(shù)统锤,送入的是自定義的字典{[對(duì)象]:[頻率]})
    # 制作詞典       
    wrd_dict={}
    for i in range(0,rank_K):
        wrd_dict[str(tags[i][0])]=round(math.log(tags[i][1]*len_txt,1.5))
    #可視化
    BKImg=np.array(Image.open("heart.jpg"))
    my_wordcloud = WordCloud(
             background_color='white',    # 設(shè)置背景顏色
             mask = BKImg,        # 設(shè)置背景圖片
             max_words = rank_K,            # 設(shè)置最大現(xiàn)實(shí)的字?jǐn)?shù)
             #stopwords = "小嫣嫣小星星",        # 設(shè)置停用詞
             font_path = 'FZLTHJW.TTF',# 設(shè)置字體格式,如不設(shè)置顯示不了中文
             max_font_size = 80,            # 設(shè)置字體最大值
             min_font_size = 10,
             # relative_scaling=0.5,
             random_state = 30,            # 設(shè)置有多少種隨機(jī)生成狀態(tài)炭庙,即有多少種配色方案
                 scale=1
                 ).generate_from_frequencies(wrd_dict)
    clr=ImageColorGenerator(BKImg)
    plt.imshow(my_wordcloud.recolor(color_func=clr))
    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()
    my_wordcloud.to_file("result2.png")
    
    • 這里 math.log() 是調(diào)整聊天記錄中出現(xiàn)頻率過(guò)度頻繁的人的名字的權(quán)重饲窿,使得樣 本權(quán)重比較平衡。
  • 成果:

qq 聊天記錄詞云
大家趕緊動(dòng)手制作自己的詞云吧~ 趁著情人節(jié)前給自己的女朋友一個(gè)驚喜(*^▽^*)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末焕蹄,一起剝皮案震驚了整個(gè)濱河市逾雄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腻脏,老刑警劉巖鸦泳,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件永品,死亡現(xiàn)場(chǎng)離奇詭異做鹰,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)鼎姐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門钾麸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人炕桨,你說(shuō)我怎么就攤上這事饭尝。” “怎么了谋作?”我有些...
    開(kāi)封第一講書人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵芋肠,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我遵蚜,道長(zhǎng)帖池,這世上最難降的妖魔是什么奈惑? 我笑而不...
    開(kāi)封第一講書人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮睡汹,結(jié)果婚禮上肴甸,老公的妹妹穿的比我還像新娘。我一直安慰自己囚巴,他們只是感情好原在,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著彤叉,像睡著了一般庶柿。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上秽浇,一...
    開(kāi)封第一講書人閱讀 51,679評(píng)論 1 305
  • 那天浮庐,我揣著相機(jī)與錄音,去河邊找鬼柬焕。 笑死审残,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的斑举。 我是一名探鬼主播搅轿,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼富玷!你這毒婦竟也來(lái)了璧坟?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤赎懦,失蹤者是張志新(化名)和其女友劉穎沸柔,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體铲敛,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年会钝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伐蒋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡迁酸,死狀恐怖先鱼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奸鬓,我是刑警寧澤焙畔,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站串远,受9級(jí)特大地震影響宏多,放射性物質(zhì)發(fā)生泄漏儿惫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一伸但、第九天 我趴在偏房一處隱蔽的房頂上張望肾请。 院中可真熱鬧,春花似錦更胖、人聲如沸铛铁。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)饵逐。三九已至,卻和暖如春彪标,著一層夾襖步出監(jiān)牢的瞬間倍权,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工捐下, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留账锹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓坷襟,卻偏偏與公主長(zhǎng)得像奸柬,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子婴程,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容