引言
在數(shù)據(jù)分析的過(guò)程中我們經(jīng)常會(huì)接觸到很多詞云圖咒精,比起干巴巴的數(shù)字頻率統(tǒng)計(jì)魂那,詞云圖更能吸引讀者的眼球。制作詞云的工具有很多宏悦,但原理都很簡(jiǎn)單募胃,今天我就試著利用python制作一張?jiān)~云圖溉贿。
分析目的
利用《三體》這部小說(shuō)的內(nèi)容制作詞云圖看疙。
分析過(guò)程
1.工具包的導(dǎo)入? ? ? ?
使用到的工具是python3.5豆拨,需要導(dǎo)入的工具包有jieba,wordcloud以及scipy下用于讀取圖片的包能庆。
2.文件的讀入? ? ? ?
我從網(wǎng)上找到了三體三部小說(shuō)的txt格式施禾,把它們都讀入并做去停用詞處理,(處理的過(guò)程可以參照上一篇推文:如何利用python進(jìn)行文本相似度分析)處理完成后得到一個(gè)list如下圖所示搁胆。
3.制作詞云圖? ? ??
? ? ? ?上一步驟所得到的list要先轉(zhuǎn)化為string類(lèi)型才可以制作詞云圖弥搞,主要應(yīng)用了Wordcloud這個(gè)包,它會(huì)自動(dòng)對(duì)其中的詞頻進(jìn)行分析并制作出隨機(jī)的詞云圖丰涉,可以通過(guò)font_path導(dǎo)入字體的ttc文件;可以通過(guò)background_color設(shè)置背景顏色斯碌;可以通過(guò)max_words設(shè)置詞云內(nèi)所允許出現(xiàn)的最大詞數(shù)一死,最后用matplotlib就可以把生成的詞云顯示出來(lái)。點(diǎn)擊右鍵保存到本地傻唾,一張簡(jiǎn)單的詞云圖就誕生啦投慈。
結(jié)果解讀
詞云圖的解讀不必我多講承耿,但是細(xì)心的讀者會(huì)發(fā)現(xiàn),最終生成的詞云圖和推文封面不一樣拔泵骸加袋?其實(shí)Wordcloud方法還可以通過(guò)添加mask=?參數(shù)設(shè)置生成的詞云圖的樣式抱既,操作如下:(紅線為新增部分)
按照這個(gè)思路职烧,我對(duì)三體2和三體3做了同樣的分析,得出的結(jié)果如下
????怎么樣防泵?你也快試試用python制作一張專屬于你的詞云圖吧蚀之。