詞云圖,也叫文字云袜啃,是對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺化的展現(xiàn)彼水,詞云圖過濾掉大量的低頻低質(zhì)的文本信息崔拥,使得瀏覽者只要一眼掃過文本就可領(lǐng)略文本的主旨。
一猿涨、先看看幾個詞云圖
從簡書簽約作者的自我介紹中提取關(guān)鍵詞握童,統(tǒng)計(jì)后制作的詞云圖姆怪∨炎看看這些關(guān)鍵詞,你能想到是哪位簽約作者稽揭?
從簡書首頁俺附、7日熱門文章進(jìn)行文章分類統(tǒng)計(jì)后,生成的詞云圖溪掀。想上首頁熱門事镣,應(yīng)該選擇上面幾個類型來寫。
關(guān)于在簡書上寫什么揪胃,V先生有一個高度的概括總結(jié):
三教 × 九流:「生活璃哟、工作氛琢、學(xué)習(xí)」三教,「學(xué)術(shù)思辨随闪、故事阳似、詩歌、時評铐伴、隨筆撮奏、科技工具、書影音当宴、新技能 get畜吊、吐槽」九流。
抓取2016年簡書·讀書專題文章中的書名户矢,生成的詞云圖玲献,今年你讀過哪幾本書?
簡書頭牌-六神的詞云圖梯浪,抓取他的120篇文章標(biāo)題青自,進(jìn)行分詞統(tǒng)計(jì)后生成。
抓取51Job C++嵌入式崗位驱证,職位描述分詞后延窜,得到的詞云圖,上圖是硬技能的要求抹锄,下圖是軟實(shí)力的要求逆瑞。
二、開始制作詞云圖
- 工具: 我使用的是TAGUL伙单, https://tagul.com/ 一款在線詞云制作工具获高,非常簡單。
-
步驟:
1)導(dǎo)入文本
Import words , 可以直接粘貼導(dǎo)入文本數(shù)據(jù)吻育,或者以web url的方式導(dǎo)入念秧。文本數(shù)據(jù)包括關(guān)鍵詞和size。
Add布疼,是添加一個關(guān)鍵詞和size
2)選擇形狀 -- 自定義形狀圖片
TAGUL提供了一些模板圖形摊趾,左邊是分類主題。
一般圖形選取的原則游两,看關(guān)鍵詞的內(nèi)容來定砾层,如公司LOGO,人物頭像贱案,需要上傳你的圖形圖片肛炮,點(diǎn) ADD IMAGE。自定義形狀圖片,有一個技巧侨糟,圖片的清晰度不要求很高碍扔,輪廓清楚就好。
還一個有小技巧秕重,如果圖形有背景蕴忆,或邊緣需要修理一下的話,我沒有采用PS這一類的重型武器悲幅,直接用PPT中的圖像就可以搞定套鹅,快捷方便。比如小六之前的頭像汰具,原圖下巴處有一圈光影卓鹿,不處理的話,形成的詞云圖是左邊的留荔,用PPT修好后的是右圖吟孙,看上去是不是清秀多了。
3)修改字體
注意TAGUL默認(rèn)的都是英文字體聚蝶,關(guān)鍵詞如果是中文或有中文是無法顯示出來的杰妓。
點(diǎn)Add Font添加就行,添加你電腦上 C:/WINDOWS/font 文件夾下的你喜歡的一種字體就行碘勉。
注意巷挥,如果你使用的是Mac,需把Windows下的字體拷一個過來進(jìn)行添加就OK验靡。
4)選擇文字排列方向
選擇文字方向即可倍宾。
5)生成詞云 -- 下載
點(diǎn)擊 "Visualize" 就可以生成。在Download and Share中下載標(biāo)清(SQ)圖片胜嗓,就是你想要的詞云圖高职。
TAGUL付費(fèi)版可以下載高清的圖片,也可以生成嵌入的網(wǎng)頁代碼辞州,詞云有動態(tài)效果怔锌。
怎么樣,以上操過很簡單吧变过。其實(shí)這些不是關(guān)鍵埃元,關(guān)鍵是如何獲得詞源和詞的頻度(size)。
進(jìn)階篇
三牵啦、詞源獲妊乔椤:爬蟲和分詞技術(shù)
我用以獲取關(guān)鍵詞的方法都是使用Python爬蟲妄痪,如爬取簡書用戶信息哈雏,爬取簡書首頁、熱門文章標(biāo)題,爬取51JOB招聘職位信息 ......
注意裳瘪,這時候你拿到的還不是關(guān)鍵詞土浸,是句子或段落,怎么得到關(guān)鍵詞彭羹?就是把句子切成多個詞語黄伊。看過老羅錘子M1發(fā)布會的一定對Big Bang有深刻的印象派殷,對的还最,Big Bang就是分詞的應(yīng)用。
我常用的兩款分詞工具毡惜,一個是在線分詞工具 基于深度學(xué)習(xí)的中文在線抽詞-PullWord拓轻,另一個是結(jié)巴分詞(jieba)。再把這些關(guān)鍵詞進(jìn)行分類匯總得到詞頻數(shù)據(jù)经伙,選擇那些高頻詞扶叉,按上面的方式制作詞云圖。
比如你看到的上面軟技能的關(guān)鍵詞帕膜,實(shí)際上是從所有職位描述進(jìn)行分詞得到的 372,739 個詞枣氧,再進(jìn)行分類匯總后得出的高頻詞。分類匯總用的是SQL聚合函數(shù)垮刹,也可以用Excel达吞。
爬蟲和分詞都需要編程實(shí)現(xiàn)。如果你沒有編程方面的基礎(chǔ)荒典,這一步也可以簡化來做宗挥,就是主觀選取一些關(guān)鍵詞,隨機(jī)或手動指定詞頻(size)种蝶。
所以一個完整的詞云圖的制作過程應(yīng)該是:網(wǎng)絡(luò)抓數(shù)據(jù)(Python或R語言)— 分詞 — 分類匯總(SQL)— 使用詞云工具生成云圖契耿。
四、其他詞云工具
有比較多的在線詞云工具螃征,javascript也可以開發(fā)動態(tài)詞云工具搪桂。
另外推薦:Tagxedo,使用方法跟TAGUL差不多盯滚。
ECharts有專門的詞云踢械,不過展現(xiàn)力還是比較單薄點(diǎn)。
詞云圖從大了講就是數(shù)據(jù)可視化魄藕,從小了講只是個雕蟲小技内列,“形式大于內(nèi)容”,醬紫背率。
全文完话瞧。另外詞云圖看多了也比較暈嫩与,這篇文章里就放得太多。