Python是用于數(shù)據(jù)挖掘的利器
用Python可以用來(lái)做很多很好玩的東西,下面就來(lái)用Python來(lái)進(jìn)行詞頻統(tǒng)計(jì)
最近我們單位在學(xué)習(xí)十九大報(bào)告劝枣,我就把報(bào)告進(jìn)行了詞頻統(tǒng)計(jì)汤踏,統(tǒng)計(jì)結(jié)果如下圖
可以看出倡缠,發(fā)展仍是中國(guó)目前最需要的。
1茎活、用到了那些東西昙沦?
其實(shí),我們這里用到的只不過(guò)是強(qiáng)大的Python擴(kuò)展中的?jieba载荔。
想要詳細(xì)了解大家可以搜索一下盾饮。我這里只用到了它們的基本功能。
安裝就不再贅述了懒熙,大家應(yīng)該都比較熟了
2丘损、具體操作
是不是很簡(jiǎn)單。
前面四行是引入相應(yīng)的擴(kuò)展或?qū)ο?/p>
然后獲取當(dāng)前執(zhí)行文件的路徑工扎,
打開(kāi)我們的文件徘钥,如果想練技術(shù)可以從網(wǎng)上爬蟲(chóng)一下生成這個(gè)報(bào)告。path.join 合成文件路徑
調(diào)用jieba函數(shù)進(jìn)行分詞肢娘,轉(zhuǎn)化成list對(duì)象
調(diào)用Couter對(duì)象的函數(shù)呈础,統(tǒng)計(jì)每個(gè)詞出現(xiàn)的次數(shù),并且取最高的50個(gè) 轉(zhuǎn)化為dict?
循環(huán)data 寫(xiě)入新的文件
OK 結(jié)束?
進(jìn)入我們的環(huán)境?
source xxxx/bin/activate
python xxx.py
運(yùn)行成功橱健。
作為新手而钞,從這段代碼中可以學(xué)習(xí)拓展一下幾個(gè)知識(shí)點(diǎn)
(1)????python 對(duì)文件的讀寫(xiě)
常用的是?
with open("文件",'操作方式','編碼方式') as fw #注意 編碼方式使用不當(dāng)可能會(huì)引起中文亂碼
(2) ? ?list dict的轉(zhuǎn)換
list() dict()
(3) ? ?dict循環(huán)
for key, value in dict.items()
3、learn more
大家可能看到了word_cloud拘荡,這是一個(gè)好玩有趣的東西
用了它
是不是Cool多了
具體代碼
上面代碼中牽涉到幾個(gè)知識(shí)點(diǎn)
(1)字符串前加r是為了防止轉(zhuǎn)義臼节。保留特殊字符
(2)wordcloud 默認(rèn)不支持中文,可以引用一個(gè)本機(jī)的字體文件珊皿,mac默認(rèn)路徑就是這個(gè)
?后面就是引用的一些擴(kuò)展中函數(shù)的使用网缝,就不展開(kāi)介紹了。
大家想研究可以去clone它們的Github
Good Good Study Day Day up