突然拿到了用戶需求拍霜,想起是不是能用次詞頻的方式來統(tǒng)計(jì)用戶關(guān)注的熱點(diǎn)逃魄,通過數(shù)據(jù)客觀反應(yīng)筋蓖。
想起以前了解過一點(diǎn)的python的一個(gè)包jieba分詞卸耘,苦于不知道怎么把文件作為輸入來進(jìn)行分詞,于是又發(fā)現(xiàn)了一個(gè)好物python-docx粘咖,下載嘗試果然可用蚣抗。
pip install python-docx失敗
于是在github上下載了python-docx的源碼,python setup.py install完成安裝lmx依賴包不知什么時(shí)候安裝成功了
參考鏈接
官網(wǎng):https://python-docx.readthedocs.io/en/latest/
github:https://github.com/python-openxml/python-docx
參考:http://blog.csdn.net/qianchenglenger/article/details/51582005
安裝完成后嘗試讀取一個(gè)自己寫的docx文件
在windows編譯環(huán)境下注意路徑應(yīng)當(dāng)用 “/”瓮下,linux下還沒嘗試回頭實(shí)驗(yàn)下再說翰铡。
通過paragraphs獲取段落:ps = document.paragraphs
len(ps)獲取文檔組成部分,因?yàn)闇y(cè)試文檔簡(jiǎn)單因此len出來結(jié)果只有1
ps[0].text為從word文檔里讀取出來的文本內(nèi)容
傳遞給jieba 進(jìn)行分詞即可。
下一篇實(shí)驗(yàn)一篇更加復(fù)雜的文檔嘱根,按段落傳送給jieba進(jìn)行分詞面殖,并按段落統(tǒng)計(jì)詞頻
PS:? 一個(gè)git的在線學(xué)習(xí)網(wǎng)站,http://pcottle.github.io/learnGitBranching/