Python3 文本挖掘

文本挖掘是從大量文本中拾弃,比如微博評(píng)論讯檐,知乎評(píng)論羡疗,JD,天貓?zhí)詫毚罅吭u(píng)論中的文本中抽取出有價(jià)值的知識(shí)别洪,并利用這些知識(shí)創(chuàng)造出價(jià)值叨恨,實(shí)現(xiàn)變現(xiàn)的一個(gè)過程。

文本挖掘目的是把文本信息轉(zhuǎn)化為人類可利用的知識(shí)挖垛。

文本挖掘我覺得可分為以下幾個(gè)方向痒钝。
第一,文本詞頻統(tǒng)計(jì)分析痢毒,提取關(guān)鍵字做詞云展示午乓。
第二,分類闸准,利用sklearn的樸素貝葉斯算法進(jìn)行分類益愈,比如垃圾郵件分類,文本分類夷家、信用等級(jí)評(píng)定蒸其,情感分析。
第三库快,文本推薦摸袁,例如使用TF-IDF找出兩篇文章的關(guān)鍵詞,然后每個(gè)文章分別取出k個(gè)關(guān)鍵詞(10-20個(gè))义屏,統(tǒng)計(jì)這些關(guān)鍵詞的詞頻靠汁,生成兩篇文章的詞頻向量,然后用余弦距離計(jì)算其相似度進(jìn)行推薦闽铐。

語料庫(kù)是我們要分析的所有文檔的集合〉現(xiàn)有十九大報(bào)告的txt文檔。

十九大報(bào)告
分詞結(jié)果
分詞結(jié)果頻率排序
生成詞云

全篇代碼:

# -*- conding:utf-8 -*-

import re
import numpy as np
import pandas as pd
# 字符編碼模塊
import codecs
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 匹配中文字符正則表達(dá)式
zh_pattern = re.compile(u'[\u4e00-\u9fa5]+')
# 加載文本數(shù)據(jù),構(gòu)建語料庫(kù)
text = codecs.open('D:/PyCharm WorkPlace/十九大.txt', 'r', 'gbk')
content = text.read()
text.close()

stat = []
# 停用詞語
stop_words = set(['的', '和', '是', '在', '要', '為', '我們', '以', '把', '了', '到', '上', '有'])

# 分詞
segs = jieba.cut(content)
for seg in segs:
    # 匹配中文字符
    if zh_pattern.search(seg):
        # 去除停用詞
        if seg not in stop_words:
            stat.append({'from': '十九大', 'word': seg})

# print(stat)
# 分詞結(jié)果存到數(shù)據(jù)框
stat_df = pd.DataFrame(stat)
print(stat_df)
# pivot_table 透視表
pt_stat = stat_df.pivot_table(index='word', columns='from', fill_value=0, aggfunc=np.size)
# 分詞結(jié)果頻率排序
# print(pt_stat.sort_index(by='十九大'))

# 設(shè)置詞云字體
cloud = WordCloud(font_path='C:\\simhei.ttf', background_color='white')
words = pt_stat['十九大'].to_dict()
print(words)
# 生成詞云
cloud.fit_words(words)
plt.imshow(cloud)
plt.axis('off')
plt.show()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末兄墅,一起剝皮案震驚了整個(gè)濱河市踢星,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌隙咸,老刑警劉巖沐悦,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異五督,居然都是意外死亡藏否,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門充包,熙熙樓的掌柜王于貴愁眉苦臉地迎上來副签,“玉大人,你說我怎么就攤上這事〖萄Γ” “怎么了修壕?”我有些...
    開封第一講書人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)遏考。 經(jīng)常有香客問我慈鸠,道長(zhǎng),這世上最難降的妖魔是什么灌具? 我笑而不...
    開封第一講書人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任青团,我火速辦了婚禮,結(jié)果婚禮上咖楣,老公的妹妹穿的比我還像新娘督笆。我一直安慰自己,他們只是感情好诱贿,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開白布娃肿。 她就那樣靜靜地躺著,像睡著了一般珠十。 火紅的嫁衣襯著肌膚如雪料扰。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評(píng)論 1 289
  • 那天焙蹭,我揣著相機(jī)與錄音晒杈,去河邊找鬼。 笑死孔厉,一個(gè)胖子當(dāng)著我的面吹牛拯钻,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播撰豺,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼粪般,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了郑趁?” 一聲冷哼從身側(cè)響起刊驴,我...
    開封第一講書人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎寡润,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體舅柜,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡梭纹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了致份。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片变抽。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出绍载,到底是詐尸還是另有隱情诡宗,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布击儡,位于F島的核電站塔沃,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏阳谍。R本人自食惡果不足惜蛀柴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望矫夯。 院中可真熱鬧鸽疾,春花似錦、人聲如沸训貌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽递沪。三九已至豺鼻,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間区拳,已是汗流浹背拘领。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留樱调,地道東北人约素。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像笆凌,于是被迫代替她去往敵國(guó)和親圣猎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容