文本挖掘HW3

import os
import os.path
import codecs
import pandas as pd
import numpy as np

filePaths = []
fileContents=[]
a=os.walk("C:/Users/dell/Desktop/datamining/2.1+語(yǔ)料庫(kù)/2.1/SogouC.mini/Sample")
for root, dirs, files in a:
    for name in files:
        filePath=os.path.join(root,name)
        filePaths.append(filePath)
        f = codecs.open(filePath, 'r','utf-8')
        fileContent=f.read()
        f.close()
        fileContents.append(fileContent)

corpos = pd.DataFrame({'filePath': filePaths,'fileContent':fileContents})

corpos

segments=[]
filePaths =[]
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent)
    for seg in segs:
        segments.append(seg)
        filePaths.append(filePath)
segmentDataFrame = pd.DataFrame({'segment':segments,'filePath':filePaths})
segmentDataFrame
corpos.iterrows
segStat = segmentDataFrame.groupby(by='segment')["segment"].agg({"計(jì)數(shù)":np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)

segmentDataFrame

我們發(fā)現(xiàn)存在jieba切分后有一些停用詞在干擾丛肢,類似空格漆羔、標(biāo)點(diǎn)以及一些中文中的介詞助詞等等。
所以担神,此時(shí)我們需要導(dǎo)入一個(gè)停用詞庫(kù)楼吃,停用詞庫(kù)中的詞就不要放入切詞數(shù)組中。

在這里需要注意的是妄讯,DataFrame沒(méi)有sort這個(gè)屬性孩锡,查了下,DataFrame有sort_values,
具體用法就是.sort_values('列名', ascending=False)

stopwords = pd.read_csv("C:\\Users\\dell\\Desktop\\datamining\\2.3\\StopwordsCN.txt",encoding='utf-8',index_col=False)

fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]

fSegStat

segments=[]
filePaths =[]
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent)
    for seg in segs:
        if seg not in stopwords.stopword.values and len(seg.strip())>1:
            segments.append(seg)
            filePaths.append(filePath)
segmentDataFrame = pd.DataFrame({'segment':segments,'filePath':filePaths})

詞云圖

地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whl

segStat=segmentDataFrame.groupby(by='segment')['segment'].agg({'計(jì)數(shù)':np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)
fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]
from wordcloud import WordCloud
import matplotlib.pyplot as plt
wordcloud=WordCloud(font_path='C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\simhei.ttf',background_color='black')
words = fSegStat.set_index('segment').to_dict()
wordcloud.fit_words(words['計(jì)數(shù)'])
plt.imshow(wordcloud)
plt.show()

網(wǎng)上找了一篇有關(guān)燃料電池發(fā)展?fàn)顩r的分析報(bào)告:將文本轉(zhuǎn)化為txt亥贸。

f = codecs.open('C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\fuelcell.txt', 'r', 'gbk')

txt=f.read()

txtcontent=jieba.cut(txt)

contents=[]

for content in txtcontent:
    if content not in stopwords.stopword.values and len(content.strip())>1:
        contents.append(content)

contentDataFrame=pd.DataFrame({'content':contents})

contentStat=contentDataFrame.groupby(by='content')['content'].agg({'計(jì)數(shù)':np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)

wordcloud=WordCloud(font_path='C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\simhei.ttf',background_color='black')
words = contentStat.set_index('content').to_dict()
wordcloud.fit_words(words['計(jì)數(shù)'])
plt.imshow(wordcloud)
plt.show()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末躬窜,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子炕置,更是在濱河造成了極大的恐慌荣挨,老刑警劉巖男韧,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異默垄,居然都是意外死亡此虑,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門口锭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)朦前,“玉大人,你說(shuō)我怎么就攤上這事鹃操【麓纾” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵荆隘,是天一觀的道長(zhǎng)恩伺。 經(jīng)常有香客問(wèn)我,道長(zhǎng)椰拒,這世上最難降的妖魔是什么莫其? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮耸三,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浇揩。我一直安慰自己仪壮,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布胳徽。 她就那樣靜靜地躺著积锅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪养盗。 梳的紋絲不亂的頭發(fā)上缚陷,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音往核,去河邊找鬼箫爷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛聂儒,可吹牛的內(nèi)容都是我干的虎锚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼衩婚,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼窜护!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起非春,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤柱徙,失蹤者是張志新(化名)和其女友劉穎缓屠,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體护侮,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡敌完,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了概行。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蠢挡。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖凳忙,靈堂內(nèi)的尸體忽然破棺而出业踏,到底是詐尸還是另有隱情,我是刑警寧澤涧卵,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布勤家,位于F島的核電站,受9級(jí)特大地震影響柳恐,放射性物質(zhì)發(fā)生泄漏伐脖。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一乐设、第九天 我趴在偏房一處隱蔽的房頂上張望讼庇。 院中可真熱鬧,春花似錦近尚、人聲如沸蠕啄。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)歼跟。三九已至,卻和暖如春格遭,著一層夾襖步出監(jiān)牢的瞬間哈街,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工拒迅, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留骚秦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓璧微,卻偏偏與公主長(zhǎng)得像骤竹,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子往毡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 詞頻統(tǒng)計(jì) - 語(yǔ)料庫(kù)的構(gòu)建 遍歷路徑下的所有文件和子目錄 os.walk() 讀取目錄及其所有子目錄 root —...
    WesleyLien閱讀 1,711評(píng)論 0 3
  • 0.前言 上次查看了微信好友的位置信息蒙揣,想了想,還是不過(guò)癮开瞭,于是就琢磨起了把微信好友的個(gè)性簽名拿到懒震,然后分詞罩息,接著...
    偽君子_閱讀 1,448評(píng)論 0 3
  • 一:前言 上次把斗魚(yú)彈幕數(shù)據(jù)抓取搞定后枣察,我就拿來(lái)試試用詞云分析看看效果屿附,簡(jiǎn)單學(xué)習(xí)一下。這是彈幕抓拍去分析的對(duì)象是斗...
    梅花鹿數(shù)據(jù)閱讀 2,815評(píng)論 3 19
  • 前幾天生成詞云圖卸伞,安裝wordcloud包递宅,結(jié)果遇到各種問(wèn)題娘香,折騰好久,終于安裝好了办龄,總結(jié)下烘绽。 常規(guī)方法:pip ...
    喻婷_5e77閱讀 2,770評(píng)論 1 0
  • 本周為大家?guī)?lái)炫酷好玩的 wordcloud 詞云構(gòu)造庫(kù)。使用 wordcloud 可以做出這樣的圖片: 還可以做...
    zx576閱讀 4,611評(píng)論 2 8