文本挖掘HW3

import os
import os.path
import codecs
import pandas as pd
import numpy as np

filePaths = []
fileContents=[]
a=os.walk("C:/Users/dell/Desktop/datamining/2.1+語(yǔ)料庫(kù)/2.1/SogouC.mini/Sample")
for root, dirs, files in a:
    for name in files:
        filePath=os.path.join(root,name)
        filePaths.append(filePath)
        f = codecs.open(filePath, 'r','utf-8')
        fileContent=f.read()
        f.close()
        fileContents.append(fileContent)

corpos = pd.DataFrame({'filePath': filePaths,'fileContent':fileContents})

corpos

segments=[]
filePaths =[]
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent)
    for seg in segs:
        segments.append(seg)
        filePaths.append(filePath)
segmentDataFrame = pd.DataFrame({'segment':segments,'filePath':filePaths})
segmentDataFrame
corpos.iterrows
segStat = segmentDataFrame.groupby(by='segment')["segment"].agg({"計(jì)數(shù)":np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)

segmentDataFrame

我們發(fā)現(xiàn)存在jieba切分后有一些停用詞在干擾丛肢，類似空格漆羔、標(biāo)點(diǎn)以及一些中文中的介詞助詞等等。
所以担神，此時(shí)我們需要導(dǎo)入一個(gè)停用詞庫(kù)楼吃，停用詞庫(kù)中的詞就不要放入切詞數(shù)組中。

在這里需要注意的是妄讯，DataFrame沒(méi)有sort這個(gè)屬性孩锡，查了下，DataFrame有sort_values,
具體用法就是.sort_values('列名', ascending=False)

stopwords = pd.read_csv("C:\\Users\\dell\\Desktop\\datamining\\2.3\\StopwordsCN.txt",encoding='utf-8',index_col=False)

fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]

fSegStat

segments=[]
filePaths =[]
for index, row in corpos.iterrows():
    filePath = row['filePath']
    fileContent = row['fileContent']
    segs = jieba.cut(fileContent)
    for seg in segs:
        if seg not in stopwords.stopword.values and len(seg.strip())>1:
            segments.append(seg)
            filePaths.append(filePath)
segmentDataFrame = pd.DataFrame({'segment':segments,'filePath':filePaths})

詞云圖

地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whl

segStat=segmentDataFrame.groupby(by='segment')['segment'].agg({'計(jì)數(shù)':np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)
fSegStat = segStat[~segStat.segment.isin(stopwords.stopword)]
from wordcloud import WordCloud
import matplotlib.pyplot as plt
wordcloud=WordCloud(font_path='C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\simhei.ttf',background_color='black')
words = fSegStat.set_index('segment').to_dict()
wordcloud.fit_words(words['計(jì)數(shù)'])
plt.imshow(wordcloud)
plt.show()

網(wǎng)上找了一篇有關(guān)燃料電池發(fā)展?fàn)顩r的分析報(bào)告：將文本轉(zhuǎn)化為txt亥贸。

f = codecs.open('C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\fuelcell.txt', 'r', 'gbk')

txt=f.read()

txtcontent=jieba.cut(txt)

contents=[]

for content in txtcontent:
    if content not in stopwords.stopword.values and len(content.strip())>1:
        contents.append(content)

contentDataFrame=pd.DataFrame({'content':contents})

contentStat=contentDataFrame.groupby(by='content')['content'].agg({'計(jì)數(shù)':np.size}).reset_index().sort_values('計(jì)數(shù)',ascending=False)

wordcloud=WordCloud(font_path='C:\\Users\\Data Engineer\\Desktop\\xx\\2.4 詞云繪制\\2.4\\simhei.ttf',background_color='black')
words = contentStat.set_index('content').to_dict()
wordcloud.fit_words(words['計(jì)數(shù)'])
plt.imshow(wordcloud)
plt.show()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末躬窜，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子炕置，更是在濱河造成了極大的恐慌荣挨，老刑警劉巖男韧，帶你破解...
沈念sama閱讀 218,682評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異默垄，居然都是意外死亡此虑，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門口锭，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)朦前，“玉大人，你說(shuō)我怎么就攤上這事鹃操【麓纾” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵荆隘，是天一觀的道長(zhǎng)恩伺。經(jīng)常有香客問(wèn)我，道長(zhǎng)椰拒，這世上最難降的妖魔是什么莫其？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮耸三，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘浇揩。我一直安慰自己仪壮，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,785評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布胳徽。她就那樣靜靜地躺著积锅，像睡著了一般。火紅的嫁衣襯著肌膚如雪养盗。梳的紋絲不亂的頭發(fā)上缚陷，一...
開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音往核，去河邊找鬼箫爷。笑死，一個(gè)胖子當(dāng)著我的面吹牛聂儒，可吹牛的內(nèi)容都是我干的虎锚。我是一名探鬼主播，決...
沈念sama閱讀 40,358評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼衩婚，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼窜护！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起非春，我...
開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤柱徙，失蹤者是張志新（化名）和其女友劉穎缓屠，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體护侮，經(jīng)...
沈念sama閱讀 45,722評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡敌完，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了概行。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蠢挡。...
茶點(diǎn)故事閱讀 40,030評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖凳忙，靈堂內(nèi)的尸體忽然破棺而出业踏，到底是詐尸還是另有隱情，我是刑警寧澤涧卵，帶...
沈念sama閱讀 35,737評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布勤家，位于F島的核電站，受9級(jí)特大地震影響柳恐，放射性物質(zhì)發(fā)生泄漏伐脖。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,360評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一乐设、第九天我趴在偏房一處隱蔽的房頂上張望讼庇。院中可真熱鬧，春花似錦近尚、人聲如沸蠕啄。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0贊 22
一樁弒父案戈锻，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)歼跟。三九已至，卻和暖如春格遭，著一層夾襖步出監(jiān)牢的瞬間哈街，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工拒迅，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留骚秦，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,237評(píng)論 3贊 371
代替公主和親
正文我出身青樓璧微，卻偏偏與公主長(zhǎng)得像骤竹，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子往毡，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,976評(píng)論 2贊 355

文本挖掘HW3

詞云圖

推薦閱讀更多精彩內(nèi)容