使用 jieba 分詞與 wordcloud 詞云分析《從你的全世界路過》

匆忙地看過電影澄干,沒看過小說腺占。

本文分析感情小說《從你的全世界路過》.txt圾旨,想要達(dá)到以下幾點(diǎn)效果:

  1. 有哪些小說人物
  2. 小說的感情基調(diào)
  3. 故事發(fā)生所在地

快速介紹

jieba:“結(jié)巴”中文分詞:可以將中文的句子進(jìn)行單詞分割摘悴,多種分詞模式碌识,支持繁體碾篡、自定義詞典。
word_cloud:通常和 jieba 結(jié)合使用丸冕,將分好的單詞以圖片的方式展示出來耽梅,根據(jù)單詞出現(xiàn)的次數(shù)使單詞突出。

準(zhǔn)備工作

安裝 jieba 分詞:

pip install jieba / pip3 install jieba

安裝 word_cloud 詞云:

pip install word cloud

開始

使用 jieba 分詞:

import jieba
words = []  # 所有單詞
two_words = [] # 大于或等于兩個(gè)單詞
with open("9787540458027.txt", 'rb') as f:
    for line in f.readlines():
        seg = line.decode('gbk').encode('utf-8')# 中文解編碼
        seg1 = seg.strip()      
        seg_list = jieba.lcut(seg1, cut_all=False)# jieba分詞
        words.extend(seg_list)  
print "此文章總共分得"+str(len(words))+"個(gè)詞"
for i in words:  # 以詞語長度分類
    if len(i) >= 2:
        words.remove(i)
        two_words.append(i)
print "此文章大于兩個(gè)字的詞語有" + str(len(two_words)) + "個(gè)"
print "此文章一個(gè)字的詞語有" + str(len(words)) + "個(gè)"
運(yùn)行結(jié)果:
此文章總共分得77865個(gè)詞
此文章大于兩個(gè)字的詞語有22433個(gè)
此文章一個(gè)字的詞語有55432個(gè)

使用 Counter 進(jìn)行詞頻統(tǒng)計(jì):

···
from collections import Counter
···

c = Counter(words)
c1 = Counter(two_words)
for k, v in c.most_common(200):  # 出現(xiàn)次數(shù)前200 
    print k, v
print "-------------------------------------"
for k1, v1 in c1.most_common(200):
    print k1, v1
運(yùn)行結(jié)果:
胖烛。 3873
的 2627
我 2174
···省略
-------------------------------------
我們 209
沒有 157
一個(gè) 150
···省略

運(yùn)行結(jié)果中眼姐,標(biāo)點(diǎn)符號不影響分析诅迷,暫不做處理。下面就可以根據(jù)問題進(jìn)行分析众旗。

有哪些小說人物罢杉?

篩選到如下人物名稱:

慧子 52 大黑 46 老太太 46 管春 42
小玉 41 木子 40 小山 36 張嘉佳 35
豬頭 34 馬力 33 毛毛 31 太太 29
老子 29 袁鑫 27 梅茜 27 茅十八 25
荔枝 24 王亦凡 24 姜微 23 張萍 20
黃鶯 19 蝴蝶 18 阿梅 17 野狗 26

生成人物詞云:

人物1.png

生成詞云基本代碼:

# -*- coding:utf-8 -*-
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter

words_dict = {u'慧子': 52, u'大黑': 46, u'老太太':46,
                ······}
c = Counter(words_dict)
wc = WordCloud(font_path='AaBanSong.ttf').generate_from_frequencies(c) # wordcloud自帶的xxx.ttf 并不支持中文,在網(wǎng)上下載一個(gè)引用即可
plt.figure()
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()
小說的感情基調(diào)

選取了如下幾個(gè)具有代表性的詞語:

偏消極 偏積極
哭 96 難過 17 喜歡 70
眼淚 57 離婚 17 錢 55
卻 40 等 71 愛 45
狗 33 分手 16 笑 36
沉默 22 結(jié)果 53 微笑 20
開心 13
我愛你 13
溫暖 13

可以看出整篇小說的基調(diào)是偏消極的贡歧,包含又不限于哭滩租、等待、惋惜之情利朵、轉(zhuǎn)折律想、離婚、分手等绍弟;積極方面有微笑技即、開心、我愛你等詞語樟遣,表面看來是悲多喜少而叼,人物的情感生活是曲折的,經(jīng)濟(jì)上也并不是很穩(wěn)定豹悬,推斷作者在人物情感方面下了較大功夫葵陵,而且在故事的結(jié)果方面轉(zhuǎn)折較大。

故事發(fā)生所在地
地點(diǎn).png

大到城市瞻佛,南京脱篙、長沙、北京涤久;小到菲律賓涡尘,酒吧、家里响迂、宿舍考抄、小區(qū)、大學(xué)蔗彤;可以確定的是小說中至少一個(gè)人物喜歡混酒吧 川梅,故事大多發(fā)生在人物的學(xué)生時(shí)代,推斷他們的大學(xué)在南京然遏,畢業(yè)后到長沙贫途、北京等地工作,菲律賓旅游待侵。

總結(jié)

小說圍繞慧子丢早、大黑 、老太太、管春等人物展開青春時(shí)代故事描述怨酝,其他人為支線拓展和豐富故事內(nèi)容傀缩,酒吧是一個(gè)重要的地點(diǎn),用來描述人物的心情农猬,以及故事的悲喜程度赡艰,一般什么人會去酒吧?消愁 or 尋樂暫時(shí)不知斤葱。
人物在經(jīng)理悲歡離合之后的生活又是怎樣的慷垮,等我看完這本小說再回來做讀后感,看看推斷是否正確揍堕,有多少偏差料身。

參考資料:

jieba 分詞:https://github.com/fxsjy/jieba

wordcloud 詞云:https://github.com/amueller/word_cloud

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市鹤啡,隨后出現(xiàn)的幾起案子惯驼,更是在濱河造成了極大的恐慌蹲嚣,老刑警劉巖递瑰,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異隙畜,居然都是意外死亡抖部,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進(jìn)店門议惰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慎颗,“玉大人,你說我怎么就攤上這事言询「┪” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵运杭,是天一觀的道長夫啊。 經(jīng)常有香客問我,道長辆憔,這世上最難降的妖魔是什么撇眯? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮虱咧,結(jié)果婚禮上熊榛,老公的妹妹穿的比我還像新娘。我一直安慰自己腕巡,他們只是感情好玄坦,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著绘沉,像睡著了一般煎楣。 火紅的嫁衣襯著肌膚如雪云挟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天转质,我揣著相機(jī)與錄音园欣,去河邊找鬼。 笑死休蟹,一個(gè)胖子當(dāng)著我的面吹牛沸枯,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播赂弓,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼绑榴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了盈魁?” 一聲冷哼從身側(cè)響起翔怎,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎杨耙,沒想到半個(gè)月后赤套,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡珊膜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年容握,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片车柠。...
    茶點(diǎn)故事閱讀 39,711評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剔氏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出竹祷,到底是詐尸還是另有隱情谈跛,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布塑陵,位于F島的核電站感憾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏猿妈。R本人自食惡果不足惜吹菱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望彭则。 院中可真熱鬧鳍刷,春花似錦、人聲如沸俯抖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至尤揣,卻和暖如春搔啊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背北戏。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工负芋, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人嗜愈。 一個(gè)月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓旧蛾,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蠕嫁。 傳聞我的和親對象是個(gè)殘疾皇子锨天,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 關(guān)鍵詞:windows平臺下jieba安裝、三種模式比較剃毒、自定義詞典病袄、停用詞語料、詞頻統(tǒng)計(jì)赘阀、詞云生成 jieba簡...
    秋燈鎖憶閱讀 4,414評論 0 2
  • 注:參考文檔 一益缠、在線詞云圖工具# (1)、使用### 在正式使用jieba分詞之前纤壁,首先嘗試用在線分詞工具來將自...
    DearIreneLi閱讀 6,042評論 1 8
  • 1 最近在看一本介紹依戀理論的書左刽,作為慣例,書的第一部分介紹了依戀理論這個(gè)理論的發(fā)展歷史酌媒。為了便于理解,我拉了一個(gè)...
    Rachel春天一枝花閱讀 439評論 2 2
  • 我正在參加怦然心動·邂逅你的11封情書——1111情書交友創(chuàng)作大賽迄靠,快來給我寫情書吧秒咨。 照片~看頭像自己感受 天蝎...
    bs光年閱讀 232評論 1 1
  • 我的過去一無是處,沒有太多的回憶掌挚。 有人告訴我說雨席,他不想回去,因?yàn)檫^得不快樂吠式。
    血奴閱讀 216評論 0 0