又雙叒叕到了520
天龍八部
大家好扶关,不知道大家看過,天龍八部沒数冬?
“天龍八部”是哪八部节槐?“天龍八部”都是“非人”,包括八種神道怪物拐纱,因為以“天”及“龍”為首铜异,所以稱為“天龍八部”。
八部者秸架,一天揍庄,二龍,三夜叉东抹,四乾達婆蚂子,五阿修羅,六迦樓羅缭黔,七緊那羅食茎,八摩呼羅迦。
看完介紹试浙,還是不懂董瞻,沒關(guān)系,今天主要講的是田巴,用數(shù)據(jù)分析钠糊,天龍八部里,高頻詞語壹哺,人物關(guān)系抄伍,以及為什么你還是單身?
自己管宵?
看到下面的詞云截珍,為什么”自己“這個詞,那么高頻箩朴?
乍看之下岗喉,段譽詞頻(1551)最高。其實要結(jié)合“業(yè)務(wù)”炸庞,實則喬峰才是正主钱床。要從喬峰的身世說起,開頭中埠居,喬峰是丐幫幫主查牌,后身世揭破事期,契丹人也,改名蕭峰纸颜。
所以喬峰的詞頻(1900+)=喬峰(963)+蕭峰(966)
從詞語中,我們可以看出胁孙,寫作手法唠倦,喬峰(段譽)聽/笑/呆/動詞,所以人物+動詞浊洞。
人物關(guān)系圖
故事有好多條主線牵敷。
一、尋仇:其中虛竹和喬峰法希,為什么關(guān)系最親密枷餐?因為虛竹的爸是殺死喬峰的爸的帶頭大哥,尋仇是小說的主線之一苫亦。
二毛肋、段正淳戀愛史:從另一角度看,可以說是屋剑,大理鎮(zhèn)南王润匙,段正淳戀愛史,他和幾位女人談戀愛唉匾,并生下的都全都是女兒孕讳,女兒再一個個,和段譽談戀愛巍膘,搞得段譽很痛苦厂财,最后發(fā)現(xiàn)自己,不是親生的故事峡懈。
總結(jié)來說
故事是由“慕容博”和“段正淳”璃饱,兩位大Boss挑起的,各負責(zé)一條主線。
慕容博想光復(fù)燕國肪康,才策劃殺死蕭家荚恶,企圖引起兩國戰(zhàn)亂,引起蕭父報仇磷支;
鎮(zhèn)南王谒撼,則是負責(zé)拈花若草,一身情債雾狈,一個人很爽廓潜,搞得很多人很痛苦,最后自殺,搞得王夫人茉帅、馬夫人,各種痛苦锭弊,阿朱得替父擋仇堪澎,被喬峰錯手打死,喬峰痛苦味滞,和段譽談戀愛有都是自己的妹妹樱蛤,妹妹、段譽都很痛苦剑鞍,最后發(fā)現(xiàn)自己不是親生的昨凡,釋然了。
520又到了蚁署,為什么你還單身便脊?
- 段正淳:拈花若草,大boss光戈,沒你就沒那么多破事了哪痰,魅力指數(shù)10000。
- 虛竹:憨厚老實久妆,殺人有艷福晌杰,從和尚到靈鷲宮主到附馬,屌絲逆襲的故事筷弦,艷福指數(shù)1000肋演;
- 段譽:始終如一,追了王姑娘烂琴,幾十集電視劇爹殊,最后真情打動王語嫣,另一角度看监右,有點“備胎上位”的感覺边灭,對么?幸福指數(shù)健盒,500绒瘦;
- 王語嫣:從小愛慕表哥,最后被拒扣癣,被段譽打動惰帽,幸福指數(shù),400父虑;
- 喬峰:丐幫幫主该酗,俠之大者,身世悲慘,想和阿朱牧馬放羊呜魄,卻一掌錯殺阿朱悔叽,為和平而死,幸福指數(shù)爵嗅,100娇澎;
- 阿朱:小婢,從小沒有父愛睹晒、母愛趟庄,一直崇拜喬峰,大英雄伪很,為父擋仇戚啥,為“孝”犧“愛”,幸福指數(shù)锉试,100猫十;
- 啊紫:執(zhí)著,只愛喬峰一人呆盖,最后很痛苦就是了炫彩,痛苦指數(shù)5000;
看了那么多故事絮短,依然談不好戀愛江兢,你們呢?
實戰(zhàn)分割線
一丁频、詞云
這里主要用到了兩個庫杉允,jieba分詞用的,wordcloud詞云用席里,matplib顯示用叔磷。
- 下載小說txt文件;
- 準備一張mask(遮罩)圖片奖磁;
- 字體改基;
#coding:utf-8
from os import path
from collections import Counter
import jieba
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
if __name__=='__main__':
#讀取文件
d = path.dirname(__file__)
pardir = path.dirname(d)
pardir2 = path.dirname(pardir)
cyqf = path.join(pardir2,'tlbbqf/')
text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
jieba_word = jieba.cut(text, cut_all=False) #cut_all 分詞模式
data = []
for word in jieba_word:
data.append(word)
dataDict = Counter(data)
with open('./詞頻統(tǒng)計.csv', 'w', encoding='utf-8') as fw:
for k,v in dataDict.items():
fw.write("%s,%d\n" % (k,v))
mask = np.array(Image.open(path.join(d, "mask.png")))
font_path=path.join(d,"font.ttf")
stopwords = set(STOPWORDS)
wc = WordCloud(background_color="white",
max_words=2000,
mask=mask,
stopwords=stopwords,
font_path=font_path)
# 生成詞云
wc.generate(text)
# 生成的詞云圖像保存到本地
wc.to_file(path.join(d, "wordcloud.png"))
# 顯示圖像
plt.imshow(wc, interpolation='bilinear')
plt.axis("off")
plt.show()
二、人物關(guān)系圖
- 統(tǒng)計詞頻
text = open(path.join(d,'tlbb.txt'), encoding="utf-8", errors="surrogateescape").read()
jieba_word = jieba.cut(text, cut_all=False) #cut_all 分詞模式
data = []
for word in jieba_word:
data.append(word)
dataDict = Counter(data)
-
計算人物之間矩陣關(guān)系
-
用gephi畫出人物關(guān)系
首先是導(dǎo)入關(guān)系圖咖为,逗號秕狰、矩陣、utf-8躁染;
image.png
然后就是箭頭鸣哀,第一個是顯示節(jié)點信息,第二吞彤、三是調(diào)整連線的粗細我衬、顏色叹放;
點擊某個節(jié)點,例如段譽挠羔,可以側(cè)重顯示他的人物關(guān)系井仰。
相關(guān)文章
5.1、競品數(shù)據(jù)如何找破加?數(shù)據(jù)產(chǎn)品經(jīng)理的威力
5.2 高富帥python-人工智能時代