微信公眾號(hào):CuteHand
關(guān)注可了解更多的金融與Python干貨新锈。
若CuteHand對(duì)你有幫助,請(qǐng)點(diǎn)贊Thanks?(?ω?)?
背景
2018年10月30日下午,金庸在香港養(yǎng)和醫(yī)院逝世,享年94歲。金庸大俠文學(xué)貢獻(xiàn)自不必多說(shuō)驮樊,影響了一代代人∠湍罚“一部百年武俠小說(shuō)史,自還珠樓主以下板丽,名家輩出似炎,惟金庸名頭最盛、享譽(yù)最長(zhǎng)店印,橫掃華人世界兰珍。他以汪洋恣肆的想象力,十余年間寫(xiě)下15部作品”苛秕∏牦埃可用"飛雪連天射白鹿是趴,笑書(shū)神俠倚碧鴛"來(lái)形容,分別是《飛狐外傳》(1960年)远剩、《雪山飛狐》(1959年)淹辞、《連城訣》(1963年)莉给、《天龍八部》(1963年)毙石、《射雕英雄傳》(1957年)、《白馬嘯西風(fēng)》(1961年)颓遏、《鹿鼎記》(1969年)徐矩、《笑傲江湖》(1967年)、《書(shū)劍恩仇錄》(1955年)州泊、《神雕俠侶》(1959年)丧蘸、《俠客行》(1965年)、《倚天屠龍記》(1961年)遥皂、《碧血?jiǎng)Α罚?956年)《鴛鴦刀》(1961年)力喷、《越女劍》(短篇小說(shuō))(1970年)。為了緬懷金大俠演训,我們使用Python對(duì)其15部小說(shuō)展開(kāi)分析弟孟,通過(guò)文本挖掘,為大家展示別樣的江湖恩怨情仇样悟。
數(shù)據(jù)獲取
編寫(xiě)簡(jiǎn)單的爬蟲(chóng)程序獲取金庸15本小說(shuō)拂募,并寫(xiě)入本地txt文件中。爬蟲(chóng)函數(shù)不在此展示窟她,需要源碼的請(qǐng)?jiān)诠娞?hào)CuteHand后臺(tái)回復(fù)“金庸小說(shuō)爬蟲(chóng)源碼”陈症;如果懶得動(dòng)手運(yùn)行爬蟲(chóng)程序的,回復(fù)“金庸小說(shuō)下載”震糖,免費(fèi)提供txt下載录肯。
文本處理
分別將小說(shuō)的人物(names)、功夫(kungfu)吊说、派別(bangs)寫(xiě)入txt文件中,并與小說(shuō)放在同一個(gè)文件夾中论咏。
file='D:/CuteHand/jr_novels/names.txt'
#本地文件夾,根據(jù)需要修改
#可以使用os模塊的添加路徑
with open(file) as f:
# 去掉結(jié)尾的換行符
data = [line.strip() for line in f.readlines()]
novels = data[::2]
names = data[1::2]
novel_names = {k: v.split() for k, v in zip(novels, names)}
金庸小說(shuō)充滿(mǎn)恩怨情仇颁井,其中厅贪,《倚天屠龍記》中張無(wú)忌一生遇到很多女人,如趙敏雅宾、周芷若养涮、小昭、蛛兒,朱九真,楊不悔等,到底誰(shuí)是女主角呢单寂?我們來(lái)看下這幾位美女在小說(shuō)中分別出現(xiàn)的次數(shù)贬芥。
file='D:/CuteHand/jr_novels/倚天屠龍記.txt'
with open(file) as f:
data = f.read()
Actress=['趙敏','周芷若','小昭','蛛兒','朱九真','楊不悔']
for name in Actress:
print("%s"% name,data.count(name))
趙敏 1240
周芷若 819
小昭 352
蛛兒 231
朱九真 141
楊不悔 190
將這幾位美女在小說(shuō)中出現(xiàn)的次數(shù)進(jìn)行可視化吐辙,可以更直觀地看出哪位才是張無(wú)忌的歸屬:
#可視化宣决,重點(diǎn)在于學(xué)習(xí)使用matplotlib庫(kù)畫(huà)圖
#導(dǎo)入需要的包
import numpy as np
import scipy as sp
import matplotlib.pyplot as plt
%matplotlib inline
#畫(huà)圖正常顯示中文
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
# 用來(lái)正常顯示中文標(biāo)簽
mpl.rcParams['axes.unicode_minus']=False
# 用來(lái)正常顯示負(fù)號(hào)
actress_data = {'趙敏':1240,'周芷若': 819,
'小昭': 352,'蛛兒': 231,
'朱九真': 141,'楊不悔': 190}
for a, b in actress_data.items():
plt.text(a, b + 0.05, '%.0f' % b,
ha='center', va='bottom', fontsize=12)
#ha 文字指定在柱體中間,
#va指定文字位置
#fontsize指定文字體大小
# 設(shè)置X軸Y軸數(shù)據(jù)昏苏,兩者都可以是list或者tuple
x_axis = tuple(actress_data.keys())
y_axis = tuple(actress_data.values())
plt.bar(x_axis, y_axis, color='rgbyck')
# 如果不指定color尊沸,所有的柱體都會(huì)是一個(gè)顏色
#b: blue g: green r: red c: cyan
#m: magenta y: yellow k: black w: white
plt.xlabel("女角名") # 指定x軸描述信息
plt.ylabel("小說(shuō)中出現(xiàn)次數(shù)") # 指定y軸描述信息
plt.title("誰(shuí)是女主角?") # 指定圖表描述信息
plt.ylim(0, 1400) # 指定Y軸的高度
plt.show()
眾所周知贤惯,張無(wú)忌最終和趙敏在一起了洼专,而與周芷若之間很是坎坷...;小昭挺喜歡的角色孵构,可惜被不可抗拒的外力給分開(kāi)了终吼;蛛兒尿扯,暫且說(shuō)是女方單戀吧;朱九真 只是過(guò)客,不過(guò)也算是張無(wú)忌情竇初開(kāi)喜歡的一個(gè)玛追;楊不悔只能說(shuō)是玩伴。
文本挖掘
接下來(lái)乳怎,通過(guò)分析小說(shuō)人物的出場(chǎng)次數(shù)來(lái)判斷小說(shuō)的主要人物饶氏。
#繼續(xù)挖掘下倚天屠龍記里面人物出現(xiàn)次數(shù)排名
namelist=[name.strip() for name in novel_names['倚天屠龍記']]
namelist=''.join(namelist)
namelist=namelist.split('、')
count = []
num=10 #統(tǒng)計(jì)前10名
for name in namelist:
count.append([name, data.count(name)])
count.sort(key=lambda x: x[1])
_, ax = plt.subplots()
numbers = [x[1] for x in count[-num:]]
names = [x[0] for x in count[-num:]]
ax.barh(range(num), numbers, align='center')
ax.set_title('倚天屠龍記', fontsize=14)
ax.set_yticks(range(num))
ax.set_yticklabels(names, fontsize=10)
plt.show()
網(wǎng)上收集了下金庸小說(shuō)的功夫和門(mén)派種類(lèi)毒坛,分別寫(xiě)入kungfu.txt和bangs.txt中望伦,其中武功246種,門(mén)派120個(gè)煎殷。
#加入功夫和門(mén)派數(shù)據(jù)
file='D:/CuteHand/jr_novels/'
with open(file+"kungfu.txt") as f:
kungfu_names = [line.strip() for line in f.readlines()]
with open(file+"bangs.txt") as f:
bang_names = [line.strip() for line in f.readlines()]
#編寫(xiě)文本挖掘可視化函數(shù)
#尋找小說(shuō)出現(xiàn)最多的十大人物
def find_main_characters(novel):
file='D:/CuteHand/jr_novels/'
with open(file+'names.txt') as f:
df = [line.strip() for line in f.readlines()]
novels = df[::2]
names = df[1::2]
novel_names = {k: v.split() for k, v in zip(novels, names)}
with open(file+'{}.txt'.format(novel)) as f:
data = f.read()
count = []
namelist=[name.strip() for name in novel_names[novel]]
namelist=''.join(namelist)
namelist=namelist.split('屯伞、')
for name in namelist:
count.append([name, data.count(name)])
count.sort(key=lambda x: x[1])
_, ax = plt.subplots()
num=10
numbers = [x[1] for x in count[-num:]]
names = [x[0] for x in count[-num:]]
ax.barh(range(num), numbers, align='center')
ax.set_title(novel+"出現(xiàn)最多的十大人物",fontsize=16)
ax.set_yticks(range(num))
ax.set_yticklabels(names, fontsize=14)
#尋找小說(shuō)出現(xiàn)最多的十大武功
def kungfu(novel):
file='D:/CuteHand/jr_novels/'
with open(file+'{}.txt'.format(novel)) as f:
df = f.read()
namelist=kungfu_names
count = []
num=10 #統(tǒng)計(jì)前10名
for name in namelist:
count.append([name, df.count(name)])
count.sort(key=lambda x: x[1])
_, ax = plt.subplots()
numbers = [x[1] for x in count[-num:]]
names = [x[0] for x in count[-num:]]
ax.barh(range(num), numbers, align='center')
ax.set_title(novel+"出現(xiàn)最多的十大武功", fontsize=16)
ax.set_yticks(range(num))
ax.set_yticklabels(names, fontsize=14)
#尋找小說(shuō)出現(xiàn)最多的十大門(mén)派
def bang(novel):
file='D:/CuteHand/jr_novels/'
with open(file+'{}.txt'.format(novel)) as f:
df = f.read()
namelist=bang_names
count = []
num=10 #統(tǒng)計(jì)前10名
for name in namelist:
count.append([name, df.count(name)])
count.sort(key=lambda x: x[1])
_, ax = plt.subplots()
numbers = [x[1] for x in count[-num:]]
names = [x[0] for x in count[-num:]]
ax.barh(range(num), numbers, align='center')
ax.set_title(novel+"出現(xiàn)最多的十大門(mén)派", fontsize=16)
ax.set_yticks(range(num))
ax.set_yticklabels(names, fontsize=14)
#將三個(gè)函數(shù)合成一個(gè)主函數(shù)
def main(novel):
find_main_characters(novel)
bang(novel)
kungfu(novel)
main('倚天屠龍記')
main('天龍八部')
main('神雕俠侶')
main('笑傲江湖')
尋找人物關(guān)系
使用gensim和jieba包對(duì)文本做進(jìn)一步挖掘,尋找人物之間的關(guān)系豪直。一般要先安裝相應(yīng)的包劣摇,只要在Anaconda Prompt上輸入pip install gensim和pip install jieba進(jìn)行安裝即可。
import gensim
import warnings
warnings.filterwarnings(action='ignore',
category=UserWarning,module='gensim')
warnings.filterwarnings(action='ignore',
category=FutureWarning,module='gensim')
import jieba
for _, names in novel_names.items():
for name in names:
jieba.add_word(name)
file='D:/CuteHand/jr_novels/'
with open(file+"kungfu.txt") as f:
kungfu_names = [line.strip()
for line in f.readlines()]
with open(file+"bangs.txt") as f:
bang_names = [line.strip()
for line in f.readlines()]
for name in kungfu_names:
jieba.add_word(name)
for name in bang_names:
jieba.add_word(name)
books = ['天龍八部','鹿鼎記','神雕俠侶','笑傲江湖',
'碧血?jiǎng)?,'倚天屠龍記','飛狐外傳','書(shū)劍恩仇錄',
'俠客行','鴛鴦刀','白馬嘯西風(fēng)','雪山飛狐']
sentences = []
for novel in books:
print ("處理:{}".format(novel))
with open(file+'{}.txt'.format(novel)) as f:
data = [line.strip()
for line in f.readlines()
if line.strip()]
for line in data:
words = list(jieba.cut(line))
sentences.append(words)
model = gensim.models.Word2Vec(sentences,
size=100,window=5, min_count=5, workers=4)
首先顶伞,來(lái)看下《倚天屠龍記》里張無(wú)忌與哪位女角的關(guān)系最緊密饵撑。
Actress=['趙敏','周芷若','小昭','蛛兒','朱九真','楊不悔']
for a in Actress:
print("張無(wú)忌與%s的相關(guān)度" % a,model.wv.similarity('張無(wú)忌',a))
結(jié)果如下:
張無(wú)忌與趙敏的相關(guān)度 0.7922112
張無(wú)忌與周芷若的相關(guān)度 0.7983359
張無(wú)忌與小昭的相關(guān)度 0.60103273
張無(wú)忌與蛛兒的相關(guān)度 0.7526051
張無(wú)忌與朱九真的相關(guān)度 0.5569755
張無(wú)忌與楊不悔的相關(guān)度 0.5574214
從文本挖掘上看,張無(wú)忌似乎與周芷若“關(guān)系”更加緊密唆貌。不過(guò)滑潘,周芷若與趙敏的相關(guān)度非常接近。
其次锨咙,運(yùn)用12部小說(shuō)(其中语卤,射雕英雄傳、越女劍和連城訣可能存在非法字符,讀不出來(lái))交叉判斷人物之間的關(guān)系粹舵。
def find_relationship(a, b, c):
"""
返回 d
a與b的關(guān)系钮孵,跟c與d的關(guān)系一樣
"""
d, _ = model.wv.most_similar([c, b], [a])[0]
print ("給定“{}”與“{}”,“{}”和“{}”有類(lèi)似的關(guān)系".format(a, b, c, d))
find_relationship('小龍女','楊過(guò)' ,'黃蓉')
輸出結(jié)果(Interesting!):
給定“小龍女”與“楊過(guò)”眼滤,“黃蓉”和“郭襄”有類(lèi)似的關(guān)系
詞云
通過(guò)對(duì)小說(shuō)文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺(jué)上的突出巴席,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,過(guò)濾掉大量的文本信息诅需,大家可以試著通過(guò)關(guān)鍵詞來(lái)自行串起故事的梗概和判斷人物的關(guān)系漾唉。
#引入需要的包
import jieba
import jieba.analyse
import numpy as np
import codecs
import pandas as pd
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
#讀入《倚天屠龍記》文本內(nèi)容
text=codecs.open('D:/CuteHand/jr_novels/倚天屠龍記.txt',
'rb','gbk').read()
tags=jieba.analyse.extract_tags(text,topK=100,
withWeight=True)
tf=dict((a[0],a[1]) for a in tags)
#識(shí)別中文文本
wc=WordCloud(font_path='C:\Windows\Fonts\STZHONGS.TTF')
wc=wc.generate_from_frequencies(tf)
plt.figure(num=None,figsize=(12,10),facecolor='w',edgecolor='k')
plt.imshow(wc)
plt.axis('off')
plt.show()
生成特定形狀的詞云
backgroud_Image = plt.imread('D:/CuteHand/jr_novels/地圖.jpg')
#可以自己找適合的圖片做背景,最后是背景白色
wc = WordCloud(
background_color='white',
# 設(shè)置背景顏色
mask=backgroud_Image,
# 設(shè)置背景圖片
font_path='C:\Windows\Fonts\STZHONGS.TTF',
# 若是有中文的話(huà)堰塌,這句代碼必須添加
max_words=2000, # 設(shè)置最大現(xiàn)實(shí)的字?jǐn)?shù)
stopwords=STOPWORDS,# 設(shè)置停用詞
max_font_size=150,# 設(shè)置字體最大值
random_state=30
# 設(shè)置有多少種隨機(jī)生成狀態(tài)赵刑,即有多少種配色方案
)
wc.generate_from_frequencies(tf)
#img_colors = ImageColorGenerator(backgroud_Image)
#字體顏色為背景圖片的顏色
#wc.recolor(color_func=img_colors)
plt.figure(num=None,figsize(12,10),
facecolor='w',edgecolor='k')
plt.imshow(wc)
# 是否顯示x軸、y軸下標(biāo)
plt.axis('off')
plt.show()
將上述過(guò)程包裝成函數(shù),方便批量處理
def jr_cloud(novel,file):
import jieba
import jieba.analyse
import numpy as np
import codecs
import pandas as pd
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
text=codecs.open(file+'{}.txt'.format(novel),'rb','gbk').read()
tags=jieba.analyse.extract_tags(text,topK=50,withWeight=True)
tf=dict((a[0],a[1]) for a in tags)
wc=WordCloud(font_path='c:\windows\fonts\simsun.ttc',
background_color='white')
wc=wc.generate_from_frequencies(tf)
plt.figure(num=None,figsize=(12,10),facecolor='w',edgecolor='k')
plt.title(novel,fontsize=18)
plt.imshow(wc)
plt.axis('off')
plt.show()
file='D:/CuteHand/jr_novels/'
novels = ['天龍八部','鹿鼎記','神雕俠侶','笑傲江湖',
'碧血?jiǎng)?,'倚天屠龍記','飛狐外傳','書(shū)劍恩仇錄',
'俠客行','鴛鴦刀','白馬嘯西風(fēng)','雪山飛狐']
jr_cloud(novels[0],file)
#鹿鼎記詞云
jr_cloud(novels[1],file)
#笑傲江湖詞云
jr_cloud(novels[3],file)
人物關(guān)系網(wǎng)絡(luò)分析
最后運(yùn)用網(wǎng)絡(luò)分析法场刑,將小說(shuō)中的人物關(guān)系用圖形展示出來(lái)般此。
import networkx as nx
import matplotlib.pyplot as plt
import jieba
import codecs
import jieba.posseg as pseg
names = {}
# 姓名字典
relationships = {}
# 關(guān)系字典
lineNames = []
# 每段內(nèi)人物關(guān)系
# count names
jieba.load_userdict(novel_names['倚天屠龍記'])
with codecs.open("D:/CuteHand/jr_novels/倚天屠龍記.txt", "r") as f:
for line in f.readlines():
poss = pseg.cut(line)
# 分詞并返回該詞詞性
lineNames.append([])
# 為新讀入的一段添加人物名稱(chēng)列表
for w in poss:
if w.flag != "nr" or len(w.word) < 2:
continue
# 當(dāng)分詞長(zhǎng)度小于2或該詞詞性不為nr時(shí)認(rèn)為該詞不為人名
lineNames[-1].append(w.word)
# 為當(dāng)前段的環(huán)境增加一個(gè)人物
if names.get(w.word) is None:
names[w.word] = 0
relationships[w.word] = {}
names[w.word] += 1
# 該人物出現(xiàn)次數(shù)加 1
# explore relationships
for line in lineNames:
# 對(duì)于每一段
for name1 in line:
for name2 in line:
# 每段中的任意兩個(gè)人
if name1 == name2:
continue
if relationships[name1].get(name2) is None:
# 若兩人尚未同時(shí)出現(xiàn)則新建項(xiàng)
relationships[name1][name2]= 1
else:
relationships[name1][name2] =
relationships[name1][name2]+ 1
# 兩人共同出現(xiàn)次數(shù)加 1
with codecs.open("D:/CuteHand/jr_novels/person_edge.txt",
"a+", "utf-8") as f:
for name, edges in relationships.items():
for v, w in edges.items():
if w >500:
f.write(name + " " + v + "
" + str(w) + "\r\n")
a = []
f = open('D:/CuteHand/jr_novels/person_edge.txt',
'r',encoding='utf-8')
line = f.readline()
while line:
a.append(line.split())
#保存文件是以空格分離的
line = f.readline()
f.close()
#畫(huà)圖
G = nx.Graph()
G.add_weighted_edges_from(a)
nx.draw(G,with_labels=True,font_size=9,node_size=800,node_color='r')
plt.show()
關(guān)于CuteHand
能告訴你每天星座運(yùn)勢(shì),查天氣牵现、附近酒店铐懊、股票行情,講笑話(huà)施籍、小故事居扒,聊天互動(dòng)聊天,不定期分享原創(chuàng)經(jīng)濟(jì)金融干貨丑慎,手把手教你使用Python做金融數(shù)據(jù)分析喜喂。分享知識(shí),點(diǎn)亮智慧 竿裂,歡迎關(guān)注CuteHand玉吁,一起學(xué)習(xí),一起進(jìn)步!
精彩回顧
-
Python金融數(shù)據(jù)分析系列:
【手把手教你】Python金融財(cái)務(wù)分析
【手把手教你】Python獲取財(cái)經(jīng)數(shù)據(jù)和可視化分析
【手把手教你】玩轉(zhuǎn)Python量化金融工具之NumPy
【手把手教你】玩轉(zhuǎn)Python金融量化利器之Pandas
-
經(jīng)濟(jì)金融分析框架與思維:
大勢(shì)觀瀾與研判邏輯
經(jīng)濟(jì)危機(jī)--明斯基時(shí)刻
共克時(shí)艱腻异,你做好準(zhǔn)備了嗎进副?