書籍分析實(shí)例：哈利波特的分詞及人物關(guān)系

作者：文建華甜攀，小文的數(shù)據(jù)之旅书幕，數(shù)據(jù)分析愛好者，不想當(dāng)碼農(nóng)的偽碼農(nóng)荧嵌。博客：zhihu.com/c_188462686

先簡單介紹一下jieba中文分詞包，jieba包主要有三種分詞模式：

精確模式：默認(rèn)情況下是精確模式砾淌，精確地分詞完丽，適合文本分析；
全模式：把所有能成詞的詞語都分出來, 但是詞語會(huì)存有歧義拇舀；
搜索引擎模式：在精確模式的基礎(chǔ)上，對(duì)長詞再次切分蜻底，適合用于搜索引擎分詞骄崩。

jieba 包常用的語句：

精確模式分詞：jieba.cut(text,cut_all = False)聘鳞，當(dāng)cut_all = True時(shí)為全模式
自定義詞典：jieba.load_userdict(file_name)
增加詞語：jieba.add_word(seg,freq,flag)
刪除詞語：jieba.del_word(seg)

《哈利·波特》是英國作家J·K·羅琳的奇幻文學(xué)系列小說，描寫主角哈利·波特在霍格沃茨魔法學(xué)校7年學(xué)習(xí)生活中的冒險(xiǎn)故事要拂。下面將以《哈利波特》錯(cuò)綜復(fù)雜的人物關(guān)系為例抠璃，實(shí)踐一下jieba包。

#加載所需包
import numpy as np
import pandas as pd
import jieba,codecs
import jieba.posseg as pseg  #標(biāo)注詞性模塊
from pyecharts import Bar,WordCloud

#導(dǎo)入人名脱惰、停用詞搏嗡、特定詞庫
renmings = pd.read_csv('人名.txt',engine='python',encoding='utf-8',names=['renming'])['renming']
stopwords = pd.read_csv('mystopwords.txt',engine='python',encoding='utf-8',names=['stopwords'])['stopwords'].tolist()
book = open('哈利波特.txt',encoding='utf-8').read()
jieba.load_userdict('哈利波特詞庫.txt')

#定義一個(gè)分詞函數(shù)
def words_cut(book):
    words = list(jieba.cut(book))
    stopwords1 = [w for w in words if len(w)==1]  #添加停用詞
    seg = set(words) - set(stopwords) - set(stopwords1) #過濾停用詞，得到更為精確的分詞
    result = [i for i in words if i in seg]
    return result

#初次分詞
bookwords = words_cut(book)
renming = [i.split(' ')[0] for i in set(renmings)] #只要人物名字拉一，出掉詞頻以及詞性
nameswords = [i for i in bookwords if i in set(renming)]  #篩選出人物名字

#統(tǒng)計(jì)詞頻
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index

image

經(jīng)過初次分詞之后采盒，我們發(fā)現(xiàn)大部分的詞語已經(jīng)ok了，但是還是有小部分名字類的詞語分得不精確蔚润，比如說'布利'磅氨、'羅恩說'、'伏地'嫡纠、'斯內(nèi)'烦租、'地說'等等，還有像'烏姆里奇'除盏、'霍格沃茲'等分成兩個(gè)詞語的叉橱。

#自定義部分詞語
jieba.add_word('鄧布利多',100,'nr')
jieba.add_word('霍格沃茨',100,'n')
jieba.add_word('烏姆里奇',100,'nr')
jieba.add_word('拉唐克斯',100,'nr')
jieba.add_word('伏地魔',100,'nr')
jieba.del_word('羅恩說')
jieba.del_word('地說')
jieba.del_word('斯內(nèi)')

#再次分詞
bookwords = words_cut(book)
nameswords = [i for i in bookwords if i in set(renming)]
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index

image

再次分詞之后，我們可以看到在初次分詞出現(xiàn)的錯(cuò)誤已經(jīng)得到修正了者蠕，接下來我們統(tǒng)計(jì)分析窃祝。

#統(tǒng)計(jì)詞頻TOP15的詞語
bar = Bar('出現(xiàn)最多的詞語TOP15',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = bookwords_count[:15].index.tolist()
y = bookwords_count[:15].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar

image

整部小說出現(xiàn)最多的詞語TOP15中出現(xiàn)了哈利、赫敏蠢棱、羅恩锌杀、鄧布利多、魔杖泻仙、魔法糕再、馬爾福、斯內(nèi)普和小天狼星等字眼玉转。

我們自己串一下突想，大概可以知道《哈利波特》的主要內(nèi)容了，就是哈利在小伙伴赫敏究抓、羅恩的陪伴下猾担，經(jīng)過大法師鄧布利多的幫助與培養(yǎng)，利用魔杖使用魔法把大boss伏地魔k.o的故事刺下。當(dāng)然啦绑嘹，《哈利波特》還是非常精彩的。

#統(tǒng)計(jì)人物名字TOP20的詞語
bar = Bar('主要人物Top20',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = nameswords_count[:20].index.tolist()
y =nameswords_count[:20].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar

image

整部小說按照出場次數(shù)橘茉，我們發(fā)現(xiàn)哈利作為主角的地位無可撼動(dòng)工腋，比排名第二的赫敏遠(yuǎn)超13000多次姨丈，當(dāng)然這也是非常正常的，畢竟這本書是《哈利波特》擅腰，而不是《赫敏格蘭杰》蟋恬。

#整本小說的詞語詞云分析
name = bookwords_count.index.tolist()
value = bookwords_count.values.tolist()
wc = WordCloud(background_color = 'white')
wc.add("", name, value, word_size_range=[10, 200],shape = 'diamond')
wc

#人物關(guān)系分析
names = {} 
relationships = {} 
lineNames = []
with codecs.open('哈利波特.txt','r','utf8') as f:
    n = 0
    for line in f.readlines(): 
        n+=1
        print('正在處理第{}行'.format(n))
        poss = pseg.cut(line)
        lineNames.append([])
        for w in poss:
            if w.word in set(nameswords):
                lineNames[-1].append(w.word)
                if names.get(w.word) is None:
                    names[w.word] = 0
                    relationships[w.word] = {} 
                names[w.word] += 1
for line in lineNames:
    for name1 in line:
        for name2 in line:
            if name1 == name2:
                continue
            if relationships[name1].get(name2) is None:
                relationships[name1][name2]= 1
            else:
                relationships[name1][name2] = relationships[name1][name2]+ 1
node = pd.DataFrame(columns=['Id','Label','Weight'])
edge = pd.DataFrame(columns=['Source','Target','Weight'])
for name,times in names.items():
        node.loc[len(node)] = [name,name,times]
for name,edges in relationships.items():
        for v, w in edges.items():
            if w > 3:
                edge.loc[len(edge)] = [name,v,w]

處理之后，我們發(fā)現(xiàn)同一個(gè)人物出現(xiàn)了不同的稱呼趁冈，因此合并并統(tǒng)計(jì)歼争，得出88個(gè)節(jié)點(diǎn)。

node.loc[node['Id']=='哈利','Id'] = '哈利波特'
node.loc[node['Id']=='波特','Id'] = '哈利波特'
node.loc[node['Id']=='阿不思','Id'] = '鄧布利多'
node.loc[node['Label']=='哈利','Label'] = '哈利波特'
node.loc[node['Label']=='波特','Label'] = '哈利波特'
node.loc[node['Label']=='阿不思','Label'] = '鄧布利多'
edge.loc[edge['Source']=='哈利','Source'] = '哈利波特'
edge.loc[edge['Source']=='波特','Source'] = '哈利波特'
edge.loc[edge['Source']=='阿不思','Source'] = '鄧布利多'
edge.loc[edge['Target']=='哈利','Target'] = '哈利波特'
edge.loc[edge['Target']=='波特','Target'] = '哈利波特'
edge.loc[edge['Target']=='阿不思','Target'] = '鄧布利多'
nresult = node['Weight'].groupby([node['Id'],node['Label']]).agg({'Weight':np.sum}).sort_values('Weight',ascending = False)
eresult = edge.sort_values('Weight',ascending = False)
nresult.to_csv('node.csv',index = False)
eresult.to_csv('edge.csv',index = False)

有了節(jié)點(diǎn)node以及邊edge后渗勘，通過gephi對(duì)《哈利波特》的人物關(guān)系進(jìn)行分析：

image

（節(jié)點(diǎn)的大小表示人物的出場次數(shù)沐绒，線的粗細(xì)表示人物之間的交往關(guān)系）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市呀邢，隨后出現(xiàn)的幾起案子洒沦，更是在濱河造成了極大的恐慌，老刑警劉巖价淌，帶你破解...
沈念sama閱讀 218,607評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件申眼，死亡現(xiàn)場離奇詭異，居然都是意外死亡蝉衣，警方通過查閱死者的電腦和手機(jī)括尸，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,239評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來病毡，“玉大人濒翻，你說我怎么就攤上這事±材ぃ” “怎么了有送？”我有些...
開封第一講書人閱讀 164,960評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長僧家。經(jīng)常有香客問我雀摘，道長，這世上最難降的妖魔是什么八拱？我笑而不...
開封第一講書人閱讀 58,750評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任阵赠，我火速辦了婚禮，結(jié)果婚禮上肌稻，老公的妹妹穿的比我還像新娘清蚀。我一直安慰自己，他們只是感情好爹谭，可當(dāng)我...
茶點(diǎn)故事閱讀 67,764評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布枷邪。她就那樣靜靜地躺著，像睡著了一般诺凡。火紅的嫁衣襯著肌膚如雪齿风。梳的紋絲不亂的頭發(fā)上药薯，一...
開封第一講書人閱讀 51,604評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音救斑，去河邊找鬼。笑死真屯，一個(gè)胖子當(dāng)著我的面吹牛脸候，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播绑蔫，決...
沈念sama閱讀 40,347評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼运沦，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了配深？” 一聲冷哼從身側(cè)響起携添，我...
開封第一講書人閱讀 39,253評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎篓叶，沒想到半個(gè)月后烈掠，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,702評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡缸托，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,893評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年左敌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片俐镐。...
茶點(diǎn)故事閱讀 40,015評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡矫限，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出佩抹，到底是詐尸還是另有隱情叼风，我是刑警寧澤，帶...
沈念sama閱讀 35,734評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布棍苹，位于F島的核電站无宿，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏廊勃。R本人自食惡果不足惜懈贺，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,352評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望坡垫。院中可真熱鬧梭灿，春花似錦、人聲如沸冰悠。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,934評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽溉卓。三九已至皮迟，卻和暖如春搬泥，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背伏尼。一陣腳步聲響...
開封第一講書人閱讀 33,052評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工忿檩，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人爆阶。一個(gè)月前我還...
沈念sama閱讀 48,216評(píng)論 3贊 371
代替公主和親
正文我出身青樓燥透，卻偏偏與公主長得像，于是被迫代替她去往敵國和親辨图。傳聞我的和親對(duì)象是個(gè)殘疾皇子班套，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,969評(píng)論 2贊 355

書籍分析實(shí)例：哈利波特的分詞及人物關(guān)系

推薦閱讀更多精彩內(nèi)容