Python帶你走進哈利波特的魔法世界

先簡單介紹一下jieba中文分詞包师崎,jieba包主要有三種分詞模式:

  • 精確模式:默認(rèn)情況下是精確模式咐柜,精確地分詞师骗,適合文本分析;
  • 全模式:把所有能成詞的詞語都分出來, 但是詞語會存有歧義妇智;
  • 搜索引擎模式:在精確模式的基礎(chǔ)上滥玷,對長詞再次切分,適合用于搜索引擎分詞巍棱。

jieba 包常用的語句:

  • 精確模式分詞:jieba.cut(text,cut_all = False)惑畴,當(dāng)cut_all = True時為全模式
  • 自定義詞典:jieba.load_userdict(file_name)
  • 增加詞語:jieba.add_word(seg,freq,flag)
  • 刪除詞語:jieba.del_word(seg)

《哈利·波特》是英國作家J·K·羅琳的奇幻文學(xué)系列小說,描寫主角哈利·波特在霍格沃茨魔法學(xué)校7年學(xué)習(xí)生活中的冒險故事航徙。下面將以《哈利波特》錯綜復(fù)雜的人物關(guān)系為例如贷,實踐一下jieba包。

#加載所需包
import numpy as np
import pandas as pd
import jieba,codecs
import jieba.posseg as pseg #標(biāo)注詞性模塊
from pyecharts import Bar,WordCloud
#導(dǎo)入人名到踏、停用詞杠袱、特定詞庫
renmings = pd.read_csv('人名.txt',engine='python',encoding='utf-8',names=['renming'])['renming']
stopwords = pd.read_csv('mystopwords.txt',engine='python',encoding='utf-8',names=['stopwords'])['stopwords'].tolist()
book = open('哈利波特.txt',encoding='utf-8').read()
jieba.load_userdict('哈利波特詞庫.txt')
#定義一個分詞函數(shù)
def words_cut(book):
 words = list(jieba.cut(book))
 stopwords1 = [w for w in words if len(w)==1] #添加停用詞
 seg = set(words) - set(stopwords) - set(stopwords1) #過濾停用詞,得到更為精確的分詞
 result = [i for i in words if i in seg]
 return result
#初次分詞
bookwords = words_cut(book)
renming = [i.split(' ')[0] for i in set(renmings)] #只要人物名字窝稿,出掉詞頻以及詞性
nameswords = [i for i in bookwords if i in set(renming)] #篩選出人物名字
#統(tǒng)計詞頻
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index

經(jīng)過初次分詞之后霞掺,我們發(fā)現(xiàn)大部分的詞語已經(jīng)ok了,但是還是有小部分名字類的詞語分得不精確讹躯,比如說'布利'、'羅恩說'缠劝、'伏地'潮梯、'斯內(nèi)'、'地說'等等惨恭,還有像'烏姆里奇'秉馏、'霍格沃茲'等分成兩個詞語的。

#自定義部分詞語
jieba.add_word('鄧布利多',100,'nr')
jieba.add_word('霍格沃茨',100,'n')
jieba.add_word('烏姆里奇',100,'nr')
jieba.add_word('拉唐克斯',100,'nr')
jieba.add_word('伏地魔',100,'nr')
jieba.del_word('羅恩說')
jieba.del_word('地說')
jieba.del_word('斯內(nèi)')
#再次分詞
bookwords = words_cut(book)
nameswords = [i for i in bookwords if i in set(renming)]
bookwords_count = pd.Series(bookwords).value_counts().sort_values(ascending=False)
nameswords_count = pd.Series(nameswords).value_counts().sort_values(ascending=False)
bookwords_count[:100].index

再次分詞之后脱羡,我們可以看到在初次分詞出現(xiàn)的錯誤已經(jīng)得到修正了萝究,接下來我們統(tǒng)計分析免都。

#統(tǒng)計詞頻TOP15的詞語
bar = Bar('出現(xiàn)最多的詞語TOP15',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = bookwords_count[:15].index.tolist()
y = bookwords_count[:15].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar

整部小說出現(xiàn)最多的詞語TOP15中出現(xiàn)了哈利、赫敏帆竹、羅恩绕娘、鄧布利多、魔杖栽连、魔法险领、馬爾福、斯內(nèi)普和小天狼星等字眼秒紧。

我們自己串一下绢陌,大概可以知道《哈利波特》的主要內(nèi)容了,就是哈利在小伙伴赫敏熔恢、羅恩的陪伴下脐湾,經(jīng)過大法師鄧布利多的幫助與培養(yǎng),利用魔杖使用魔法把大boss伏地魔k.o的故事叙淌。當(dāng)然啦秤掌,《哈利波特》還是非常精彩的。

#統(tǒng)計人物名字TOP20的詞語
bar = Bar('主要人物Top20',background_color = 'white',title_pos = 'center',title_text_size = 20)
x = nameswords_count[:20].index.tolist()
y =nameswords_count[:20].values.tolist()
bar.add('',x, y,xaxis_interval = 0,xaxis_rotate = 30,is_label_show = True)
bar

整部小說按照出場次數(shù)凿菩,我們發(fā)現(xiàn)哈利作為主角的地位無可撼動机杜,比排名第二的赫敏遠(yuǎn)超13000多次,當(dāng)然這也是非常正常的衅谷,畢竟這本書是《哈利波特》椒拗,而不是《赫敏格蘭杰》。

#整本小說的詞語詞云分析
name = bookwords_count.index.tolist()
value = bookwords_count.values.tolist()
wc = WordCloud(background_color = 'white')
wc.add("", name, value, word_size_range=[10, 200],shape = 'diamond')
wc

#人物關(guān)系分析
names = {} 
relationships = {} 
lineNames = []
with codecs.open('哈利波特.txt','r','utf8') as f:
 n = 0
 for line in f.readlines(): 
 n+=1
 print('正在處理第{}行'.format(n))
 poss = pseg.cut(line)
 lineNames.append([])
 for w in poss:
 if w.word in set(nameswords):
 lineNames[-1].append(w.word)
 if names.get(w.word) is None:
 names[w.word] = 0
 relationships[w.word] = {} 
 names[w.word] += 1
for line in lineNames:
 for name1 in line:
 for name2 in line:
 if name1 == name2:
 continue
 if relationships[name1].get(name2) is None:
 relationships[name1][name2]= 1
 else:
 relationships[name1][name2] = relationships[name1][name2]+ 1
node = pd.DataFrame(columns=['Id','Label','Weight'])
edge = pd.DataFrame(columns=['Source','Target','Weight'])
for name,times in names.items():
 node.loc[len(node)] = [name,name,times]
for name,edges in relationships.items():
 for v, w in edges.items():
 if w > 3:
 edge.loc[len(edge)] = [name,v,w]

處理之后获黔,我們發(fā)現(xiàn)同一個人物出現(xiàn)了不同的稱呼蚀苛,因此合并并統(tǒng)計,得出88個節(jié)點玷氏。

node.loc[node['Id']=='哈利','Id'] = '哈利波特'
node.loc[node['Id']=='波特','Id'] = '哈利波特'
node.loc[node['Id']=='阿不思','Id'] = '鄧布利多'
node.loc[node['Label']=='哈利','Label'] = '哈利波特'
node.loc[node['Label']=='波特','Label'] = '哈利波特'
node.loc[node['Label']=='阿不思','Label'] = '鄧布利多'
edge.loc[edge['Source']=='哈利','Source'] = '哈利波特'
edge.loc[edge['Source']=='波特','Source'] = '哈利波特'
edge.loc[edge['Source']=='阿不思','Source'] = '鄧布利多'
edge.loc[edge['Target']=='哈利','Target'] = '哈利波特'
edge.loc[edge['Target']=='波特','Target'] = '哈利波特'
edge.loc[edge['Target']=='阿不思','Target'] = '鄧布利多'
nresult = node['Weight'].groupby([node['Id'],node['Label']]).agg({'Weight':np.sum}).sort_values('Weight',ascending = False)
eresult = edge.sort_values('Weight',ascending = False)
nresult.to_csv('node.csv',index = False)
eresult.to_csv('edge.csv',index = False)

有了節(jié)點node以及邊edge后堵未,通過gephi對《哈利波特》的人物關(guān)系進行分析:

節(jié)點的大小表示人物的出場次數(shù),線的粗細(xì)表示人物之間的交往關(guān)系

歡迎大家加入小編創(chuàng)建的Python行業(yè)交流群盏触,有大牛答疑渗蟹,有資源共享,有企業(yè)招人赞辩!是一個非常不錯的交流基地雌芽!群號:556370268

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市辨嗽,隨后出現(xiàn)的幾起案子世落,更是在濱河造成了極大的恐慌,老刑警劉巖糟需,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件屉佳,死亡現(xiàn)場離奇詭異谷朝,居然都是意外死亡,警方通過查閱死者的電腦和手機武花,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門圆凰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人髓堪,你說我怎么就攤上這事送朱。” “怎么了干旁?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵驶沼,是天一觀的道長。 經(jīng)常有香客問我争群,道長回怜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任换薄,我火速辦了婚禮玉雾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘轻要。我一直安慰自己复旬,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布冲泥。 她就那樣靜靜地躺著驹碍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪凡恍。 梳的紋絲不亂的頭發(fā)上志秃,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天,我揣著相機與錄音嚼酝,去河邊找鬼浮还。 笑死,一個胖子當(dāng)著我的面吹牛闽巩,可吹牛的內(nèi)容都是我干的钧舌。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼涎跨,長吁一口氣:“原來是場噩夢啊……” “哼延刘!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起六敬,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎驾荣,沒想到半個月后外构,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體普泡,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年审编,在試婚紗的時候發(fā)現(xiàn)自己被綠了撼班。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡垒酬,死狀恐怖砰嘁,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情勘究,我是刑警寧澤矮湘,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站口糕,受9級特大地震影響缅阳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜景描,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一十办、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧超棺,春花似錦向族、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至弄唧,卻和暖如春适肠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背候引。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工侯养, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人澄干。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓逛揩,卻偏偏與公主長得像,于是被迫代替她去往敵國和親麸俘。 傳聞我的和親對象是個殘疾皇子辩稽,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內(nèi)容