第二講三國人物出場頻次分析（一）

三國人物出場頻次分析

案例需求：《三國演義》這本小說（約64萬字）是大家耳熟能詳?shù)囊徊拷?jīng)典小說葵姥，我們都知道在作者羅貫中的筆中一直都視蜀漢為正統(tǒng)驶兜，那么真的是這樣嗎血柳，今天我們通過對其中人物的出場頻次進行分析迹恐；看看誰才是作者心中的“主角”逗载。

實現(xiàn)思路批什，利用分詞工具進行分詞然后進行詞頻統(tǒng)計

jieba分詞

由于中文文本中的單詞不是通過空格或者標點符號分割的农曲，我們要使用分詞工具進行分詞，jieba 是目前最好的 Python 中文分詞組件驻债，它主要有以下 3 種特性：

特點

支持 3 種分詞模式：精確模式乳规、全模式、搜索引擎模式
全模式合呐，把句子中所有的可以成詞的詞語都掃描出來, 速度非衬旱模快，但是不能解決歧義淌实；
搜索引擎模式冻辩，在精確模式的基礎(chǔ)上，對長詞再次切分拆祈，提高召回率恨闪，適合用于搜索引擎分詞。

算法

基于前綴詞典實現(xiàn)高效的詞圖掃描放坏，生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖 (DAG)
采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
對于未登錄詞咙咽，采用了基于漢字成詞能力的 HMM 模型，使用了 Viterbi 算法

安裝

pip install jieba

主要函數(shù)列表

jieba.cut

# 1
# jieba.cut 精確模式 將字符串分割成等量的中文
# jieba.cut生成的是一個生成器淤年，generator钧敞，
# 也就是可以通過for循環(huán)來取里面的每一個詞
seg_list = jieba.cut("我來到北京清華大學(xué)")
print(seg_list)
# <generator object Tokenizer.cut at 0x0C922470>
for seg in seg_list:
    print(seg)
# 我
# 來到
# 北京
# 清華大學(xué)
seg_list = jieba.cut("我來到北京清華大學(xué)")
print("使用join： " + "/ ".join(seg_list))
# 使用join： 我/ 來到/ 北京/ 清華大學(xué)

jieba.lcut

# 2
# jieba.lcut返回類型列表類型
seg_list = jieba.lcut("我來到北京清華大學(xué)")
print(seg_list)
# ['我', '來到', '北京', '清華大學(xué)']

是否采用全模式

# 3.
# cut_all 參數(shù)用來控制是否采用全模式蜡豹；即將字符串的所有分詞可能均列舉出來 冗余性最大 默認是精確模式
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
# Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)

seg_list = jieba.lcut("我來到北京清華大學(xué)", cut_all=True)
print("lcut全模式： ", seg_list)
# lcut全模式：  ['我', '來到', '北京', '清華', '清華大學(xué)', '華大', '大學(xué)']

搜索引擎模式

# 4
# 搜索引擎模式，首先執(zhí)行精確模式犁享，然后在對其中長詞進一步切分獲得最終結(jié)果
# 該模式更傾向于尋找短詞語余素，這種方式具有一定的冗余度，但是比全模式要少
seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所炊昆，后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

小結(jié) 如何選型：

如果希望對文本分詞準確桨吊，不產(chǎn)生冗余 ----》精確模式
如果希望對文本分詞更為準確，不漏掉任何分詞的可能結(jié)果 -----》全模式
如果沒想好怎么用凤巨，可以使用搜索引擎模式

最后編輯于：2019.04.26 17:56:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末视乐，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子敢茁，更是在濱河造成了極大的恐慌佑淀，老刑警劉巖，帶你破解...
沈念sama閱讀 212,599評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件彰檬，死亡現(xiàn)場離奇詭異伸刃，居然都是意外死亡，警方通過查閱死者的電腦和手機逢倍，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,629評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門捧颅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人较雕，你說我怎么就攤上這事碉哑。” “怎么了亮蒋？”我有些...
開封第一講書人閱讀 158,084評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵扣典，是天一觀的道長。經(jīng)常有香客問我慎玖，道長贮尖，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,708評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任趁怔，我火速辦了婚禮远舅，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘痕钢。我一直安慰自己图柏，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,813評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布任连。她就那樣靜靜地躺著蚤吹，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上裁着，一...
開封第一講書人閱讀 50,021評論 1贊 291
城市分裂傳說
那天繁涂，我揣著相機與錄音，去河邊找鬼二驰。笑死扔罪，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的桶雀。我是一名探鬼主播矿酵，決...
沈念sama閱讀 39,120評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼矗积！你這毒婦竟也來了全肮？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,866評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤棘捣，失蹤者是張志新（化名）和其女友劉穎辜腺，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乍恐，經(jīng)...
沈念sama閱讀 44,308評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡评疗，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,633評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了茵烈。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片百匆。...
茶點故事閱讀 38,768評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖瞧毙，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情寄症，我是刑警寧澤宙彪，帶...
沈念sama閱讀 34,461評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站有巧，受9級特大地震影響释漆，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜篮迎，卻給世界環(huán)境...
茶點故事閱讀 40,094評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一男图、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧甜橱，春花似錦逊笆、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,850評論 0贊 21
一樁弒父案难裆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春乃戈，著一層夾襖步出監(jiān)牢的瞬間褂痰，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,082評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工症虑，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缩歪，地道東北人。一個月前我還...
沈念sama閱讀 46,571評論 2贊 362
代替公主和親
正文我出身青樓谍憔，卻偏偏與公主長得像匪蝙，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子韵卤，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,666評論 2贊 350

第二講三國人物出場頻次分析（一）

三國人物出場頻次分析

jieba分詞

特點

算法

安裝

主要函數(shù)列表

推薦閱讀更多精彩內(nèi)容