第二講三國人物出場頻次分析(一)

三國人物出場頻次分析

案例需求:《三國演義》這本小說(約64萬字)是大家耳熟能詳?shù)囊徊拷?jīng)典小說葵姥,我們都知道在作者羅貫中的筆中一直都視蜀漢為正統(tǒng)驶兜,那么真的是這樣嗎血柳,今天我們通過對其中人物的出場頻次進行分析迹恐;看看誰才是作者心中的“主角”逗载。

實現(xiàn)思路批什,利用分詞工具進行分詞然后進行詞頻統(tǒng)計

jieba分詞

由于中文文本中的單詞不是通過空格或者標點符號分割的农曲,我們要使用分詞工具進行分詞,jieba 是目前最好的 Python 中文分詞組件驻债,它主要有以下 3 種特性:

特點

  • 支持 3 種分詞模式:精確模式乳规、全模式、搜索引擎模式
  • 全模式合呐,把句子中所有的可以成詞的詞語都掃描出來, 速度非衬旱模快,但是不能解決歧義淌实;
  • 搜索引擎模式冻辩,在精確模式的基礎(chǔ)上,對長詞再次切分拆祈,提高召回率恨闪,適合用于搜索引擎分詞。

算法

  • 基于前綴詞典實現(xiàn)高效的詞圖掃描放坏,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖 (DAG)
  • 采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
  • 對于未登錄詞咙咽,采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法

安裝

pip install jieba

主要函數(shù)列表

  • jieba.cut
# 1
# jieba.cut 精確模式 將字符串分割成等量的中文
# jieba.cut生成的是一個生成器淤年,generator钧敞,
# 也就是可以通過for循環(huán)來取里面的每一個詞
seg_list = jieba.cut("我來到北京清華大學(xué)")
print(seg_list)
# <generator object Tokenizer.cut at 0x0C922470>
for seg in seg_list:
    print(seg)
# 我
# 來到
# 北京
# 清華大學(xué)
seg_list = jieba.cut("我來到北京清華大學(xué)")
print("使用join: " + "/ ".join(seg_list))
# 使用join: 我/ 來到/ 北京/ 清華大學(xué)
  • jieba.lcut
# 2
# jieba.lcut返回類型列表類型
seg_list = jieba.lcut("我來到北京清華大學(xué)")
print(seg_list)
# ['我', '來到', '北京', '清華大學(xué)']
  • 是否采用全模式
# 3.
# cut_all 參數(shù)用來控制是否采用全模式蜡豹;即將字符串的所有分詞可能均列舉出來 冗余性最大 默認是精確模式
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
# Full Mode: 我/ 來到/ 北京/ 清華/ 清華大學(xué)/ 華大/ 大學(xué)

seg_list = jieba.lcut("我來到北京清華大學(xué)", cut_all=True)
print("lcut全模式: ", seg_list)
# lcut全模式:  ['我', '來到', '北京', '清華', '清華大學(xué)', '華大', '大學(xué)']

  • 搜索引擎模式
# 4
# 搜索引擎模式,首先執(zhí)行精確模式犁享,然后在對其中長詞進一步切分獲得最終結(jié)果
# 該模式更傾向于尋找短詞語余素,這種方式具有一定的冗余度,但是比全模式要少
seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所炊昆,后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))

小結(jié) 如何選型:

  • 如果希望對文本分詞準確桨吊,不產(chǎn)生冗余 ----》 精確模式
  • 如果希望對文本分詞更為準確,不漏掉任何分詞的 可能結(jié)果 -----》全模式
  • 如果沒想好怎么用凤巨,可以使用搜索引擎模式
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末视乐,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子敢茁,更是在濱河造成了極大的恐慌佑淀,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件彰檬,死亡現(xiàn)場離奇詭異伸刃,居然都是意外死亡,警方通過查閱死者的電腦和手機逢倍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門捧颅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人较雕,你說我怎么就攤上這事碉哑。” “怎么了亮蒋?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵扣典,是天一觀的道長。 經(jīng)常有香客問我慎玖,道長贮尖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任趁怔,我火速辦了婚禮远舅,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘痕钢。我一直安慰自己图柏,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布任连。 她就那樣靜靜地躺著蚤吹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上裁着,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天繁涂,我揣著相機與錄音,去河邊找鬼二驰。 笑死扔罪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的桶雀。 我是一名探鬼主播矿酵,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼矗积!你這毒婦竟也來了全肮?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤棘捣,失蹤者是張志新(化名)和其女友劉穎辜腺,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乍恐,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡评疗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了茵烈。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片百匆。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瞧毙,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情寄症,我是刑警寧澤宙彪,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站有巧,受9級特大地震影響释漆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜篮迎,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一男图、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧甜橱,春花似錦逊笆、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春乃戈,著一層夾襖步出監(jiān)牢的瞬間褂痰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工症虑, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缩歪,地道東北人。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓谍憔,卻偏偏與公主長得像匪蝙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子韵卤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容