從零開始學(xué)自然語言處理(一)—— jieba 分詞

作者:Allen
歡迎關(guān)注我們的公眾號:數(shù)據(jù)科學(xué)雜談

今天,我們正式開始《從零開始學(xué)自然語言處理》系列文章的更新鳄厌。內(nèi)容會涉及自然語言處理的各個方面知識內(nèi)容和具體操作:包括但不僅限于詞法分析荞胡,句法分析廊营,語義分析,文本聚類萝勤,文本分類露筒,情感分析,文本摘要生成敌卓,主題模型慎式,詞嵌入,文本語義相似度趟径,自然語言推理瘪吏,機器翻譯,語言模型蜗巧,信息抽取肪虎,關(guān)系預(yù)測,對話惧蛹,指代消解等等扇救。 從最基礎(chǔ)的內(nèi)容開始講起,歡迎持續(xù)關(guān)注學(xué)習(xí)香嗓。
(溫馨提示:文章中代碼部分左右滑動可查看全部)針對中文的自然語言處理迅腔,我們需要先將段落和句子切分為詞語,這是最基礎(chǔ)的一步操作靠娱,分詞屬于詞法分析的基礎(chǔ)部分沧烈。本文聊聊 jieba 這個工具包。jieba 是一款優(yōu)秀的中文分詞工具像云。如何安裝 jieba 呢锌雀?我們可以通過 Python 的 pip 直接安裝:

pip install jieba

jieba 采用的算法為:

  • 基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖 (DAG)
  • 采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合
  • 對于未登錄詞迅诬,采用了基于漢字成詞能力的 HMM 模型腋逆,使用了 Viterbi 算法

jieba 有三種分詞模式:

  • 精確模式,試圖將句子最精確地切開侈贷,適合文本分析惩歉;
  • 全模式,把句子中所有的可以成詞的詞語都掃描出來, 速度非城温快撑蚌,但是不能解決歧義;
  • 搜索引擎模式搏屑,在精確模式的基礎(chǔ)上争涌,對長詞再次切分,提高召回率辣恋,適合用于搜索引擎分詞亮垫。

我們接下來開始具體操作首先我們使用全模式進行分詞:

import jieba
seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

結(jié)果為:
image

使用精確模式(默認的也是精確模式解幼,即去掉cut_all參數(shù)也是精確模式):

seg_list = jieba.cut("我來到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式
image

使用搜索引擎模式:

seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國科學(xué)院計算所,后在日本京都大學(xué)深造")  # 搜索引擎模式
print(", ".join(seg_list))
image

但是當(dāng)我們遇到一些新詞的時候包警,jieba 可能并不能正確分詞撵摆,例如我們在對以下句子進行分詞時:

seg_list = jieba.cut("新研發(fā)的產(chǎn)品名為一網(wǎng)搜索。", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式
image

那如何解決這個問題呢害晦?
我們只需要創(chuàng)建一個自定義詞典文件特铝,文件格式為 txt 詞典格式和 dict.txt 一樣,一個詞占一行壹瘟;每一行分三部分:詞語鲫剿、詞頻(可省略)、詞性(可省略)稻轨,用空格隔開灵莲,順序不可顛倒。file_name 若為路徑或二進制方式打開的文件殴俱,則文件必須為 UTF-8 編碼政冻。詞頻省略時使用自動計算的能保證分出該詞的詞頻。例如线欲,我在本地創(chuàng)建了一個名為 userdict.txt 的文件

image

然后將 “一網(wǎng)搜索” 加入自定義詞典明场,后面的 5 表示詞的詞頻(詞頻越高,對該詞分詞的準確度和優(yōu)先級越高),然后保存李丰。
image

用法:jieba.load_userdict(file_name)
file_name 為文件類對象或自定義詞典的路徑然后使用如下代碼即可完成正確分詞:

jieba.load_userdict(r'E:/jieba/userdict.txt') 
seg_list = jieba.cut("新研發(fā)的產(chǎn)品名為一網(wǎng)搜索苦锨。", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式
image

想對 jieba 分詞有更深入的了解可以傳送到 jieba 的 github:https://github.com/fxsjy/jieba《從零開始學(xué)自然語言處理》系列文章有興趣的話,歡迎持續(xù)關(guān)注學(xué)習(xí)趴泌。歷史文章推薦閱讀:Python快速安裝庫的靠譜辦法
歡迎關(guān)注我們的公眾號:數(shù)據(jù)科學(xué)雜談 舟舒,每天分享原創(chuàng)干貨文章!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嗜憔,一起剝皮案震驚了整個濱河市秃励,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌痹筛,老刑警劉巖莺治,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異帚稠,居然都是意外死亡,警方通過查閱死者的電腦和手機床佳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門滋早,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人砌们,你說我怎么就攤上這事杆麸「榻” “怎么了?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵昔头,是天一觀的道長饼问。 經(jīng)常有香客問我,道長揭斧,這世上最難降的妖魔是什么莱革? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮讹开,結(jié)果婚禮上盅视,老公的妹妹穿的比我還像新娘。我一直安慰自己旦万,他們只是感情好闹击,可當(dāng)我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著成艘,像睡著了一般赏半。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上淆两,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天除破,我揣著相機與錄音,去河邊找鬼琼腔。 笑死瑰枫,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的丹莲。 我是一名探鬼主播光坝,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼甥材!你這毒婦竟也來了盯另?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤洲赵,失蹤者是張志新(化名)和其女友劉穎鸳惯,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叠萍,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡芝发,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了苛谷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辅鲸。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖腹殿,靈堂內(nèi)的尸體忽然破棺而出独悴,到底是詐尸還是另有隱情例书,我是刑警寧澤,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布刻炒,位于F島的核電站决采,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏坟奥。R本人自食惡果不足惜树瞭,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望筏勒。 院中可真熱鬧移迫,春花似錦、人聲如沸管行。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捐顷。三九已至荡陷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間迅涮,已是汗流浹背废赞。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留叮姑,地道東北人唉地。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像传透,于是被迫代替她去往敵國和親耘沼。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,047評論 2 355