[python]分詞工具jieba

jieba 簡介

基于前綴詞典進行詞圖掃描抚吠,構(gòu)成全部可能分詞結(jié)果的有向無環(huán)圖,動態(tài)規(guī)劃查找最大概率路徑

支持三種分詞模式

  • 精確模式:試圖將句子最精確地切開斥黑,適合文本分析
  • 全模式:把句子中所有的可以成詞的詞語都掃描出來揖盘,速度非常快锌奴,但不能解決歧義
    -搜索引擎模式:在精確模式的基礎(chǔ)上兽狭,對長詞再次切分,提高召回率鹿蜀,適合用于搜索引擎分詞

支持繁體分詞

支持自定義字典

MIT授權(quán)協(xié)議

MIT 協(xié)議可能是幾大開源協(xié)議中最寬松的一個椭符,核心條款是:
該軟件及其相關(guān)文檔對所有人免費,可以任意處置耻姥,包括使用,復(fù)制有咨,修改琐簇,合并,發(fā)表座享,分發(fā)婉商,再授權(quán),或者銷售渣叛。唯一的限制是丈秩,軟件中必須包含上述版 權(quán)和許可提示。

算法

  • 基于前綴詞典實現(xiàn)高效的詞圖掃描淳衙,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG)
  • 采用了動態(tài)規(guī)劃查找最大概率路徑蘑秽,找出基于詞頻的最大切分組合
  • 對于未登錄詞,采用了基于漢字成詞能力的HMM模型箫攀,使用了Viterbi算法

主要方法

  • jieba.cut

    cut方法參數(shù)描述:

    • string : 需要分詞的字符串
    • cut_all: 是否采用全模式肠牲,默認為精確模式
    • HMM:是否使用HMM模型
  • jieba.cut_for_search

    該方法適用于搜索引擎構(gòu)建倒排索引分詞,粒度較細靴跛。

    • string : 需要分詞的字符串
    • HMM: 是否使用HMM模型
  • jieba.lcut以及jieba.lcut_for_search 直接返回list
  • jieba.Tokenizer(dictionary=DEFAULT_DICT)

    新建自定義分詞器缀雳,可用于同時使用不同詞典。jieba.dt為默認分詞器梢睛,所以全局分詞相關(guān)函數(shù)都是該分詞器的映射肥印。

  • jieba.load_userdict(file_name)

    指定自定義詞典识椰,以便包含jieba詞庫里沒有的詞。自行添加新詞可以保證更高的正確率深碱。

    • 詞典格式:[詞語腹鹉,詞頻(可省略),詞性(可省略)]莹痢,用空格隔開种蘸,順序不可顛倒,文件編碼必須為UTF-8
    • 詞頻自動省略時使用自動計算的能保證分出該詞的詞頻
  • jieba.analyse.set_stop_words(file_name)

    指定停用詞文件

關(guān)鍵詞提取

基于TF-IDF算法的關(guān)鍵詞抽取

  • jieba.analyse.extrac_tags(sentence.topK=20,withWeight=False,allowPOS=())

    參數(shù)詳解

    • sentence:提取文本
    • topK: 返回TF/IDF權(quán)重最大的關(guān)鍵詞個數(shù)竞膳,默認值為20
    • withWeight: 是否一并返回關(guān)鍵詞權(quán)重值航瞭,默認值為False
    • allowPOS: 僅包括指定詞性的詞,默認為空,既不篩選坦辟。

基于TextRank算法的關(guān)鍵詞提取

  • jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

    直接使用刊侯,接口相同,注意默認過濾詞性锉走。
    基本思想:

    • 將待抽取關(guān)鍵詞的文本進行分詞
    • 以固定窗口大小(默認為5滨彻,通過span屬性調(diào)整),詞之間的共現(xiàn)關(guān)系挪蹭,構(gòu)建圖
    • 計算圖中節(jié)點的PageRank亭饵,注意是無向帶權(quán)圖

詞性標注

jieba.posseg.POSTokenizer(tokenizer=None)

新建自定義分詞器,tokenizer 參數(shù)可指定內(nèi)部使用的 jieba.Tokenizer 分詞器梁厉。

  • jieba.posseg.dt 為默認詞性標注分詞器辜羊。
  • 標注句子分詞后每個詞的詞性,采用和 ictclas 兼容的標記法词顾。

參考內(nèi)容 :jieba分詞文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末八秃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子肉盹,更是在濱河造成了極大的恐慌昔驱,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件上忍,死亡現(xiàn)場離奇詭異骤肛,居然都是意外死亡,警方通過查閱死者的電腦和手機窍蓝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門萌衬,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人它抱,你說我怎么就攤上這事秕豫。” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵混移,是天一觀的道長祠墅。 經(jīng)常有香客問我,道長歌径,這世上最難降的妖魔是什么毁嗦? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮回铛,結(jié)果婚禮上狗准,老公的妹妹穿的比我還像新娘。我一直安慰自己茵肃,他們只是感情好腔长,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著验残,像睡著了一般捞附。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上您没,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天鸟召,我揣著相機與錄音,去河邊找鬼氨鹏。 笑死欧募,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的仆抵。 我是一名探鬼主播跟继,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼肢础!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起碌廓,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤传轰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后谷婆,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體慨蛙,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年纪挎,在試婚紗的時候發(fā)現(xiàn)自己被綠了期贫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡异袄,死狀恐怖通砍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤封孙,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布迹冤,位于F島的核電站,受9級特大地震影響虎忌,放射性物質(zhì)發(fā)生泄漏泡徙。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一膜蠢、第九天 我趴在偏房一處隱蔽的房頂上張望堪藐。 院中可真熱鬧,春花似錦挑围、人聲如沸礁竞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苏章。三九已至,卻和暖如春奏瞬,著一層夾襖步出監(jiān)牢的瞬間枫绅,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工硼端, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留并淋,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓珍昨,卻偏偏與公主長得像县耽,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子镣典,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容