1. 什么是jiaba庫(kù)
jieba 是一個(gè)python實(shí)現(xiàn)的分詞庫(kù)钝的,對(duì)中文有著很強(qiáng)大的分詞能力荷愕。
git鏈接:https://github.com/fxsjy/jieba
2. jieba庫(kù)的優(yōu)點(diǎn)
1 支持三種分詞模式:
a. 精確模式玻墅,試圖將句子最精確地切開(kāi)山林,適合文本分析润脸;
b. 全模式漠魏,把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度非尘蠓快,但是不能解決歧義柱锹;
c. 搜索引擎模式哪自,在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分禁熏,提高召回率壤巷,適合用于搜索引擎分詞。
2 支持自定義詞典
3. 關(guān)于jiaba庫(kù)的基本功能
demo1:分詞
#coding:utf-8
import jieba
words=jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")
print "/".join(words)
2017-03-06 15-01-20屏幕截圖.png
demo2 : 加入自定義字典
#coding:utf-8
import jieba
jieba.load_userdict("dict.txt")
words=jieba.cut("他來(lái)到了網(wǎng)易杭研大廈")
print "/".join(words)
print type(words)
<br />
自定義的詞典 dict.txt
杭研大廈 100 n
自定義的詞典一行上面有三列瞧毙,第二個(gè)是指出現(xiàn)的次數(shù)胧华,第三個(gè)是詞性
運(yùn)行結(jié)果:
2017-03-06 15-13-44屏幕截圖.png
也就是說(shuō)杭研大廈被看作為了一個(gè)整體秤茅。
demo3:允許程序在運(yùn)行的時(shí)候摆马,動(dòng)態(tài)的修改詞典
#coding:utf-8
import jieba
words =jieba.cut("我們中出了一個(gè)叛徒",HMM=False)
#jieba.suggest_freq(('中出'),True)
print '/'.join(words)
2017-03-06 17-54-31屏幕截圖.png
使用 suggest_freq(segment, tune=True) 可調(diào)節(jié)單個(gè)詞語(yǔ)的詞頻,使其(或不能)被分出來(lái)爸吮。
注意:自動(dòng)計(jì)算的詞頻在使用 HMM 新詞發(fā)現(xiàn)功能時(shí)可能無(wú)效释漆。
#coding:utf-8
import jieba
words =jieba.cut("我們中出了一個(gè)叛徒",HMM=False)
jieba.suggest_freq(('中出'),True)
#jieba.suggest_freq(('中','出'),True)
print '/'.join(words)
2017-03-06 17-56-35屏幕截圖.png
demo4: 關(guān)鍵詞提取
demo5:詞性標(biāo)注
#coding:utf-8
import jieba.posseg as pseg
words=pseg.cut("我愛(ài)北京天安門(mén)")
for word ,flag in words:
print ('%s %s' %(word,flag))
2017-03-06 18-07-03屏幕截圖.png
demo5:三種模式的分詞
# encoding=utf-8
import jieba
seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我來(lái)到北京清華大學(xué)", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精確模式
seg_list = jieba.cut("他來(lái)到了網(wǎng)易杭研大廈") # 默認(rèn)是精確模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明碩士畢業(yè)于中國(guó)科學(xué)院計(jì)算所悲没,后在日本京都大學(xué)深造") # 搜索引擎模式
print(", ".join(seg_list))
運(yùn)行結(jié)果:
2017-03-06 18-10-06屏幕截圖.png