【嵌牛導讀】 jieba 中文分詞教程
【嵌牛鼻子】jieba? 中文分詞
【嵌牛提問】如何使用jieba 進行中文分詞鸟雏?
【嵌牛正文】
參考文章:http://www.reibang.com/p/883c2171cdb5
jieba是目前最好的 Python 中文分詞組件裙士,它主要有以下 3 種特性:
1.支持 3 種分詞模式:精確模式豪墅、全模式兼耀、搜索引擎模式
2.支持繁體分詞
3.支持自定義詞典
可使用jieba.cut和jieba.cut_for_search方法進行分詞应又,兩者所返回的結構都是一個可迭代的 generator鸯乃,可使用 for 循環(huán)來獲得分詞后得到的每一個詞語(unicode)剖张,或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:
jieba.cut和jieba.lcut接受 3 個參數(shù):
需要分詞的字符串(unicode 或 UTF-8 字符串诬留、GBK 字符串)
cut_all 參數(shù):是否使用全模式斜纪,默認值為False
HMM 參數(shù):用來控制是否使用 HMM 模型,默認值為True
jieba.cut_for_search和jieba.lcut_for_search接受 2 個參數(shù):
需要分詞的字符串(unicode 或 UTF-8 字符串故响、GBK 字符串)
HMM 參數(shù):用來控制是否使用 HMM 模型傀广,默認值為True
# 盡量不要使用 GBK 字符串,可能無法預料地錯誤解碼成 UTF-8
【全模式】:他/ 來到/ 上海/ 上海交通大學/ 交通/ 大學
【精確模式】:他/ 來到/ 上海交通大學