一负甸、自建分詞字典的原因
有時候我們在使用jieba庫分詞的時候,分詞給我們的結(jié)果并不是我們需要的準(zhǔn)確的結(jié)果慎玖,如:充電寶變成了充電贮尖、寶,所以我們需要建立自己的分詞字典庫并且“訓(xùn)練”它趁怔。
二湿硝、創(chuàng)建并使用自建分詞字典
1.準(zhǔn)備字典庫
創(chuàng)建一個字典庫文檔dict.txt
,在該文檔中加入自己的分詞润努,分詞格式為:
每個詞占據(jù)一行
每行分三部分:詞語关斜、詞頻(可省略)、詞性(可省略)
文件編碼方式必須為:utf-8
2.分此前添加加載代碼
添加代碼jieba.load_userdict("dict.txt")
進(jìn)行加載分詞詞典铺浇,舉例如下:
import jieba
jieba.load_userdict("dict.txt")
words = jieba.lcut("這是小米充電寶")
print(words)
3.分詞對比
未添加自建字典庫如下圖:
1.png
添加自建字典庫如下圖:
2.png