1.背景說明
【前情提要】 懷著異常激動(dòng)的心情測試了一下北大剛發(fā)布的中文分詞庫,然后加載了之前整理的自定義詞匯,發(fā)現(xiàn)出現(xiàn)了很嚴(yán)重的分詞問題,希望有人能幫忙解決壁拉。
2. 上代碼
[IN] content = "我叫馬化騰汰规,我想學(xué)區(qū)塊鏈,你說好不好啊汤功,天青色等煙雨,而我在等你溜哮,月色被打撈器滔金,暈開了結(jié)局"
dict = utils.read("./dict.txt")
pku = pkuseg.pkuseg(user_dict=dict)
res = pku.cut(content)
print(res)
[OUT] loading model
finish
['我', '叫', '馬', '化', '騰', ',', '我', '想', '學(xué)', '區(qū)', '塊', '鏈', ',', '你', '說', '好', '不', '好', '啊', '茂嗓,', '天', '青', '色', '等', '煙', '雨', '餐茵,', '而', '我', '在', '等', '你', ',', '月', '色', '被', '打', '撈', '器', '述吸,', '暈', '開', '了', '結(jié)', '局']
3. 關(guān)鍵信息
-
dict.txt是之前項(xiàng)目整理的自定義詞庫,文件大小 108MB,詞條數(shù)量 ≈ 673萬,如圖所示:
enter image description here 同樣在jieba分詞中不會(huì)出現(xiàn)這樣的問題忿族,分詞結(jié)果正常
4. 問題回述
所以自定義詞庫內(nèi)容過多,會(huì)導(dǎo)致出現(xiàn)分詞異常?如何解決這個(gè)異常?
有更多問題也可以和本人直接溝通
微信:w63594021