在做本文分析時(shí)嘁灯,由于有較多的專用術(shù)語和名詞沮翔,在jieba詞庫是沒有的詞晰洒,需要添加自定義詞典爷狈,保證更高的正確率识虚。
如果需要添加的專業(yè)詞數(shù)量不多丛塌,可以直接添加捐寥,例如:
jieba.add_word('蘇木素')
jieba.add_word('負(fù)壓液管')
也可以刪除jieba詞庫中的詞胸墙,例如
jieba.del_word('自定義詞')
如果需要添加的專業(yè)詞數(shù)量比較多寡润,需要用自定義詞典
jieba.load_userdict(file_name) # file_name為自定義詞典的路徑
詞典格式和dict.txt一樣捆憎,一個(gè)詞占一行;每一行分三部分梭纹,一部分為詞語躲惰,另一部分為詞頻,最后為詞性(可省略)变抽,用空格隔開