- 1、IK配置文件
ik配置文件地址:
es/plugins/ik/config目錄下
IKAnalyzer.cfg.xml:用來配置自定義詞庫
main.dic:ik原生內置的中文詞庫客蹋,總共有27萬多條册舞,只要是這些單詞,都會被分在一起
quantifier.dic:放了一些單位相關的詞
suffix.dic:放了一些后綴
surname.dic:中國的姓氏
stopword.dic:英文停用詞
- 2冀瓦、ik原生最重要的兩個配置文件
main.dic:包含了原生的中文詞語,會按照這個里面的詞語去分詞
stopword.dic:包含了英文的停用詞
一般像停用詞写烤,會在分詞的時候翼闽,直接被干掉,不會建立在倒排索引中
- 3顶霞、自定義詞庫
(1)自己建立詞庫:每年都會涌現(xiàn)一些特殊的流行詞肄程,網(wǎng)紅锣吼,藍瘦香菇,喊麥蓝厌,鬼畜玄叠,一般不會在ik的原生詞典里,需要自己補充自己的最新的詞語拓提,到ik的詞庫里面去读恃。
IKAnalyzer.cfg.xml配置內容如下:
<properties>
<comment>IK Analyzer 擴展配置</comment>
<!--用戶可以在這里配置自己的擴展字典 -->
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
<!--用戶可以在這里配置自己的擴展停止詞字典-->
<entry key="ext_stopwords">custom/ext_stopword.dic</entry>
<!--用戶可以在這里配置遠程擴展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用戶可以在這里配置遠程擴展停止詞字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
可知,我們只需要補充我們的新詞語到custom/mydict.dic或custom/single_word_low_freq.dic這兩個字典文件其中之一即可代态。
一般都指定到custom/mydict.dic這里寺惫。
將停用詞(如:了,的蹦疑,呢等西雀,但是這些基本的IK已經(jīng)給我們都寫了,如有補充歉摧,寫到這里即可)指定到custom/ext_stopword.dic里