在Solr中配置中文分詞器word

Solr是在schema.xml(managed-schema)中配置Analyzer口锭。

注意:在Solr 6.1.0的conf文件夾下沒有schema.xml這個(gè)文件狮斗,只有managed-schema茂缚,如果把managed-schema刪掉,然后放schema.xml,那么運(yùn)行時(shí)候會(huì)根據(jù)schema.xml生成managed-schema延赌,如果這兩個(gè)文件同時(shí)存在耽梅,則會(huì)只根據(jù)managed-schema的內(nèi)容配置薛窥。

在沒有配置word分詞器之前,schema.xml里面默認(rèn)用的是WhitespaceTokenizerFactory眼姐,就是根據(jù)空格來分詞诅迷,對(duì)于中文來說則是將文本分為一個(gè)個(gè)單字,對(duì)一篇新聞分詞后的結(jié)果如下:

下面配置word分詞:

將schema.xml中的需要用到Word分詞的fieldType中的:
<tokenizer class="solr.WhitespaceTokenizerFactory"/>

<tokenizer class="solr.StandardTokenizerFactory"/>
替換為:
<tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
并移除下面的filter標(biāo)簽.

如text_general類型:

    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
    </analyzer>
  </fieldType>

將word-1.3.jar放到lib文件夾下众旗,重啟solr罢杉,可以看到分詞效果如下:

另外,在conf文件夾下面發(fā)現(xiàn)有很多txt文件:

這是用來設(shè)置停止詞逝钥,或者是同義詞的屑那。

例如在利用word分詞后,查詢“下跌”艘款,得到結(jié)果如下:

查詢“下跌”持际,找到一片文檔

查詢“下降”是沒有結(jié)果的:

查詢“下降”則沒有匹配的文檔

在synonyms.txt配置:
下降=>下跌
或者設(shè)置為:
下降,下跌
前者表示為將下降轉(zhuǎn)換為下跌,后者表示這些詞可以相互替換哗咆。

另外蜘欲,還要記得在相應(yīng)的fieldType加上對(duì)同義詞的支持:

  <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>  
    </analyzer>
    <analyzer type="query">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
       <filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
    </analyzer>

重啟solr之后再查詢“下降”:

配置同義詞轉(zhuǎn)換后,查詢“下降”則會(huì)返回跟“下跌”一樣的結(jié)果

通過上面的例子可以看出晌柬,通過配置conf文件夾下面的文件姥份,可以對(duì)solr進(jìn)行很多個(gè)性化的設(shè)置,solr的功能還是很強(qiáng)大的年碘。

word分詞器:https://github.com/ysc/word

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末澈歉,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子屿衅,更是在濱河造成了極大的恐慌埃难,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涤久,死亡現(xiàn)場(chǎng)離奇詭異涡尘,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)响迂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門考抄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蔗彤,你說我怎么就攤上這事川梅》杓妫” “怎么了?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵挑势,是天一觀的道長镇防。 經(jīng)常有香客問我,道長潮饱,這世上最難降的妖魔是什么来氧? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮香拉,結(jié)果婚禮上啦扬,老公的妹妹穿的比我還像新娘。我一直安慰自己凫碌,他們只是感情好扑毡,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盛险,像睡著了一般瞄摊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上苦掘,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天换帜,我揣著相機(jī)與錄音,去河邊找鬼鹤啡。 笑死惯驼,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的递瑰。 我是一名探鬼主播祟牲,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼抖部!你這毒婦竟也來了说贝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤慎颗,失蹤者是張志新(化名)和其女友劉穎狂丝,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體哗总,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年倍试,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讯屈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡县习,死狀恐怖涮母,靈堂內(nèi)的尸體忽然破棺而出谆趾,到底是詐尸還是另有隱情,我是刑警寧澤叛本,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布沪蓬,位于F島的核電站,受9級(jí)特大地震影響来候,放射性物質(zhì)發(fā)生泄漏跷叉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一营搅、第九天 我趴在偏房一處隱蔽的房頂上張望云挟。 院中可真熱鬧,春花似錦转质、人聲如沸园欣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽沸枯。三九已至,卻和暖如春赂弓,著一層夾襖步出監(jiān)牢的瞬間绑榴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國打工拣展, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留彭沼,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓备埃,卻偏偏與公主長得像姓惑,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子按脚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容