在Solr中配置中文分詞器word

Solr是在schema.xml（managed-schema）中配置Analyzer口锭。

注意：在Solr 6.1.0的conf文件夾下沒有schema.xml這個(gè)文件狮斗，只有managed-schema茂缚，如果把managed-schema刪掉，然后放schema.xml，那么運(yùn)行時(shí)候會(huì)根據(jù)schema.xml生成managed-schema延赌，如果這兩個(gè)文件同時(shí)存在耽梅，則會(huì)只根據(jù)managed-schema的內(nèi)容配置薛窥。

在沒有配置word分詞器之前，schema.xml里面默認(rèn)用的是WhitespaceTokenizerFactory眼姐，就是根據(jù)空格來分詞诅迷，對(duì)于中文來說則是將文本分為一個(gè)個(gè)單字，對(duì)一篇新聞分詞后的結(jié)果如下：

下面配置word分詞：

將schema.xml中的需要用到Word分詞的fieldType中的：
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
和
<tokenizer class="solr.StandardTokenizerFactory"/>
替換為：
<tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
并移除下面的filter標(biāo)簽.

如text_general類型：

    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
    </analyzer>
  </fieldType>

將word-1.3.jar放到lib文件夾下众旗，重啟solr罢杉，可以看到分詞效果如下：

另外，在conf文件夾下面發(fā)現(xiàn)有很多txt文件：

這是用來設(shè)置停止詞逝钥，或者是同義詞的屑那。

例如在利用word分詞后，查詢“下跌”艘款，得到結(jié)果如下：

查詢“下跌”持际，找到一片文檔

查詢“下降”是沒有結(jié)果的：

查詢“下降”則沒有匹配的文檔

在synonyms.txt配置：
下降=>下跌
或者設(shè)置為：
下降,下跌
前者表示為將下降轉(zhuǎn)換為下跌，后者表示這些詞可以相互替換哗咆。

另外蜘欲，還要記得在相應(yīng)的fieldType加上對(duì)同義詞的支持：

  <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
    <analyzer type="index">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>  
    </analyzer>
    <analyzer type="query">
      <tokenizer class="org.apdplat.word.solr.ChineseWordTokenizerFactory"/>
       <filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
    </analyzer>

重啟solr之后再查詢“下降”：

配置同義詞轉(zhuǎn)換后，查詢“下降”則會(huì)返回跟“下跌”一樣的結(jié)果

通過上面的例子可以看出晌柬，通過配置conf文件夾下面的文件姥份，可以對(duì)solr進(jìn)行很多個(gè)性化的設(shè)置，solr的功能還是很強(qiáng)大的年碘。

word分詞器：https://github.com/ysc/word

最后編輯于：2017.12.04 01:27:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末澈歉，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子屿衅，更是在濱河造成了極大的恐慌埃难，老刑警劉巖，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件涤久，死亡現(xiàn)場(chǎng)離奇詭異涡尘，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)响迂，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門考抄，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蔗彤，你說我怎么就攤上這事川梅》杓妫” “怎么了？”我有些...
開封第一講書人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵挑势，是天一觀的道長镇防。經(jīng)常有香客問我，道長潮饱，這世上最難降的妖魔是什么来氧？我笑而不...
開封第一講書人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮香拉，結(jié)果婚禮上啦扬，老公的妹妹穿的比我還像新娘。我一直安慰自己凫碌，他們只是感情好扑毡，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著盛险，像睡著了一般瞄摊。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上苦掘，一...
開封第一講書人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說
那天换帜，我揣著相機(jī)與錄音，去河邊找鬼鹤啡。笑死惯驼，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的递瑰。我是一名探鬼主播祟牲，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼抖部！你這毒婦竟也來了说贝？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 37,105評(píng)論 0贊 261
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤慎颗，失蹤者是張志新（化名）和其女友劉穎狂丝，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體哗总，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年倍试，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了讯屈。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡县习，死狀恐怖涮母，靈堂內(nèi)的尸體忽然破棺而出谆趾，到底是詐尸還是另有隱情，我是刑警寧澤叛本，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布沪蓬，位于F島的核電站，受9級(jí)特大地震影響来候，放射性物質(zhì)發(fā)生泄漏跷叉。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一营搅、第九天我趴在偏房一處隱蔽的房頂上張望云挟。院中可真熱鬧，春花似錦转质、人聲如沸园欣。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,352評(píng)論 0贊 19
一樁弒父案休蟹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽沸枯。三九已至，卻和暖如春赂弓，著一層夾襖步出監(jiān)牢的瞬間绑榴，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來泰國打工拣展，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留彭沼，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓备埃，卻偏偏與公主長得像姓惑，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子按脚，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

在Solr中配置中文分詞器word

下面配置word分詞：

推薦閱讀更多精彩內(nèi)容