Elasticsearch 安裝部署 IK 分詞器

  1. 下載 elasticsearch-analysis-ik 安裝包

    下載地址: https://github.com/medcl/elasticsearch-analysis-ik/releases

  2. 安裝 IK 分詞器
    1. 自動安裝
      cd /opt/cloudera/parcels/ELASTICSEARCH/bin
      ./elasticsearch-plugin install -y https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.0.1/elasticsearch-analysis-ik-7.0.1.zip
      
    2. 手動安裝
      cd /opt/cloudera/parcels/ELASTICSEARCH/plugins
      wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.0.1/elasticsearch-analysis-ik-7.0.1.zip
      # 等待下載完成
      mkdir analysis-ik
      unzip -d analysis-ik/ elasticsearch-analysis-ik-7.0.1.zip 
      mv analysis-ik/config/ analysis-ik/analysis-ik
      mv analysis-ik/analysis-ik/ ../config/
      rm -rf elasticsearch-analysis-ik-7.0.1.zi
      
  3. ik_max_word 和 ik_smart 兩種分詞模式
    1. ik_max_word 將文本做最細粒度的拆分寇漫。

      例如: ik_max_word 會將 "中華人民共和國人民大會堂" 拆分為 "中華人民共和國稳吮、中華人民斧拍、中華删咱、華人、人民共和國奶赔、人民惋嚎、共和國、大會堂站刑、大會另伍、會堂"等詞語。

      {"text":"中華人民共和國人民大會堂","analyzer":"ik_max_word"}
      
    2. ik_smart 會做最粗粒度的拆分笛钝。

      例如: ik_smart 會將"中華人民共和國人民大會堂"拆分為"中華人民共和國质况、人民大會堂"愕宋。

      {"text":"中華人民共和國人民大會堂","analyzer":"ik_smart"}
      
  4. 配置自定義詞庫
    1. 新建自定義詞庫文件

      ${ELASTICSEARCH_HOME}/config/analysis-ik 目錄下新建 custom/mydict.dic 文件(注意文件格式為 utf-8玻靡,不要選擇utf-8 BOM),可以在 my.dic 文件 中自定義詞匯中贝。

    2. 修改配置文件 IKAnalyzer.cfg.xml
      <?xml version="1.0" encoding="UTF-8"?>
      <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
      <properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典,多個擴展詞典以分號分隔 -->
        <entry key="ext_dict">custom/mydict.dic</entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
      </properties>
      
    3. 重啟 ES 服務(wù)后測試分詞效果
      {"text": "葡萄美酒夜光杯囤捻,欲飲琵琶馬上催。醉臥沙場君莫笑邻寿,古來征戰(zhàn)幾人回蝎土?","analyzer": "ik_smart"}
      

      自定義詞庫加入 葡萄美酒夜光杯 前:


      自定義詞庫加入 葡萄美酒夜光杯 后:

  1. 配置熱更新 IK 分詞
    1. 安裝http服務(wù), 創(chuàng)建遠程擴展字典
    2. 修改配置文件 IKAnalyzer.cfg.xml
      <?xml version="1.0" encoding="UTF-8"?>
      <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
      <properties>
        <comment>IK Analyzer 擴展配置</comment>
        <!--用戶可以在這里配置自己的擴展字典,多個擴展詞典以分號分隔 -->
        <entry key="ext_dict">custom/mydict.dic</entry>
         <!--用戶可以在這里配置自己的擴展停止詞字典-->
        <entry key="ext_stopwords"></entry>
        <!--用戶可以在這里配置遠程擴展字典 -->
        <entry key="remote_ext_dict">http://192.168.1.101/analysis-ik/mydict.dic</entry>
        <!--用戶可以在這里配置遠程擴展停止詞字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
      </properties>
      
    3. 重啟 ES 服務(wù)后測試遠程分詞效果
      [root@node01 analysis-ik]# cat mydict.dic 
      欲飲琵琶馬上催
      醉臥沙場君莫笑
      古來征戰(zhàn)幾人回
      
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市绣否,隨后出現(xiàn)的幾起案子誊涯,更是在濱河造成了極大的恐慌,老刑警劉巖蒜撮,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件暴构,死亡現(xiàn)場離奇詭異跪呈,居然都是意外死亡,警方通過查閱死者的電腦和手機取逾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門耗绿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人砾隅,你說我怎么就攤上這事误阻。” “怎么了晴埂?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵究反,是天一觀的道長。 經(jīng)常有香客問我儒洛,道長奴紧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任晶丘,我火速辦了婚禮黍氮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘浅浮。我一直安慰自己沫浆,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布滚秩。 她就那樣靜靜地躺著专执,像睡著了一般。 火紅的嫁衣襯著肌膚如雪郁油。 梳的紋絲不亂的頭發(fā)上本股,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天,我揣著相機與錄音桐腌,去河邊找鬼拄显。 笑死,一個胖子當(dāng)著我的面吹牛案站,可吹牛的內(nèi)容都是我干的躬审。 我是一名探鬼主播,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蟆盐,長吁一口氣:“原來是場噩夢啊……” “哼承边!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起石挂,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤博助,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后痹愚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體富岳,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡贡耽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年刀森,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡曾沈,死狀恐怖俺祠,靈堂內(nèi)的尸體忽然破棺而出潘懊,到底是詐尸還是另有隱情线婚,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布蜒灰,位于F島的核電站弦蹂,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏强窖。R本人自食惡果不足惜凸椿,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望翅溺。 院中可真熱鬧脑漫,春花似錦、人聲如沸咙崎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽褪猛。三九已至网杆,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伊滋,已是汗流浹背碳却。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留笑旺,地道東北人昼浦。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像燥撞,于是被迫代替她去往敵國和親座柱。 傳聞我的和親對象是個殘疾皇子迷帜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355