ElasticSearch 分詞器，了解一下

這篇文章主要來(lái)介紹下什么是 Analysis 醇坝，什么是分詞器邑跪，以及 ElasticSearch 自帶的分詞器是怎么工作的，最后會(huì)介紹下中文分詞是怎么做的呼猪。

首先來(lái)說(shuō)下什么是 Analysis：

什么是 Analysis画畅？

顧名思義，文本分析就是把全文本轉(zhuǎn)換成一系列單詞（term/token）的過(guò)程宋距，也叫分詞轴踱。在 ES 中，Analysis 是通過(guò)分詞器（Analyzer） 來(lái)實(shí)現(xiàn)的谚赎，可使用 ES 內(nèi)置的分析器或者按需定制化分析器淫僻。

舉一個(gè)分詞簡(jiǎn)單的例子：比如你輸入 Mastering Elasticsearch，會(huì)自動(dòng)幫你分成兩個(gè)單詞壶唤，一個(gè)是 mastering雳灵，另一個(gè)是 elasticsearch，可以看出單詞也被轉(zhuǎn)化成了小寫(xiě)的闸盔。

image

再簡(jiǎn)單了解了 Analysis 與 Analyzer 之后悯辙，讓我們來(lái)看下分詞器的組成：

分詞器的組成

分詞器是專(zhuān)門(mén)處理分詞的組件，分詞器由以下三部分組成：

Character Filters：針對(duì)原始文本處理迎吵，比如去除 html 標(biāo)簽
Tokenizer：按照規(guī)則切分為單詞躲撰，比如按照空格切分
Token Filters：將切分的單詞進(jìn)行加工，比如大寫(xiě)轉(zhuǎn)小寫(xiě)击费，刪除 stopwords拢蛋，增加同義語(yǔ)

分詞器的組成

同時(shí) Analyzer 三個(gè)部分也是有順序的，從圖中可以看出蔫巩，從上到下依次經(jīng)過(guò) Character Filters谆棱，Tokenizer 以及 Token Filters快压，這個(gè)順序比較好理解，一個(gè)文本進(jìn)來(lái)肯定要先對(duì)文本數(shù)據(jù)進(jìn)行處理础锐，再去分詞嗓节，最后對(duì)分詞的結(jié)果進(jìn)行過(guò)濾。

其中皆警，ES 內(nèi)置了許多分詞器：

Standard Analyzer - 默認(rèn)分詞器拦宣，按詞切分，小寫(xiě)處理
Simple Analyzer - 按照非字母切分（符號(hào)被過(guò)濾）信姓，小寫(xiě)處理
Stop Analyzer - 小寫(xiě)處理鸵隧，停用詞過(guò)濾（the ，a意推，is）
Whitespace Analyzer - 按照空格切分豆瘫，不轉(zhuǎn)小寫(xiě)
Keyword Analyzer - 不分詞，直接將輸入當(dāng)做輸出
Pattern Analyzer - 正則表達(dá)式菊值，默認(rèn) \W+
Language - 提供了 30 多種常見(jiàn)語(yǔ)言的分詞器
Customer Analyzer - 自定義分詞器

接下來(lái)會(huì)對(duì)以上分詞器進(jìn)行講解外驱，在講解之前先來(lái)看下很有用的 API：_analyzer API：

Analyzer API

它可以通過(guò)以下三種方式來(lái)查看分詞器是怎么樣工作的：

直接指定 Analyzer 進(jìn)行測(cè)試

GET _analyze
{
    "analyzer": "standard",
    "text" : "Mastering Elasticsearch , elasticsearch in Action"
}

指定索引的字段進(jìn)行測(cè)試

POST books/_analyze
{
    "field": "title",
    "text": "Mastering Elasticesearch"
}

自定義分詞進(jìn)行測(cè)試

POST /_analyze
{
    "tokenizer": "standard", 
    "filter": ["lowercase"],
    "text": "Mastering Elasticesearch"
}

再了解了 Analyzer API 后，讓我們一起看下 ES 內(nèi)置的分詞器：

ES 分詞器

首先來(lái)介紹下 Stamdard Analyzer 分詞器：

Stamdard Analyzer

它是 ES 默認(rèn)的分詞器腻窒，它會(huì)對(duì)輸入的文本按詞的方式進(jìn)行切分昵宇，切分好以后會(huì)進(jìn)行轉(zhuǎn)小寫(xiě)處理，默認(rèn)的 stopwords 是關(guān)閉的儿子。

下面使用 Kibana 看一下它是怎么樣進(jìn)行工作的瓦哎，在 Kibana 的開(kāi)發(fā)工具（Dev Tools）中指定 Analyzer 為 standard，并輸入文本 In 2020, Java is the best language in the world.柔逼，然后我們運(yùn)行一下：

GET _analyze
{
  "analyzer": "standard",
  "text": "In 2020, Java is the best language in the world."
}

運(yùn)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "in",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<ALPHANUM>",
      "position" : 0
    },
    {
      "token" : "2020",
      "start_offset" : 3,
      "end_offset" : 7,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "<ALPHANUM>",
      "position" : 3
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "<ALPHANUM>",
      "position" : 4
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "<ALPHANUM>",
      "position" : 7
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "<ALPHANUM>",
      "position" : 8
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "<ALPHANUM>",
      "position" : 9
    }
  ]
}

可以看出是按照空格蒋譬、非字母的方式對(duì)輸入的文本進(jìn)行了轉(zhuǎn)換，比如對(duì) Java 做了轉(zhuǎn)小寫(xiě)愉适，對(duì)一些停用詞也沒(méi)有去掉犯助，比如 in。

其中 token 為分詞結(jié)果儡毕；start_offset 為起始偏移也切；end_offset 為結(jié)束偏移；position 為分詞位置腰湾。

下面來(lái)看下 Simple Analyzer 分詞器：

Simple Analyzer

它只包括了 Lower Case 的 Tokenizer，它會(huì)按照非字母切分疆股，非字母的會(huì)被去除费坊，最后對(duì)切分好的做轉(zhuǎn)小寫(xiě)處理，然后接著用剛才的輸入文本旬痹，分詞器換成 simple 來(lái)進(jìn)行分詞附井，運(yùn)行結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "in",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "word",
      "position" : 6
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "word",
      "position" : 7
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "word",
      "position" : 8
    }
  ]
}

從結(jié)果中可以看出讨越，數(shù)字 2020 被去除掉了，說(shuō)明非字母的的確會(huì)被去除永毅，所有的詞也都做了小寫(xiě)轉(zhuǎn)換把跨。

現(xiàn)在，我們來(lái)看下 Whitespace Analyzer 分詞器：

Whitespace Analyzer

它非常簡(jiǎn)單沼死，根據(jù)名稱(chēng)也可以看出是按照空格進(jìn)行切分的着逐，下面我們來(lái)看下它是怎么樣工作的：

{
  "tokens" : [
    {
      "token" : "In",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "word",
      "position" : 0
    },
    {
      "token" : "2020,",
      "start_offset" : 3,
      "end_offset" : 8,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "Java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 2
    },
    {
      "token" : "is",
      "start_offset" : 14,
      "end_offset" : 16,
      "type" : "word",
      "position" : 3
    },
    {
      "token" : "the",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 6
    },
    {
      "token" : "in",
      "start_offset" : 35,
      "end_offset" : 37,
      "type" : "word",
      "position" : 7
    },
    {
      "token" : "the",
      "start_offset" : 38,
      "end_offset" : 41,
      "type" : "word",
      "position" : 8
    },
    {
      "token" : "world.",
      "start_offset" : 42,
      "end_offset" : 48,
      "type" : "word",
      "position" : 9
    }
  ]
}

可以看出，只是按照空格進(jìn)行切分意蛀，2020 數(shù)字還是在的耸别，Java 的首字母還是大寫(xiě)的，, 還是保留的县钥。

接下來(lái)看 Stop Analyzer 分詞器：

Stop Analyzer

它由 Lowe Case 的 Tokenizer 和 Stop 的 Token Filters 組成的秀姐，相較于剛才提到的 Simple Analyzer，多了 stop 過(guò)濾若贮，stop 就是會(huì)把 the省有，a，is 等修飾詞去除谴麦，同樣讓我們看下運(yùn)行結(jié)果：

{
  "tokens" : [
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "word",
      "position" : 1
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "word",
      "position" : 4
    },
    {
      "token" : "language",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "word",
      "position" : 5
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "word",
      "position" : 8
    }
  ]
}

可以看到 in is the 等詞都被 stop filter過(guò)濾掉了蠢沿。

接下來(lái)看下 Keyword Analyzer：

Keyword Analyzer

它其實(shí)不做分詞處理，只是將輸入作為 Term 輸出细移，我們來(lái)看下運(yùn)行結(jié)果：

{
  "tokens" : [
    {
      "token" : "In 2020, Java is the best language in the world.",
      "start_offset" : 0,
      "end_offset" : 48,
      "type" : "word",
      "position" : 0
    }
  ]
}

我們可以看到搏予，沒(méi)有對(duì)輸入文本進(jìn)行分詞，而是直接作為 Term 輸出了弧轧。

接下來(lái)看下 Pattern Analyzer：

Pattern Analyzer

它可以通過(guò)正則表達(dá)式的方式進(jìn)行分詞雪侥，默認(rèn)是用 \W+ 進(jìn)行分割的，也就是非字母的符合進(jìn)行切分的精绎，由于運(yùn)行結(jié)果和 Stamdard Analyzer 一樣速缨，就不展示了。

Language Analyzer

ES 為不同國(guó)家語(yǔ)言的輸入提供了 Language Analyzer 分詞器代乃，在里面可以指定不同的語(yǔ)言旬牲，我們用 english 進(jìn)行分詞看下：

{
  "tokens" : [
    {
      "token" : "2020",
      "start_offset" : 3,
      "end_offset" : 7,
      "type" : "<NUM>",
      "position" : 1
    },
    {
      "token" : "java",
      "start_offset" : 9,
      "end_offset" : 13,
      "type" : "<ALPHANUM>",
      "position" : 2
    },
    {
      "token" : "best",
      "start_offset" : 21,
      "end_offset" : 25,
      "type" : "<ALPHANUM>",
      "position" : 5
    },
    {
      "token" : "languag",
      "start_offset" : 26,
      "end_offset" : 34,
      "type" : "<ALPHANUM>",
      "position" : 6
    },
    {
      "token" : "world",
      "start_offset" : 42,
      "end_offset" : 47,
      "type" : "<ALPHANUM>",
      "position" : 9
    }
  ]
}

可以看出 language 被改成了 languag，同時(shí)它也是有 stop 過(guò)濾器的搁吓，比如 in,is 等詞也被去除了原茅。

最后，讓我們看下中文分詞：

中文分詞

中文分詞有特定的難點(diǎn)堕仔，不像英文擂橘，單詞有自然的空格作為分隔，在中文句子中摩骨，不能簡(jiǎn)單地切分成一個(gè)個(gè)的字通贞，而是需要分成有含義的詞朗若，但是在不同的上下文，是有不同的理解的昌罩。

比如以下例子：

在這些哭懈，企業(yè)中，國(guó)有茎用，企業(yè)遣总，有十個(gè)/在這些，企業(yè)绘搞，中國(guó)彤避，有企業(yè)岗屏，有十個(gè)
各國(guó)永丝，有姐直，企業(yè)蒿褂，相繼圆米，倒閉/各，國(guó)有啄栓，企業(yè)娄帖，相繼，倒閉
羽毛球昙楚，拍賣(mài)近速，完了/羽毛球拍，賣(mài)堪旧，完了

那么削葱，讓我們來(lái)看下 ICU Analyzer 分詞器，它提供了 Unicode 的支持淳梦，更好的支持亞洲語(yǔ)言析砸！

我們先用 standard 來(lái)分詞，以便于和 ICU 進(jìn)行對(duì)比爆袍。

GET _analyze
{
  "analyzer": "standard",
  "text": "各國(guó)有企業(yè)相繼倒閉"
}

運(yùn)行結(jié)果就不展示了首繁，分詞是一個(gè)字一個(gè)字切分的，明顯效果不是很好陨囊，接下來(lái)用 ICU 進(jìn)行分詞弦疮，分詞結(jié)果如下：

{
  "tokens" : [
    {
      "token" : "各國(guó)",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "有",
      "start_offset" : 2,
      "end_offset" : 3,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "企業(yè)",
      "start_offset" : 3,
      "end_offset" : 5,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "相繼",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "倒閉",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    }
  ]
}

可以看到分成了各國(guó)，有蜘醋，企業(yè)挂捅，相繼，倒閉堂湖，顯然比剛才的效果好了很多闲先。

還有許多中文分詞器，在這里列舉幾個(gè)：

IK：

支持自定義詞庫(kù)无蜂，支持熱更新分詞字典
https://github.com/medcl/elasticsearch-analysis-ik

jieba：

Python 中最流行的分詞系統(tǒng)伺糠，支持分詞和詞性標(biāo)注
支持繁體分詞、自定義詞典斥季、并行分詞等
https://github.com/sing1ee/elasticsearch-jieba-plugin

THULAC：

THU Lexucal Analyzer for Chinese, 清華大學(xué)自然語(yǔ)言處理和社會(huì)人文計(jì)算實(shí)驗(yàn)室的一套中文分詞器
https://github.com/thunlp/THULAC-Java

大家可以自己安裝下训桶，看下它中文分詞效果。

總結(jié)

本文主要介紹了 ElasticSearch 自帶的分詞器酣倾，學(xué)習(xí)了使用 _analyzer API 去查看它的分詞情況舵揭，最后還介紹下中文分詞是怎么做的。

參考文獻(xiàn)

Elasticsearch頂尖高手系列

Elasticsearch核心技術(shù)與實(shí)戰(zhàn)

https://www.elastic.co/guide/en/elasticsearch/reference/7.1/indices-analyze.html

https://www.elastic.co/guide/en/elasticsearch/reference/current/analyzer-anatomy.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末躁锡，一起剝皮案震驚了整個(gè)濱河市午绳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌映之，老刑警劉巖拦焚，帶你破解...
沈念sama閱讀 217,734評(píng)論 6贊 505
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異杠输，居然都是意外死亡赎败，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,931評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)蠢甲，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)僵刮，“玉大人，你說(shuō)我怎么就攤上這事鹦牛「愀猓” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵能岩，是天一觀的道長(zhǎng)寞宫。經(jīng)常有香客問(wèn)我，道長(zhǎng)拉鹃，這世上最難降的妖魔是什么辈赋？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮膏燕，結(jié)果婚禮上钥屈，老公的妹妹穿的比我還像新娘。我一直安慰自己坝辫，他們只是感情好篷就，可當(dāng)我...
茶點(diǎn)故事閱讀 67,585評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著近忙，像睡著了一般竭业。火紅的嫁衣襯著肌膚如雪智润。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1贊 302
城市分裂傳說(shuō)
那天未辆，我揣著相機(jī)與錄音窟绷，去河邊找鬼。笑死咐柜，一個(gè)胖子當(dāng)著我的面吹牛兼蜈，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播拙友，決...
沈念sama閱讀 40,262評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼为狸，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了遗契？” 一聲冷哼從身側(cè)響起辐棒，我...
開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎姊途，沒(méi)想到半個(gè)月后涉瘾，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,587評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡捷兰，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,792評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年立叛，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贡茅。...
茶點(diǎn)故事閱讀 39,919評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡秘蛇，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出顶考，到底是詐尸還是另有隱情赁还，我是刑警寧澤，帶...
沈念sama閱讀 35,635評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布驹沿，位于F島的核電站艘策，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏渊季。R本人自食惡果不足惜朋蔫，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,237評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望却汉。院中可真熱鬧驯妄，春花似錦、人聲如沸合砂。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至微猖，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間励两，已是汗流浹背黎茎。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人盲憎。一個(gè)月前我還...
沈念sama閱讀 48,048評(píng)論 3贊 370
代替公主和親
正文我出身青樓慕爬，卻偏偏與公主長(zhǎng)得像磅甩，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子独榴，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,864評(píng)論 2贊 354

ElasticSearch 分詞器劲弦，了解一下

ElasticSearch 分詞器，了解一下

什么是 Analysis画畅？

分詞器的組成

Analyzer API

ES 分詞器

Stamdard Analyzer

Simple Analyzer

Whitespace Analyzer

Stop Analyzer

Keyword Analyzer

Pattern Analyzer

Language Analyzer

中文分詞

總結(jié)

推薦閱讀更多精彩內(nèi)容