搜索學(xué)習(xí)基礎(chǔ)--分詞器的使用

在代碼實(shí)現(xiàn)倒排索引這節(jié)中，我們的分詞方式是對(duì)文本按空格分詞贼涩。而在我們實(shí)際過(guò)程中巧涧，我們對(duì)分詞的要求是苛刻的，我們會(huì)在不同的場(chǎng)景下使用不同的分詞器∫＞耄現(xiàn)在谤绳，我們先使用標(biāo)準(zhǔn)分詞器StandardAnalyzer這個(gè)工具來(lái)進(jìn)行分詞的測(cè)試占锯。

首先我們需要引入jar包，這是一個(gè)Lucene全文檢索引擎中自帶的分詞器.

  <dependency>
           <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-common</artifactId>
            <version>4.7.2</version>
  </dependency>

簡(jiǎn)單的使用

  import org.apache.lucene.analysis.Analyzer;
  import org.apache.lucene.analysis.TokenStream;
  import org.apache.lucene.analysis.core.SimpleAnalyzer;
  import org.apache.lucene.analysis.standard.StandardAnalyzer;
  import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
  import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
  import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
  
  import java.io.IOException;
  import java.io.StringReader;
  
  /**
   * created by yuyufeng on 2017/11/9.
   */
  public class LearnAnalyzer {
      public static void main(String[] args) {
          // 構(gòu)建分詞器
          Analyzer analyzer = new StandardAnalyzer();
  
          // 獲取Lucene的TokenStream對(duì)象
          TokenStream ts = null;
          try {
              ts = analyzer.tokenStream("myfield", new StringReader(
                      "這是一個(gè)分詞的例子缩筛，我們來(lái)使用一下試試消略。 Let's use it."));
              // 獲取詞元位置屬性
              OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
              // 獲取詞元文本屬性
              CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
              // 獲取詞元文本屬性
              TypeAttribute type = ts.addAttribute(TypeAttribute.class);
  
              // 重置TokenStream（重置StringReader）
              ts.reset();
              // 迭代獲取分詞結(jié)果
              while (ts.incrementToken()) {
                  System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : "
                          + term.toString() + " | " + type.type());
              }
              // 關(guān)閉TokenStream（關(guān)閉StringReader）
              ts.end(); // Perform end-of-stream operations, e.g. set the final offset.
  
          } catch (IOException e) {
              e.printStackTrace();
          } finally {
              // 釋放TokenStream的所有資源
              if (ts != null) {
                  try {
                      ts.close();
                  } catch (IOException e) {
                      e.printStackTrace();
                  }
              }
          }
      }
  }

運(yùn)行結(jié)果：

0 - 1 : 這 | <IDEOGRAPHIC>
1 - 2 : 是 | <IDEOGRAPHIC>
2 - 3 : 一 | <IDEOGRAPHIC>
3 - 4 : 個(gè) | <IDEOGRAPHIC>
4 - 5 : 分 | <IDEOGRAPHIC>
5 - 6 : 詞 | <IDEOGRAPHIC>
6 - 7 : 的 | <IDEOGRAPHIC>
7 - 8 : 例 | <IDEOGRAPHIC>
8 - 9 : 子 | <IDEOGRAPHIC>
10 - 11 : 我 | <IDEOGRAPHIC>
11 - 12 : 們 | <IDEOGRAPHIC>
12 - 13 : 來(lái) | <IDEOGRAPHIC>
13 - 14 : 使 | <IDEOGRAPHIC>
14 - 15 : 用 | <IDEOGRAPHIC>
15 - 16 : 一 | <IDEOGRAPHIC>
16 - 17 : 下 | <IDEOGRAPHIC>
17 - 18 : 試 | <IDEOGRAPHIC>
18 - 19 : 試 | <IDEOGRAPHIC>
21 - 26 : let's | <ALPHANUM>
27 - 30 : use | <ALPHANUM>

StandardAnalyzer是一個(gè)標(biāo)準(zhǔn)的分詞器，它以非字母符來(lái)分割文本信息瞎抛，并將語(yǔ)匯單元統(tǒng)一為小寫形式艺演，并去掉數(shù)字類型的字符。而我們的中文詞組的分詞顯然不同桐臊。所以胎撤，對(duì)于中文的分詞，我們常用的有IK分詞器

<dependency>
  <groupId>com.janeluo</groupId>
  <artifactId>ikanalyzer</artifactId>
  <version>2012_u6</version>
</dependency>

上面的代碼修改分詞器的實(shí)現(xiàn)：
Analyzer analyzer = new IKAnalyzer(true);

分詞結(jié)果：
0 - 2 : 這是 | CN_WORD
2 - 4 : 一個(gè) | CN_WORD
4 - 6 : 分詞 | CN_WORD
6 - 7 : 的 | CN_WORD
7 - 9 : 例子 | CN_WORD
10 - 12 : 我們 | CN_WORD
12 - 14 : 來(lái)使 | CN_WORD
14 - 17 : 用一下 | CN_WORD
17 - 19 : 試試 | CN_WORD
21 - 24 : let | ENGLISH
25 - 26 : s | ENGLISH
27 - 30 : use | ENGLISH
31 - 34 : it. | LETTER

顯然断凶，這個(gè)是中英文分詞的伤提，相比StandardAnalyzer更適合我們?nèi)粘Ｊ褂?/p>

常見(jiàn)的分詞器

名稱	分詞規(guī)則	備注
WhitespaceAnalyzer	以空格作為切詞標(biāo)準(zhǔn)，不對(duì)語(yǔ)匯單元進(jìn)行其他規(guī)范化處理认烁。	適用英文
SimpleAnalyzer	以非字母符來(lái)分割文本信息飘弧，并將語(yǔ)匯單元統(tǒng)一為小寫形式，并去掉數(shù)字類型的字符
StopAnalyzer	停頓詞分析器會(huì)去除一些常有a,the,an等等砚著，也可以自定義禁用詞
StandardAnalyzer	標(biāo)準(zhǔn)分析器是Lucene內(nèi)置的分析器,會(huì)將語(yǔ)匯單元轉(zhuǎn)成小寫形式，并去除停用詞及標(biāo)點(diǎn)符號(hào)
CJKAnalyzer	中日韓分析器痴昧，能對(duì)中稽穆，日，韓語(yǔ)言進(jìn)行分析的分詞器	對(duì)中文支持效果一般
SmartChineseAnalyzer		對(duì)中文支持稍好赶撰，但擴(kuò)展性差舌镶，擴(kuò)展詞庫(kù)，禁用詞庫(kù)和同義詞庫(kù)等不好處理
IKAnalyzer	支持：英文字母豪娜、數(shù)字餐胀、中文詞匯等分詞處理，兼容韓文瘤载、日文字符優(yōu)化的詞典存儲(chǔ)否灾，更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義	常用
HanLP	HanLP實(shí)現(xiàn)了許多種分詞算法鸣奔，每個(gè)分詞器都支持特定的配置	國(guó)產(chǎn)墨技，實(shí)現(xiàn)了許多種分詞算法，支持自命名體識(shí)別等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末挎狸，一起剝皮案震驚了整個(gè)濱河市扣汪，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌锨匆，老刑警劉巖崭别，帶你破解...
沈念sama閱讀 221,820評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡茅主，警方通過(guò)查閱死者的電腦和手機(jī)舞痰，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)暗膜，“玉大人匀奏，你說(shuō)我怎么就攤上這事⊙眩” “怎么了娃善？”我有些...
開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)瑞佩。經(jīng)常有香客問(wèn)我聚磺，道長(zhǎng)，這世上最難降的妖魔是什么炬丸？我笑而不...
開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任瘫寝，我火速辦了婚禮，結(jié)果婚禮上稠炬，老公的妹妹穿的比我還像新娘焕阿。我一直安慰自己，他們只是感情好首启，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布暮屡。她就那樣靜靜地躺著，像睡著了一般毅桃。火紅的嫁衣襯著肌膚如雪褒纲。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1贊 310
城市分裂傳說(shuō)
那天钥飞，我揣著相機(jī)與錄音莺掠，去河邊找鬼。笑死读宙，一個(gè)胖子當(dāng)著我的面吹牛彻秆，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播结闸，決...
沈念sama閱讀 40,897評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼掖棉，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了膀估？” 一聲冷哼從身側(cè)響起幔亥，我...
開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎察纯，沒(méi)想到半個(gè)月后帕棉，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體针肥，經(jīng)...
沈念sama閱讀 46,345評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年香伴，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了慰枕。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,561評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡即纲，死狀恐怖具帮，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情低斋，我是刑警寧澤蜂厅，帶...
沈念sama閱讀 36,238評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站膊畴，受9級(jí)特大地震影響掘猿，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唇跨，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評(píng)論 3贊 334
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一稠通、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧买猖，春花似錦改橘、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0贊 24
一樁弒父案飞主，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至奸远，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間讽挟，已是汗流浹背懒叛。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耽梅，地道東北人薛窥。一個(gè)月前我還...
沈念sama閱讀 48,983評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像眼姐，于是被迫代替她去往敵國(guó)和親诅迷。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評(píng)論 2贊 359

搜索學(xué)習(xí)基礎(chǔ)--分詞器的使用

常見(jiàn)的分詞器

推薦閱讀更多精彩內(nèi)容