搜索學(xué)習(xí)基礎(chǔ)--分詞器的使用

代碼實(shí)現(xiàn)倒排索引這節(jié)中,我們的分詞方式是對(duì)文本按空格分詞贼涩。而在我們實(shí)際過(guò)程中巧涧,我們對(duì)分詞的要求是苛刻的,我們會(huì)在不同的場(chǎng)景下使用不同的分詞器∫>耄現(xiàn)在谤绳,我們先使用標(biāo)準(zhǔn)分詞器StandardAnalyzer這個(gè)工具來(lái)進(jìn)行分詞的測(cè)試占锯。

  • 首先我們需要引入jar包,這是一個(gè)Lucene全文檢索引擎中自帶的分詞器.

      <dependency>
               <groupId>org.apache.lucene</groupId>
                <artifactId>lucene-analyzers-common</artifactId>
                <version>4.7.2</version>
      </dependency>  
    
  • 簡(jiǎn)單的使用

      import org.apache.lucene.analysis.Analyzer;
      import org.apache.lucene.analysis.TokenStream;
      import org.apache.lucene.analysis.core.SimpleAnalyzer;
      import org.apache.lucene.analysis.standard.StandardAnalyzer;
      import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
      import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
      import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
      
      import java.io.IOException;
      import java.io.StringReader;
      
      /**
       * created by yuyufeng on 2017/11/9.
       */
      public class LearnAnalyzer {
          public static void main(String[] args) {
              // 構(gòu)建分詞器
              Analyzer analyzer = new StandardAnalyzer();
      
              // 獲取Lucene的TokenStream對(duì)象
              TokenStream ts = null;
              try {
                  ts = analyzer.tokenStream("myfield", new StringReader(
                          "這是一個(gè)分詞的例子缩筛,我們來(lái)使用一下試試消略。 Let's use it."));
                  // 獲取詞元位置屬性
                  OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
                  // 獲取詞元文本屬性
                  CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
                  // 獲取詞元文本屬性
                  TypeAttribute type = ts.addAttribute(TypeAttribute.class);
      
                  // 重置TokenStream(重置StringReader)
                  ts.reset();
                  // 迭代獲取分詞結(jié)果
                  while (ts.incrementToken()) {
                      System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : "
                              + term.toString() + " | " + type.type());
                  }
                  // 關(guān)閉TokenStream(關(guān)閉StringReader)
                  ts.end(); // Perform end-of-stream operations, e.g. set the final offset.
      
              } catch (IOException e) {
                  e.printStackTrace();
              } finally {
                  // 釋放TokenStream的所有資源
                  if (ts != null) {
                      try {
                          ts.close();
                      } catch (IOException e) {
                          e.printStackTrace();
                      }
                  }
              }
          }
      }
    

運(yùn)行結(jié)果

0 - 1 : 這 | <IDEOGRAPHIC>
1 - 2 : 是 | <IDEOGRAPHIC>
2 - 3 : 一 | <IDEOGRAPHIC>
3 - 4 : 個(gè) | <IDEOGRAPHIC>
4 - 5 : 分 | <IDEOGRAPHIC>
5 - 6 : 詞 | <IDEOGRAPHIC>
6 - 7 : 的 | <IDEOGRAPHIC>
7 - 8 : 例 | <IDEOGRAPHIC>
8 - 9 : 子 | <IDEOGRAPHIC>
10 - 11 : 我 | <IDEOGRAPHIC>
11 - 12 : 們 | <IDEOGRAPHIC>
12 - 13 : 來(lái) | <IDEOGRAPHIC>
13 - 14 : 使 | <IDEOGRAPHIC>
14 - 15 : 用 | <IDEOGRAPHIC>
15 - 16 : 一 | <IDEOGRAPHIC>
16 - 17 : 下 | <IDEOGRAPHIC>
17 - 18 : 試 | <IDEOGRAPHIC>
18 - 19 : 試 | <IDEOGRAPHIC>
21 - 26 : let's | <ALPHANUM>
27 - 30 : use | <ALPHANUM>

StandardAnalyzer是一個(gè)標(biāo)準(zhǔn)的分詞器,它以非字母符來(lái)分割文本信息瞎抛,并將語(yǔ)匯單元統(tǒng)一為小寫形式艺演,并去掉數(shù)字類型的字符。而我們的中文詞組的分詞顯然不同桐臊。所以胎撤,對(duì)于中文的分詞,我們常用的有IK分詞器

<dependency>
  <groupId>com.janeluo</groupId>
  <artifactId>ikanalyzer</artifactId>
  <version>2012_u6</version>
</dependency>

上面的代碼修改分詞器的實(shí)現(xiàn):
Analyzer analyzer = new IKAnalyzer(true);

分詞結(jié)果
0 - 2 : 這是 | CN_WORD
2 - 4 : 一個(gè) | CN_WORD
4 - 6 : 分詞 | CN_WORD
6 - 7 : 的 | CN_WORD
7 - 9 : 例子 | CN_WORD
10 - 12 : 我們 | CN_WORD
12 - 14 : 來(lái)使 | CN_WORD
14 - 17 : 用一下 | CN_WORD
17 - 19 : 試試 | CN_WORD
21 - 24 : let | ENGLISH
25 - 26 : s | ENGLISH
27 - 30 : use | ENGLISH
31 - 34 : it. | LETTER

顯然断凶,這個(gè)是中英文分詞的伤提,相比StandardAnalyzer更適合我們?nèi)粘J褂?/p>

常見(jiàn)的分詞器

名稱 分詞規(guī)則 備注
WhitespaceAnalyzer 以空格作為切詞標(biāo)準(zhǔn),不對(duì)語(yǔ)匯單元進(jìn)行其他規(guī)范化處理认烁。 適用英文
SimpleAnalyzer 以非字母符來(lái)分割文本信息飘弧,并將語(yǔ)匯單元統(tǒng)一為小寫形式,并去掉數(shù)字類型的字符
StopAnalyzer 停頓詞分析器會(huì)去除一些常有a,the,an等等砚著,也可以自定義禁用詞
StandardAnalyzer 標(biāo)準(zhǔn)分析器是Lucene內(nèi)置的分析器,會(huì)將語(yǔ)匯單元轉(zhuǎn)成小寫形式,并去除停用詞及標(biāo)點(diǎn)符號(hào)
CJKAnalyzer 中日韓分析器痴昧,能對(duì)中稽穆,日,韓語(yǔ)言進(jìn)行分析的分詞器 對(duì)中文支持效果一般
SmartChineseAnalyzer 對(duì)中文支持稍好赶撰,但擴(kuò)展性差舌镶,擴(kuò)展詞庫(kù),禁用詞庫(kù)和同義詞庫(kù)等不好處理
IKAnalyzer 支持:英文字母豪娜、數(shù)字餐胀、中文詞匯等分詞處理,兼容韓文瘤载、日文字符優(yōu)化的詞典存儲(chǔ)否灾,更小的內(nèi)存占用。支持用戶詞典擴(kuò)展定義 常用
HanLP HanLP實(shí)現(xiàn)了許多種分詞算法鸣奔,每個(gè)分詞器都支持特定的配置 國(guó)產(chǎn)墨技,實(shí)現(xiàn)了許多種分詞算法,支持自命名體識(shí)別等
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末挎狸,一起剝皮案震驚了整個(gè)濱河市扣汪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锨匆,老刑警劉巖崭别,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡茅主,警方通過(guò)查閱死者的電腦和手機(jī)舞痰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)暗膜,“玉大人匀奏,你說(shuō)我怎么就攤上這事⊙眩” “怎么了娃善?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)瑞佩。 經(jīng)常有香客問(wèn)我聚磺,道長(zhǎng),這世上最難降的妖魔是什么炬丸? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任瘫寝,我火速辦了婚禮,結(jié)果婚禮上稠炬,老公的妹妹穿的比我還像新娘焕阿。我一直安慰自己,他們只是感情好首启,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布暮屡。 她就那樣靜靜地躺著,像睡著了一般毅桃。 火紅的嫁衣襯著肌膚如雪褒纲。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天钥飞,我揣著相機(jī)與錄音莺掠,去河邊找鬼。 笑死读宙,一個(gè)胖子當(dāng)著我的面吹牛彻秆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播结闸,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼掖棉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了膀估?” 一聲冷哼從身側(cè)響起幔亥,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎察纯,沒(méi)想到半個(gè)月后帕棉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體针肥,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年香伴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了慰枕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡即纲,死狀恐怖具帮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情低斋,我是刑警寧澤蜂厅,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站膊畴,受9級(jí)特大地震影響掘猿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唇跨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一稠通、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧买猖,春花似錦改橘、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至奸远,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間讽挟,已是汗流浹背懒叛。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留耽梅,地道東北人薛窥。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像眼姐,于是被迫代替她去往敵國(guó)和親诅迷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 隨著社會(huì)科技與生活質(zhì)量的飛度發(fā)展和提高众旗,在這個(gè)追逐物欲的社會(huì)罢杉,一切追求快節(jié)奏的時(shí)代有多少人能停下腳步,隨心所欲贡歧,活...
    F與你閱讀 198評(píng)論 0 1
  • 昨去看了《Dangal》的電影(中文譯名《摔跤吧爸爸》滩租,故事自帶的真實(shí)力量讓人觸動(dòng)赋秀,反正我是哭了。 一開(kāi)始這是爸爸...
    張韞睿Rain閱讀 1,101評(píng)論 0 0
  • 夏季風(fēng)微微熱 像極了青春躁動(dòng) 蓮池的含苞欲放未開(kāi) 風(fēng)中飄過(guò)一縷香甜 你搖曳身軀 蓮池萬(wàn)千你先開(kāi)眼 風(fēng)冷風(fēng)暖 你褪去...
    三公子時(shí)夜閱讀 210評(píng)論 0 4