在Lucene6.1.0運(yùn)用word1.2進(jìn)行分詞

為什么用word1.2?

最新的word分詞是1.3版本炬太，但是用1.3的時候會出現(xiàn)一些Bug，產(chǎn)生Java.lang.OutOfMemory錯誤隆敢，所以還是用比較穩(wěn)定的1.2版本发皿。

在Lucene 6.1.0中，實(shí)現(xiàn)一個Analyzer的子類拂蝎，也就是構(gòu)建自己的Analyzer的時候穴墅，需要實(shí)現(xiàn)的方法是createComponet(String fieldName)，而在Word 1.2中温自，沒有實(shí)現(xiàn)這個方法（word 1.2對lucene 4.+的版本支持較好）玄货，運(yùn)用ChineseWordAnalyzer運(yùn)行的時候會提示：

Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.Analyzer.createComponents(Ljava/lang/String;)Lorg/apache/lucene/analysis/Analyzer$TokenStreamComponents;
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:140)

所以要對ChineseWordAnalyzer做一些修改.

實(shí)現(xiàn)createComponet(String fieldName)方法

新建一個Analyzer的子類MyWordAnalyzer，根據(jù)ChinesWordAnalyzer改寫：

public class MyWordAnalyzer extends Analyzer {
    Segmentation segmentation = null;

    public MyWordAnalyzer() {
        segmentation = SegmentationFactory.getSegmentation(
           SegmentationAlgorithm.BidirectionalMaximumMatching);
    }
    public MyWordAnalyzer(Segmentation segmentation) {
        this.segmentation = segmentation;
    }
    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer tokenizer = new MyWordTokenizer(segmentation);
        return new TokenStreamComponents(tokenizer);
    }
}

其中segmentation屬性可以設(shè)置分詞所用的算法悼泌，默認(rèn)的是雙向最大匹配算法松捉。接著要實(shí)現(xiàn)的是MyWordTokenizer，也是模仿ChineseWordTokenizer來寫：

public class MyWordTokenizer extends Tokenizer{     
        private final CharTermAttribute charTermAttribute 
                = addAttribute(CharTermAttribute.class);
        private final OffsetAttribute offsetAttribute 
                = addAttribute(OffsetAttribute.class);
        private final PositionIncrementAttribute 
          positionIncrementAttribute 
                 = addAttribute(PositionIncrementAttribute.class);
        
        private Segmentation segmentation = null;
        private BufferedReader reader = null;
        private final Queue<Word> words = new LinkedTransferQueue<>();
        private int startOffset=0;
            
        public MyWordTokenizer() {
            segmentation = SegmentationFactory.getSegmentation(
                   SegmentationAlgorithm.BidirectionalMaximumMatching);
        }   
        public MyWordTokenizer(Segmentation segmentation) {
            this.segmentation = segmentation;
        }
        private Word getWord() throws IOException {
            Word word = words.poll();
            if(word == null){
                String line;
                while( (line = reader.readLine()) != null ){
                    words.addAll(segmentation.seg(line));
                }
                startOffset = 0;
                word = words.poll();
            }
            return word;
        }
        @Override
        public final boolean incrementToken() throws IOException {
            reader=new BufferedReader(input);
            Word word = getWord();
            if (word != null) {
                int positionIncrement = 1;
                //忽略停用詞
                while(StopWord.is(word.getText())){
                    positionIncrement++;
                    startOffset += word.getText().length();
                    word = getWord();
                    if(word == null){
                        return false;
                    }
                }
                charTermAttribute.setEmpty().append(word.getText());

                 offsetAttribute.setOffset(startOffset, startOffset
                      +word.getText().length());
                positionIncrementAttribute.setPositionIncrement(
                      positionIncrement);
                startOffset += word.getText().length();
                return true;
            }
            return false;
        }
}

incrementToken()是必需要實(shí)現(xiàn)的方法馆里，返回true的時候表示后面還有token隘世，返回false表示解析結(jié)束掉盅。在incrementToken()的第一行，將input的值賦給reader以舒，input是Tokenizer為Reader的對象趾痘，在Tokenizer中還有另一個Reader對象——inputPending，在Tokenizer中源碼如下：

public abstract class Tokenizer extends TokenStream {  
  /** The text source for this Tokenizer. */
  protected Reader input = ILLEGAL_STATE_READER;
  
  /** Pending reader: not actually assigned to input until reset() */
  private Reader inputPending = ILLEGAL_STATE_READER;

input中存儲的是需要解析的文本蔓钟，但是文本是先放到inputPending中永票，直到調(diào)用了reset方法之后才將值賦給input。
　　reset()方法定義如下：

 @Override
  public void reset() throws IOException {
    super.reset();
    input = inputPending;
    inputPending = ILLEGAL_STATE_READER;
  }

在調(diào)用reset()方法之前滥沫，input里面的是沒有需要解析的文本信息的侣集，所以要在reset()之后再將input的值賦給reader（一個BufferedReader 的對象）。
　　
　　做了上面的修改之后兰绣，就可以運(yùn)用Word 1.2里面提供的算法進(jìn)行分詞了：

測試類MyWordAnalyzerTest

public class MyWordAnalyzerTest {

    public static void main(String[] args) throws IOException {
        String text = "乒乓球拍賣完了";
        Analyzer analyzer = new MyWordAnalyzer();
        TokenStream tokenStream = analyzer.tokenStream("text", text);
        // 準(zhǔn)備消費(fèi)
        tokenStream.reset();
        // 開始消費(fèi)
        while (tokenStream.incrementToken()) {
            // 詞
            CharTermAttribute charTermAttribute 
               = tokenStream.getAttribute(CharTermAttribute.class);
            // 詞在文本中的起始位置
            OffsetAttribute offsetAttribute 
               = tokenStream.getAttribute(OffsetAttribute.class);
            // 第幾個詞
            PositionIncrementAttribute positionIncrementAttribute 
                = tokenStream
                    .getAttribute(PositionIncrementAttribute.class);

            System.out.println(charTermAttribute.toString() + " " 
                  + "(" + offsetAttribute.startOffset() + " - "
                  + offsetAttribute.endOffset() + ") " 
                  + positionIncrementAttribute.getPositionIncrement());
        }
        // 消費(fèi)完畢
        tokenStream.close();
    }
}

結(jié)果如下：

運(yùn)用word1.2的分詞結(jié)果

因?yàn)樵趇ncreamToken()中世分，將停止詞去掉了，所以分詞結(jié)果中沒有出現(xiàn)“了”缀辩。從上面的結(jié)果也可以看到臭埋，Word分詞可以將句子分解為“乒乓球拍”和“賣完”，對比用SmartChineseAnalyzer()：

運(yùn)用SmartCineseAnalyzer的分詞結(jié)果

綜上Word的分詞效果還是不錯的臀玄。

最后編輯于：2017.12.03 14:47:58

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末瓢阴，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子健无，更是在濱河造成了極大的恐慌荣恐，老刑警劉巖，帶你破解...
沈念sama閱讀 218,525評論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件累贤，死亡現(xiàn)場離奇詭異叠穆，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)臼膏，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門硼被，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人讶请，你說我怎么就攤上這事祷嘶。” “怎么了夺溢？”我有些...
開封第一講書人閱讀 164,862評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵论巍，是天一觀的道長。經(jīng)常有香客問我风响，道長嘉汰，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任状勤，我火速辦了婚禮鞋怀，結(jié)果婚禮上双泪，老公的妹妹穿的比我還像新娘。我一直安慰自己密似，他們只是感情好焙矛，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著残腌，像睡著了一般村斟。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上抛猫，一...
開封第一講書人閱讀 51,590評論 1贊 305
城市分裂傳說
那天蟆盹，我揣著相機(jī)與錄音，去河邊找鬼闺金。笑死逾滥，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的败匹。我是一名探鬼主播寨昙，決...
沈念sama閱讀 40,330評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼哎壳！你這毒婦竟也來了毅待？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,244評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤归榕，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后吱涉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刹泄，經(jīng)...
沈念sama閱讀 45,693評論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年怎爵，在試婚紗的時候發(fā)現(xiàn)自己被綠了特石。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,001評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡鳖链，死狀恐怖姆蘸，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情芙委，我是刑警寧澤逞敷，帶...
沈念sama閱讀 35,723評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站灌侣，受9級特大地震影響推捐，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜侧啼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一牛柒、第九天我趴在偏房一處隱蔽的房頂上張望堪簿。院中可真熱鬧，春花似錦皮壁、人聲如沸椭更。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評論 0贊 22
一樁弒父案蛾魄，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽甜孤。三九已至，卻和暖如春畏腕，著一層夾襖步出監(jiān)牢的瞬間缴川，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,042評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工描馅，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留把夸，地道東北人。一個月前我還...
沈念sama閱讀 48,191評論 3贊 370
代替公主和親
正文我出身青樓铭污，卻偏偏與公主長得像恋日，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子嘹狞，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評論 2贊 355

在Lucene6.1.0運(yùn)用word1.2進(jìn)行分詞

為什么用word1.2?

實(shí)現(xiàn)createComponet(String fieldName)方法

推薦閱讀更多精彩內(nèi)容