中文分詞器 ~ IK Analyzer

分詞器常常用來做用戶輸入的分析男公,完后再檢索數(shù)據(jù)庫

一核芽、IK Analyzer簡介

  1. IK Analyzer是一個開源的,基于Java語言開發(fā)的輕量級的中文分詞工具包磁携;
  2. 最初,它是以開源項目Luence 為應(yīng)用主體的良风,結(jié)合詞典分詞和文法分析算法的中文分詞組件谊迄;從 3.0 版本開始,IK 發(fā)展為面向 Java 的公用分詞組件烟央,獨立亍 Lucene 項目统诺,同時提供了對 Lucene 的默認優(yōu)化實現(xiàn)。在 2012 版本中疑俭,IK 實現(xiàn)了簡單的分詞歧義排除算法粮呢,標(biāo)志著 IK 分詞器從單純的詞典分詞向模擬語義分詞衍化;

二钞艇、IK的使用

  1. 添加Maven引用
    <dependency>
        <groupId>com.github.magese</groupId>
        <artifactId>ik-analyzer</artifactId>
        <version>7.5.0</version>
    </dependency>
    
  2. 添加配置文件
    • 添加字典文件:extword.dict啄寡,主要用來把一些想分出來的詞添加到這里,還有一個添加輔助行詞語的文件:stopword.dict哩照,詳見碼云項目
    • IKAnalyzer.cfg.xml
      <?xml version="1.0" encoding="UTF-8"?>
      <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
      <properties>
          
          <comment>IK Analyzer 擴展配置</comment>
          <!--配置自己的擴展詞 -->
          <entry key="ext_dict">classpath:extword.dict</entry>
          <!-- 配置自己的忽略詞 -->
          <entry key="ext_stopwords">classpath:stopword.dic</entry>
      
      </properties>
      
  3. 編寫代碼
    package org.shreker.tools.ikanalyzer;
    
    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.TokenStream;
    import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
    import org.wltea.analyzer.lucene.IKAnalyzer;
    
    import java.io.IOException;
    import java.io.StringReader;
    
    public class IKWordSplition {
        
        private static String WordSplition(String sentence) throws IOException {
            StringBuilder text = new StringBuilder();
            // 創(chuàng)建分詞對象
            Analyzer analyzer = new IKAnalyzer(true);
            StringReader reader = new StringReader(sentence);
            // 分詞
            TokenStream tokenStream = analyzer.tokenStream("", reader);
            CharTermAttribute charTerm = tokenStream.getAttribute(CharTermAttribute.class);
            // 遍歷分詞數(shù)據(jù)
            tokenStream.reset();
            while (tokenStream.incrementToken()) {
                text.append(charTerm.toString()).append("|");
            }
            tokenStream.close();
            reader.close();
            return text.toString().trim() + "\n";
        }
        
        public static void main(String[] args) throws IOException {
            System.out.println(WordSplition("張北京兒童醫(yī)院幾年解決痘痘"));
        }
        
    }
    
    • 運行結(jié)果:
      Load extended dictionary:extword.dict
      Load stopwords dictionary:stopword.dic
      張|北京|兒童醫(yī)院|幾年|解決|痘痘|
      

三挺物、代碼

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市飘弧,隨后出現(xiàn)的幾起案子识藤,更是在濱河造成了極大的恐慌,老刑警劉巖眯牧,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蹋岩,死亡現(xiàn)場離奇詭異,居然都是意外死亡学少,警方通過查閱死者的電腦和手機剪个,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來版确,“玉大人扣囊,你說我怎么就攤上這事∪蘖疲” “怎么了侵歇?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長吓蘑。 經(jīng)常有香客問我惕虑,道長坟冲,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任溃蔫,我火速辦了婚禮健提,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘伟叛。我一直安慰自己私痹,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布统刮。 她就那樣靜靜地躺著紊遵,像睡著了一般。 火紅的嫁衣襯著肌膚如雪侥蒙。 梳的紋絲不亂的頭發(fā)上暗膜,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機與錄音辉哥,去河邊找鬼桦山。 笑死,一個胖子當(dāng)著我的面吹牛醋旦,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播会放,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼饲齐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了咧最?” 一聲冷哼從身側(cè)響起捂人,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎矢沿,沒想到半個月后滥搭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡捣鲸,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年瑟匆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栽惶。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡愁溜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出外厂,到底是詐尸還是另有隱情冕象,我是刑警寧澤,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布汁蝶,位于F島的核電站渐扮,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜墓律,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一膀估、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧只锻,春花似錦玖像、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至祖驱,卻和暖如春握恳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背捺僻。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工乡洼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人匕坯。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓束昵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親葛峻。 傳聞我的和親對象是個殘疾皇子锹雏,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容