**中文分詞(Chinese Word Segmentation) **指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
目錄
常見的分詞系統(tǒng)介紹
- ICTCLAS(NLPIR)
- MMSEG4J
- IK Analyzer
- LTP-cloud
- paoding
常見的分詞系統(tǒng)簡介
ICTCLAS
簡介
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)莫杈,又稱NLPIR伟墙,是中國科學院計算技術(shù)研究所研制的漢語分詞系統(tǒng)夕玩。
網(wǎng)址:http://ictclas.nlpir.org/
主要功能包括:
- 中文分詞穆壕;
- 詞性標注考传;
- 命名實體識別肴焊;
- 用戶詞典功能前联;
支持GBK編碼、UTF8編碼娶眷、BIG5編碼似嗤;
支持Windows,Linux,Android等操作系統(tǒng);
支持Java/C++/C#/C等開發(fā)届宠。
在線演示
中文分詞
實體抽取
詞頻統(tǒng)計
MMSEG4J
**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法實現(xiàn)的中文分詞器烁落。
實現(xiàn)了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。
MMSeg 算法有兩種分詞方法:Simple和Complex豌注,都是基于正向最大匹配伤塌。Complex 加了四個規(guī)則過濾。
官方說:詞語的正確識別率達到了 98.41%轧铁。mmseg4j 已經(jīng)實現(xiàn)了這兩種分詞算法每聪。
Lucene簡介
*Lucene是一個非常優(yōu)秀的開源的全文搜索引擎; 我們可以在它的上面開發(fā)出各種全文搜索的應(yīng)用來。Lucene在國外有很高的知名度; 現(xiàn)在已經(jīng)是Apache的頂級項目 *
Sorl簡介
Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?
Solr是一個高性能齿风,采用Java5開發(fā)药薯,基于Lucene的全文搜索服務(wù)器。同時對其進行了擴展救斑,提供了比Lucene更為豐富的查詢語言童本,同時實現(xiàn)了可配置、可擴展并對查詢性能進行了優(yōu)化脸候,并且提供了一個完善的功能管理界面穷娱,是一款非常優(yōu)秀的全文搜索引擎绑蔫。
參考鏈接:
mmseg4j-core from Github
中文分詞器 mmseg4j
IK Analyzer
IK Analyzer 是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包鄙煤。
從2006年12月推出1.0版開始晾匠, IKAnalyzer已經(jīng)推出了4個大版本。最初梯刚,它是以開源項目Luence為應(yīng)用主體的凉馆,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始亡资,IK發(fā)展為面向Java的公用分詞組件澜共,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)锥腻,并且支持solr6.x版本嗦董。在2012版本中,IK實現(xiàn)了簡單的分詞歧義排除算法瘦黑,標志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化京革。
IK Analyzer 2012特性:
采用了特有的“正向迭代最細粒度切分算法“,支持細粒度和智能分詞兩種切分模式幸斥;
在系統(tǒng)環(huán)境:Core2 i7 3.4G雙核匹摇,4G內(nèi)存,window 7 64位甲葬, Sun JDK 1.6_29 64位 普通pc環(huán)境測試廊勃,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。
2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出经窖。
采用了多子處理器分析模式坡垫,支持:英文字母、數(shù)字画侣、中文詞匯等分詞處理冰悠,兼容韓文、日文字符
優(yōu)化的詞典存儲配乱,更小的內(nèi)存占用溉卓。支持用戶詞典擴展定義。特別的宪卿,在2012版本,詞典支持中文万栅,英文佑钾,數(shù)字混合詞語。
LTP cloud(語言云)
語言云是哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語言處理服務(wù)平臺烦粒,提供分詞休溶、詞性標注代赁、命名實體識別、依存句法分析兽掰、語義角色標注等自然語言處理服務(wù)芭碍。
在線演示
樣例:他叫湯姆去拿外衣。
他點頭表示同意我的意見孽尽。
我們即將以昂揚的斗志迎來新的一年窖壕。
國內(nèi)專家學者40余人參加研討會。
句子視圖
篇章視圖
paoding(庖丁解牛分詞器)
庖丁中文分詞器是一個使用Java開發(fā)的杉女,可結(jié)合到Lucene應(yīng)用中的瞻讽,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件熏挎。Paoding填補了國內(nèi)中文分詞方面開源組件的空白速勇,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗坎拐。
Paoding's Knives 中文分詞具有極 高效率 和 高擴展性 烦磁。引入隱喻,采用完全的面向?qū)ο笤O(shè)計哼勇,構(gòu)思先進都伪。
高效率:在PIII 1G內(nèi)存?zhèn)€人機器上,1秒 可準確分詞 100萬 漢字猴蹂。
采用基于 不限制個數(shù) 的詞典文件對文章進行有效切分院溺,使能夠?qū)υ~匯分類定義。
能夠?qū)ξ粗脑~匯進行合理解析
參考鏈接:
中文分詞庫 Paoding
參考鏈接:
搜索引擎11 款開放中文分詞引擎大比拼
中文分詞工具測評