熱門中文分詞系統(tǒng)調(diào)查報告

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。

常見的分詞系統(tǒng)簡介

ICTCLAS

簡介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)莫杈，又稱NLPIR伟墙，是中國科學院計算技術(shù)研究所研制的漢語分詞系統(tǒng)夕玩。

網(wǎng)址：http://ictclas.nlpir.org/

主要功能包括：

中文分詞穆壕；
詞性標注考传；
命名實體識別肴焊；
用戶詞典功能前联；

支持GBK編碼、UTF8編碼娶眷、BIG5編碼似嗤；
支持Windows,Linux,Android等操作系統(tǒng)；
支持Java/C++/C#/C等開發(fā)届宠。

在線演示

中文分詞

實體抽取

詞頻統(tǒng)計

MMSEG4J

**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法實現(xiàn)的中文分詞器烁落。

實現(xiàn)了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有兩種分詞方法：Simple和Complex豌注，都是基于正向最大匹配伤塌。Complex 加了四個規(guī)則過濾。

官方說：詞語的正確識別率達到了 98.41%轧铁。mmseg4j 已經(jīng)實現(xiàn)了這兩種分詞算法每聪。

Lucene簡介

*Lucene是一個非常優(yōu)秀的開源的全文搜索引擎; 我們可以在它的上面開發(fā)出各種全文搜索的應(yīng)用來。Lucene在國外有很高的知名度; 現(xiàn)在已經(jīng)是Apache的頂級項目 *

Apache Lucene官網(wǎng)

Sorl簡介

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?

Solr是一個高性能齿风，采用Java5開發(fā)药薯，基于Lucene的全文搜索服務(wù)器。同時對其進行了擴展救斑，提供了比Lucene更為豐富的查詢語言童本，同時實現(xiàn)了可配置、可擴展并對查詢性能進行了優(yōu)化脸候，并且提供了一個完善的功能管理界面穷娱，是一款非常優(yōu)秀的全文搜索引擎绑蔫。

Solr

參考鏈接：
mmseg4j-core from Github
中文分詞器 mmseg4j

IK Analyzer

IK Analyzer 是一個開源的，基于java語言開發(fā)的輕量級的中文分詞工具包鄙煤。

從2006年12月推出1.0版開始晾匠， IKAnalyzer已經(jīng)推出了4個大版本。最初梯刚，它是以開源項目Luence為應(yīng)用主體的凉馆，結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始亡资，IK發(fā)展為面向Java的公用分詞組件澜共，獨立于Lucene項目，同時提供了對Lucene的默認優(yōu)化實現(xiàn)锥腻，并且支持solr6.x版本嗦董。在2012版本中，IK實現(xiàn)了簡單的分詞歧義排除算法瘦黑，標志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化京革。

IK Analyzer 2012特性:

采用了特有的“正向迭代最細粒度切分算法“，支持細粒度和智能分詞兩種切分模式幸斥；
在系統(tǒng)環(huán)境：Core2 i7 3.4G雙核匹摇，4G內(nèi)存，window 7 64位甲葬， Sun JDK 1.6_29 64位普通pc環(huán)境測試廊勃，IK2012具有160萬字/秒（3000KB/S）的高速處理能力。
2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出经窖。
采用了多子處理器分析模式坡垫，支持：英文字母、數(shù)字画侣、中文詞匯等分詞處理冰悠，兼容韓文、日文字符
優(yōu)化的詞典存儲配乱，更小的內(nèi)存占用溉卓。支持用戶詞典擴展定義。特別的宪卿，在2012版本，詞典支持中文万栅，英文佑钾，數(shù)字混合詞語。

LTP cloud(語言云)

語言云是哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語言處理服務(wù)平臺烦粒，提供分詞休溶、詞性標注代赁、命名實體識別、依存句法分析兽掰、語義角色標注等自然語言處理服務(wù)芭碍。

在線演示

樣例：他叫湯姆去拿外衣。
他點頭表示同意我的意見孽尽。
我們即將以昂揚的斗志迎來新的一年窖壕。
國內(nèi)專家學者40余人參加研討會。

句子視圖

篇章視圖

分詞

詞性標注

命名實體

相關(guān)鏈接：
LTP Docs
訊飛開放平臺

paoding（庖丁解牛分詞器）

庖丁中文分詞器是一個使用Java開發(fā)的杉女，可結(jié)合到Lucene應(yīng)用中的瞻讽，為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件熏挎。Paoding填補了國內(nèi)中文分詞方面開源組件的空白速勇，致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗坎拐。

Paoding's Knives 中文分詞具有極高效率和高擴展性烦磁。引入隱喻，采用完全的面向?qū)ο笤O(shè)計哼勇，構(gòu)思先進都伪。

高效率：在PIII 1G內(nèi)存?zhèn)€人機器上，1秒可準確分詞 100萬漢字猴蹂。

采用基于 不限制個數(shù) 的詞典文件對文章進行有效切分院溺，使能夠?qū)υ~匯分類定義。

能夠?qū)ξ粗脑~匯進行合理解析
參考鏈接：
中文分詞庫 Paoding

參考鏈接：
搜索引擎11 款開放中文分詞引擎大比拼
 中文分詞工具測評

最后編輯于：2017.12.07 06:12:17

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末磅轻，一起剝皮案震驚了整個濱河市珍逸，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌聋溜，老刑警劉巖谆膳，帶你破解...
沈念sama閱讀 222,378評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異撮躁，居然都是意外死亡漱病，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,970評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門把曼，熙熙樓的掌柜王于貴愁眉苦臉地迎上來杨帽，“玉大人，你說我怎么就攤上這事嗤军∽⒂” “怎么了？”我有些...
開封第一講書人閱讀 168,983評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵叙赚，是天一觀的道長老客。經(jīng)常有香客問我僚饭，道長，這世上最難降的妖魔是什么胧砰？我笑而不...
開封第一講書人閱讀 59,938評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任鳍鸵，我火速辦了婚禮，結(jié)果婚禮上尉间，老公的妹妹穿的比我還像新娘偿乖。我一直安慰自己，他們只是感情好乌妒，可當我...
茶點故事閱讀 68,955評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布汹想。她就那樣靜靜地躺著，像睡著了一般撤蚊。火紅的嫁衣襯著肌膚如雪古掏。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,549評論 1贊 312
城市分裂傳說
那天侦啸，我揣著相機與錄音槽唾，去河邊找鬼。笑死光涂，一個胖子當著我的面吹牛庞萍，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播忘闻，決...
沈念sama閱讀 41,063評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼钝计，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了齐佳？” 一聲冷哼從身側(cè)響起私恬，我...
開封第一講書人閱讀 39,991評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎炼吴，沒想到半個月后本鸣，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,522評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡硅蹦，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,604評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年荣德，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片童芹。...
茶點故事閱讀 40,742評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡涮瞻，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出假褪，到底是詐尸還是另有隱情署咽，我是刑警寧澤，帶...
沈念sama閱讀 36,413評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布嗜价，位于F島的核電站艇抠，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏久锥。R本人自食惡果不足惜家淤，卻給世界環(huán)境...
茶點故事閱讀 42,094評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瑟由。院中可真熱鬧絮重，春花似錦、人聲如沸歹苦。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,572評論 0贊 25
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽殴瘦。三九已至狠角，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間蚪腋，已是汗流浹背丰歌。一陣腳步聲響...
開封第一講書人閱讀 33,671評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爵川，地道東北人儡湾。一個月前我還...
沈念sama閱讀 49,159評論 3贊 378
代替公主和親
正文我出身青樓逸爵，卻偏偏與公主長得像，于是被迫代替她去往敵國和親晓勇。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 45,747評論 2贊 361

熱門中文分詞系統(tǒng)調(diào)查報告

熱門中文分詞系統(tǒng)調(diào)查報告

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。

目錄

常見的分詞系統(tǒng)簡介

ICTCLAS

簡介

在線演示

MMSEG4J

IK Analyzer

LTP cloud(語言云)

在線演示

句子視圖

篇章視圖

paoding（庖丁解牛分詞器）

推薦閱讀更多精彩內(nèi)容

熱門中文分詞系統(tǒng)調(diào)查報告

**中文分詞(Chinese Word Segmentation) **指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。

目錄

常見的分詞系統(tǒng)簡介

ICTCLAS

簡介

在線演示

MMSEG4J

IK Analyzer

LTP cloud(語言云)

在線演示

句子視圖

篇章視圖

paoding（庖丁解牛分詞器）

推薦閱讀更多精彩內(nèi)容

中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。