熱門中文分詞系統(tǒng)調(diào)查報告

**中文分詞(Chinese Word Segmentation) **指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。
目錄

常見的分詞系統(tǒng)介紹

  • ICTCLAS(NLPIR)
  • MMSEG4J
  • IK Analyzer
  • LTP-cloud
  • paoding

常見的分詞系統(tǒng)簡介

ICTCLAS


簡介

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)莫杈,又稱NLPIR伟墙,是中國科學院計算技術(shù)研究所研制的漢語分詞系統(tǒng)夕玩。

網(wǎng)址:http://ictclas.nlpir.org/

主要功能包括:

  • 中文分詞穆壕;
  • 詞性標注考传;
  • 命名實體識別肴焊;
  • 用戶詞典功能前联;

支持GBK編碼、UTF8編碼娶眷、BIG5編碼似嗤;
支持Windows,Linux,Android等操作系統(tǒng);
支持Java/C++/C#/C等開發(fā)届宠。

在線演示


中文分詞



實體抽取



詞頻統(tǒng)計

MMSEG4J


**mmseg4j core ** 使用 Chih-Hao Tsai 的 MMSeg 算法實現(xiàn)的中文分詞器烁落。

實現(xiàn)了 **Lucene **的 analyzer 和 **Solr **的 TokenizerFactory 以方便在Lucene和Solr中使用。

MMSeg 算法有兩種分詞方法:Simple和Complex豌注,都是基于正向最大匹配伤塌。Complex 加了四個規(guī)則過濾。

官方說:詞語的正確識別率達到了 98.41%轧铁。mmseg4j 已經(jīng)實現(xiàn)了這兩種分詞算法每聪。

Lucene簡介

*Lucene是一個非常優(yōu)秀的開源的全文搜索引擎; 我們可以在它的上面開發(fā)出各種全文搜索的應(yīng)用來。Lucene在國外有很高的知名度; 現(xiàn)在已經(jīng)是Apache的頂級項目 *

Apache Lucene官網(wǎng)

Sorl簡介

Solr is the popular, blazing-fast, open source enterprise search platform built on Apache Lucene?

Solr是一個高性能齿风,采用Java5開發(fā)药薯,基于Lucene的全文搜索服務(wù)器。同時對其進行了擴展救斑,提供了比Lucene更為豐富的查詢語言童本,同時實現(xiàn)了可配置、可擴展并對查詢性能進行了優(yōu)化脸候,并且提供了一個完善的功能管理界面穷娱,是一款非常優(yōu)秀的全文搜索引擎绑蔫。

Solr

參考鏈接:
mmseg4j-core from Github
中文分詞器 mmseg4j

IK Analyzer


IK Analyzer 是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包鄙煤。

從2006年12月推出1.0版開始晾匠, IKAnalyzer已經(jīng)推出了4個大版本。最初梯刚,它是以開源項目Luence為應(yīng)用主體的凉馆,結(jié)合詞典分詞和文法分析算法的中文分詞組件。從3.0版本開始亡资,IK發(fā)展為面向Java的公用分詞組件澜共,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)锥腻,并且支持solr6.x版本嗦董。在2012版本中,IK實現(xiàn)了簡單的分詞歧義排除算法瘦黑,標志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化京革。

IK Analyzer 2012特性:

  1. 采用了特有的“正向迭代最細粒度切分算法“,支持細粒度和智能分詞兩種切分模式幸斥;

  2. 在系統(tǒng)環(huán)境:Core2 i7 3.4G雙核匹摇,4G內(nèi)存,window 7 64位甲葬, Sun JDK 1.6_29 64位 普通pc環(huán)境測試廊勃,IK2012具有160萬字/秒(3000KB/S)的高速處理能力。

  3. 2012版本的智能分詞模式支持簡單的分詞排歧義處理和數(shù)量詞合并輸出经窖。

  4. 采用了多子處理器分析模式坡垫,支持:英文字母、數(shù)字画侣、中文詞匯等分詞處理冰悠,兼容韓文、日文字符

  5. 優(yōu)化的詞典存儲配乱,更小的內(nèi)存占用溉卓。支持用戶詞典擴展定義。特別的宪卿,在2012版本,詞典支持中文万栅,英文佑钾,數(shù)字混合詞語。

LTP cloud(語言云)


語言云是哈工大和科大訊飛聯(lián)合研發(fā)的云端中文自然語言處理服務(wù)平臺烦粒,提供分詞休溶、詞性標注代赁、命名實體識別、依存句法分析兽掰、語義角色標注等自然語言處理服務(wù)芭碍。

在線演示

樣例:他叫湯姆去拿外衣。
他點頭表示同意我的意見孽尽。
我們即將以昂揚的斗志迎來新的一年窖壕。
國內(nèi)專家學者40余人參加研討會。

句子視圖
句子視圖
篇章視圖
分詞
詞性標注

命名實體

相關(guān)鏈接:
LTP Docs
訊飛開放平臺

paoding(庖丁解牛分詞器)


庖丁中文分詞器是一個使用Java開發(fā)的杉女,可結(jié)合到Lucene應(yīng)用中的瞻讽,為互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)使用的中文搜索引擎分詞組件熏挎。Paoding填補了國內(nèi)中文分詞方面開源組件的空白速勇,致力于此并希翼成為互聯(lián)網(wǎng)網(wǎng)站首選的中文分詞開源組件。 Paoding中文分詞追求分詞的高效率和用戶良好體驗坎拐。

Paoding's Knives 中文分詞具有極 高效率 和 高擴展性 烦磁。引入隱喻,采用完全的面向?qū)ο笤O(shè)計哼勇,構(gòu)思先進都伪。

高效率:在PIII 1G內(nèi)存?zhèn)€人機器上,1秒 可準確分詞 100萬 漢字猴蹂。

采用基于 不限制個數(shù) 的詞典文件對文章進行有效切分院溺,使能夠?qū)υ~匯分類定義。

能夠?qū)ξ粗脑~匯進行合理解析
參考鏈接:
中文分詞庫 Paoding

參考鏈接:
搜索引擎11 款開放中文分詞引擎大比拼
中文分詞工具測評

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末磅轻,一起剝皮案震驚了整個濱河市珍逸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌聋溜,老刑警劉巖谆膳,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異撮躁,居然都是意外死亡漱病,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進店門把曼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來杨帽,“玉大人,你說我怎么就攤上這事嗤军∽⒂” “怎么了?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵叙赚,是天一觀的道長老客。 經(jīng)常有香客問我僚饭,道長,這世上最難降的妖魔是什么胧砰? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任鳍鸵,我火速辦了婚禮,結(jié)果婚禮上尉间,老公的妹妹穿的比我還像新娘偿乖。我一直安慰自己,他們只是感情好乌妒,可當我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布汹想。 她就那樣靜靜地躺著,像睡著了一般撤蚊。 火紅的嫁衣襯著肌膚如雪古掏。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天侦啸,我揣著相機與錄音槽唾,去河邊找鬼。 笑死光涂,一個胖子當著我的面吹牛庞萍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播忘闻,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼钝计,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了齐佳?” 一聲冷哼從身側(cè)響起私恬,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎炼吴,沒想到半個月后本鸣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡硅蹦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年荣德,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片童芹。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡涮瞻,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出假褪,到底是詐尸還是另有隱情署咽,我是刑警寧澤,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布嗜价,位于F島的核電站艇抠,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏久锥。R本人自食惡果不足惜家淤,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瑟由。 院中可真熱鬧絮重,春花似錦、人聲如沸歹苦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽殴瘦。三九已至狠角,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間蚪腋,已是汗流浹背丰歌。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留爵川,地道東北人儡湾。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓逸爵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親晓勇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,747評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 常用概念: 自然語言處理(NLP) 數(shù)據(jù)挖掘 推薦算法 用戶畫像 知識圖譜 信息檢索 文本分類 常用技術(shù): 詞級別...
    御風之星閱讀 9,202評論 1 25
  • 1)ICTCLAS 最早的中文開源分詞項目之一灌旧,由中科院計算所的張華平绑咱、劉群所開發(fā),采用C/C++編寫节榜,算法基于《...
    MobotStone閱讀 5,720評論 1 15
  • 一羡玛、相關(guān)度排序 1.什么是相關(guān)度排序 相關(guān)度排序是查詢結(jié)果按照與查詢關(guān)鍵字的相關(guān)性進行排序,越相關(guān)的越靠前宗苍。比如搜...
    我可能是個假開發(fā)閱讀 2,176評論 1 15
  • 1 準備工作及相關(guān)介紹 solr和lucene的版本是同步更新的稼稿,最新版本是6.5.0。本案例使用4.10.3 j...
    阿太哥閱讀 2,343評論 1 5
  • 《我的姥爺》 對姥爺最早的記憶是那一年夏天讳窟,姥爺騎著他那輛哐當響的自行車到縣城里給我和幾個表哥一人買了一件夏季衣服...
    玉孜航閱讀 248評論 1 1