中文分詞器學(xué)習(xí)報(bào)告

1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)

中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上户魏，研制出了漢語詞法分析系統(tǒng)ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)豆混。
主要功能包括中文分詞；詞性標(biāo)注；命名實(shí)體識(shí)別蒿叠；用戶詞典功能；微博分詞蚣常；新詞發(fā)現(xiàn)與關(guān)鍵詞提取功能市咽；支持GBK編碼、UTF8編碼抵蚊、BIG5編碼施绎。

系統(tǒng)平臺(tái)：Windows
開發(fā)語言：C/C++溯革、Java、C#
使用方式：dll調(diào)用
開源網(wǎng)址：http://ictclas.nlpir.org/(自然語言處理與信息檢索共享平臺(tái))
在線演示：http://ictclas.nlpir.org/nlpir/

分析示例

分析文本

1.png

分詞標(biāo)注

2.png

實(shí)體抽取1

3.png

實(shí)體抽取2

4.png

詞頻統(tǒng)計(jì)

5.png

情感分析

6.png

關(guān)鍵詞提取

7.png

2谷醉、SCWS – 簡(jiǎn)易中文分詞系統(tǒng)

SCWS：Simple Chinese Word Segmentation （簡(jiǎn)易中文分詞系統(tǒng)）致稀。
采用自行采集的詞頻詞典，并輔以一定程度上的專有名稱孤紧、人名豺裆、地名、數(shù)字年代等規(guī)則集号显，經(jīng)小范圍測(cè)試準(zhǔn)確率在 90% ~ 95% 之間臭猜，基本滿足一些中小型搜索引擎、關(guān)鍵字提取等場(chǎng)合運(yùn)用押蚤。

SCWS 采用純 C 代碼開發(fā)蔑歌，以 Unix-Like OS 為主要平臺(tái)環(huán)境，提供共享函數(shù)庫(kù)揽碘，方便植入各種現(xiàn)有軟件系統(tǒng)次屠。此外它支持 GBK，UTF-8雳刺，BIG5 等漢字編碼劫灶，切詞效率高。

系統(tǒng)平臺(tái)：Windows/Unix
開發(fā)語言：C
使用方式：PHP擴(kuò)展（易與現(xiàn)有的基于PHP架構(gòu)的Web系統(tǒng)繼續(xù)集成）
開源網(wǎng)址：http://www.ftphp.com/scws/
在線演示：http://www.xunsearch.com/scws/demo.php

分析示例

8.png

分詞結(jié)果

9.png

3掖桦、IKAnalyzer 開源的輕量級(jí)中文分詞工具包

IKAnalyzer 是一個(gè)開源的本昏，基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。
支持用戶詞典擴(kuò)展定義枪汪，采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合涌穆；采用多子處理器分析模式，優(yōu)化的詞典存儲(chǔ)雀久，更小的內(nèi)存占用宿稀。

系統(tǒng)平臺(tái)：跨平臺(tái)
開發(fā)語言： Java

分詞示例

package org.wltea.analyzer.sample;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class IKAnalzyerDemo {
    
    public static void main(String[] args){
        //構(gòu)建IK分詞器，使用smart分詞模式
        Analyzer analyzer = new IKAnalyzer(true);
        //獲取Lucene的TokenStream對(duì)象
        TokenStream ts = null;
        try {
            ts = analyzer.tokenStream("myfield", new StringReader("這是一個(gè)中文分詞的例子赖捌，你可以直接運(yùn)行它祝沸！IKAnalyer can analysis english text too"));
            //獲取詞元位置屬性
            OffsetAttribute  offset = ts.addAttribute(OffsetAttribute.class); 
            //獲取詞元文本屬性
            CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
            //獲取詞元文本屬性
            TypeAttribute type = ts.addAttribute(TypeAttribute.class);
            //重置TokenStream（重置StringReader）
            ts.reset(); 
            //迭代獲取分詞結(jié)果
            while (ts.incrementToken()) {
              System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : " + term.toString() + " | " + type.type());
            }
            //關(guān)閉TokenStream（關(guān)閉StringReader）
            ts.end();   // Perform end-of-stream operations, e.g. set the final offset.
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //釋放TokenStream的所有資源
            if(ts != null){
              try {
                ts.close();
              } catch (IOException e) {
                e.printStackTrace();
              }
            }
        }
    }
}

最后編輯于：2017.12.07 14:00:08

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市越庇，隨后出現(xiàn)的幾起案子奋隶，更是在濱河造成了極大的恐慌，老刑警劉巖悦荒，帶你破解...
沈念sama閱讀 221,576評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異嘹吨，居然都是意外死亡搬味，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,515評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來碰纬，“玉大人萍聊，你說我怎么就攤上這事≡梦觯” “怎么了寿桨？”我有些...
開封第一講書人閱讀 168,017評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)强戴。經(jīng)常有香客問我亭螟，道長(zhǎng)，這世上最難降的妖魔是什么骑歹？我笑而不...
開封第一講書人閱讀 59,626評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任预烙，我火速辦了婚禮，結(jié)果婚禮上道媚，老公的妹妹穿的比我還像新娘扁掸。我一直安慰自己，他們只是感情好最域，可當(dāng)我...
茶點(diǎn)故事閱讀 68,625評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布谴分。她就那樣靜靜地躺著，像睡著了一般镀脂。火紅的嫁衣襯著肌膚如雪牺蹄。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,255評(píng)論 1贊 308
城市分裂傳說
那天狗热，我揣著相機(jī)與錄音钞馁，去河邊找鬼。笑死匿刮，一個(gè)胖子當(dāng)著我的面吹牛僧凰，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播熟丸，決...
沈念sama閱讀 40,825評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼训措，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了光羞？” 一聲冷哼從身側(cè)響起绩鸣，我...
開封第一講書人閱讀 39,729評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎纱兑，沒想到半個(gè)月后呀闻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,271評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡潜慎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,363評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年捡多，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓖康。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,498評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡垒手，死狀恐怖蒜焊，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情科贬，我是刑警寧澤泳梆，帶...
沈念sama閱讀 36,183評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站榜掌，受9級(jí)特大地震影響优妙，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唐责，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,867評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一鳞溉、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧鼠哥，春花似錦熟菲、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,338評(píng)論 0贊 24
一樁弒父案抄罕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至于颖，卻和暖如春呆贿，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背森渐。一陣腳步聲響...
開封第一講書人閱讀 33,458評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工做入，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人同衣。一個(gè)月前我還...
沈念sama閱讀 48,906評(píng)論 3贊 376
代替公主和親
正文我出身青樓竟块，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親耐齐。傳聞我的和親對(duì)象是個(gè)殘疾皇子浪秘，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,507評(píng)論 2贊 359

中文分詞器學(xué)習(xí)報(bào)告

1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)

分析示例

2谷醉、SCWS – 簡(jiǎn)易中文分詞系統(tǒng)

分析示例

3掖桦、IKAnalyzer 開源的輕量級(jí)中文分詞工具包

推薦閱讀更多精彩內(nèi)容