中文分詞器學(xué)習(xí)報(bào)告

1、ICTCLAS – 全球最受歡迎的漢語分詞系統(tǒng)

中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上户魏,研制出了漢語詞法分析系統(tǒng)ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)豆混。
主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別蒿叠;用戶詞典功能;微博分詞蚣常;新詞發(fā)現(xiàn)與關(guān)鍵詞提取功能市咽;支持GBK編碼、UTF8編碼抵蚊、BIG5編碼施绎。

系統(tǒng)平臺(tái):Windows
開發(fā)語言:C/C++溯革、Java、C#
使用方式:dll調(diào)用
開源網(wǎng)址:http://ictclas.nlpir.org/(自然語言處理與信息檢索共享平臺(tái))
在線演示:http://ictclas.nlpir.org/nlpir/

分析示例

分析文本


1.png

分詞標(biāo)注


2.png

實(shí)體抽取1


3.png

實(shí)體抽取2


4.png

詞頻統(tǒng)計(jì)


5.png

情感分析


6.png

關(guān)鍵詞提取


7.png

2谷醉、SCWS – 簡(jiǎn)易中文分詞系統(tǒng)

SCWS:Simple Chinese Word Segmentation (簡(jiǎn)易中文分詞系統(tǒng))致稀。
采用自行采集的詞頻詞典,并輔以一定程度上的專有名稱孤紧、人名豺裆、地名、數(shù)字年代等規(guī)則集号显,經(jīng)小范圍測(cè)試準(zhǔn)確率在 90% ~ 95% 之間臭猜,基本滿足一些中小型搜索引擎、關(guān)鍵字提取等場(chǎng)合運(yùn)用押蚤。

SCWS 采用純 C 代碼開發(fā)蔑歌,以 Unix-Like OS 為主要平臺(tái)環(huán)境,提供共享函數(shù)庫(kù)揽碘,方便植入各種現(xiàn)有軟件系統(tǒng)次屠。此外它支持 GBK,UTF-8雳刺,BIG5 等漢字編碼劫灶,切詞效率高。

系統(tǒng)平臺(tái):Windows/Unix
開發(fā)語言:C
使用方式:PHP擴(kuò)展(易與現(xiàn)有的基于PHP架構(gòu)的Web系統(tǒng)繼續(xù)集成)
開源網(wǎng)址:http://www.ftphp.com/scws/
在線演示:http://www.xunsearch.com/scws/demo.php

分析示例

8.png

分詞結(jié)果


9.png

3掖桦、IKAnalyzer 開源的輕量級(jí)中文分詞工具包

IKAnalyzer 是一個(gè)開源的本昏,基于java語言開發(fā)的輕量級(jí)的中文分詞工具包。
支持用戶詞典擴(kuò)展定義枪汪,采用歧義分析算法優(yōu)化查詢關(guān)鍵字的搜索排列組合涌穆;采用多子處理器分析模式,優(yōu)化的詞典存儲(chǔ)雀久,更小的內(nèi)存占用宿稀。

系統(tǒng)平臺(tái): 跨平臺(tái)
開發(fā)語言: Java

分詞示例

package org.wltea.analyzer.sample;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class IKAnalzyerDemo {
    
    public static void main(String[] args){
        //構(gòu)建IK分詞器,使用smart分詞模式
        Analyzer analyzer = new IKAnalyzer(true);
        //獲取Lucene的TokenStream對(duì)象
        TokenStream ts = null;
        try {
            ts = analyzer.tokenStream("myfield", new StringReader("這是一個(gè)中文分詞的例子赖捌,你可以直接運(yùn)行它祝沸!IKAnalyer can analysis english text too"));
            //獲取詞元位置屬性
            OffsetAttribute  offset = ts.addAttribute(OffsetAttribute.class); 
            //獲取詞元文本屬性
            CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
            //獲取詞元文本屬性
            TypeAttribute type = ts.addAttribute(TypeAttribute.class);
            //重置TokenStream(重置StringReader)
            ts.reset(); 
            //迭代獲取分詞結(jié)果
            while (ts.incrementToken()) {
              System.out.println(offset.startOffset() + " - " + offset.endOffset() + " : " + term.toString() + " | " + type.type());
            }
            //關(guān)閉TokenStream(關(guān)閉StringReader)
            ts.end();   // Perform end-of-stream operations, e.g. set the final offset.
        } catch (IOException e) {
            e.printStackTrace();
        } finally {
            //釋放TokenStream的所有資源
            if(ts != null){
              try {
                ts.close();
              } catch (IOException e) {
                e.printStackTrace();
              }
            }
        }
    }
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市越庇,隨后出現(xiàn)的幾起案子奋隶,更是在濱河造成了極大的恐慌,老刑警劉巖悦荒,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嘹吨,居然都是意外死亡搬味,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來碰纬,“玉大人萍聊,你說我怎么就攤上這事≡梦觯” “怎么了寿桨?”我有些...
    開封第一講書人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)强戴。 經(jīng)常有香客問我亭螟,道長(zhǎng),這世上最難降的妖魔是什么骑歹? 我笑而不...
    開封第一講書人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任预烙,我火速辦了婚禮,結(jié)果婚禮上道媚,老公的妹妹穿的比我還像新娘扁掸。我一直安慰自己,他們只是感情好最域,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開白布谴分。 她就那樣靜靜地躺著,像睡著了一般镀脂。 火紅的嫁衣襯著肌膚如雪牺蹄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,255評(píng)論 1 308
  • 那天狗热,我揣著相機(jī)與錄音钞馁,去河邊找鬼。 笑死匿刮,一個(gè)胖子當(dāng)著我的面吹牛僧凰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播熟丸,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼训措,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了光羞?” 一聲冷哼從身側(cè)響起绩鸣,我...
    開封第一講書人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎纱兑,沒想到半個(gè)月后呀闻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡潜慎,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年捡多,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓖康。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡垒手,死狀恐怖蒜焊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情科贬,我是刑警寧澤泳梆,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站榜掌,受9級(jí)特大地震影響优妙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜唐责,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一鳞溉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧鼠哥,春花似錦熟菲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至于颖,卻和暖如春呆贿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背森渐。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工做入, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人同衣。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓竟块,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親耐齐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子浪秘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容