NLPIR漢語分詞系統(tǒng)

官網(wǎng):http://ictclas.nlpir.org/? ? 含有下載地址及網(wǎng)站事例

工具github地址:https://github.com/NLPIR-team

首先NLPIR擁有非常強(qiáng)大的功能


看到首頁下面這些工具的位置


NLPIR種包含這些功能的許可證,SDK開發(fā)文檔韭邓,NLPIR是一個(gè)開源系統(tǒng),許可證免費(fèi)下載桐筏,使用期一個(gè)月,過期后重新下載

一.?NLPIR-ICTCLAS 中文分詞工具

(1)介紹

在https://github.com/NLPIR-team頁面可以找到NLPIR-ICTCLAS項(xiàng)目


點(diǎn)擊clone and download ,加壓壓縮包甜孤,得到的目錄如下


在idea或eclipse中打開項(xiàng)目(該項(xiàng)目是由eclipse編譯的洼专,使用eclipse能更少出錯(cuò)),我在這里使用的是idea

文件目錄下看到文件結(jié)構(gòu)如下


data_train代表測(cè)試數(shù)據(jù)

lib代表需要依賴的包

resources代表一些操作系統(tǒng)上的支持工具 支持linux和windows

seg.txt代表運(yùn)行結(jié)果產(chǎn)生的文本

/src/.../test 里面的NLPIRTest代表測(cè)試寫的類

/src/... 中的NLPIR代表開發(fā)的類厉萝,類中的函數(shù)代表可以調(diào)用的函數(shù) ,開發(fā)文檔為https://github.com/NLPIR-team/NLPIR/tree/master/NLPIR%20SDK/NLPIR-ICTCLAS/doc

(2)運(yùn)行sample

在運(yùn)行sample的時(shí)候可能會(huì)遇到問題榨崩,比如不兼容谴垫,項(xiàng)目找不到資源文件,許可證過期的情況

對(duì)于許可證過期的情況:

在地址https://github.com/NLPIR-team/NLPIR/tree/master/License/license%20for%20a%20month/NLPIR-ICTCLAS%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F%E6%8E%88%E6%9D%83中下載許可證


將下載的許可證復(fù)制到項(xiàng)目的/lib/data下面母蛛,替代原來的許可證

運(yùn)行之后翩剪,看到下圖代表成功


結(jié)果在seg.txt中

(3)NLPIRTest.java代碼解析

package com.lingjoin.nlpir.test;

import java.io.File;

import java.io.FileWriter;

import java.io.RandomAccessFile;

import java.util.ArrayList;

import java.util.List;

import com.lingjoin.nlpir.NLPIR;

public class NLPIRTest {

Listfiles=new ArrayList();

? public void getAllfiles(File filePath){//遍歷路徑下的所有文件

? ? ? File[] fsFiles=filePath.listFiles();

? ? ? for(File f:fsFiles){

if(f.isFile()&&!f.getName().equals(".DS_Store"))files.add(f.getPath());

? ? ? ? if(f.isDirectory())this.getAllfiles(f);

? ? ? }

}

public StringgetContent(File file)throws Exception{//獲取每個(gè)文本的內(nèi)容,并處理

? ? ? RandomAccessFile f=new RandomAccessFile(file, "r");

? ? ? byte[] b=new byte[(int) file.length()];

? ? ? f.read(b);

? ? ? f.close();

? ? ? String c=new String(b,"GBK").replaceAll("\\s", "");//每?jī)蓚€(gè)字節(jié)組成一個(gè)漢字并去掉空格

? ? ? return c;

? }

public static void main(String[] args)throws Exception{

NLPIR.init("lib");//初始化支持庫

? ? ? //NLPIR.importUserDict("");

? ? ? FileWriter fw=new FileWriter(new File("seg.txt"));

? ? ? String fPath="data_train";

? ? ? NLPIRTest test=new NLPIRTest();

? ? ? test.getAllfiles(new File(fPath));

? ? ? for(String f:test.files){//遍歷每一個(gè)文件

? ? ? ? System.out.println(f);//輸出文件名

? ? ? ? String con=test.getContent(new File(f));//獲取文本內(nèi)容

? ? ? ? fw.write(new File(f).getName()+"\t"+NLPIR.paragraphProcess(con, 1).replaceAll(" ", "\t")+"\n");

? ? ? ? //文件輸出到seg.txt,格式為文件名+每個(gè)分詞+空格彩郊;分完一個(gè)文本后回車

? ? ? }

fw.flush();

? ? ? fw.close();

? }

}

(4)結(jié)果部分展示

4-1_01 新華社/nt 照片/n 前弯,/wd 棗莊/ns (/wkz 山東/ns )/wky ,/wd 2016年/t 8月/t 30日/t 山東/ns 棗莊/ns 出現(xiàn)/v “/wyz 魚鱗/n 云/vg ”/wyy 這/rzv 是/vshi 8月/t 30日/t 在/p 山東省/ns 棗莊市/ns 山亭區(qū)/ns

(5)分詞后綴解釋

漢語詞性對(duì)照表地址:https://blog.csdn.net/kevin_darkelf/article/details/39520881

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秫逝,一起剝皮案震驚了整個(gè)濱河市恕出,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌违帆,老刑警劉巖浙巫,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異前方,居然都是意外死亡狈醉,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門惠险,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抒线,你說我怎么就攤上這事班巩。” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵抱慌,是天一觀的道長(zhǎng)逊桦。 經(jīng)常有香客問我,道長(zhǎng)抑进,這世上最難降的妖魔是什么强经? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮寺渗,結(jié)果婚禮上匿情,老公的妹妹穿的比我還像新娘。我一直安慰自己信殊,他們只是感情好炬称,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著涡拘,像睡著了一般玲躯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上鳄乏,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天跷车,我揣著相機(jī)與錄音,去河邊找鬼橱野。 笑死姓赤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的仲吏。 我是一名探鬼主播不铆,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼裹唆!你這毒婦竟也來了誓斥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤许帐,失蹤者是張志新(化名)和其女友劉穎劳坑,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體成畦,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡距芬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了循帐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片框仔。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖拄养,靈堂內(nèi)的尸體忽然破棺而出离斩,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布跛梗,位于F島的核電站寻馏,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏核偿。R本人自食惡果不足惜诚欠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望漾岳。 院中可真熱鬧轰绵,春花似錦、人聲如沸蝗羊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽耀找。三九已至翔悠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間野芒,已是汗流浹背蓄愁。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狞悲,地道東北人撮抓。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像摇锋,于是被迫代替她去往敵國(guó)和親丹拯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • ¥開啟¥ 【iAPP實(shí)現(xiàn)進(jìn)入界面執(zhí)行逐一顯】 〖2017-08-25 15:22:14〗 《//首先開一個(gè)線程荸恕,因...
    小菜c閱讀 6,401評(píng)論 0 17
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom閱讀 2,696評(píng)論 0 3
  • 2017.9.23.星期六晴 今天下班回家后乖酬,女兒就跟我說有個(gè)題不會(huì)做,我一看說融求,這幾天都在做這些題咬像,又...
    899037e3b5bb閱讀 183評(píng)論 0 0
  • 承認(rèn) 區(qū)分 解決 承認(rèn)我的不是,不該生宛,忘了誰才是主管县昂。不懂區(qū)分管轄區(qū)域,誰才是直屬上級(jí)陷舅,這個(gè)問題要怎樣處理倒彰,我想想...
    李紅燁閱讀 217評(píng)論 0 2
  • 文l張西影 一種感知,春華秋實(shí)蔑赘。云卷云舒狸驳,值得體味预明。 圖片發(fā)自簡(jiǎn)書App 一縷陽光缩赛,一江春水耙箍。一語問候,一葉秋意酥馍。...
    豫視西影閱讀 413評(píng)論 5 13