java-hanlp中文語言處理

hanlp是一款開源的中文語言處理工具。

環(huán)境:jdk1.7驳糯、myeclipse8.5、win64

官網(wǎng):http://hanlp.linrunsoft.com/

git下載使用說明地址:https://github.com/hankcs/HanLP

在線演示地址:http://hanlp.com/?sentence=http://hanlp.com/

百度云鏈接: https://pan.baidu.com/s/1kBJH1PAE4-S_Mfn_igp4Vw

使用步驟

1.官網(wǎng)下載本地詞庫

2.下載jar包與配置文件

3.新建工程導(dǎo)入jar伦仍,配置文件

4.修改配置文件 root=D:/datacjy/hanlp 為本地下載好的詞庫

5.開始使用

上面給的百度云鏈接是本人下載的目前官網(wǎng)最新的1.6.8版本结窘,里面有詞庫,jar包與配置文件充蓝、官網(wǎng)demo工程隧枫,本人測試工程

工程解析:

1.com.hankcs包下是官網(wǎng)demo中的 test文件夾下的代碼,工程完善可直接運(yùn)行

2.hanlp.properties 是配置文件需要修改下載后的本地詞庫位置

3.lib下是jar包谓苟,源碼包

配置文件修改:

配置文件的作用是告訴HanLP數(shù)據(jù)包的位置官脓,只需修改第一行

root=D:/datacjy/hanlp

為data的父目錄即可,比如data目錄是/Users/hankcs/Documents/data涝焙,那么root=/Users/hankcs/Documents/ 卑笨。

測試

package com.hankcs.demo;

import com.hankcs.hanlp.HanLP;

/**

* 第一個(gè)Demo,驚鴻一瞥

*

* @author hankcs

*/

public class DemoAtFirstSight

{

? ? public static void main(String[] args)

? ? {

? ? ? ? System.out.println("首次編譯運(yùn)行時(shí)仑撞,HanLP會(huì)自動(dòng)構(gòu)建詞典緩存赤兴,請(qǐng)稍候……");

//? ? ? ? HanLP.Config.enableDebug();? ? ? ? // 為了避免你等得無聊妖滔,開啟調(diào)試模式說點(diǎn)什么:-)

? ? ? ? System.out.println(HanLP.segment("你好,歡迎使用HanLP漢語處理包桶良!接下來請(qǐng)從其他Demo中體驗(yàn)HanLP豐富的功能~"));

? ? }

}

/**

首次編譯運(yùn)行時(shí)座舍,HanLP會(huì)自動(dòng)構(gòu)建詞典緩存,請(qǐng)稍候……

[你好/vl, 陨帆,/w, 歡迎/v, 使用/v, HanLP/nx, 漢語/gi, 處理/vn, 包/v, 曲秉!/w, 接下來/vl, 請(qǐng)/v, 從/p, 其他/rzv, Demo/nx, 中/f, 體驗(yàn)/v, HanLP/nx, 豐富/a, 的/ude1, 功能/n, ~/nx]

*/


演示用戶詞典的動(dòng)態(tài)增刪

package com.hankcs.demo;

import com.hankcs.hanlp.HanLP;

import com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie;

import com.hankcs.hanlp.dictionary.BaseSearcher;

import com.hankcs.hanlp.dictionary.CoreDictionary;

import com.hankcs.hanlp.dictionary.CustomDictionary;

import java.util.Map;

/**

* 演示用戶詞典的動(dòng)態(tài)增刪

*

* @author hankcs

*/

public class DemoCustomDictionary

{

? ? public static void main(String[] args)

? ? {

? ? ? ? // 動(dòng)態(tài)增加

? ? ? ? CustomDictionary.add("攻城獅");

? ? ? ? // 強(qiáng)行插入

? ? ? ? CustomDictionary.insert("白富美", "nz 1024");

? ? ? ? // 刪除詞語(注釋掉試試)

//? ? ? ? CustomDictionary.remove("攻城獅");

? ? ? ? System.out.println(CustomDictionary.add("單身狗", "nz 1024 n 1"));

//? ? ? ? System.out.println(CustomDictionary.get("單身狗"));

? ? ? ? String text = "攻城獅逆襲單身狗,迎娶白富美疲牵,走上人生巔峰";? // 怎么可能噗哈哈承二!

? ? ? ? // DoubleArrayTrie分詞

? ? ? ? final char[] charArray = text.toCharArray();

? ? ? ? CustomDictionary.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit<CoreDictionary.Attribute>()

? ? ? ? {

? ? ? ? ? ? @Override

? ? ? ? ? ? public void hit(int begin, int end, CoreDictionary.Attribute value)

? ? ? ? ? ? {

//? ? ? ? ? ? ? ? System.out.printf("[%d:%d]=%s %s\n", begin, end, new String(charArray, begin, end - begin), value);

? ? ? ? ? ? }

? ? ? ? });

? ? ? ? // 首字哈希之后二分的trie樹分詞

? ? ? ? BaseSearcher searcher = CustomDictionary.getSearcher(text);

? ? ? ? Map.Entry entry;

? ? ? ? while ((entry = searcher.next()) != null)

? ? ? ? {

//? ? ? ? ? ? System.out.println(entry);

? ? ? ? }

? ? ? ? // 標(biāo)準(zhǔn)分詞

? ? ? ? System.out.println(HanLP.segment(text));

? ? ? ? // Note:動(dòng)態(tài)增刪不會(huì)影響詞典文件

? ? ? ? // 目前CustomDictionary使用DAT儲(chǔ)存詞典文件中的詞語,用BinTrie儲(chǔ)存動(dòng)態(tài)加入的詞語纲爸,前者性能高亥鸠,后者性能低

? ? ? ? // 之所以保留動(dòng)態(tài)增刪功能,一方面是歷史遺留特性缩焦,另一方面是調(diào)試用读虏;未來可能會(huì)去掉動(dòng)態(tài)增刪特性。

? ? }

}

//true

//[攻城獅/nz, 逆襲/nz, 單身狗/nz, 袁滥,/w, 迎娶/v, 白富美/nz, ,/w, 走上/v, 人生/n, 巔峰/n]

//自定義詞:攻城獅灾螃、單身狗题翻、白富美




文章來源于風(fēng)zi的博客

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市腰鬼,隨后出現(xiàn)的幾起案子嵌赠,更是在濱河造成了極大的恐慌,老刑警劉巖熄赡,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件姜挺,死亡現(xiàn)場離奇詭異,居然都是意外死亡彼硫,警方通過查閱死者的電腦和手機(jī)炊豪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拧篮,“玉大人词渤,你說我怎么就攤上這事〈ǎ” “怎么了缺虐?”我有些...
    開封第一講書人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長礁凡。 經(jīng)常有香客問我高氮,道長慧妄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任剪芍,我火速辦了婚禮腰涧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘紊浩。我一直安慰自己窖铡,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開白布坊谁。 她就那樣靜靜地躺著费彼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪口芍。 梳的紋絲不亂的頭發(fā)上箍铲,一...
    開封第一講書人閱讀 51,155評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音鬓椭,去河邊找鬼颠猴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛小染,可吹牛的內(nèi)容都是我干的翘瓮。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼裤翩,長吁一口氣:“原來是場噩夢啊……” “哼资盅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起踊赠,我...
    開封第一講書人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤呵扛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后筐带,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體今穿,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年伦籍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蓝晒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鸽斟,死狀恐怖拔创,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情富蓄,我是刑警寧澤剩燥,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響灭红,放射性物質(zhì)發(fā)生泄漏侣滩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一变擒、第九天 我趴在偏房一處隱蔽的房頂上張望君珠。 院中可真熱鬧,春花似錦娇斑、人聲如沸策添。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唯竹。三九已至,卻和暖如春苦丁,著一層夾襖步出監(jiān)牢的瞬間浸颓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來泰國打工旺拉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留产上,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓蛾狗,卻偏偏與公主長得像晋涣,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子淘太,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • hanlp的詞典模式 之前我們看了hanlp的詞性標(biāo)注姻僧,現(xiàn)在我們就要使用自定義詞典與停用詞功能了,首先關(guān)于HanL...
    lanlantian123閱讀 1,865評(píng)論 0 1
  • package com.ecloud; import java.awt.List; import com.hank...
    lanlantian123閱讀 1,414評(píng)論 0 0
  • 失去自我的愛情蒲牧。我想很多人應(yīng)該都聽過吧。談不上懂赌莺,但至少我們都知道冰抢,這種愛情是非理智的,會(huì)讓人喪失自我艘狭。 ...
    落兮03閱讀 608評(píng)論 2 9
  • 你展開了千瓣的葉蔭 為那顆顆珠圓的香沁 灑下清涼的影挎扰,笑的你 似風(fēng)里的云,裹住了天地 你纏繞滄桑巍峨的藤架 扶著身...
    紫馨婷閱讀 165評(píng)論 2 2
  • 【歷史書籍中的美容方之目錄】 本文為美手美甲篇巢音。 有的人的手天生就很美遵倦,但也需要后期的保養(yǎng)。除了涂護(hù)手霜官撼,還有什么...
    佳木繁玥閱讀 946評(píng)論 0 9