1、為工業(yè)專有名詞添加詞性標(biāo)注 - nin
*(1)在不修改源碼的基礎(chǔ)上况凉,對(duì)工業(yè)名字詞典添加詞性祠墅、詞頻属韧,以及如下內(nèi)容
始##始 begin 2324388
末##末 end 2324388
未##串 x 130296
未##人 nr 607718 nrf 113445
未##團(tuán) nt 112253 ntc 25517 nto 18894 ntu 5426 nth 2556 ntcb 1846 nts 677 ntch 568 ntcf 118
未##地 ns 595380 nsf 124178
未##它 xx 1000
未##數(shù) mq 753456 m 733982
未##時(shí) t 757118
(2)修改 hanlp.properties 文件桃纯。更換核心詞典(CoreDictionaryPath)為工業(yè)自定義詞典,將核心詞典路徑加入到自定義詞典(CustomDictionaryPath)中,并將優(yōu)先級(jí)置于 CustomDictionary.txt 之前。
(3)測(cè)試效果
[輸入]:
自緊式鉆夾頭是機(jī)床附件產(chǎn)品中的一種乾颁,著涂乌,主要用來夾持鉆具鉆孔的,可裝在車床英岭,銑床湾盒,鉆床,木工刨床诅妹,手電鉆历涝,沖擊電鉆上使用。自緊式鉆夾頭是一種鉆頭持工具漾唉,廣泛應(yīng)用于機(jī)械制造、建筑裝修等領(lǐng)域堰塌。赵刑、
韶關(guān)冶煉廠始建于1966年,是國內(nèi)首家采用英國帝國熔煉公司密閉鼓風(fēng)爐煉鉛鋅專利技術(shù)(簡稱ISP工藝)的大型鉛鋅冶煉廠场刑。
《互換性與技術(shù)測(cè)量實(shí)驗(yàn)指導(dǎo)書(含實(shí)驗(yàn)報(bào)告)》是2014年西安電子科技大學(xué)出版社出版的圖書般此,作者是楊武成、孫俊茹牵现。
[輸出]:
[自緊式鉆夾頭/nin, 是/vshi, 機(jī)床附件/nin, 產(chǎn)品/n, 中的/v, 一/m, 種/q, 铐懊,/w, 著/uzhe, ,/w, 主要/b, 用來/v, 夾持/nin, 鉆具/n, 鉆孔/vi, 的/ude1, 瞎疼,/w, 可裝在/n, 車床/n, 科乎,/w, 銑床/n, ,/w, 鉆床/n, 贼急,/w, 木工刨床/nin, 茅茂,/w, 手電鉆/nin, ,/w, 沖擊電鉆/nin, 上/f, 使用/v, 太抓。/w, 自緊式鉆夾頭/nin, 是/vshi, 一/m, 種/q, 鉆頭/n, 持/v, 工具/n, 空闲,/w, 廣泛/a, 應(yīng)用于/v, 機(jī)械制造/nin, 、/w, 建筑/n, 裝修/vn, 等/udeng, 領(lǐng)域/n, 走敌。碴倾、/w]
[韶關(guān)冶煉廠/nin, 始建于/v, 1966年/nin, ,/w, 是/vshi, 國內(nèi)/s, 首家/n, 采用/v, 英/b, 國帝國/n, 熔煉/v, 公司/nis, 密閉/vi, 鼓風(fēng)爐/n, 煉/v, 鉛鋅/nz, 專利/n, 技術(shù)/n, (/w, 簡稱/v, ISP/nx, 工藝/n, )/w, 的/ude1, 大型/b, 鉛鋅/nz, 冶煉廠/nis, 掉丽。/w]
[《/w, 互換性與技術(shù)測(cè)量實(shí)驗(yàn)指導(dǎo)書(含實(shí)驗(yàn)報(bào)告)/nin, 》/w, 是/vshi, 201/nin, 4/m, 年/qt, 西安電子科技大學(xué)出版社/nin, 出版的/n, 圖書/n, 跌榔,/w, 作者/nnt, 是/vshi, 楊武成/n, 、/w, 孫俊茹/n, 机打。/w]
【自定義詞典還需做以優(yōu)化】
2矫户、為 HanLp.java 添加新參數(shù) - Profession
- (1)Profession = true 時(shí),將工業(yè)名詞詞典當(dāng)作核心詞典残邀,能夠?qū)I(yè)名詞進(jìn)行識(shí)別皆辽;原核心詞典作為用于自定義詞典存在柑蛇;
- (2)Profession = false(Default)時(shí),則正常分詞驱闷,不能識(shí)別專業(yè)的工業(yè)名詞
- (3)參數(shù)設(shè)置
// 該操作需要在 HanLp.Config 之前執(zhí)行耻台。
HanLp.Profession = true;
// 顯示詞性
HanLp.Config.ShowTermNature = true;
// 開啟命名實(shí)體識(shí)別
Segment segment = HanLP.newSegment().enableAllNamedEntityRecognize(true);;
List<Term> termList = segment.seg("str");