背景
Ansj 是一個開源的 Java 中文分詞工具漂洋,基于中科院的 ICTCLAS 中文分詞算法绢片,比其他常用的開源分詞工具(如mmseg4j)的分詞準確率更高疾忍。工具支持詞性標注端蛆,所以就可以依據(jù)詞性進行分詞結(jié)果的過濾。
**詞性介紹 **
1. 名詞 (1個一類考赛,7個二類惕澎,5個三類)
名詞分為以下子類:
n 名詞
nr 人名
nr1 漢語姓氏
nr2 漢語名字
nrj 日語人名
nrf 音譯人名
ns 地名
nsf 音譯地名
nt 機構(gòu)團體名
nz 其它專名
nl 名詞性慣用語
ng 名詞性語素
nw 新詞
2. 時間詞(1個一類,1個二類)
t 時間詞
tg 時間詞性語素
3. 處所詞(1個一類)
s 處所詞
4. 方位詞(1個一類)
f 方位詞
5. 動詞(1個一類颜骤,9個二類)
v 動詞
vd 副動詞
vn 名動詞
vshi 動詞“是”
vyou 動詞“有”
vf 趨向動詞
vx 形式動詞
vi 不及物動詞(內(nèi)動詞)
vl 動詞性慣用語
vg 動詞性語素
6. 形容詞(1個一類唧喉,4個二類)
a 形容詞
ad 副形詞
an 名形詞
ag 形容詞性語素
al 形容詞性慣用語
7. 區(qū)別詞(1個一類,2個二類)
b 區(qū)別詞
bl 區(qū)別詞性慣用語
8. 狀態(tài)詞(1個一類)
z 狀態(tài)詞
9. 代詞(1個一類复哆,4個二類欣喧,6個三類)
r 代詞
rr 人稱代詞
rz 指示代詞
rzt 時間指示代詞
rzs 處所指示代詞
rzv 謂詞性指示代詞
ry 疑問代詞
ryt 時間疑問代詞
rys 處所疑問代詞
ryv 謂詞性疑問代詞
rg 代詞性語素
10. 數(shù)詞(1個一類,1個二類)
m 數(shù)詞
mq 數(shù)量詞
11. 量詞(1個一類梯找,2個二類)
q 量詞
qv 動量詞
qt 時量詞
12. 副詞(1個一類)
d 副詞
13. 介詞(1個一類,2個二類)
p 介詞
pba 介詞“把”
pbei 介詞“被”
14. 連詞(1個一類益涧,1個二類)
c 連詞
cc 并列連詞
15. 助詞(1個一類锈锤,15個二類)
u 助詞
uzhe 著
ule 了 嘍
uguo 過
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一樣 一般 似的 般
udh 的話
uls 來講 來說 而言 說來
uzhi 之
ulian 連 (“連小學生都會”)
16. 嘆詞(1個一類)
e 嘆詞
17. 語氣詞(1個一類)
y 語氣詞(delete yg)
18. 擬聲詞(1個一類)
o 擬聲詞
19. 前綴(1個一類)
h 前綴
20. 后綴(1個一類)
k 后綴
21. 字符串(1個一類,2個二類)
x 字符串
xx 非語素字
xu 網(wǎng)址URL
22. 標點符號(1個一類闲询,16個二類)
w 標點符號
wkz 左括號久免,全角:( 〔 [ { 《 【 〖〈 半角:( [ { <
wky 右括號,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引號扭弧,全角:“ ‘ 『
wyy 右引號阎姥,全角:” ’ 』
wj 句號,全角:鸽捻。
ww 問號呼巴,全角:? 半角:?
wt 嘆號御蒲,全角:衣赶! 半角:!
wd 逗號,全角:厚满, 半角:,
wf 分號府瞄,全角:; 半角: ;
wn 頓號碘箍,全角:遵馆、
wm 冒號,全角:: 半角: :
ws 省略號丰榴,全角:…… …
wp 破折號货邓,全角:—— -- ——- 半角:— —-
wb 百分號千分號,全角:% ‰ 半角:%
wh 單位符號多艇,全角:¥ $ £ ° ℃ 半角:$