http://pyltp.readthedocs.io/zh_CN/latest/api.html
https://pypi.python.org/pypi/pyltp
https://github.com/hankcs/HanLP
使用 pyltp
pyltp 是LTP的 Python 封裝安拟,提供了分詞,詞性標(biāo)注,命名實(shí)體識別,依存句法分析,語義角色標(biāo)注的功能导而。
使用 HanLp
HanLP是由一系列模型與算法組成的Java工具包,目標(biāo)是普及自然語言處理在生產(chǎn)環(huán)境中的應(yīng)用玫鸟。HanLP具備功能完善退渗、性能高效移稳、架構(gòu)清晰、語料時(shí)新会油、可自定義的特點(diǎn)个粱。
HanLP提供下列功能:
中文分詞
最短路分詞
N-最短路分詞
CRF分詞
感知機(jī)中文分詞
索引分詞
極速詞典分詞
用戶自定義詞典
詞性標(biāo)注
HMM詞性標(biāo)注
感知機(jī)詞性標(biāo)注
命名實(shí)體識別
中國人名識別
音譯人名識別
日本人名識別
地名識別
實(shí)體機(jī)構(gòu)名識別
感知機(jī)命名實(shí)體識別
關(guān)鍵詞提取
TextRank關(guān)鍵詞提取
自動(dòng)摘要
TextRank自動(dòng)摘要
短語提取
基于互信息和左右信息熵的短語提取
拼音轉(zhuǎn)換
多音字
聲母
韻母
聲調(diào)
簡繁轉(zhuǎn)換
繁體中文分詞
簡繁分歧詞(簡體、繁體翻翩、臺灣正體都许、香港繁體)
文本推薦
語義推薦
拼音推薦
字詞推薦
依存句法分析
基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器
MaxEnt依存句法分析
CRF依存句法分析
文本分類
情感分析
word2vec
詞向量訓(xùn)練、加載嫂冻、詞語相似度計(jì)算胶征、語義運(yùn)算、查詢桨仿、KMeans聚類
文檔語義相似度計(jì)算
語料庫工具
分詞語料預(yù)處理
詞頻詞性詞典制作
BiGram統(tǒng)計(jì)
詞共現(xiàn)統(tǒng)計(jì)
CoNLL語料預(yù)處理
CoNLL UA/LA/DA評測工具
在提供豐富功能的同時(shí)睛低,HanLP內(nèi)部模塊堅(jiān)持低耦合、模型堅(jiān)持惰性加載服傍、服務(wù)堅(jiān)持靜態(tài)提供钱雷、詞典堅(jiān)持明文發(fā)布,使用非常方便吹零,同時(shí)自帶一些語料處理工具急波,幫助用戶訓(xùn)練自己的模型。
文章來源于網(wǎng)絡(luò)