pyltp - 哈工大語言云python接口使用說明

pyltp安裝及模型下載

可以使用pip直接安裝，如果安裝失敗霜旧，建議下載源碼進行手動編譯撩穿。

pip install pyltp

安裝pyltp后霍弹，下載模型文件，百度云地址在這身弊。
我下載的是ltp-data-v3.3.1.tar.bz2辟汰。然后將下載到的模型解壓，存放在任意地方阱佛。
注意：版本對應

pyltp版本：0.1.9
LTP版本：3.3.2
模型版本：3.3.1

上面兩步都完成后帖汞，我們就可以使用pyltp進行一些文本操作了，例如：分句凑术，分詞翩蘸，詞性標注，命名實體識別以及依存句法等麦萤。

pyltp語言云的使用

分句 - SentenceSplitter

from pyltp import SentenceSplitter
sentence = SentenceSplitter.split('我是逗號鹿鳖，我是句號扁眯。我是問號？我是感嘆號翅帜！')
print '\n'.join(sentence)

分句結果如下：

我是逗號姻檀，我是句號。
我是問號涝滴？
我是感嘆號绣版！

分詞 - Segmentor

import os
LTP_DATA_DIR = '/path/to/your/ltp_data'  # ltp模型目錄的路徑
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分詞模型路徑，模型名稱為`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化實例
segmentor.load(cws_model_path)  # 加載模型
words = segmentor.segment('歐幾里得是西元前三世紀的希臘數學家歼疮。')  # 分詞
print ' '.join(words)
segmentor.release()  # 釋放模型

分詞結果如下杂抽，【歐幾里得】被拆成了四個單獨的字。

歐 幾 里 得 是 西元前 三 世紀 的 希臘 數學家 韩脏。

pyltp分詞支持用戶使用自定義詞典缩麸。分詞外部詞典本身是一個文本文件，每行指定一個詞赡矢，編碼須為 UTF-8杭朱，樣例如下所示:

歐幾里得
亞里士多德

使用自定義詞典進行分詞的模型加載方式如下：

segmentor = Segmentor()  # 初始化實例
segmentor.load_with_lexicon(cws_model_path, '/path/to/your/lexicon') # 加載模型，參數lexicon是自定義詞典的文件路徑
words = segmentor.segment('歐幾里得是西元前三世紀的希臘數學家吹散。')
print ' '.join(words)
segmentor.release()

自定義詞典弧械，分詞結果如下，分詞效果明顯得到改善空民。

歐幾里得 是 西元前 三 世紀 的 希臘 數學家 刃唐。

詞性標注 - Postagger

pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 詞性標注模型路徑，模型名稱為`pos.model`

from pyltp import Postagger
postagger = Postagger() # 初始化實例
postagger.load(pos_model_path)  # 加載模型

words = ['歐幾里得', '是', '西元前', '三', '世紀', '的', '希臘', '數學家', '界轩。']
postags = postagger.postag(words)  # 詞性標注

print ' '.join(postags)
postagger.release()  # 釋放模型

詞性標注結果如下画饥，如果想了解更多的詞性含義。請參考語言云詞性標注簡介耸棒。

nh v nt m n u ns n wp
# 歐幾里得 - nh - 人名
# 是 - v - 動詞
# 西元前 - nt - 時間名詞
# 三 - m - 數字
# 世紀 - n - 普通名詞
# 的 - u - 助詞
# 希臘 - ns - 地理名詞
# 數學家- n - 普通名詞
# 荒澡。 - wp - 標點符號

命名實體識別 - NamedEntityRecognizer

ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 命名實體識別模型路徑，模型名稱為`ner.model`

from pyltp import NamedEntityRecognizer
recognizer = NamedEntityRecognizer() # 初始化實例
recognizer.load(ner_model_path)  # 加載模型

words = ['歐幾里得', '是', '西元前', '三', '世紀', '的', '希臘', '數學家', '与殃。']
postags = ['nh', 'v', 'nt', 'm', 'n', 'u', 'ns', 'n', 'wp']
nertags = recognizer.recognize(words, postags)  # 命名實體識別

print ' '.join(nertags)
recognizer.release()  # 釋放模型

命名實體結果如下单山，ltp命名實體類型為：人名（Nh），地名（NS）幅疼，機構名（Ni）米奸；ltp采用BIESO標注體系。B表示實體開始詞爽篷，I表示實體中間詞悴晰，E表示實體結束詞，S表示單獨成實體，O表示不構成實體铡溪。

S-Nh O O O O O S-Ns O O
# 歐幾里得 - S-Nh - 人名
# 希臘 - S-Ns - 地名

依存句法分析 - Parser

par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路徑漂辐，模型名稱為`parser.model`

from pyltp import Parser
parser = Parser() # 初始化實例
parser.load(par_model_path)  # 加載模型

words = ['歐幾里得', '是', '西元前', '三', '世紀', '的', '希臘', '數學家', '。']
postags = ['nh', 'v', 'nt', 'm', 'n', 'u', 'ns', 'n', 'wp']
arcs = parser.parse(words, postags)  # 句法分析

rely_id = [arc.head for arc in arcs]    # 提取依存父節(jié)點id
relation = [arc.relation for arc in arcs]   # 提取依存關系
heads = ['Root' if id == 0 else words[id-1] for id in rely_id]  # 匹配依存父節(jié)點詞語

for i in range(len(words)):
    print relation[i] + '(' + words[i] + ', ' + heads[i] + ')'

parser.release()  # 釋放模型

依存句法分析棕硫，輸出結果如下髓涯，關于依存句法分析，詳細參照語言云依存句法簡介哈扮。

SBV(歐幾里得, 是)
HED(是, Root)
ATT(西元前, 世紀)
ATT(三, 世紀)
ATT(世紀, 數學家)
RAD(的, 世紀)
ATT(希臘, 數學家)
VOB(數學家, 是)
WP(纬纪。, 是)

最后編輯于：2017.12.08 18:21:21

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市滑肉，隨后出現的幾起案子包各，更是在濱河造成了極大的恐慌，老刑警劉巖靶庙，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件问畅，死亡現場離奇詭異，居然都是意外死亡六荒，警方通過查閱死者的電腦和手機按声，發(fā)現死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來恬吕，“玉大人，你說我怎么就攤上這事须床☆砹希” “怎么了？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵豺旬，是天一觀的道長钠惩。經常有香客問我，道長族阅，這世上最難降的妖魔是什么篓跛？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮坦刀，結果婚禮上愧沟，老公的妹妹穿的比我還像新娘。我一直安慰自己鲤遥，他們只是感情好沐寺，可當我...
茶點故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著盖奈，像睡著了一般混坞。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天究孕，我揣著相機與錄音啥酱，去河邊找鬼。笑死厨诸，一個胖子當著我的面吹牛镶殷，可吹牛的內容都是我干的。我是一名探鬼主播泳猬，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼批钠，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了得封？” 一聲冷哼從身側響起埋心，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎忙上，沒想到半個月后拷呆，有當地人在樹林里發(fā)現了一具尸體，經...
沈念sama閱讀 45,820評論 1贊 317
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡疫粥，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年茬斧，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梗逮。...
茶點故事閱讀 40,127評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡项秉，死狀恐怖，靈堂內的尸體忽然破棺而出慷彤，到底是詐尸還是另有隱情娄蔼，我是刑警寧澤，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布底哗，位于F島的核電站岁诉，受9級特大地震影響，放射性物質發(fā)生泄漏跋选。R本人自食惡果不足惜涕癣，卻給世界環(huán)境...
茶點故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望前标。院中可真熱鬧坠韩，春花似錦、人聲如沸候生。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽唯鸭。三九已至须蜗，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背明肮。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工菱农，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人柿估。一個月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓循未，卻偏偏與公主長得像，于是被迫代替她去往敵國和親秫舌。傳聞我的和親對象是個殘疾皇子的妖，可洞房花燭夜當晚...
茶點故事閱讀 45,066評論 2贊 355