SpaCy v2.0(七)實例 - 訓練分析模型Parser for custom semantics

訓練parser for custom semantics 自定義語義分析

用這個模型可以訓練自定義的語義中的分詞關聯(lián)關系突那,比如在樣例中定義了幾個自定義的關系:ROOT, PLACE, QUALITY, ATTRIBUTE, TIME, LOCATION等等挫酿。

在example/training中有spaCy提供的幾個模型訓練樣例早龟,直接拷貝一個train_intent_parser.py 到 spaCy 的根目錄葱弟,然后修改代碼中的訓練語料,修改為中文訓練語料:

TRAIN_DATA = [

??? ("找無線質量好的咖啡廳", {

??????? 'heads': [0, 5, 1, 2, 5,? 0, 333, 333, 333, 333],? # index of? token head

??????? 'deps': ['ROOT',? 'ATTRIBUTE', 'ATTRIBUTE', 'QUALITY', '-', PLACE, '-', '-', '-', '-']

??? })

]

其中藏杖,heads和deps的規(guī)則如下:

例句:找無線質量好的咖啡廳

首先,spaCy引入了結巴分詞祥楣,例句首先通過結巴進行分詞误褪,分詞結果為:找 無線 質量 好 的 咖啡廳。接下來是句子結構嘀略,找—咖啡廳 無線—咖啡廳 無線--質量質量--好

heads:輸入各分詞所依賴的分詞的索引號(索引號為:找-0無線-1 質量-2 好-3 的-4 咖啡廳-5)

在這個例句中的核心詞是找鸠天,那么句中各分詞的heads定義為:

找:0(根)

無線:5(咖啡廳)

質量:1(無線)

好:2(質量)

的:5(咖啡廳)

咖啡廳:0(找)

對應的索引號是每個分詞按句子結構中對應的分詞的序號饥瓷,核心詞對應的是自己痹籍。

deps:

找:ROOT

無線:ATTRIBUTE

質量:ATTRIBUTE

好:QUALITY

的:- (沒有實際意義的詞呢铆,結構助詞之類的,隨意用個符號表述即可)

咖啡廳:PLACE

需要注意的是:在本樣例中蹲缠,spaCy是按照漢字的字數(shù)來計算heads和deps中的參數(shù)數(shù)量的棺克,而進行標注時是以分詞為單位標注和計算序號的,所以訓練數(shù)據(jù)中的寫法為:

("找無線質量好的咖啡廳",{

??????? 'heads': [0, 5, 1, 2, 5, 0, 333, 333,333, 333],? # index of token head

??????? 'deps': ['ROOT', 'ATTRIBUTE','ATTRIBUTE', 'QUALITY', '-', 'PLACE', '-', '-', '-', '-']

??? })

heads中前6個為有效序號吼砂,而句子的實際字數(shù)是10個逆航,需要有10個數(shù)字,所以后面4個333是隨意填充的渔肩。

deps同理因俐,前6個是有效標記,后面4個是填充的周偎。

接下來運行

python train_intent_parser.py -m zh_model?-o zh_model

test_text = "找無線質量好的咖啡廳"

輸出結果為:

[('找', 'ROOT', '找'), ('無線', 'ATTRIBUTE', '咖啡廳'), ('質量', 'ATTRIBUTE', '無線'), ('好', 'QUALITY', '質量'), ('咖啡廳', 'PLACE', '找')]

在zh_model目錄中可以看到生成了parser目錄抹剩,目錄結構如下:

zh_model

└──parser

??? ├──cfg

??? ├──lower_model

? ? ├──moves

? ? ├──tok2vec_model

??? └──upper_model

打開cfg文件查看,可以看到其中的labels已經(jīng)有了ROOT蓉坎、ATTRIBUTE澳眷、QUALITY、PLACE等等labels蛉艾。

到此钳踊,中文的自定義語義關系parser模型就訓練完成了拓瞪,對于精度提升助琐,需要準備至少幾百條標注語料才能達到一定的好結果兵钮,準備好語料后重新運行訓練代碼即可。

文中完整代碼可參考 https://github.com/jeusgao/spaCy-new-language-test-Chinese

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末屁药,一起剝皮案震驚了整個濱河市柏锄,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缔御,老刑警劉巖妇蛀,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件眷茁,死亡現(xiàn)場離奇詭異上祈,居然都是意外死亡浙芙,警方通過查閱死者的電腦和手機嗡呼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門揍很,熙熙樓的掌柜王于貴愁眉苦臉地迎上來窒悔,“玉大人蛉迹,你說我怎么就攤上這事北救≌洳撸” “怎么了攘宙?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵疗绣,是天一觀的道長多矮。 經(jīng)常有香客問我,道長湾盗,這世上最難降的妖魔是什么格粪? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮吓肋,結果婚禮上是鬼,老公的妹妹穿的比我還像新娘均蜜。我一直安慰自己,他們只是感情好充择,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著观挎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪造成。 梳的紋絲不亂的頭發(fā)上普气,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音,去河邊找鬼封锉。 笑死成福,一個胖子當著我的面吹牛,可吹牛的內容都是我干的内斯。 我是一名探鬼主播蕴潦,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼潭苞,長吁一口氣:“原來是場噩夢啊……” “哼此疹!你這毒婦竟也來了遮婶?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤衍菱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后放闺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體怖侦,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡谜叹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年匾寝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荷腊。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡艳悔,死狀恐怖,靈堂內的尸體忽然破棺而出女仰,到底是詐尸還是另有隱情猜年,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布疾忍,位于F島的核電站乔外,受9級特大地震影響,放射性物質發(fā)生泄漏一罩。R本人自食惡果不足惜杨幼,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望擒抛。 院中可真熱鬧推汽,春花似錦、人聲如沸歧沪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诊胞。三九已至暖夭,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間撵孤,已是汗流浹背迈着。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留邪码,地道東北人裕菠。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓次舌,卻偏偏與公主長得像竟秫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345