基于規(guī)則集,rule-base:
XX 是 XX
XX 類似于 XX
XX 成立于 XX年 XX月
規(guī)則集合可以設(shè)置一些限制, 比如實(shí)體的類型贩猎。
- 優(yōu)點(diǎn):
- 不需要訓(xùn)練數(shù)據(jù)。
- 比較準(zhǔn)確萍膛。
- 缺點(diǎn):
- low recall 低召回吭服。
- 人力成本。
- 規(guī)則本身難設(shè)計(jì)蝗罗,容易沖突
基于模型
分類:
- 定義好關(guān)系類型
- 定義好實(shí)體類型
- 訓(xùn)練數(shù)據(jù)準(zhǔn)備:實(shí)體(類型)標(biāo)記艇棕,實(shí)體間的關(guān)系(人工成本)
(XX,YY) relation
特征工程:
構(gòu)造兩個(gè)實(shí)體的特征蝌戒。
- bag of word featrue:
- 詞特征。1-gram沼琉,2-gram北苟,3-gram。實(shí)體前后詞打瘪。
- 兩個(gè)實(shí)體中間的詞友鼻。
- pos feature: 詞性特征
- 實(shí)體類別:實(shí)體標(biāo)簽
- 位置信息:
- 比如 兩個(gè)實(shí)體間包含了多個(gè)個(gè)字
- 這句話在文中的位置(第幾句)
- 依存句法分析/句法分析:
- 兩個(gè)實(shí)體間的最短路徑(圖算法)
- 是否相互依賴(0,1)
特征相關(guān)性分析:協(xié)方差闺骚,皮爾森系數(shù)
模型訓(xùn)練方式:
- 方案1:
- K類別+無(wú)關(guān)系:共K+1的分類模型彩扔。
- 方案2:
- 二分類模型+K分類模型。
優(yōu)點(diǎn):二分類相對(duì)簡(jiǎn)單葛碧,訓(xùn)練數(shù)據(jù)不大借杰,并且大部分實(shí)體是不存在關(guān)系的,提升效率进泼。
- 二分類模型+K分類模型。