關(guān)系抽取
1. 關(guān)系抽取任務(wù)定義
-
定義:Alexander Schutz等人認為關(guān)系抽取是自動識別由一對概念和聯(lián)系這對概念的關(guān)系構(gòu)成的相關(guān)三元組卓缰。
- eg. 特朗普是美國的總統(tǒng)米绕。 總統(tǒng)(特朗普阳仔,美國)
-
網(wǎng)絡(luò)文本信息結(jié)構(gòu)
- 結(jié)構(gòu)化數(shù)據(jù)(infobox):置信度高蜂怎,規(guī)模小倦西,缺乏個性化的屬性信息
- 半結(jié)構(gòu)化數(shù)據(jù):置信度較高倍宾,規(guī)模較大链患,個性化的信息巧鸭,形式多樣,含有噪聲
- 純文本:置信度低麻捻,復(fù)雜多樣纲仍,規(guī)模大呀袱。
-
結(jié)構(gòu)化與半結(jié)構(gòu)化文本信息(利用網(wǎng)頁結(jié)構(gòu))
- 信息塊的識別
- 模板的學(xué)習(xí)
- 屬性值的抽取
-
非結(jié)構(gòu)化文本的關(guān)系抽取分類
- 傳統(tǒng)關(guān)系抽取
- 評測語料
- 專家制訂類別,人工標(biāo)注語料
- 開放域關(guān)系抽取
- 類別自動獲取
- 語料自動生成
- 語言證據(jù)清晰表達的關(guān)系
- 傳統(tǒng)關(guān)系抽取
2. 傳統(tǒng)關(guān)系抽取
任務(wù):給定實體關(guān)系類別郑叠,給定語料夜赵,抽取目標(biāo)關(guān)系對
-
評測語料(MUC, ACE, KBP, SemEval)
- 專家標(biāo)注語料,語料質(zhì)量高
- 抽取的目標(biāo)類別已經(jīng)定義好
- 有公認的評價方式
目前主要采用統(tǒng)計機器學(xué)習(xí)的方法乡革,將關(guān)系實例轉(zhuǎn)換成高維空間中的特征向量或直接用離散結(jié)構(gòu)來表示寇僧,在標(biāo)注語料庫上訓(xùn)練生成分類模型,然后再識別實體間關(guān)系沸版。
-
基于特征向量方法:
- 主要問題:如何獲取各種有效的詞法嘁傀、句法、語義等特征视粮,并把它們有效地集成起來细办,從而產(chǎn)生描述實體語義關(guān)系的各種局部特征和簡單的全局特征。
- 特征選壤倥埂:從自由文本及其句法結(jié)構(gòu)中抽取出各種詞匯特征以及結(jié)構(gòu)化特征
- 實體詞匯及其上下文特征
- 實體類型及其組合特征
- 交疊特征(兩個實體或詞組塊是否在同一個名詞短語笑撞、動詞短語或者介詞短語之中、兩個實體或者詞組塊之間單詞的個數(shù)等)
- 句法樹特征(連接兩個實體的語法路徑)
-
基于核函數(shù)方法:
- 主要問題:如何有效挖掘反映語義關(guān)系的結(jié)構(gòu)化信息及如何有效計算結(jié)構(gòu)化信息之間的相似度
- 卷積樹核:用兩個句法樹之間的公共子樹的數(shù)目來衡量它們之間的相似度
- 標(biāo)準(zhǔn)的卷積樹核(CTK):在計算兩棵子樹的相似度時钓觉,只考慮子樹本身茴肥,不考慮子樹的上下文信息。
- 上下文卷積樹核函數(shù)(CS-CTK):在計算子樹相似度時荡灾,同時考慮子樹的祖先信息瓤狐,如子樹跟結(jié)點的父節(jié)點、祖父結(jié)點信息批幌,并對不同祖先的子樹相似度加權(quán)平均芬首。
-
基于神經(jīng)網(wǎng)絡(luò)的方法:
- 主要問題:如何設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu),從而捕捉更多的信息逼裆,進而更準(zhǔn)確地完成關(guān)系的抽取
- 網(wǎng)絡(luò)結(jié)構(gòu):不同的網(wǎng)絡(luò)結(jié)構(gòu)捕捉文本中不同的信息
- 遞歸神經(jīng)網(wǎng)絡(luò):網(wǎng)絡(luò)的構(gòu)建過程更多的考慮句子的句法結(jié)構(gòu)到踏,但是需要依賴復(fù)雜的句法分析工具
- 卷積神經(jīng)網(wǎng)絡(luò):通過卷積操作完成句子級信息的捕獲稿械,不需要復(fù)雜的NLP工具
-
循環(huán)神經(jīng)網(wǎng)絡(luò):通過循環(huán)神經(jīng)網(wǎng)絡(luò)建模詞語之間的依賴關(guān)系,自動捕獲句子級信息作瞄。
在這里插入圖片描述
3. 開放域關(guān)系抽取
-
特點:
- 不限定關(guān)系類別
- 不限定目標(biāo)文本:Web Page, Wikipedia, Query Log
- 難點問題:如何獲取訓(xùn)練語料恢着;如何獲取實體關(guān)系類別桐愉;如何針對不同類型目標(biāo)文本抽取關(guān)系
- 需要研究新的抽取方法:按需抽取——Bootstrapping,模板掰派;開放抽取——Open IE从诲;知識監(jiān)督抽取——Distant Supervision
-
按需抽取 Bootstrapping
- Bootstrapping算法:指的就是利用有限的樣本資料經(jīng)由多次重復(fù)抽樣,重新建立起足以代表母體樣本分布的新樣本靡羡。
模板生成->實例抽取->迭代直至收斂 - 語義漂移問題:迭代會引入噪音實例和噪音模板(在迭代過程中產(chǎn)生一些與種子不相關(guān)的實例系洛,這些不相關(guān)的實例進入迭代過程俊性,將會繼續(xù)產(chǎn)生不相關(guān)的實例)
- 可以通過引入負實例來限制語義漂移。
- Bootstrapping算法:指的就是利用有限的樣本資料經(jīng)由多次重復(fù)抽樣,重新建立起足以代表母體樣本分布的新樣本靡羡。
-
開放抽取
- 通過識別表達語義關(guān)系的短語來抽取實體之間的關(guān)系
- eg.(華為描扯,總部位于定页,深圳),(華為绽诚,總部設(shè)置于典徊,深圳),(華為恩够,將其總部建于卒落,深圳)
- 同時使用句法和統(tǒng)計數(shù)據(jù)來過濾抽取出來的三元組
- 關(guān)系短語應(yīng)當(dāng)是一個以動詞為核心的短語
- 關(guān)系短語應(yīng)當(dāng)匹配多個不同實體對
- 優(yōu)點:無需預(yù)先定義關(guān)系類別
-
缺點:語義沒有歸一化,同一關(guān)系有不同表示
在這里插入圖片描述
- 通過識別表達語義關(guān)系的短語來抽取實體之間的關(guān)系
-
開放域關(guān)系抽确渫啊:Web Page(TextRunner)
- 步驟:
- 離線的訓(xùn)練集產(chǎn)生:利用簡單的啟發(fā)式規(guī)則儡毕,產(chǎn)生訓(xùn)練語料
- 離線的分類器訓(xùn)練:提取一些淺層句法特征,訓(xùn)練分類器屎飘,用來判斷一個元組是否構(gòu)成關(guān)系
- 在線關(guān)系抽韧浊:在網(wǎng)絡(luò)語料上,找到候選句子钦购,提取淺層句法特征檐盟,利用分類器,判斷抽取的關(guān)系對是否可信
- 在線的關(guān)系可信度評估:利用網(wǎng)絡(luò)海量語料的冗余信息押桃,對可信的關(guān)系對葵萎,進行評估
- 出發(fā)點:
- 關(guān)系類別的產(chǎn)生:動詞作為關(guān)系類別
- 訓(xùn)練語料的產(chǎn)生:通過句法關(guān)系引出語義關(guān)系
- 步驟:
-
開放域關(guān)系抽取:WikiPedia
- 任務(wù):在Wikipedia文本中抽取關(guān)系(屬性)信息
- 難點:無法確定關(guān)系類別唱凯;無法獲取訓(xùn)練語料
- 方法:在Infobox抽取關(guān)系信息羡忘;在Wikipedia條目文本中進行回標(biāo),產(chǎn)生訓(xùn)練語料
-
知識監(jiān)督開放抽瓤闹纭:Distant Supervision
- 開放域信息抽取的一個主要問題是缺乏標(biāo)注語料
-
Distant Supervision:使用知識庫中的關(guān)系啟發(fā)式的標(biāo)注訓(xùn)練語料
在這里插入圖片描述
-
開放域關(guān)系抽染淼瘛:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Zeng EMNLP 2015)
- Freebase包含4000多萬實體,上萬個屬性關(guān)系票从,24多億個事實三元組
- 人工標(biāo)注訓(xùn)練集不可行漫雕,需要尋找無指導(dǎo)或弱指導(dǎo)的關(guān)系抽取方法
- 將弱監(jiān)督關(guān)系抽取看作是多示例問題,每次選擇回標(biāo)的包中分類概率最大的那個示例更新參數(shù)
-
利用分類卷積網(wǎng)絡(luò)自動學(xué)習(xí)特征:設(shè)計分段最大池化層峰鄙,根據(jù)兩個實體把句子分成三段浸间,在每段里利用最大池化技術(shù),更好地保留句子的結(jié)構(gòu)化信息
在這里插入圖片描述 - 評價方法:
- Held-out評價(留出法吟榴,直接將數(shù)據(jù)集D劃分為兩個互斥的集合魁蒜,其中一個集合作為訓(xùn)練集S, 另一個作為測試集T):以Freebase中存在關(guān)系的三元組作為標(biāo)準(zhǔn)
- 人工評價:去掉已經(jīng)在Freebase中存在的實體對,人工標(biāo)注top N結(jié)果
-
開放域關(guān)系抽榷悼础:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Ji AAAI 2017)
- 動機:
- 傳統(tǒng)方法:NLP工具抽取句子特征锥咸,概率圖模型選擇多個有效的句子,然后分類铣减。
- 神經(jīng)網(wǎng)絡(luò)方法:卷積神經(jīng)網(wǎng)絡(luò)抽取特征效果最好她君,但是Zeng的方法智能選擇一個有效句子,不能充分利用監(jiān)督信息葫哗。
- 將兩種方法的優(yōu)點結(jié)合缔刹,既能選擇多個有效的句子,又使用卷積神經(jīng)網(wǎng)絡(luò)抽取特征劣针。
- 利用實體描述補充背景知識
- 基于句子級關(guān)注機制和實體描述的弱監(jiān)督關(guān)系模型
-
利用背景知識庫信息得到兩個實體的關(guān)系校镐,再利用這個關(guān)系向量和每個句子計算相似度,歸一化后作為句子的關(guān)注度捺典。
在這里插入圖片描述
-
- 數(shù)據(jù)集:
-
由(Riedel, Yao, and McCallum 2010)發(fā)布的數(shù)據(jù)集鸟廓,通過對齊Freebase和NYT的語料形成,共包含52種關(guān)系襟己。
在這里插入圖片描述 -
訓(xùn)練和預(yù)測的對象均是多示例包引谜,包中的句子均沒有標(biāo)簽。新版本的數(shù)據(jù)統(tǒng)計:
在這里插入圖片描述
-
- 動機:
-
開放域關(guān)系抽惹嬖 :從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Lin ACL 2016)
- 動機:弱監(jiān)督數(shù)據(jù)中包含了誤標(biāo)記的數(shù)據(jù)员咽,為了減輕誤標(biāo)記句子對分類結(jié)果的影響,引入了關(guān)注機制(Attention)贮预,每個包中可以選多個示例贝室。
- 方法:
- 給定一個句子集合
- 將每個句子通過CNN表示成一個向量
- 句子集合表示為句子表示的加權(quán)和
- 最后通過softmax分類器對句子集合進行分類
- 關(guān)注機制
,其中
仿吞,A是權(quán)重對角矩陣滑频,r是關(guān)系r的向量表示。
在這里插入圖片描述
- 給定一個句子集合
-
開放域關(guān)系抽然礁浴:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Jiang COLING 2016)
- 動機:有些隱含的關(guān)系需要從多句話中抽取證據(jù)才能確定峡迷;同一個實體可以對應(yīng)多個關(guān)系
- 方法:
- 通過跨句子的pooling實現(xiàn)多句話語義的聯(lián)合考慮
-
通過多目標(biāo)的損失函數(shù)實現(xiàn)一個實體對多關(guān)系的發(fā)現(xiàn)
在這里插入圖片描述