來源: AINLPer
微信公眾號(每日更新...)
編輯: ShuYini
校稿: ShuYini
時(shí)間: 2020-08-11
引言
????信息抽却濉(information extraction)篙程,簡稱IE藏畅,即從自然語言文本中怔蚌,抽取出特定的事件或事實(shí)信息巩步,幫助我們將海量內(nèi)容自動(dòng)分類、提取和重構(gòu)桦踊。這些信息通常包括實(shí)體(entity)椅野、關(guān)系(relation)、事件(event)籍胯。例如從新聞中抽取時(shí)間竟闪、地點(diǎn)、關(guān)鍵人物杖狼,或者從技術(shù)文檔中抽取產(chǎn)品名稱炼蛤、開發(fā)時(shí)間、性能指標(biāo)等蝶涩。能從自然語言中抽取用戶感興趣的事實(shí)信息理朋,無論是在知識圖譜、信息檢索子寓、問答系統(tǒng)還是在情感分析暗挑、文本挖掘中,信息抽取都有廣泛應(yīng)用斜友。
????信息抽取主要包括三個(gè)子任務(wù):
????關(guān)系抽取:通常我們說的三元組(triple)抽取炸裆,主要用于抽取實(shí)體間的關(guān)系。
????實(shí)體抽取與鏈指:也就是命名實(shí)體識別鲜屏。
????事件抽取:相當(dāng)于一種多元關(guān)系的抽取烹看。
????關(guān)系抽取(RE)是為了抽取文本中包含的關(guān)系洛史,是信息抽裙呤狻(IE)的重要組成部分。主要負(fù)責(zé)從無結(jié)構(gòu)文本中識別出實(shí)體也殖,并抽取實(shí)體之間的語義關(guān)系土思,被廣泛用在信息檢索务热、問答系統(tǒng)中。本文從關(guān)系抽取的基本概念出發(fā)己儒,依據(jù)不同的視角對關(guān)系抽取方法進(jìn)行了類別劃分崎岂;最后分享了基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集,并總結(jié)出基于深度學(xué)習(xí)的關(guān)系抽取框架闪湾。
關(guān)系抽取基本概念
????完整的關(guān)系抽取包括實(shí)體抽取和關(guān)系分類兩個(gè)子過程冲甘。實(shí)體抽取子過程也就是命名實(shí)體識別,對句子中的實(shí)體進(jìn)行檢測和分類途样;關(guān)系分類子過程對給定句子中兩個(gè)實(shí)體之間的語義關(guān)系進(jìn)行判斷江醇,屬于多類別分類問題。
????例如何暇,對于句子“青島坐落于山東省的東部”陶夜,實(shí)體抽取子過程檢測出這句話具有“青島”和“山東”兩個(gè)實(shí)體。關(guān)系分類子過程檢測出這句話中“青島”和“山東”兩個(gè)實(shí)體具有“坐落于”關(guān)系而不是“出生于”關(guān)系赖晶。在關(guān)系抽取過程中律适,多數(shù)方法默認(rèn)實(shí)體信息是給定的,那么關(guān)系抽取就可以看作是分類問題遏插。
關(guān)系抽取方法分類(基于深度學(xué)習(xí)方法)
????目前捂贿,常用的關(guān)系抽取方法有5類,分別是基于模式匹配胳嘲、基于詞典驅(qū)動(dòng)厂僧、基于機(jī)器學(xué)習(xí)、基于本體和混合的方法了牛⊙胀溃基于模式匹配和詞典驅(qū)動(dòng)的方法依靠人工制定規(guī)則,耗時(shí)耗力鹰祸,而且可移植性較差甫窟,基于本體的方法構(gòu)造比較復(fù)雜,理論尚不成熟蛙婴。基于機(jī)器學(xué)習(xí)的方法以自然語言處理技術(shù)為基礎(chǔ)粗井,結(jié)合統(tǒng)計(jì)語言模型進(jìn)行關(guān)系抽取,方法相對簡單街图,并具有不錯(cuò)的性能浇衬,成為當(dāng)下關(guān)系抽取的主流方法,下文提到的關(guān)系抽取方法均為機(jī)器學(xué)習(xí)的方法餐济。
????關(guān)于信息關(guān)系抽取耘擂,可以從訓(xùn)練數(shù)據(jù)的標(biāo)記程度、使用的機(jī)器學(xué)習(xí)方法絮姆、是否同時(shí)進(jìn)行實(shí)體抽取和關(guān)系分類子過程以及是否限定關(guān)系抽取領(lǐng)域和關(guān)系專制四個(gè)角度對機(jī)器學(xué)習(xí)的關(guān)系抽取方法進(jìn)行分類醉冤。
根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類
????根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度可以將關(guān)系抽取方法分為有監(jiān)督秩霍、半監(jiān)督和無監(jiān)督三類。
????有監(jiān)督學(xué)習(xí)蚁阳,處理的基本單位是包含特定實(shí)體對的句子前域,每一個(gè)句子都有類別標(biāo)注。優(yōu)點(diǎn):取能夠有效利用樣本的標(biāo)記信息韵吨,準(zhǔn)確率和召回率都比較高。缺點(diǎn):需要大量的人工標(biāo)記訓(xùn)練語料移宅,代價(jià)較高归粉。
????半監(jiān)督學(xué)習(xí),句子作為訓(xùn)練數(shù)據(jù)的基本單位漏峰,只有部分是有類別標(biāo)注的糠悼。此類方法讓學(xué)習(xí)器不依賴外界交互,自動(dòng)地利用未標(biāo)記樣本來提升學(xué)習(xí)性能浅乔。
????無監(jiān)督學(xué)習(xí)倔喂,完全不需要對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,此類方法包含實(shí)體對標(biāo)記靖苇、關(guān)系聚類和關(guān)系詞選擇三個(gè)過程席噩。
根據(jù)使用的機(jī)器學(xué)習(xí)方法分類
????根據(jù)使用機(jī)器學(xué)習(xí)方法不同,可以將關(guān)系抽取劃分為三類:基于特征向量的方法贤壁、基于核函數(shù)的方法以及基于神經(jīng)網(wǎng)絡(luò)的方法悼枢。
????基于特征向量的方法,通過從包含特定實(shí)體對的句子中提取出語義特征脾拆,構(gòu)造特征向量馒索,然后通過使用支持向量機(jī)、最大熵名船、條件隨機(jī)場等模型進(jìn)行關(guān)系抽取绰上。
????基于核函數(shù)的方法,其重點(diǎn)是巧妙地設(shè)計(jì)核函數(shù)來計(jì)算不同關(guān)系實(shí)例特定表示之間的相似度渠驼。缺點(diǎn):而如何設(shè)計(jì)核函數(shù)需要大量的人類工作蜈块,不適用于大規(guī)模語料上的關(guān)系抽取任務(wù)。
????基于神經(jīng)網(wǎng)絡(luò)的方法渴邦,通過構(gòu)造不同的神經(jīng)網(wǎng)絡(luò)模型來自動(dòng)學(xué)習(xí)句子的特征疯趟,減少了復(fù)雜的特征工程以及領(lǐng)域?qū)<抑R,具有很強(qiáng)的泛化能力谋梭。
根據(jù)是否同時(shí)進(jìn)行實(shí)體抽取和關(guān)系分類子過程進(jìn)行分類
????根據(jù)是否在同一個(gè)模型里開展實(shí)體抽取和關(guān)系分類信峻,可以將關(guān)系抽取方法分為流水線(pipeline)學(xué)習(xí)和聯(lián)合(joint)學(xué)習(xí)兩種。
????流水線學(xué)習(xí)是指先對輸入的句子進(jìn)行實(shí)體抽取瓮床,將識別出的實(shí)體分別組合盹舞,然后再進(jìn)行關(guān)系分類产镐,這兩個(gè)子過程是前后串聯(lián)的,完全分離踢步。
????聯(lián)合學(xué)習(xí)是指在一個(gè)模型中實(shí)現(xiàn)實(shí)體抽取和關(guān)系分類子過程癣亚。該方法通過使兩個(gè)子過程共享網(wǎng)絡(luò)底層參數(shù)以及設(shè)計(jì)特定的標(biāo)記策略來解決上述問題,其中使用特定的標(biāo)記策略可以看作是一種序列標(biāo)注問題获印。
根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類
????根據(jù)是否限定抽取領(lǐng)域和關(guān)系類別述雾,關(guān)系抽取方法可以劃分為預(yù)定義抽取和開放域抽取兩類。
????預(yù)定義關(guān)系抽取是指在一個(gè)或者多個(gè)固定領(lǐng)域內(nèi)對實(shí)體間關(guān)系進(jìn)行抽取兼丰,語料結(jié)構(gòu)單一玻孟,這些領(lǐng)域內(nèi)的目標(biāo)關(guān)系類型也是預(yù)先定義的。
????開放域關(guān)系抽取不限定領(lǐng)域的范圍和關(guān)系的類別△⒄鳎現(xiàn)階段黍翎,基于深度學(xué)習(xí)的關(guān)系抽取研究集中于預(yù)定義關(guān)系抽取。
關(guān)系信息抽取常用數(shù)據(jù)集
????基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集有ACE關(guān)系抽取任務(wù)數(shù)據(jù)集艳丛、SemEval2010 Task 8數(shù)據(jù)集匣掸、NYT2010數(shù)據(jù)集等.
????ACE關(guān)系抽取任務(wù)數(shù)據(jù)集:ACE2005關(guān)系抽取數(shù)據(jù)集包含599篇與新聞和郵件相關(guān)的文檔,其數(shù)據(jù)集內(nèi)包含7大類25小類關(guān)系氮双。
????SemEval2010 Task 8數(shù)據(jù)集:該數(shù)據(jù)集包含9種關(guān)系類型碰酝,分別是Compoent-Whole、Instrument-Agency戴差、Member-Collection砰粹、Cause-Effect、Entity-Destination造挽、Content-Container碱璃、Message-Topic、Product-Producer和Entity-Origin饭入。 考慮到實(shí)體之間關(guān)系的方向以及不屬于前面9種關(guān)系的“Other”關(guān)系嵌器,共生成19類實(shí)體關(guān)系。其中訓(xùn)練數(shù)據(jù) 8000個(gè)谐丢,測試數(shù)據(jù)2717個(gè)爽航。
????NYT2010數(shù)據(jù)集是Riedel等人在2010年將Freebase知識庫中的知識“三元組”對齊到“紐約時(shí)報(bào)”新聞中得到的訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集中乾忱,數(shù)據(jù)的單位是句包讥珍,一個(gè)句包由包含該實(shí)體對的若干句子構(gòu)成。其中窄瘟,訓(xùn)練數(shù)據(jù)集從《紐約時(shí)報(bào)》2005—2006年語料庫中獲取衷佃,測試集從2007年語料庫中獲取。
面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建
????基于深度學(xué)習(xí)的關(guān)系抽取方法模型構(gòu)建的重點(diǎn)在于利用不同神經(jīng)網(wǎng)絡(luò)的特點(diǎn)來抽取樣本的特征蹄葱,以學(xué)習(xí)樣本的向量表示氏义。在學(xué)習(xí)過程中锄列,根據(jù)所用的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的不同,可將基于深度學(xué)習(xí)的關(guān)系抽取方法分為基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,Rec-NN)的方法惯悠、基于卷積神經(jīng)網(wǎng)絡(luò)的方法邻邮、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent net neural net-work,RNN)的方法和基于混合網(wǎng)絡(luò)模型的方法四類。
基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法首先利用自然語言處理工具對句子進(jìn)行處理克婶,構(gòu)建特定的二叉樹筒严,然后解析樹上所有的相鄰子節(jié)點(diǎn),以特定的語義順序?qū)⑵浣M合成一個(gè)父節(jié)點(diǎn)情萤,如下圖3所示萝风。這個(gè)過程遞歸進(jìn)行,最終計(jì)算出整個(gè)句子的向量表示紫岩。向量計(jì)算過程可以看作是將句子進(jìn)行一個(gè)特征抽取過程,該方法對所有的鄰接點(diǎn)采用相同的操作睬塌。
基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法接受一個(gè)特定的向量矩陣作為輸入泉蝌,通過卷積層和池化層的操作將輸入轉(zhuǎn)換成一個(gè)固定長度的向量,并使用其他特征進(jìn)行語義信息匯總揩晴,再進(jìn)行抽取勋陪。基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法框架如圖下5所示硫兰,除了輸入層诅愚、數(shù)據(jù)表示層之外,還有窗口層劫映、卷積層违孝、池化層、語義信息匯總層泳赋、分類層雌桑。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取
????由于句子含義跟單詞出現(xiàn)的順序是相關(guān)的,因此關(guān)系抽取可以看作是一個(gè)時(shí)序?qū)W習(xí)任務(wù)祖今,可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模校坑。
????基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法在模型設(shè)計(jì)上使用不同的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取句子信息,然后對每個(gè)時(shí)刻的隱狀態(tài)輸出進(jìn)行組合千诬,在句子層級學(xué)習(xí)有效特征耍目。在關(guān)系抽取問題中,對每一個(gè)輸入徐绑,關(guān)系的標(biāo)記一般只在序列的最后得到邪驮。Zhang等首次使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系抽取,提出了BRNN模型傲茄。如下圖7 所示耕捞,在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中某一時(shí)刻的輸出不僅依賴序列中之前的輸入衔掸,也依賴于后續(xù)的輸入。
基于混合網(wǎng)絡(luò)模型的關(guān)系抽取
????為了更好地抽取句子中的特征俺抽,研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)敞映、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)3種網(wǎng)絡(luò)及其他機(jī)器學(xué)習(xí)方法進(jìn)行組合建模來進(jìn)行關(guān)系抽取。
????Vu等提 出 了 基 于 文 本 擴(kuò) 展 表 示 的ECNN和基于鏈接的UniBRNN模型磷斧,將每個(gè)神經(jīng)網(wǎng)絡(luò)得到的多個(gè)結(jié)果根據(jù)投票機(jī)制得到關(guān)系的最終抽取結(jié)果振愿。
????Xiao等將注意力機(jī)制引入一個(gè)多級的循環(huán)神經(jīng)網(wǎng)絡(luò),該方法使用文本序列作為輸入弛饭,根據(jù)標(biāo)記實(shí)體的位置將句子分為5部分冕末,使用同一個(gè)雙 向LSTM網(wǎng)絡(luò)在3個(gè)子序列上獨(dú)立學(xué)習(xí),然后引入詞層級的注意力機(jī)制關(guān)注重要的單詞表示侣颂,分別得到子序列的向量表示档桃;隨后,使用雙向RNN網(wǎng)絡(luò)進(jìn)一步抽取子序列和實(shí)體的特征憔晒,并再次使用注意力機(jī)制將其轉(zhuǎn)換成句子的最終向量表示藻肄,并送入到分類器中。
????Nguyen等將傳統(tǒng)基于特征的方法(log-linear模型)拒担、卷積神經(jīng)網(wǎng)絡(luò)方法和循環(huán)神經(jīng)網(wǎng)絡(luò)方法使用集成嘹屯、投票等機(jī)制進(jìn)行組合。
????zhang等提出在雙向LSTM 的基礎(chǔ)上疊加注意力機(jī)制从撼,以及使用卷積神經(jīng)網(wǎng)絡(luò)層獲取句子的表示州弟,再送入到一個(gè)全連接層和softmax層進(jìn)行分類。
????在聯(lián)合學(xué)習(xí)問題上低零,Zheng等使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組合來進(jìn)行聯(lián)合學(xué)習(xí)婆翔,也是一種共享底層網(wǎng)絡(luò)參數(shù)的方法。
參考文獻(xiàn)
[1]莊傳志,靳小龍掏婶,基于深度學(xué)習(xí)的關(guān)系抽取研究綜述[J].中文信息學(xué)報(bào),2019,33(12):1-18.
Attention
更多自然語言處理相關(guān)知識浙滤,還請關(guān)注AINLPer公眾號,極品干貨即刻送達(dá)气堕。