Relation Extraction Survey

實(shí)體關(guān)系抽取介紹

實(shí)體關(guān)系抽（RE拆撼， Relation Extraction）取任務(wù)是信息抽取中重要的一個(gè)子任務(wù)，同時(shí)也是知識(shí)圖譜構(gòu)建過程中必不可少的一個(gè)環(huán)節(jié)需纳。所謂關(guān)系抽取是指從含有實(shí)體對的句子中，抽取出該實(shí)體對對應(yīng)的關(guān)系，比如句子“馬化騰在1998年11月創(chuàng)立了騰訊”舷礼，抽取結(jié)果是<馬化騰/人名，創(chuàng)立/關(guān)系郊闯，騰訊/公司>妻献。這個(gè)過程分為兩個(gè)任務(wù)，一個(gè)是檢測出句子中是否含有實(shí)體對团赁，第二個(gè)任務(wù)是句子中是否含有實(shí)體對間的關(guān)系育拨。筆者結(jié)合近幾天對實(shí)體抽取相關(guān)研究的調(diào)研進(jìn)行匯總，介紹下RE的相關(guān)研發(fā)方法及工業(yè)屆常用的一些思路欢摄。

研究方法思維導(dǎo)圖

將RE的研究思路匯總成如下框圖熬丧。

關(guān)系抽取思維導(dǎo)圖

任務(wù)方案簡述

關(guān)系抽取也可以看做是一個(gè)機(jī)器學(xué)習(xí)任務(wù)，因此可以從三個(gè)反向進(jìn)行解決怀挠，如上圖所示析蝴。

基于監(jiān)督學(xué)習(xí)方法

根據(jù)RE的特點(diǎn)，目的是從句子中抽取或判斷出實(shí)體對的某種關(guān)系绿淋，因此一種思路是將該任務(wù)等于分類任務(wù)去對待闷畸，另一種思路是基于kenel的方法進(jìn)行求解。

Classification Model

基于分類模型吞滞，那么傳統(tǒng)的分類模型都可以用來完成改任務(wù)佑菩，典型的流程是設(shè)定好關(guān)系類別，選擇合適的特征（該任務(wù)中裁赠，通常特征會(huì)包括POS殿漠，NER，Position佩捞，句法解析結(jié)果）绞幌，之后選擇合適的分類器，然后訓(xùn)練一忱、預(yù)測莲蜘。該方式比較傳統(tǒng)，因此問題也比較突出掀潮，需要較多的人工干預(yù)特征才能獲得較好的效果菇夸。

Deep Learning Model

由于近兩年以來深度學(xué)習(xí)在語音和圖像領(lǐng)域的效果，因此越來越多的學(xué)著將深度學(xué)習(xí)技術(shù)運(yùn)用于NLP任務(wù)仪吧，同時(shí)也獲得了較好的效果庄新。針對于RE問題，同樣是將其看做一個(gè)分類任務(wù)，采用CNN抽取特征择诈，然后利用softmax獲得最終的分類結(jié)果械蹋。常見的架構(gòu)是，

利用word embedding 技術(shù)獲得句子中每個(gè)詞/字的embedding羞芍，或者利用pre-trianed embedding作為初始化
同時(shí)獲得句子中每個(gè)詞的Position embedding哗戈，這里的位置是指當(dāng)前的每個(gè)詞相對于實(shí)體對中兩個(gè)實(shí)體的位置，比如“馬化騰在 1998年11月創(chuàng)立了騰訊”荷科，馬化騰和騰訊是兩個(gè)實(shí)體唯咬，比如“在”這個(gè)字，到“馬化騰”的距離是-1畏浆，到“騰訊”這個(gè)詞的距離是4胆胰，然后對這兩個(gè)值進(jìn)行embedding得到 Position embedding。
將之前步驟中的向量進(jìn)行拼接當(dāng)做sentence的表示刻获，然后利用CNN抽取特征
利用softmax或其他函數(shù)獲得最終的輸出

基于深度學(xué)習(xí)的方式采用了end to end 的思想蜀涨，不要太多人工設(shè)計(jì)的特征，從整個(gè)系統(tǒng)來說最多只需要pre-trained embedding 其他均不需要人為單獨(dú)設(shè)計(jì)特征蝎毡。但針對于傳統(tǒng)CNN模型還是存在較多局限性厚柳，眾多學(xué)者都進(jìn)行了較多的改進(jìn)，主要有：

CNN + max pooling沐兵，通過pooling獲得相同規(guī)格的特征别垮，避免不同句子長度造成的影響
不同卷積filter協(xié)同工作，利用不同大小的卷積核提取更多的特征
Multi-instance Learning痒筒，不具體標(biāo)注單個(gè)句子宰闰，而是標(biāo)注某個(gè)文檔集或者句子集茬贵，主要是依據(jù)假設(shè)：如果一個(gè)實(shí)體對出現(xiàn)在一個(gè)bag集中簿透，那么至少有一個(gè)doc或者sentence含有該實(shí)體對的關(guān)系。
Piece-wise CNN解藻，在進(jìn)行CNN之前老充，根據(jù)兩個(gè)實(shí)體的位置對sentence vector 分為三塊，分別進(jìn)行CNN螟左，以獲得更多的結(jié)構(gòu)性信息
CNN + Attention啡浊，在卷積中加入注意力機(jī)制，使得含有關(guān)系的句子獲得更多的關(guān)注

以上就是采用DL的方法來進(jìn)行RE任務(wù)常用的方法胶背。

Distant Supervision

遠(yuǎn)程監(jiān)督巷嚣，屬于一種弱監(jiān)督方式，它是利用外界的一個(gè)龐大的知識(shí)庫來指導(dǎo)標(biāo)注/擴(kuò)充訓(xùn)練樣本集钳吟⊥⒘＃基本思想是，假設(shè)一個(gè)含有實(shí)體對的句子，如果該實(shí)體對能夠和Freebase知識(shí)庫中的實(shí)體對齊的話坝茎，那么該句子同時(shí)也包含了該實(shí)體對在Freebase中的關(guān)系涤姊，因此可以將該句子看成一個(gè)正樣本。
這種假設(shè)過于強(qiáng)烈嗤放，因?yàn)楹袑?shí)體對的句子不一定含有實(shí)體對間的關(guān)系思喊，現(xiàn)有以下四種方式來解決這個(gè)問題，

在構(gòu)造數(shù)據(jù)集引入先驗(yàn)知識(shí)加以限制
利用指稱與指稱間的關(guān)系圖模型對數(shù)據(jù)樣例打分次酌，過濾掉置信度低的句子
利用Multi-Instance 對測試數(shù)據(jù)包打標(biāo)簽
采用 attention 機(jī)制對不同置信度的句子賦予不同的權(quán)重

遠(yuǎn)程監(jiān)督是一個(gè)用來增加數(shù)據(jù)的有效方法恨课，但在中文領(lǐng)域中缺少類似于Freebase這種即包含實(shí)體又包含關(guān)系的大型知識(shí)庫，因此具體工程效果如何岳服，還需要進(jìn)一步探索和驗(yàn)證庄呈。

Kernel Based Model

基于核函數(shù)的方法進(jìn)行關(guān)系抽取是指利用核函數(shù)來計(jì)算兩個(gè)關(guān)系之間的距離，它不同于其他的學(xué)習(xí)算法派阱，不需要進(jìn)行特征工程然后形成特征向量诬留，而是直接利用字符串通過核函數(shù)計(jì)算相似度。與基于特征向量的方法相比贫母，基于核函數(shù)的方法更加靈活文兑，可以綜合多方面的信息，且核函數(shù)具有很好的復(fù)合性腺劣，最終的關(guān)系距離可以綜合多個(gè)不同信息來源的核函數(shù)符合而成绿贞。在NLP任務(wù)中常見的子序列核和解析樹核￠僭基于核函數(shù)的關(guān)系抽取詳細(xì)內(nèi)容參考后面給出的引用論文籍铁。

Sequential/String Kernel

序列核的思想是根據(jù)兩個(gè)序列/字符串的公共子串來衡量兩個(gè)字符串間的相似度，每個(gè)子串會(huì)根據(jù)子串間隔來設(shè)計(jì)不同的權(quán)重趾断。

Tree Kernel

基于樹思想將輸入的實(shí)例構(gòu)造成一個(gè)句法解析樹拒名，通過子樹的匹配來計(jì)算實(shí)例間的額相似度，缺點(diǎn)是生成樹的淺層解析工具的準(zhǔn)確率無法保證芋酌。

Semi-Supervised Learning

半監(jiān)督方法增显，是利用bootstraping思想，通過某種方式構(gòu)造出一批樣本種子脐帝，然后利用這些種子集發(fā)現(xiàn)新的樣本同云，總結(jié)出應(yīng)有的規(guī)則或模式，用于發(fā)現(xiàn)新的樣本堵腹。下面對幾種常見方法做個(gè)簡要介紹炸站。

DIPRE

整體思想是，首先建立一批種子實(shí)體對疚顷，比如（作者旱易，書名）；之后利用這些實(shí)體對獲取同時(shí)含有這兩個(gè)實(shí)體的doc或sentence當(dāng)做標(biāo)注樣本；根據(jù)標(biāo)注樣本建立和調(diào)整pattern咒唆；利用pattern發(fā)現(xiàn)新的標(biāo)注數(shù)據(jù)届垫，并將數(shù)據(jù)加入到種子集；重復(fù)以上步驟直到滿足某種設(shè)定的條件全释。
這個(gè)過程中装处，最繁瑣的屬于pattern的設(shè)計(jì)，建立pattern時(shí)可以考慮如下規(guī)則浸船，以第一個(gè)實(shí)體開頭妄迁、兩個(gè)實(shí)體間間隔多少個(gè)詞等。

Snowball

Snowball大致思想課DIPRE類似李命，但根據(jù)種子發(fā)現(xiàn)標(biāo)注數(shù)據(jù)時(shí)計(jì)算方式不同登淘，這里是將實(shí)體和關(guān)系的Tuple表示成向量，通過計(jì)算發(fā)現(xiàn)樣本Tuple向量和種子Tuple向量間的相似度決定是否將樣本加入到樣本集封字，根據(jù)新的種子集的向量調(diào)整種子集中心向量黔州。

KnowItAll

KnowItAll主要是根據(jù)Noun Phrase（NP）手工設(shè)計(jì)一些規(guī)則，根據(jù)規(guī)則進(jìn)行提取阔籽。規(guī)則的形式可以如下：

NP1 "such as" NP2
NP1 "and other" NP2
NP1 "include" NP2
NP1 "is a" NP2
NP1 "is the " NP2 "of " NP3
"the" NP1 "of" NP2 "is" NP3

TextRunner

TextRunner 算法主要分為三個(gè)過程流妻，
1）self-Supervised Learner 自監(jiān)督學(xué)習(xí)過程，目標(biāo)是構(gòu)建樣集合分類器笆制。構(gòu)建樣本集的大致為：先通過一個(gè)自然語言分析器提取出樣本中存在的三元組绅这，指定一些規(guī)則對這些三元組標(biāo)記為正或者負(fù)。標(biāo)記完成后利用這些數(shù)據(jù)訓(xùn)練出一個(gè)分類器在辆，對三元組打分证薇，該階段稱為訓(xùn)練階段。
2） Single-Pass Extractor: 抽取階段匆篓，對待抽取句子進(jìn)行淺層語義分析浑度，標(biāo)注其中的詞性和名詞短語。對名詞短語奕删，如果滿足某種條件俺泣，則作為候選三元組，之后利用第一步的分類器進(jìn)行分類完残，打分。過濾出可信的三元組横漏，同時(shí)記錄其出現(xiàn)的頻次谨设。
3）Redundancy-based Assesor , 基于冗余的評價(jià)器，對抽取的三元組進(jìn)行評價(jià)缎浇，進(jìn)一步提高效果

Unsupervised Learning

無監(jiān)督方式主要是基于假設(shè)扎拣，擁有相同語義關(guān)系的實(shí)體對擁有相似的上下文信息，因此可以利用每個(gè)實(shí)體對上下文信息來代表該實(shí)體對的語義關(guān)系，然后對實(shí)體對的語義關(guān)系進(jìn)行聚類二蓝。

綜上所述誉券，在工業(yè)屆更多考慮的是準(zhǔn)確性，因此采用的基于規(guī)則方式較多刊愚，隨著樣本標(biāo)注數(shù)據(jù)的不斷積累踊跟，逐漸引入DL方法，以提高抽取效率鸥诽。

DataSet

關(guān)系抽取的數(shù)據(jù)集并不多商玫，在各種paper中常見的數(shù)據(jù)集為ACE 2005（Automatic Content Extraction）和SemEval 2010 Task8，而中文領(lǐng)域相關(guān)數(shù)據(jù)集暫時(shí)還未發(fā)現(xiàn)牡借。

參考文獻(xiàn)

A survey on Relation Extraction Silde
A Survey of Deep Learning Methods for Relation Extraction
Relation Extraction Perspective from Convolutional Neural Network
A Survey On Relation Extraction
基于核函數(shù)的命名實(shí)體關(guān)系抽取技術(shù)的研究
基于深度學(xué)習(xí)的關(guān)系抽取技術(shù)進(jìn)展

最后編輯于：2017.12.11 15:37:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末拳昌，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子钠龙，更是在濱河造成了極大的恐慌炬藤，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碴里，死亡現(xiàn)場離奇詭異刻像，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)并闲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門细睡，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人帝火，你說我怎么就攤上這事溜徙。” “怎么了犀填？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蠢壹，是天一觀的道長。經(jīng)常有香客問我九巡，道長图贸，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任冕广，我火速辦了婚禮疏日，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘撒汉。我一直安慰自己沟优，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布睬辐。她就那樣靜靜地躺著挠阁，像睡著了一般宾肺。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上侵俗，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天锨用，我揣著相機(jī)與錄音，去河邊找鬼隘谣。笑死增拥，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的洪橘。我是一名探鬼主播跪者，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼熄求！你這毒婦竟也來了渣玲？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤弟晚，失蹤者是張志新（化名）和其女友劉穎忘衍，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卿城，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡枚钓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瑟押。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片搀捷。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖多望，靈堂內(nèi)的尸體忽然破棺而出嫩舟，到底是詐尸還是另有隱情，我是刑警寧澤怀偷，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布家厌，位于F島的核電站，受9級(jí)特大地震影響椎工，放射性物質(zhì)發(fā)生泄漏饭于。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一维蒙、第九天我趴在偏房一處隱蔽的房頂上張望掰吕。院中可真熱鬧，春花似錦木西、人聲如沸畴栖。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案八千，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽吗讶。三九已至，卻和暖如春恋捆，著一層夾襖步出監(jiān)牢的瞬間照皆，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工沸停，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留膜毁，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓愤钾，卻偏偏與公主長得像瘟滨，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子能颁，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345