知識圖譜學(xué)習(xí)筆記(七)——關(guān)系抽取

關(guān)系抽取

1. 關(guān)系抽取任務(wù)定義

  • 定義:Alexander Schutz等人認為關(guān)系抽取是自動識別由一對概念和聯(lián)系這對概念的關(guān)系構(gòu)成的相關(guān)三元組卓缰。

    • eg. 特朗普是美國的總統(tǒng)米绕。 總統(tǒng)(特朗普阳仔,美國)
  • 網(wǎng)絡(luò)文本信息結(jié)構(gòu)

    • 結(jié)構(gòu)化數(shù)據(jù)(infobox):置信度高蜂怎,規(guī)模小倦西,缺乏個性化的屬性信息
    • 半結(jié)構(gòu)化數(shù)據(jù):置信度較高倍宾,規(guī)模較大链患,個性化的信息巧鸭,形式多樣,含有噪聲
    • 純文本:置信度低麻捻,復(fù)雜多樣纲仍,規(guī)模大呀袱。
  • 結(jié)構(gòu)化與半結(jié)構(gòu)化文本信息(利用網(wǎng)頁結(jié)構(gòu))

    • 信息塊的識別
    • 模板的學(xué)習(xí)
    • 屬性值的抽取
  • 非結(jié)構(gòu)化文本的關(guān)系抽取分類

    • 傳統(tǒng)關(guān)系抽取
      • 評測語料
      • 專家制訂類別,人工標(biāo)注語料
    • 開放域關(guān)系抽取
      • 類別自動獲取
      • 語料自動生成
      • 語言證據(jù)清晰表達的關(guān)系

2. 傳統(tǒng)關(guān)系抽取

  • 任務(wù):給定實體關(guān)系類別郑叠,給定語料夜赵,抽取目標(biāo)關(guān)系對

  • 評測語料(MUC, ACE, KBP, SemEval)

    • 專家標(biāo)注語料,語料質(zhì)量高
    • 抽取的目標(biāo)類別已經(jīng)定義好
    • 有公認的評價方式
  • 目前主要采用統(tǒng)計機器學(xué)習(xí)的方法乡革,將關(guān)系實例轉(zhuǎn)換成高維空間中的特征向量或直接用離散結(jié)構(gòu)來表示寇僧,在標(biāo)注語料庫上訓(xùn)練生成分類模型,然后再識別實體間關(guān)系沸版。

  • 基于特征向量方法:

    • 主要問題:如何獲取各種有效的詞法嘁傀、句法、語義等特征视粮,并把它們有效地集成起來细办,從而產(chǎn)生描述實體語義關(guān)系的各種局部特征和簡單的全局特征。
    • 特征選壤倥埂:從自由文本及其句法結(jié)構(gòu)中抽取出各種詞匯特征以及結(jié)構(gòu)化特征
      • 實體詞匯及其上下文特征
      • 實體類型及其組合特征
      • 交疊特征(兩個實體或詞組塊是否在同一個名詞短語笑撞、動詞短語或者介詞短語之中、兩個實體或者詞組塊之間單詞的個數(shù)等)
      • 句法樹特征(連接兩個實體的語法路徑)
  • 基于核函數(shù)方法:

    • 主要問題:如何有效挖掘反映語義關(guān)系的結(jié)構(gòu)化信息及如何有效計算結(jié)構(gòu)化信息之間的相似度
    • 卷積樹核:用兩個句法樹之間的公共子樹的數(shù)目來衡量它們之間的相似度
      • 標(biāo)準(zhǔn)的卷積樹核(CTK):在計算兩棵子樹的相似度時钓觉,只考慮子樹本身茴肥,不考慮子樹的上下文信息。
      • 上下文卷積樹核函數(shù)(CS-CTK):在計算子樹相似度時荡灾,同時考慮子樹的祖先信息瓤狐,如子樹跟結(jié)點的父節(jié)點、祖父結(jié)點信息批幌,并對不同祖先的子樹相似度加權(quán)平均芬首。
  • 基于神經(jīng)網(wǎng)絡(luò)的方法:

    • 主要問題:如何設(shè)計合理的網(wǎng)絡(luò)結(jié)構(gòu),從而捕捉更多的信息逼裆,進而更準(zhǔn)確地完成關(guān)系的抽取
    • 網(wǎng)絡(luò)結(jié)構(gòu):不同的網(wǎng)絡(luò)結(jié)構(gòu)捕捉文本中不同的信息
      • 遞歸神經(jīng)網(wǎng)絡(luò):網(wǎng)絡(luò)的構(gòu)建過程更多的考慮句子的句法結(jié)構(gòu)到踏,但是需要依賴復(fù)雜的句法分析工具
      • 卷積神經(jīng)網(wǎng)絡(luò):通過卷積操作完成句子級信息的捕獲稿械,不需要復(fù)雜的NLP工具
      • 循環(huán)神經(jīng)網(wǎng)絡(luò):通過循環(huán)神經(jīng)網(wǎng)絡(luò)建模詞語之間的依賴關(guān)系,自動捕獲句子級信息作瞄。


        在這里插入圖片描述

3. 開放域關(guān)系抽取

  • 特點:

    • 不限定關(guān)系類別
    • 不限定目標(biāo)文本:Web Page, Wikipedia, Query Log
    • 難點問題:如何獲取訓(xùn)練語料恢着;如何獲取實體關(guān)系類別桐愉;如何針對不同類型目標(biāo)文本抽取關(guān)系
    • 需要研究新的抽取方法:按需抽取——Bootstrapping,模板掰派;開放抽取——Open IE从诲;知識監(jiān)督抽取——Distant Supervision
  • 按需抽取 Bootstrapping

    • Bootstrapping算法:指的就是利用有限的樣本資料經(jīng)由多次重復(fù)抽樣,重新建立起足以代表母體樣本分布的新樣本靡羡。
      模板生成->實例抽取->迭代直至收斂
    • 語義漂移問題:迭代會引入噪音實例和噪音模板(在迭代過程中產(chǎn)生一些與種子不相關(guān)的實例系洛,這些不相關(guān)的實例進入迭代過程俊性,將會繼續(xù)產(chǎn)生不相關(guān)的實例)
    • 可以通過引入負實例來限制語義漂移。
  • 開放抽取

    • 通過識別表達語義關(guān)系的短語來抽取實體之間的關(guān)系
      • eg.(華為描扯,總部位于定页,深圳),(華為绽诚,總部設(shè)置于典徊,深圳),(華為恩够,將其總部建于卒落,深圳)
    • 同時使用句法和統(tǒng)計數(shù)據(jù)來過濾抽取出來的三元組
      • 關(guān)系短語應(yīng)當(dāng)是一個以動詞為核心的短語
      • 關(guān)系短語應(yīng)當(dāng)匹配多個不同實體對
    • 優(yōu)點:無需預(yù)先定義關(guān)系類別
    • 缺點:語義沒有歸一化,同一關(guān)系有不同表示


      在這里插入圖片描述
  • 開放域關(guān)系抽确渫啊:Web Page(TextRunner)

    • 步驟:
      1. 離線的訓(xùn)練集產(chǎn)生:利用簡單的啟發(fā)式規(guī)則儡毕,產(chǎn)生訓(xùn)練語料
      2. 離線的分類器訓(xùn)練:提取一些淺層句法特征,訓(xùn)練分類器屎飘,用來判斷一個元組是否構(gòu)成關(guān)系
      3. 在線關(guān)系抽韧浊:在網(wǎng)絡(luò)語料上,找到候選句子钦购,提取淺層句法特征檐盟,利用分類器,判斷抽取的關(guān)系對是否可信
      4. 在線的關(guān)系可信度評估:利用網(wǎng)絡(luò)海量語料的冗余信息押桃,對可信的關(guān)系對葵萎,進行評估
    • 出發(fā)點:
      • 關(guān)系類別的產(chǎn)生:動詞作為關(guān)系類別
      • 訓(xùn)練語料的產(chǎn)生:通過句法關(guān)系引出語義關(guān)系
  • 開放域關(guān)系抽取:WikiPedia

    • 任務(wù):在Wikipedia文本中抽取關(guān)系(屬性)信息
    • 難點:無法確定關(guān)系類別唱凯;無法獲取訓(xùn)練語料
    • 方法:在Infobox抽取關(guān)系信息羡忘;在Wikipedia條目文本中進行回標(biāo),產(chǎn)生訓(xùn)練語料
  • 知識監(jiān)督開放抽瓤闹纭:Distant Supervision

    • 開放域信息抽取的一個主要問題是缺乏標(biāo)注語料
    • Distant Supervision:使用知識庫中的關(guān)系啟發(fā)式的標(biāo)注訓(xùn)練語料


      在這里插入圖片描述
  • 開放域關(guān)系抽染淼瘛:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Zeng EMNLP 2015)

    • Freebase包含4000多萬實體,上萬個屬性關(guān)系票从,24多億個事實三元組
    • 人工標(biāo)注訓(xùn)練集不可行漫雕,需要尋找無指導(dǎo)或弱指導(dǎo)的關(guān)系抽取方法
    • 將弱監(jiān)督關(guān)系抽取看作是多示例問題,每次選擇回標(biāo)的包中分類概率最大的那個示例更新參數(shù)
    • 利用分類卷積網(wǎng)絡(luò)自動學(xué)習(xí)特征:設(shè)計分段最大池化層峰鄙,根據(jù)兩個實體把句子分成三段浸间,在每段里利用最大池化技術(shù),更好地保留句子的結(jié)構(gòu)化信息


      在這里插入圖片描述
    • 評價方法:
      • Held-out評價(留出法吟榴,直接將數(shù)據(jù)集D劃分為兩個互斥的集合魁蒜,其中一個集合作為訓(xùn)練集S, 另一個作為測試集T):以Freebase中存在關(guān)系的三元組作為標(biāo)準(zhǔn)
      • 人工評價:去掉已經(jīng)在Freebase中存在的實體對,人工標(biāo)注top N結(jié)果
  • 開放域關(guān)系抽榷悼础:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Ji AAAI 2017)

    • 動機:
      1. 傳統(tǒng)方法:NLP工具抽取句子特征锥咸,概率圖模型選擇多個有效的句子,然后分類铣减。
      2. 神經(jīng)網(wǎng)絡(luò)方法:卷積神經(jīng)網(wǎng)絡(luò)抽取特征效果最好她君,但是Zeng的方法智能選擇一個有效句子,不能充分利用監(jiān)督信息葫哗。
      3. 將兩種方法的優(yōu)點結(jié)合缔刹,既能選擇多個有效的句子,又使用卷積神經(jīng)網(wǎng)絡(luò)抽取特征劣针。
      4. 利用實體描述補充背景知識
    • 基于句子級關(guān)注機制和實體描述的弱監(jiān)督關(guān)系模型
      • 利用背景知識庫信息得到兩個實體的關(guān)系校镐,再利用這個關(guān)系向量和每個句子計算相似度,歸一化后作為句子的關(guān)注度捺典。


        在這里插入圖片描述
    • 數(shù)據(jù)集:
      • 由(Riedel, Yao, and McCallum 2010)發(fā)布的數(shù)據(jù)集鸟廓,通過對齊Freebase和NYT的語料形成,共包含52種關(guān)系襟己。


        在這里插入圖片描述
      • 訓(xùn)練和預(yù)測的對象均是多示例包引谜,包中的句子均沒有標(biāo)簽。新版本的數(shù)據(jù)統(tǒng)計:


        在這里插入圖片描述
  • 開放域關(guān)系抽惹嬖 :從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Lin ACL 2016)

    • 動機:弱監(jiān)督數(shù)據(jù)中包含了誤標(biāo)記的數(shù)據(jù)员咽,為了減輕誤標(biāo)記句子對分類結(jié)果的影響,引入了關(guān)注機制(Attention)贮预,每個包中可以選多個示例贝室。
    • 方法:
      1. 給定一個句子集合S = {x_1, x_2, ..., x_n}
      2. 將每個句子通過CNN表示成一個向量X_i = CNN(x_i)
      3. 句子集合表示為句子表示的加權(quán)和S = \sum_i \alpha_i X_i
      4. 最后通過softmax分類器對句子集合進行分類
      5. 關(guān)注機制\alpha_i = \frac{exp(e_i)}{\sum_k exp(e_k)},其中e_i = x_i Ar仿吞,A是權(quán)重對角矩陣滑频,r是關(guān)系r的向量表示。
        在這里插入圖片描述
  • 開放域關(guān)系抽然礁浴:從NYT(紐約時報)中抽取Freebase的關(guān)系類別(Jiang COLING 2016)

    • 動機:有些隱含的關(guān)系需要從多句話中抽取證據(jù)才能確定峡迷;同一個實體可以對應(yīng)多個關(guān)系
    • 方法:
      1. 通過跨句子的pooling實現(xiàn)多句話語義的聯(lián)合考慮
      2. 通過多目標(biāo)的損失函數(shù)實現(xiàn)一個實體對多關(guān)系的發(fā)現(xiàn)


        在這里插入圖片描述
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市你虹,隨后出現(xiàn)的幾起案子凉当,更是在濱河造成了極大的恐慌,老刑警劉巖售葡,帶你破解...
    沈念sama閱讀 218,525評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異忠藤,居然都是意外死亡挟伙,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尖阔,“玉大人贮缅,你說我怎么就攤上這事〗槿矗” “怎么了谴供?”我有些...
    開封第一講書人閱讀 164,862評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長齿坷。 經(jīng)常有香客問我桂肌,道長,這世上最難降的妖魔是什么永淌? 我笑而不...
    開封第一講書人閱讀 58,728評論 1 294
  • 正文 為了忘掉前任崎场,我火速辦了婚禮,結(jié)果婚禮上遂蛀,老公的妹妹穿的比我還像新娘谭跨。我一直安慰自己,他們只是感情好李滴,可當(dāng)我...
    茶點故事閱讀 67,743評論 6 392
  • 文/花漫 我一把揭開白布螃宙。 她就那樣靜靜地躺著,像睡著了一般所坯。 火紅的嫁衣襯著肌膚如雪谆扎。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,590評論 1 305
  • 那天包竹,我揣著相機與錄音燕酷,去河邊找鬼。 笑死周瞎,一個胖子當(dāng)著我的面吹牛苗缩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播声诸,決...
    沈念sama閱讀 40,330評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼酱讶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了彼乌?” 一聲冷哼從身側(cè)響起泻肯,我...
    開封第一講書人閱讀 39,244評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎慰照,沒想到半個月后灶挟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,693評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡毒租,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,885評論 3 336
  • 正文 我和宋清朗相戀三年稚铣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,001評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡惕医,死狀恐怖耕漱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抬伺,我是刑警寧澤螟够,帶...
    沈念sama閱讀 35,723評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站峡钓,受9級特大地震影響妓笙,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜椒楣,卻給世界環(huán)境...
    茶點故事閱讀 41,343評論 3 330
  • 文/蒙蒙 一给郊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧捧灰,春花似錦淆九、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至煌寇,卻和暖如春焕蹄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背阀溶。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評論 1 270
  • 我被黑心中介騙來泰國打工腻脏, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人银锻。 一個月前我還...
    沈念sama閱讀 48,191評論 3 370
  • 正文 我出身青樓永品,卻偏偏與公主長得像,于是被迫代替她去往敵國和親击纬。 傳聞我的和親對象是個殘疾皇子鼎姐,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,955評論 2 355