知識(shí)圖譜筆記 3 知識(shí)抽取與挖掘(上)

知識(shí)抽取任務(wù)定義和相關(guān)比賽

知識(shí)可以來(lái)自于關(guān)系型數(shù)據(jù)庫(kù)雅镊、外部的開(kāi)放知識(shí)圖譜的數(shù)據(jù)、客戶(hù)的日志等結(jié)構(gòu)化數(shù)據(jù)以及表格、關(guān)鍵詞豪嚎、引用等半結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)、多媒體數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)谈火。

Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application?

知識(shí)抽取技術(shù):

從不同來(lái)源侈询、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識(shí)提取,形成知識(shí)存入到KG

實(shí)體抽取

關(guān)系抽取

事件抽取

從結(jié)構(gòu)化數(shù)據(jù)庫(kù)中獲取知識(shí):D2R——復(fù)雜表數(shù)據(jù)的處理

從連接數(shù)據(jù)中獲取知識(shí):圖映射——數(shù)據(jù)對(duì)齊

從半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)中獲取知識(shí):使用包裝器——方便的包裝器定義方法糯耍,包裝器自動(dòng)生成扔字、更新與維護(hù)

從文本中獲取知識(shí):信息抽取——結(jié)果的準(zhǔn)確率與覆蓋率

子任務(wù):

命名實(shí)體識(shí)別:檢測(cè)/分類(lèi)

術(shù)語(yǔ)抽饶壹巍:從語(yǔ)料中發(fā)現(xiàn)多個(gè)單詞組成的相關(guān)術(shù)語(yǔ)

關(guān)系抽取:特定指二元關(guān)系

確定觸發(fā)詞->根據(jù)觸發(fā)詞下特定的槽抽取賓語(yǔ)

共指消解(主語(yǔ)的確定)

比賽:

MUC:

正規(guī)文本抽取

命名實(shí)體識(shí)別——NER

共指消解——CR

ACE:

對(duì)MUC融合革为、分類(lèi)扭粱、細(xì)化

實(shí)體檢測(cè)和識(shí)別——EDR——細(xì)化了實(shí)體分類(lèi)(person/organizations.....)

數(shù)值檢測(cè)與識(shí)別——VAL(百分比/錢(qián)/郵箱.......)

事件表達(dá)檢測(cè)與識(shí)別——TERN

關(guān)系檢測(cè)與識(shí)別——RDR

事件檢測(cè)與識(shí)別——VDR

KBP:

對(duì)ACE的進(jìn)一步修訂

實(shí)體發(fā)現(xiàn)與鏈接——EDL——需要知識(shí)庫(kù)中唯一URL去鏈接實(shí)體

槽填充——SF——事件/多元關(guān)系抽取,對(duì)于謂語(yǔ)填充主語(yǔ)和賓語(yǔ)

事件抽取——Event

信念和情感——BeSt——抽取知識(shí)的額外描述

整合任務(wù):端到端冷啟動(dòng)知識(shí)構(gòu)建——對(duì)數(shù)據(jù)層進(jìn)行學(xué)習(xí)和擴(kuò)充

SemEval:

國(guó)際權(quán)威的詞義消歧評(píng)測(cè)

一震檩、面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取

1琢蛤、實(shí)體抽取:

抽取文本中的原子信息元素(person/organizations.....)

序列標(biāo)注方法:

人工特征(詞本身的特征/前后綴特征/字本身的特征)

IOB標(biāo)注體系:O(Others)/B-ORG(組織開(kāi)始字)/I-ORG(組織中間詞)....

HMM:隱馬爾科夫模型——有向圖模型/生成式模型/假設(shè)特征之間是獨(dú)立的

CRF:條件隨機(jī)場(chǎng)——無(wú)向圖模型/判別式模型/沒(méi)有關(guān)于特征之間是獨(dú)立的

LSTM+CRF:深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合

word embeddings->Bi-LSTM encoder->CRF Layer

實(shí)體識(shí)別與鏈接:

小白抛虏,我想聽(tīng)一首海闊天空(應(yīng)對(duì)新興實(shí)體)->rdf:type MuisicWork(處理大規(guī)模細(xì)粒度實(shí)體識(shí)別)->找到音樂(lè)KG中的內(nèi)容->執(zhí)行消歧->完成鏈接

文本->實(shí)體指稱(chēng)識(shí)別->候選實(shí)體生成->候選實(shí)體消歧->鏈接

開(kāi)源工具:

Wikipedia Miner

DBpedia Spotligth

OpenCalais

2博其、關(guān)系抽取:

信息抽取研究領(lǐng)域任務(wù)之一迂猴,從文本中抽取兩個(gè)或多個(gè)實(shí)體之間的語(yǔ)義關(guān)系

抽取元組->清理->融合->人工審核->KG

基于模板:

基于觸發(fā)詞的Pattern

基于依存句法分析的Pattern:以動(dòng)詞為起點(diǎn)慕淡,構(gòu)建規(guī)則,對(duì)節(jié)點(diǎn)上的詞性和邊上的依存關(guān)系進(jìn)行限定

監(jiān)督學(xué)習(xí):

確定實(shí)體對(duì)之后根據(jù)上下文對(duì)實(shí)體關(guān)系預(yù)測(cè)

輕量級(jí)特征——字

中等量級(jí)特征——詞組

重量級(jí)特征——句


Pipeline:

實(shí)體識(shí)別與關(guān)系分類(lèi)完全分離(串聯(lián))

CR-CNN(卷積神經(jīng)網(wǎng)絡(luò))

詞向量和位置向量作為輸入

F1=84.1

Att-CNN

調(diào)整權(quán)重

應(yīng)用注意力機(jī)制错忱,針對(duì)不同關(guān)系優(yōu)化

F1=88.0

Att-BLSTM

輸入層->embedding層->LSTM層->注意力層->輸出層

Joint Model:

實(shí)體識(shí)別與關(guān)系分類(lèi)的過(guò)程共同優(yōu)化(并聯(lián))儡率,實(shí)現(xiàn)全局的最優(yōu)化,但是參數(shù)空間會(huì)變大

LSTM-RNNs

Bi-LSTM->Bi-TreeLSTM(依存關(guān)系->依存樹(shù))->PHYS

半監(jiān)督學(xué)習(xí):

存在語(yǔ)義漂移

遠(yuǎn)程監(jiān)督:

從知識(shí)庫(kù)中抽取存在的關(guān)系的實(shí)體對(duì)->從非結(jié)構(gòu)化的文本中抽取含有實(shí)體對(duì)的句子作為訓(xùn)練樣例

PCNNs

piecewise max-pooling:實(shí)體分為幾段做maxpooling以清,刻畫(huà)更精準(zhǔn)

多實(shí)例學(xué)習(xí):找到處理句中實(shí)體同時(shí)出現(xiàn)且句型相似的句子做句子級(jí)別的Attention

Bootstrapping

可以去學(xué)模板

給定種子集合->發(fā)現(xiàn)Pattern->利用冗余性進(jìn)行頻率統(tǒng)計(jì)->歸納Pattern->將抽取出的Pattern去文檔集中匹配->根據(jù)Pattern抽取出信的文檔如種子庫(kù)儿普、迭代直到收斂為止

3、事件抽戎谰蟆:

多元關(guān)系抽取

事件描述->事件觸發(fā)->事件元素->元素角色

事件嵌套:

事件會(huì)發(fā)展眉孩,有跟蹤后續(xù)

通過(guò)更大事件集合嵌套小事件

pipeline

事件識(shí)別Trigger Classifier->元素抽取Argument Classifier->屬性分類(lèi)Role Classifier->可報(bào)告性判別Reportable-Event Classifier

性能會(huì)衰減

Joint Inference

構(gòu)建n個(gè)模型,集成學(xué)習(xí)

max(f1+f2+...+fn)

避免性能衰減

Joint Modeling

多任務(wù)學(xué)習(xí)勒葱,共享底層特征

避免性能衰減

動(dòng)態(tài)多池化層

擴(kuò)充語(yǔ)料:

FrameNet/從網(wǎng)絡(luò)獲取事件信息(多源整合獲得完整信息)

二浪汪、面向結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取

關(guān)系數(shù)據(jù)庫(kù)——shema+mapping——>KG

W3C標(biāo)準(zhǔn)Mapping languages:R2RML

工具:D2R/Virtuoso

直接映射direct mapping

關(guān)聯(lián)類(lèi)別->每一行形成三元組->外鍵對(duì)應(yīng)

沒(méi)辦法靈活定制

R2RML

OnTop

三、面向半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取

有一定結(jié)構(gòu)且相對(duì)好抽取

百科類(lèi)知識(shí)抽攘菟洹:

DBpedia

基于Wikimedia抽取

Generic Infobox Extraction(同義屬性不做映射)/Mapping-based Infobox Extraction(二次處理死遭,屬性對(duì)齊)

Web網(wǎng)頁(yè)數(shù)據(jù)抽取:包裝器生成

手工方法:

XPath表達(dá)式(XML路徑語(yǔ)言)/CSS選擇器表達(dá)式

手工方法/包裝器歸納/自動(dòng)抽取->生成包裝器->輸入網(wǎng)頁(yè)->輸出需要的信息

包裝器歸納:網(wǎng)頁(yè)輸入->網(wǎng)頁(yè)清洗->網(wǎng)頁(yè)標(biāo)注->Wrapper Space生成->Wrapper評(píng)估->輸出包裝器

包裝器評(píng)估:準(zhǔn)確率/召回率

自動(dòng)抽取:

包裝器訓(xùn)練/包裝器應(yīng)用

頁(yè)面比較后替換->形成包裝器

RoadRunner

Web tables

表格實(shí)體消歧:位于相同行/列的字符可能相關(guān),可以去做聯(lián)合的消歧

在線知識(shí)抽取:

Category(人工觀察分類(lèi))->命名規(guī)則方法->主語(yǔ)融合(同名不同實(shí)體/同實(shí)體不同名)->謂詞融合->賓語(yǔ)融合(單值屬性/多值屬性)->對(duì)infobox補(bǔ)全

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末凯旋,一起剝皮案震驚了整個(gè)濱河市呀潭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌至非,老刑警劉巖钠署,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異荒椭,居然都是意外死亡谐鼎,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)趣惠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)狸棍,“玉大人身害,你說(shuō)我怎么就攤上這事「糇海” “怎么了题造?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)猾瘸。 經(jīng)常有香客問(wèn)我界赔,道長(zhǎng),這世上最難降的妖魔是什么牵触? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任淮悼,我火速辦了婚禮,結(jié)果婚禮上揽思,老公的妹妹穿的比我還像新娘袜腥。我一直安慰自己,他們只是感情好钉汗,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布羹令。 她就那樣靜靜地躺著,像睡著了一般损痰。 火紅的嫁衣襯著肌膚如雪福侈。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天卢未,我揣著相機(jī)與錄音肪凛,去河邊找鬼。 笑死辽社,一個(gè)胖子當(dāng)著我的面吹牛伟墙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播滴铅,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼戳葵,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了汉匙?” 一聲冷哼從身側(cè)響起拱烁,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎盹兢,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體守伸,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡绎秒,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了尼摹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片见芹。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剂娄,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出玄呛,到底是詐尸還是另有隱情阅懦,我是刑警寧澤,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布徘铝,位于F島的核電站耳胎,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏惕它。R本人自食惡果不足惜怕午,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望淹魄。 院中可真熱鬧郁惜,春花似錦、人聲如沸甲锡。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)缤沦。三九已至虎韵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疚俱,已是汗流浹背劝术。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留呆奕,地道東北人养晋。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像梁钾,于是被迫代替她去往敵國(guó)和親绳泉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容