知識(shí)抽取任務(wù)定義和相關(guān)比賽
知識(shí)可以來(lái)自于關(guān)系型數(shù)據(jù)庫(kù)雅镊、外部的開(kāi)放知識(shí)圖譜的數(shù)據(jù)、客戶(hù)的日志等結(jié)構(gòu)化數(shù)據(jù)以及表格、關(guān)鍵詞豪嚎、引用等半結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)、多媒體數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)谈火。
Data acquisition->LD Dataset(Vocabulary Mapping->Interlinking->Cleansing->Integrated Dataset)->Access(Publishing->SPARQL Endpoint)->Application?
知識(shí)抽取技術(shù):
從不同來(lái)源侈询、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識(shí)提取,形成知識(shí)存入到KG
實(shí)體抽取
關(guān)系抽取
事件抽取
從結(jié)構(gòu)化數(shù)據(jù)庫(kù)中獲取知識(shí):D2R——復(fù)雜表數(shù)據(jù)的處理
從連接數(shù)據(jù)中獲取知識(shí):圖映射——數(shù)據(jù)對(duì)齊
從半結(jié)構(gòu)化(網(wǎng)站)數(shù)據(jù)中獲取知識(shí):使用包裝器——方便的包裝器定義方法糯耍,包裝器自動(dòng)生成扔字、更新與維護(hù)
從文本中獲取知識(shí):信息抽取——結(jié)果的準(zhǔn)確率與覆蓋率
子任務(wù):
命名實(shí)體識(shí)別:檢測(cè)/分類(lèi)
術(shù)語(yǔ)抽饶壹巍:從語(yǔ)料中發(fā)現(xiàn)多個(gè)單詞組成的相關(guān)術(shù)語(yǔ)
關(guān)系抽取:特定指二元關(guān)系
確定觸發(fā)詞->根據(jù)觸發(fā)詞下特定的槽抽取賓語(yǔ)
共指消解(主語(yǔ)的確定)
比賽:
MUC:
正規(guī)文本抽取
命名實(shí)體識(shí)別——NER
共指消解——CR
ACE:
對(duì)MUC融合革为、分類(lèi)扭粱、細(xì)化
實(shí)體檢測(cè)和識(shí)別——EDR——細(xì)化了實(shí)體分類(lèi)(person/organizations.....)
數(shù)值檢測(cè)與識(shí)別——VAL(百分比/錢(qián)/郵箱.......)
事件表達(dá)檢測(cè)與識(shí)別——TERN
關(guān)系檢測(cè)與識(shí)別——RDR
事件檢測(cè)與識(shí)別——VDR
KBP:
對(duì)ACE的進(jìn)一步修訂
實(shí)體發(fā)現(xiàn)與鏈接——EDL——需要知識(shí)庫(kù)中唯一URL去鏈接實(shí)體
槽填充——SF——事件/多元關(guān)系抽取,對(duì)于謂語(yǔ)填充主語(yǔ)和賓語(yǔ)
事件抽取——Event
信念和情感——BeSt——抽取知識(shí)的額外描述
整合任務(wù):端到端冷啟動(dòng)知識(shí)構(gòu)建——對(duì)數(shù)據(jù)層進(jìn)行學(xué)習(xí)和擴(kuò)充
SemEval:
國(guó)際權(quán)威的詞義消歧評(píng)測(cè)
一震檩、面向非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
1琢蛤、實(shí)體抽取:
抽取文本中的原子信息元素(person/organizations.....)
序列標(biāo)注方法:
人工特征(詞本身的特征/前后綴特征/字本身的特征)
IOB標(biāo)注體系:O(Others)/B-ORG(組織開(kāi)始字)/I-ORG(組織中間詞)....
HMM:隱馬爾科夫模型——有向圖模型/生成式模型/假設(shè)特征之間是獨(dú)立的
CRF:條件隨機(jī)場(chǎng)——無(wú)向圖模型/判別式模型/沒(méi)有關(guān)于特征之間是獨(dú)立的
LSTM+CRF:深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合
word embeddings->Bi-LSTM encoder->CRF Layer
實(shí)體識(shí)別與鏈接:
小白抛虏,我想聽(tīng)一首海闊天空(應(yīng)對(duì)新興實(shí)體)->rdf:type MuisicWork(處理大規(guī)模細(xì)粒度實(shí)體識(shí)別)->找到音樂(lè)KG中的內(nèi)容->執(zhí)行消歧->完成鏈接
文本->實(shí)體指稱(chēng)識(shí)別->候選實(shí)體生成->候選實(shí)體消歧->鏈接
開(kāi)源工具:
Wikipedia Miner
DBpedia Spotligth
OpenCalais
2博其、關(guān)系抽取:
信息抽取研究領(lǐng)域任務(wù)之一迂猴,從文本中抽取兩個(gè)或多個(gè)實(shí)體之間的語(yǔ)義關(guān)系
抽取元組->清理->融合->人工審核->KG
基于模板:
基于觸發(fā)詞的Pattern
基于依存句法分析的Pattern:以動(dòng)詞為起點(diǎn)慕淡,構(gòu)建規(guī)則,對(duì)節(jié)點(diǎn)上的詞性和邊上的依存關(guān)系進(jìn)行限定
監(jiān)督學(xué)習(xí):
確定實(shí)體對(duì)之后根據(jù)上下文對(duì)實(shí)體關(guān)系預(yù)測(cè)
輕量級(jí)特征——字
中等量級(jí)特征——詞組
重量級(jí)特征——句
Pipeline:
實(shí)體識(shí)別與關(guān)系分類(lèi)完全分離(串聯(lián))
CR-CNN(卷積神經(jīng)網(wǎng)絡(luò))
詞向量和位置向量作為輸入
F1=84.1
Att-CNN
調(diào)整權(quán)重
應(yīng)用注意力機(jī)制错忱,針對(duì)不同關(guān)系優(yōu)化
F1=88.0
Att-BLSTM
輸入層->embedding層->LSTM層->注意力層->輸出層
Joint Model:
實(shí)體識(shí)別與關(guān)系分類(lèi)的過(guò)程共同優(yōu)化(并聯(lián))儡率,實(shí)現(xiàn)全局的最優(yōu)化,但是參數(shù)空間會(huì)變大
LSTM-RNNs
Bi-LSTM->Bi-TreeLSTM(依存關(guān)系->依存樹(shù))->PHYS
半監(jiān)督學(xué)習(xí):
存在語(yǔ)義漂移
遠(yuǎn)程監(jiān)督:
從知識(shí)庫(kù)中抽取存在的關(guān)系的實(shí)體對(duì)->從非結(jié)構(gòu)化的文本中抽取含有實(shí)體對(duì)的句子作為訓(xùn)練樣例
PCNNs
piecewise max-pooling:實(shí)體分為幾段做maxpooling以清,刻畫(huà)更精準(zhǔn)
多實(shí)例學(xué)習(xí):找到處理句中實(shí)體同時(shí)出現(xiàn)且句型相似的句子做句子級(jí)別的Attention
Bootstrapping
可以去學(xué)模板
給定種子集合->發(fā)現(xiàn)Pattern->利用冗余性進(jìn)行頻率統(tǒng)計(jì)->歸納Pattern->將抽取出的Pattern去文檔集中匹配->根據(jù)Pattern抽取出信的文檔如種子庫(kù)儿普、迭代直到收斂為止
3、事件抽戎谰蟆:
多元關(guān)系抽取
事件描述->事件觸發(fā)->事件元素->元素角色
事件嵌套:
事件會(huì)發(fā)展眉孩,有跟蹤后續(xù)
通過(guò)更大事件集合嵌套小事件
pipeline
事件識(shí)別Trigger Classifier->元素抽取Argument Classifier->屬性分類(lèi)Role Classifier->可報(bào)告性判別Reportable-Event Classifier
性能會(huì)衰減
Joint Inference
構(gòu)建n個(gè)模型,集成學(xué)習(xí)
max(f1+f2+...+fn)
避免性能衰減
Joint Modeling
多任務(wù)學(xué)習(xí)勒葱,共享底層特征
避免性能衰減
動(dòng)態(tài)多池化層
擴(kuò)充語(yǔ)料:
FrameNet/從網(wǎng)絡(luò)獲取事件信息(多源整合獲得完整信息)
二浪汪、面向結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
關(guān)系數(shù)據(jù)庫(kù)——shema+mapping——>KG
W3C標(biāo)準(zhǔn)Mapping languages:R2RML
工具:D2R/Virtuoso
直接映射direct mapping
關(guān)聯(lián)類(lèi)別->每一行形成三元組->外鍵對(duì)應(yīng)
沒(méi)辦法靈活定制
R2RML
OnTop
三、面向半結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取
有一定結(jié)構(gòu)且相對(duì)好抽取
百科類(lèi)知識(shí)抽攘菟洹:
DBpedia
基于Wikimedia抽取
Generic Infobox Extraction(同義屬性不做映射)/Mapping-based Infobox Extraction(二次處理死遭,屬性對(duì)齊)
Web網(wǎng)頁(yè)數(shù)據(jù)抽取:包裝器生成
手工方法:
XPath表達(dá)式(XML路徑語(yǔ)言)/CSS選擇器表達(dá)式
手工方法/包裝器歸納/自動(dòng)抽取->生成包裝器->輸入網(wǎng)頁(yè)->輸出需要的信息
包裝器歸納:網(wǎng)頁(yè)輸入->網(wǎng)頁(yè)清洗->網(wǎng)頁(yè)標(biāo)注->Wrapper Space生成->Wrapper評(píng)估->輸出包裝器
包裝器評(píng)估:準(zhǔn)確率/召回率
自動(dòng)抽取:
包裝器訓(xùn)練/包裝器應(yīng)用
頁(yè)面比較后替換->形成包裝器
RoadRunner
Web tables
表格實(shí)體消歧:位于相同行/列的字符可能相關(guān),可以去做聯(lián)合的消歧
在線知識(shí)抽取:
Category(人工觀察分類(lèi))->命名規(guī)則方法->主語(yǔ)融合(同名不同實(shí)體/同實(shí)體不同名)->謂詞融合->賓語(yǔ)融合(單值屬性/多值屬性)->對(duì)infobox補(bǔ)全