一阱高、什么是知識圖譜
-
知識圖譜從現(xiàn)實世界抽象出概念、實體及其關系,以結(jié)構(gòu)化的形式進行描述。
- 實體:現(xiàn)實世界的事物
- 概念:對于想同你屬性事物的概括和抽象
-
知識圖譜可看作本體知識表示的大規(guī)模應用晶渠,本體是知識圖譜知識表示的基礎可形式化為
- C是概念集合凰荚,如事物性概念和事件類概念
- H是概念的上下位關系集合,也稱Taxonomy知識
- P是屬性集合褒脯,描述概念具有的特征
- A是規(guī)則集合便瑟,描述領域規(guī)則
- I是實例集合,用來描述實例-屬性-值
- 知識圖譜技術包括知識圖譜的構(gòu)建番川、知識圖譜的查詢與推理和知識圖譜的應用到涂,是語義網(wǎng)、自然語言處理和機器學習等的交叉學科爽彤。
二养盗、知識圖譜的構(gòu)建
-
知識圖譜的構(gòu)建大致可分為以下五部分:知識表示與建模、知識表示學習适篙、實體識別與鏈接、實體關系學習和事件知識學習箫爷。
- 知識圖譜的知識表示:從現(xiàn)實世界中抽象出概念嚷节、實體及其關系,以結(jié)構(gòu)化的形式進行描述虎锚,表達成計算機可存儲和計算的結(jié)構(gòu)硫痰。(主要是對互聯(lián)網(wǎng)信息的抽象)
- 知識表示學習:面向知識庫的實體和關系進行表示學習,將實體和關系表示為稠密的低維向量窜护,進行實體和關系語義信息的分布式表示效斑。
- 【核心】實體識別與鏈接:實體識別是識別出文本指定類別的實體;實體鏈接(也稱實體提及)是識別出文本中提及實體的詞或短語柱徙,并于知識庫中對應實體進行鏈接缓屠。
- 實體關系學習(也稱關系抽取):自動從文本中檢測和識別出實體之間具有的某種語義關系护侮。
- 事件知識學習:對非結(jié)構(gòu)化文本中自然語言所表達的事件抽象為結(jié)構(gòu)化的形式敌完。
1、知識表示與建模
(1)知識表示
-
知識表示是現(xiàn)實世界的可計算模型羊初,將現(xiàn)實世界中各類知識表達成計算機可存儲和計算的結(jié)構(gòu)滨溉。
- 如神經(jīng)網(wǎng)絡可以看作一種知識表示形式。人工智能的核心是研究怎樣用計算機易于處理的方式表示长赞、學習和處理各種各樣的知識晦攒。
-
知識表示的五大特點:
- 客觀事物的機器標示:即知識表示首先需要定義客觀實體的機器指代或指稱。
- 一組本體約定和概念模型:即知識表示還需要定義用于描述客觀事物的概念和類別體系得哆。
- 支持推理的表示基礎:即知識表示還需要提供機器推理的模型與方法脯颜。
- 用于高效計算的數(shù)據(jù)結(jié)構(gòu):即知識表示也是一種用于高效計算的數(shù)據(jù)結(jié)構(gòu)。
- 人可理解的機器語言:即知識表示還必須接近于人認知柳恐,是人可理解的機器語言伐脖。
- 知識表示的研究由來已久热幔,大致分為基于(離散)符號邏輯和基于(連續(xù))向量的知識表示方法。
(2)知識圖譜的表示
- 知識圖譜的知識表示就可以理解為從現(xiàn)實世界中抽象出概念讼庇、實體及其關系绎巨,以結(jié)構(gòu)化的形式進行描述,表達成計算機可存儲和計算的結(jié)構(gòu)蠕啄。(主要是對互聯(lián)網(wǎng)信息的抽象)
-
知識圖譜的知識表示方法就可以分為基于符號和基于向量的知識表示方法场勤。
- 基于符號的知識表示:優(yōu)點是基于顯性知識表示,表示能力強歼跟,能處理較為復雜的知識結(jié)構(gòu)和媳,具有可解釋性,并支持復雜的推理哈街。
- 基于向量的知識表示:優(yōu)點是易于捕獲隱性知識留瞳,并易于與深度學習模型集成;缺點是對復雜知識結(jié)構(gòu)的支持不夠骚秦,可解釋性差她倘,不能支持復雜推理。
-
知識圖譜對規(guī)模具有擴展性需求作箍,從而使得知識表示方法具有如下四個方面的變化:
- 從強邏輯表達轉(zhuǎn)化為輕語義表達硬梁;
- 從較為注重TBox概念型知識轉(zhuǎn)化為更加注重ABox事實型知識;
- 從以推理為主要應用目標轉(zhuǎn)化為綜合搜索胞得、問答荧止、推理、分析等多方面的應用目標阶剑;
- 從以離散的符號邏輯表示向以連續(xù)的向量空間表示方向發(fā)展跃巡。
基于符號的知識圖譜表示方法
- 目前大多數(shù)知識圖譜的實際存儲方式都是以傳統(tǒng)符號化的表示方法為主。大多數(shù)開放域的知識圖譜都是基于語義網(wǎng)的表示模型進行了擴展或刪改个扰,語義網(wǎng)是符號知識表示框架和方法的一種瓷炮。下面介紹幾種基于符號的知識圖譜表示方法。
-
RDF——最常用的符號語義表示模型
- 基本模型為有向標記圖递宅。
- 圖上每條邊對應于一個三元組(Subject-主語娘香,Predecate-謂語,Object-賓語)办龄,一個三元組對于一個邏輯表達式或關于世界的陳述烘绽。
-
RDFS——對RDF進行模式層定義擴展
- RDF定義了描述客觀世界事實的基本框架,但缺少類俐填、屬性等模式層的定義手段安接。
- RDFS主要用于定義術語集、類集合和屬性集合英融,主要包括如下元語:Class, subClassOf, type, Property, subPropertyOf, Domain, Range等盏檐⌒剑基于這些簡單的表達構(gòu)件可以構(gòu)建最基本的類層次體系和屬性體系。
-
OWL——對RDFS進行類和屬性約束表示能力擴展
- OWL以描述邏輯為主要基礎胡野。
- OWLW主要在RDFS基礎之上擴展了表示類和屬性約束的表示能力材失,從而可以構(gòu)建更為復雜而完備的本體。
- 擴展的本體表達能力包括:復雜類表達 Complex Classes硫豆、屬性約束 Property Restrictions龙巨、基數(shù)約束 Cardinality Restrictions 、屬性特征 Property Characteristics
基于向量的知識圖譜表示學習模型
- 依據(jù)知識圖譜嵌入表示模型建模原理將基于向量的知識表示模型劃分為翻譯模型熊响、組合模型和神經(jīng)網(wǎng)絡模型旨别。
-
翻譯模型
- 靈感來自word2vec中詞匯關系的平移不變性
- 典型方法包括基于向量的三角形法則和范數(shù)原理的TransE模型,通過超平面轉(zhuǎn)化或線性變換處理多元關系的TransH汗茄、TransR和TransD模型秸弛,通過增加一個稀疏度參數(shù)向量解決異構(gòu)多元關系的TransSparse模型。
-
組合模型
- 采用向量的線性組合和點積原理剔难,典型特征是將實體建模為列向量胆屿、關系建模為矩陣,然后通過頭實體向量與關系矩陣的線性組合偶宫,再與尾實體進行點積來計算打分函數(shù)。
- 經(jīng)典成員包括采用普通矩陣的 RESCAL环鲤、采用低秩矩陣的 LFM纯趋、采用對角矩陣的 DistMult 和采用循環(huán)矩陣的 HolE。
-
神經(jīng)網(wǎng)絡模型
- 采用神經(jīng)網(wǎng)絡擬合三元組冷离。
- 典型模型包括采用單層線性或雙線性網(wǎng)絡的 SME吵冒、采用單層非線性網(wǎng)絡的 SLM、NTN 和 MLP西剥,以及采用多層網(wǎng)絡結(jié)構(gòu)的 NAM 痹栖。
常見的知識庫以及知識圖譜的知識表示方法
常見知識庫
-
Cyc
- 最初目標是要建立人類最大的常識知識庫。
- 知識表示框架主要由術語Terms和斷言Assertions組成瞭空。Terms包含概念揪阿、關系和實體的定義;Assertions用來建立Terms直接按的關系谋减,既包括事實Fact描述屿岂,也包含規(guī)則Rules的描述夯膀。
- 主要特點是基于形式化的知識表示方法來刻畫知識,采用形式化的謂詞邏輯溺健,形式化的優(yōu)點是可支持復雜的推理,缺點是影響知識庫的擴展性和靈活性钮蛛。
-
WordNet
- 著名的詞典知識庫鞭缭,主要用于詞義消歧剖膳。
- 知識表示框架主要定義了名詞、動詞岭辣、形容詞和副詞之間的語義關系(如名詞的上下位關系吱晒、動詞的蘊含關系等),側(cè)重詞與詞之間的關系易结。
-
ConceptNet
- 一種常識知識庫枕荞。
- 主要依靠互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲三種方法來創(chuàng)建搞动。
- 知識庫以三元組形式的關系型知識構(gòu)成躏精。
- 與Cyc相比,ConceptNet采用了非形式化鹦肿、更加接近自然語言的描述矗烛;與鏈接數(shù)據(jù)和谷歌知識圖譜相比,Concept比較側(cè)重于詞與詞之間的關系箩溃,但比WordNet包含的關系類型多瞭吃。
-
ConceptNet5
- 知識表示框架主要包含如下要素:概念-Concepts、詞-Words涣旨、短語-Phrases歪架、斷言-Assertion、關系-Relations霹陡、邊-Edges和蚪。
- Concepts由Words或Phrases組成,構(gòu)成了圖譜中的節(jié)點烹棉,不同于其他知識圖譜的節(jié)點攒霹,這些Concepts通常從自然語言文本中提取,更接近自然語言描述浆洗。
- Assertions描述了Concepts之間的關系催束,類似于RDF的Statements。
- Edges類似于RDF中的Property伏社,一個Concepts包含多條邊抠刺,而一條邊可能有多個產(chǎn)生來源,來源越多洛口,該斷言越可靠矫付,根據(jù)來源的多少和可靠程度可計算每個斷言的置信度。
語義網(wǎng)與知識圖譜
- 以互聯(lián)網(wǎng)資源為基礎的新一代知識庫第焰,這類知識庫的構(gòu)建方法可以分為三類:互聯(lián)網(wǎng)眾包买优、專家協(xié)作和互聯(lián)網(wǎng)挖掘。
-
Freebase
- 一個開放共享的、協(xié)同構(gòu)建的大規(guī)模數(shù)據(jù)庫杀赢,主要采用社區(qū)成員協(xié)作方式構(gòu)建烘跺。
- 基于RDF三元組模型,底層采用圖數(shù)據(jù)庫進行存儲脂崔。
- 特點是不對頂層本體做非常嚴格的控制滤淳,用戶可創(chuàng)建和編輯類和關系的定義。
- 知識表示框架主要包含如下要素:對象-Object砌左、事實-Facts脖咐、類型-Types和屬性-Properties。
- Object代表實體汇歹,每個Object有唯一ID(稱MID)屁擅,一個Object可以有一個或多個Types。Properties用來描述Facts产弹。Freebase采用復合值類型處理多元關系派歌,為了區(qū)別,把非復合值類型的Object也稱為Topic痰哨。
-
DBPedia
- 意指數(shù)據(jù)庫版本的Wikipedia胶果,是從Wikipedia抽取出來的鏈接數(shù)據(jù)集。
- 采用一個較為嚴格的主體斤斧,包含各種具體類的定義早抠,與Freebase、OpenCYC撬讽、Bio2RDF等多個數(shù)據(jù)集建立了數(shù)據(jù)連接贝或,采用RDF語義數(shù)據(jù)模型。
-
Schema.org
- 支持各個網(wǎng)站采用語義標簽的方式將語義化的鏈接數(shù)據(jù)嵌入到網(wǎng)頁中锐秦,搜索引擎自動搜索和歸集,快速從網(wǎng)頁中抽取語義化的數(shù)據(jù)盗忱。
- 提供一個詞匯本體用于描述這些語義標簽酱床。
-
WikiData
- 目標是構(gòu)建一個免費開放、多語言趟佃、任何人或機器都可以編輯修改的大規(guī)模鏈接數(shù)據(jù)庫扇谣。
- 支持以三元組為基礎的知識條目的自由編輯,一個三元組代表一個關于該條目的陳述闲昭。
- 知識表示框架主要包含如下要素:頁面-Pages罐寨、實體-Entities、條目-Items序矩、屬性-Properties鸯绿、陳述-Statement、修飾-Qualifiers、引用-Reference等瓶蝴。
- 起源于Wikipedia毒返,與Wikipedia一樣,以頁面Pages為基本組織單元舷手,Entities類似于OWL:Things拧簸,代指最頂層的對象,每個Entities都有一個獨立的Wiki頁面男窟。Entities主要有兩類:Items和Properties盆赤。Item、Properties和Statement分別對應RDF的實例Instance歉眷、Property和Statement牺六。通常一個Item的頁面還包括多個別名-aliases和多個指向維基百科的外部鏈接-Sitelinks。每個Entitiees有多個Statement姥芥,一個Statement包含:一個Property兔乞、一個或多個Values、一個或多個Qualifiers凉唐、一個或多個References庸追、一個標示重要性程度的Rank。修飾-Qualifiers用于處理復雜的多元表示台囱。引用-References用于標識每個陳述的來源或出處(引用也是一種Qualifiers淡溯,通常加到Statements的附加信息中)
- WikiData支持多種數(shù)值類型,包括:其自有的 Item 類型簿训、RDF Literal咱娶、URL、媒體類型 Commons Media 和三種復雜類型:Time强品、Globe coordinates 和 Quantity膘侮。
- WikiData 允許給每個 Statement 增加三種權重:normal(缺省)的榛,preferred 和 deprecated琼了。
- WikiData 定義了三種 Snacks 作為Statement 的 具 體 描 述 結(jié) 構(gòu) : PropertyValueSnack 、 PropertyNoValueSnack 夫晌、PropertySomeValueSnack雕薪。“PropertyNoValueSnack”類似于 OWL 中的“Negation”晓淀,用于表示類似于 ““Elizabeth I of England had no spouse.” 的知識所袁。“PropertySomeValueSnack’類似于 OWL 中的存在量詞“someValuesFrom”凶掰,用于表示類似于“Pope Linus had a date of birth, but it is unknown to us”這樣的知識燥爷。
- WikiData 的 URI 機制遵循了 Linked Open Data 的 URI 原則蜈亩,采用統(tǒng)一的 URI 機制。
總結(jié)
- 知識表示是現(xiàn)實世界的可計算模型局劲。
- 現(xiàn)代知識圖譜由于要滿足規(guī)纳准穑化的擴建需求,大多降低了對強邏輯表達的要求鱼填,并以三元組為基礎的關系型知識為主药有。并更多地關注實例層面的知識構(gòu)建。
- 另一方面由于知識圖譜是很多搜索苹丸、問答和大數(shù)據(jù)分析系統(tǒng)的重要知識基礎愤惰,基于向量的知識圖譜表示使得這些數(shù)據(jù)更加易于與深度學習模型集成,使得基于向量空間的知識圖譜表示得到越來越多的重視赘理。
- 知識圖譜表示一個重要研究趨勢是:把符號邏輯與表示學習結(jié)合起來研究更加魯棒宦言、易于捕獲隱含知識、易于與深度學習集成商模、并適應大規(guī)模知識圖譜應用的新型表示框架是奠旺。為此需要較好地平衡符號邏輯的表示能力和表示學習模型的復雜性,一方面要能處理結(jié)構(gòu)多樣性施流、捕獲表達控件的語義和支持較為復雜的推理响疚,另一方面又要求學習模型的復雜性低。
2瞪醋、知識表示學習
(1)知識表示與表示學習
- 知識表示是知識獲取與應用的基礎忿晕。
- 人們通常以網(wǎng)絡的形式組織知識庫中的知識,網(wǎng)絡中每個節(jié)點代表實體银受,每條連邊代表實體間的關系践盼,基于網(wǎng)絡形式的知識表示主要面臨計算效率問題和數(shù)據(jù)稀疏問題。
- 計算效率問題宾巍。專門的圖算法存在可移植性差的問題咕幻,更重要的,基于圖算法計算復雜度高顶霞,可擴展性差谅河,知識庫規(guī)模達到一定規(guī)模就很難較好滿足實時計算的需求。
- 數(shù)據(jù)稀疏問題确丢。大規(guī)模知識庫與其他類型的大規(guī)模數(shù)據(jù)類似,遵守長尾分布吐限,在長尾部分的實體和關系上鲜侥,面臨著嚴重的數(shù)據(jù)稀疏問題。
- 表示學習旨在將研究對象的語義信息表示為稠密低維實值向量诸典。在該低維向量空間中描函,兩個對象距離越近,說明其語義相似度越高。
(2)知識表示學習
- 知識表示學習是面向知識庫中的實體和關系進行表示學習舀寓,通過將實體或關系投影到低維向量空間胆数,實現(xiàn)對實體和關系的語義信息的分布式表示。
- 知識表示學習優(yōu)點是可以顯著提升計算效率互墓、有效緩解數(shù)據(jù)稀疏和實現(xiàn)異質(zhì)信息融合必尼。
- 顯著提升計算效率。知識庫的三元組表示實際就是基于獨熱表示的篡撵,而表示學習得到的分布式表示判莉,則能夠高效地實現(xiàn)語義相似度計算等操作,顯著提升計算效率育谬。
- 有效緩解數(shù)據(jù)稀疏券盅。表示學習將對象投影到統(tǒng)一的低維空間中,使每個對象均對應一個稠密向量膛檀,從而有效緩解數(shù)據(jù)稀疏問題锰镀,一方面每個對象向量稠密有值,可以度量任意對象之間的語義相似程度咖刃,另一方面可將高頻對象的語義信息用于幫助低頻對象的語義表示泳炉,提高低頻對象語義表示的精確性。
- 實現(xiàn)異質(zhì)信息融合僵缺。不同來源的異質(zhì)信息需要融合為整體才能得到應用胡桃,通過涉及合理的學習模型,將不同來源的對象投影到同一個語義空間中磕潮,就能夠建立統(tǒng)一表示空間翠胰,實現(xiàn)多知識庫的融合和異質(zhì)對象之間的語義關聯(lián)計算。
- 如今知識表示學習主要面臨復雜關系建模自脯、多元信息融合和關系路徑建模的挑戰(zhàn)之景。
- 復雜關系建模:復雜關系定義如下,按照知識庫中關系兩端連接實體的數(shù)目膏潮,可以將關系劃分為1-1锻狗、1-N、N-1和N-N四種類型焕参。將后三種關系稱為復雜關系轻纪。
- 多源信息融合:現(xiàn)有的知識表示學習模型僅利用知識圖譜的三元組結(jié)構(gòu)信息進行表示學習,尚有大量與知識有關的其他信息沒有得到有效利用叠纷。一是知識庫中的其他信息刻帚,如實體和關系的描述信息、類別信息等涩嚣;二是知識庫外的海量信息崇众,如互聯(lián)網(wǎng)文本蘊含了大量與知識庫實體和關系有關的信息掂僵。
- 關系路徑建模。關系路徑蘊含著豐富的信息顷歌,突破知識表示學習孤立學習每個三元組的局限性锰蓬,充分考慮關系路徑信息。
- 知識表示學習的未來方向會是面向不同知識類型的知識表示學習眯漩、多源信息融合的知識表示學習芹扭、考慮復雜推理模式的知識表示學習、面向大規(guī)模數(shù)據(jù)庫的在線學習和快速學習坤塞、基于知識分布式表示的應用冯勉。
- 面向不同知識類型的知識表示學習:對知識庫的關系劃分為 1-1、1-N摹芙、N-1 和 N-N 四類灼狰,無法直觀地解釋知識的本質(zhì)類型特點。認知科學對人類知識類型進行總結(jié)為樹狀關系(表示實體間的層次分類關系)浮禾、二維網(wǎng)格關系(表示現(xiàn)實世界的空間信息)交胚、單維順序關系(表示實體間的偏序關系)、有向網(wǎng)絡關系(表示實體間的關聯(lián)或因果關系)盈电。
- 多源信息融合的知識表示學習:主要考慮實體描述的知識表示學習模型蝴簇,以及文本與知識庫融合的知識表示學習。在多源信息融合的知識表示學習方面匆帚,還可對下列方面進行探索:(1)融合知識庫中實體和關系的其他信息(如描述文本熬词、層次類型等)(2)融合互聯(lián)網(wǎng)信息(如文本、圖像吸重、音頻互拾、視頻信息等)(3)融合多知識庫信息。
- 考慮復雜推理模式的知識表示學習:充分利用兩實體間的關系和關系路徑之間的推理模式嚎幸,來為表示學習模型提供更精確的約束信息颜矿。實際上,關系路徑只是復雜推理模式中的一種特殊形式嫉晶,要求頭實體和尾實體必須保持不變骑疆,具有局限性。如何總結(jié)和表示復雜推理模式替废、探索一階邏輯的分布式表示并融合到知識表示學習中箍铭,是關鍵難題。
- 面向大規(guī)模數(shù)據(jù)庫的在線學習和快速學習:大規(guī)模知識庫稀疏性很強椎镣,需要設計高效的在線學習方案坡疼。除了充分融合多源信息降低稀疏性之外,還可以探索如何優(yōu)化表示學習的方式衣陶,借鑒課程學習和遷移學習等算法思想柄瑰,進一步改善知識表示的效果。
- 基于知識分布式表示的應用:知識表示學習還處于起步階段剪况,在知識獲取教沾、融合和推理等方向均有廣闊的應用空間,需要在若干重要任務上探索和驗證知識表示學習的有效性译断。目前授翻,知識分布式表示的作用已經(jīng)在信息抽取、自動問答孙咪、信息檢索堪唐、推薦系統(tǒng)中得到初步驗證,未來還需再更多任務上進行更加深入的探索翎蹈。
復雜關系建模
-
TransE系列
知識表示學習的代表模型淮菠。模型簡單,在大規(guī)模知識圖譜上效果明顯荤堪,但模型過于簡單合陵,處理復雜關系效果不好。
將知識庫中的關系看作實體間的某種平移向量澄阳。
與以往模型相比拥知,TransE模型參數(shù)較少,碎赢,計算復雜度低低剔,能直接建立實體和關系之間的復雜語義練習。
TransH:為解決TransE模型在處理1-N肮塞、N-1襟齿、N-N復雜關系時的局限性,提出讓一個實體在不同關系下用于不同表示峦嗤。
TransR:進一步認為不同的關系擁有不同的語義空間蕊唐,對每個三元組應首先將實體利用矩陣投影到對應關系空間,再建立從頭實體到尾實體的翻譯關系烁设。針對在知識庫中實體的異質(zhì)性和不平衡性替梨,還有TransR中矩陣參數(shù)過多的問題。
TransD和TranSpace:對TransR模型中的投影矩陣進一步優(yōu)化装黑。
TransG和KG2E:提出利用高斯分布來表示知識庫中的實體和關系副瀑,可在表示過程中考慮實體和關系本身語義上的不確定性。
多源信息融合
- 現(xiàn)有的知識模型僅利用知識圖譜的三元組結(jié)構(gòu)信息進行表示學習恋谭,尚有大量與知識有關的其他信息沒有得到有效利用糠睡。充分融合多元異質(zhì)信息,實現(xiàn)知識表示學習疚颊,可以改善數(shù)據(jù)稀疏問題狈孔,提高知識表示的區(qū)分能力信认。
-
考慮實體描述的知識表示學習模型DKRL
- 在知識學習中考慮Freebase等知識庫中提供的實體描述文本信息。
- 在文本方面DKRL考慮了CBOW和卷積神經(jīng)網(wǎng)絡兩種模型均抽,CBOW將文本中的詞向量簡單相加作為文本表示嫁赏,優(yōu)勢在于除了能提升實體表示的區(qū)分能力外,還能實現(xiàn)對新實體的表示油挥;卷積神經(jīng)網(wǎng)絡能夠考慮文本中的詞序信息潦蝇。
-
考慮文本數(shù)據(jù)的知識表示學習
- 實現(xiàn)文本與知識庫融合的表示學習。
- 利用word2vec學習維基百科中的詞表示深寥,利用TransE學習知識庫中的知識表示攘乒,然后利用維基百科正文中的鏈接信息(錨文本與實體的對應關系),讓文本中實體對應的詞表示與知識庫中的實體盡可能接近惋鹅。
- 這種方法也可用于融合實體描述學習则酝。
關系路徑建模
- 知識圖譜中多步的關系路徑能反映實體之間的語義關系。
- 對關系路徑進行建模负饲,關系路徑的表示學習也被用來進行基于知識庫的自動問答堤魁。
-
PTransE
- 以TransE為擴展基礎,TransE等模型孤立學習每個三元組具有局限性返十。
- 實驗表明妥泉,考慮關系路徑能極大提升知識表示學習鞥帶區(qū)分性,提高在知識圖譜補全等任務上的性能洞坑。
3盲链、實體識別與鏈接
- 實體是文本中承載信息的重要語言單位,一段文本的語義可以表述為其包含的實體及這些實體相互之間的關聯(lián)和交互迟杂。
- 實體是知識圖譜的核心單元刽沾,一個知識圖譜通常是一個以實體為節(jié)點的巨大知識網(wǎng)絡,包括實體排拷、實體屬性以及實體之間的關系侧漓。
- 實體分為限定類別的實體(如常用的人名、地名监氢、組織機構(gòu)等)以及開放類別實體(如藥物名稱布蔗、疾病等名稱)。
- 實體識別是識別文本中指定類別的實體浪腐,是文本意義理解的基礎纵揍。
- 命名實體識別是指識別文本中的命名性實體,并將其劃分到指定類別的任務议街。
- 實體鏈接是識別出文本中提及實體的詞或者短語(稱實體提及)泽谨,并于知識庫中對應實體進行鏈接(也通常稱為實體消歧),即將文本中的實體名指向其代表的真實世界的任務,主要解決實體名的歧義性和多樣性問題吧雹。
-
實體識別與鏈接是海量文本分析的核心技術骨杂,為解決信息過載提供了有效手段,作為知識圖譜的基本單元雄卷,實體識別與鏈接是知識圖譜構(gòu)建和補全的核心技術腊脱。
- 實體識別技術檢測文本中的新實體,并將其加入到現(xiàn)有知識庫中龙亲。
- 實體鏈接技術通過發(fā)現(xiàn)現(xiàn)有實體再文本中的不同出現(xiàn),可以針對性地發(fā)現(xiàn)關于特定實體地新知識悍抑。
- 實體識別與鏈接的研究將為計算機類人推理和自然語言理解提供知識基礎鳄炉。
-
實體識別與鏈接處理各種非結(jié)構(gòu)化/半結(jié)構(gòu)化的輸入(如文本、新聞網(wǎng)頁搜骡、商品頁面拂盯、微博、論壇頁面等)记靡,使用多種技術(統(tǒng)計方法谈竿、深度學習方法、知識挖掘方法)摸吠,提取各種類型的實體(如人名空凸、地名、商品寸痢、藥物等)呀洲,并將這些信息與現(xiàn)有知識圖譜進行集成(實體鏈接)。
- 實體識別啼止。命名實體識別的目的是識別文本中指定類別的實體道逗。命名實體識別系統(tǒng)通常包含兩個部分:實體邊界識別和實體分類。其中實體邊界識別判斷一個字符串是否組成一個完整實體献烦,而實體分類將識別出的實體劃分成到預先給定的不同類別中滓窍。命名實體識別的難點在于表達不規(guī)律、且缺乏訓練預料的開放域命名實體識別巩那。
- 實體鏈接枫耳。實體鏈接的目的是將實體提及與知識庫中對應實體進行鏈接扔枫。一個實體鏈接系統(tǒng)包括如下研究內(nèi)容:(1)識別文檔中的目標提及;(2)針對每一個提及,識別該提及在知識圖譜中可能指向的候選目標實體忧侧; (3)基于提及的上下文等信息對目標實體進行排序;(4)空提及檢測與聚類挣菲。
- 概括來說贮喧,實體分析任務主要面臨以下幾個關鍵科學問題:實體名的歧義性和多樣性、資源缺乏問題和實體的開放性問題舔庶。
- 目前已經(jīng)有許多方法被提出用于實體識別和鏈接抛蚁。根據(jù)模型的不同陈醒,實體分析方法可以分為基于統(tǒng)計模型的方法、基于深度學習的方法和基于文本挖掘的方法瞧甩;根據(jù)對監(jiān)督知識的依賴钉跷,可以劃分為無監(jiān)督方法、弱監(jiān)督方法肚逸、知識監(jiān)督方法和有監(jiān)督方法爷辙。
- 實體識別的發(fā)展方向包括:融合先驗知識的深度學習模型、資源缺乏環(huán)境下的實體分析技術朦促、面向開放域的可擴展實體分析技術等膝晾。
- 融合先驗知識的深度學習模型:一方面,之前的傳統(tǒng)統(tǒng)計模型中已經(jīng)證明許多先驗知識對于實體識別和鏈接任務的有效性务冕;另一方面血当,現(xiàn)有深度模型在進行實體分析時仍然是一個黑箱模型,導致其可解釋性不強禀忆,且難以采用增量的方式構(gòu)建模型臊旭。
- 資源缺乏環(huán)境下的實體分析技術:目前,絕大部分實體分析研究集中在構(gòu)建更精準的模型和方法箩退,這些方法通常面向預先定義好的實體類別离熏,使用標注語料訓練模型參數(shù)。然而乏德,在構(gòu)建真實環(huán)境下的信息抽取系統(tǒng)時撤奸,這些有監(jiān)督方法往往具有如下不足:1)現(xiàn)有監(jiān)督模型在更換語料類型之后,往往會有一個大幅度的性能下降喊括;2)現(xiàn)有監(jiān)督模型無法分析目標類別之外的實體胧瓜;3)現(xiàn)有監(jiān)督模型依賴于大規(guī)模的訓練語料來提升模型性能。相關研究方向包括:構(gòu)建遷移學習技術郑什,充分利用已有的訓練語料府喳;研究自學習技術,在極少人工干預下構(gòu)建高性能的終生學習信息抽取系統(tǒng)蘑拯; 研究增量學習技術钝满,自動的重用之前的信息抽取模塊,使得不同資源可以逐步增強申窘,而不是每次都重頭開始訓練弯蚜;研究無監(jiān)督/半監(jiān)督/知識監(jiān)督技術,探索現(xiàn)有有監(jiān)督學習技術之外的有效手段剃法,解決標注語料瓶頸問題碎捺。
- 面向開放域的可擴展實體分析技術:現(xiàn)有實體分析系統(tǒng)往往針對新聞文本,對其它情境下的研究不足。構(gòu)建面向開放域的可擴展實體分析技術收厨,具體包括:1)數(shù)據(jù)規(guī)模上的可擴展性:信息抽取系統(tǒng)需要能夠高效的處理海量規(guī)模的待抽取數(shù)據(jù)晋柱;2)數(shù)據(jù)源類型上的可擴展性:信息抽取系統(tǒng)需要能夠在面對不同類型數(shù)據(jù)源時取得魯棒的性能;3)領域的可擴展性:信息抽取系統(tǒng)需要能夠方便的從一個領域遷移到另一個領域诵叁;4)上下文的可擴展性:實體分析系統(tǒng)需要能夠處理不同的上下文雁竞,并針對不同上下文的特定自適應的改進自身。
傳統(tǒng)統(tǒng)計模型方法
- 實體識別拧额。基于統(tǒng)計模型的方法通常將實體識別任務形式化為文本輸入到特定目標結(jié)構(gòu)的預測碑诉,使用統(tǒng)計模型來建模輸入與輸入之間的關聯(lián),并使用機器學習方法來學習模型的參數(shù)侥锦。
- 實體鏈接联贩。實體鏈接的核心是計算實體提及和知識庫中實體的相似度,并基于上述相似度選擇特定實體提及的目標實體捎拯。上述過程的核心再與挖掘可用于識別提及目標實體相互關聯(lián)的證據(jù)信息,將這些證據(jù)表示為供計算機處理的形式盲厌,并構(gòu)建高性能的算法來綜合不同的證據(jù)進行鏈接決策署照。目前主要使用的證據(jù)信息包括實體統(tǒng)計信息、名字統(tǒng)計信息吗浩、上下文詞語分布建芙、實體關聯(lián)度、文章主體等信息懂扼。同時考慮到一段文本中實體之間的相互關聯(lián)禁荸,相關的全局推理算法也被提出來尋找全局最優(yōu)決策。
- 傳統(tǒng)統(tǒng)計模型的主要缺點在于需要大量的標注語料來學習阀湿,這導致構(gòu)建開放域或Web環(huán)境下的信息抽取系統(tǒng)時往往會遇到標注語料瓶頸赶熟。為解決上述問題,近年來已經(jīng)開始研究高效的弱監(jiān)督或無監(jiān)督策略陷嘴,如半監(jiān)督算法映砖、遠距離監(jiān)督算法、基于海量數(shù)據(jù)冗余性的自學習方法等等灾挨。
- 傳統(tǒng)統(tǒng)計模型的另外一個缺點是其需要人工構(gòu)建大量的特征邑退,其訓練并非一個端到端的過程。
- 為解決上述問題劳澄,越來越多深度學習模型被用于實體識別和鏈接地技。
深度學習方法
-
實體識別。目前存在兩類用于命名實體識別的典型深度學習架構(gòu):NN-CRF架構(gòu)和采用滑動窗口分類的思想秒拔。
- NN-CRF架構(gòu)中莫矗,CNN.LSTM被用來學習每一個詞位置處的向量表示,基于該向量表示,NN-CRF解碼該位置處的最佳標簽趣苏。
- 采用滑動窗口分類的思想狡相,使用神經(jīng)網(wǎng)絡學習句子中的每個ngram的表示,然后預測該ngram是否是一個目標實體食磕。
- 實體鏈接尽棕。實體鏈接的核心是構(gòu)建多類型多模態(tài)上下文及知識的統(tǒng)一表示,并建模不同信息彬伦、不同證據(jù)之間的相互交互滔悉。通過將不同類型的信息映射到相同的特征空間,并提供高效的端到端訓練方法单绑,深度學習方法給上述任務提供了強有力的工具回官。目前相關工作包括多源異構(gòu)證據(jù)的向量表示學習、以及不同證據(jù)之間相似度的學習等工作搂橙。
- 相比傳統(tǒng)統(tǒng)計方法歉提,深度學習方法的主要優(yōu)點是其訓練是一個端到端的過程,無需人工定義相關的特征区转。
- 深度學習方法的另一個優(yōu)點是深度學習可以學習任務特定的表示苔巨,建立不同模態(tài)、不同類型废离、不同語言之間信息的關聯(lián)侄泽,從而取得更好的實體分析性能。
- 目前蜻韭,如何在深度學習方法中融入知識指導(如語言學結(jié)構(gòu)約束悼尾、知識結(jié)構(gòu))、考慮多任務之間的約束肖方、以及如何將深度學習用于解決資源缺乏問題(如構(gòu)建語言無關的命名實體識別)是當前的工作的熱點闺魏。
文本挖掘方法
- 傳統(tǒng)統(tǒng)計方法和深度學習方法都需要大量訓練語料和預先明確定義的目標實體類別,無法處理大數(shù)據(jù)環(huán)境下的開放實體分析任)俯画。除了非結(jié)構(gòu)化文本之外舷胜,Web中往往還存在大量的半結(jié)構(gòu)高質(zhì)量數(shù)據(jù)源,半結(jié)構(gòu)Web數(shù)據(jù)源上的語義知識獲取活翩,往往采用文本挖掘的方法烹骨。
- 文本挖掘方法的核心是構(gòu)建從特定結(jié)構(gòu)構(gòu)建實體挖掘的特定規(guī)則,規(guī)則本身帶有的不確定性和歧義性會導致目標結(jié)構(gòu)有一定噪音材泄,文本挖掘方法往往基于特定算法對語義知識進行評分和過濾沮焕。
- 僅僅依靠結(jié)構(gòu)化數(shù)據(jù)挖掘無法覆蓋人類的大部分語義知識:首先,絕大部分結(jié)構(gòu)化數(shù)據(jù)源中的知識都是流行度高的知識拉宗,對長尾 知識的覆蓋不足峦树;此外辣辫,人們發(fā)現(xiàn)現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)源只能覆蓋有限類別的語義知識,相比人類的知識仍遠遠不夠魁巩。因此急灭,如何結(jié)合文本挖掘方法(面向半結(jié)構(gòu)化數(shù)據(jù),抽取出的知識質(zhì)量高但覆蓋度低)和文本抽取方法(面向非結(jié)構(gòu)化數(shù)據(jù)谷遂,抽取出的知識相比文本挖掘方法質(zhì)量低但覆蓋度高)的優(yōu)點葬馋,融合來自不同數(shù)據(jù)源的知識,并將其與現(xiàn)有大規(guī)模知識庫集成肾扰,是文本挖掘方法的研究方向之一畴嘶。
4、實體關系學習
- 關系定義為兩個或多個實體之間的某種練習集晚。
- 實體關系學習就是自動從文本中檢測和識別出實體之間具有的某種語義關系窗悯,也稱為關系抽取。關系抽取的輸出通常是一個三元組(實體1偷拔,關系蒋院,實體2).
-
關系抽取是知識圖譜構(gòu)建和信息抽取中的一個關鍵環(huán)節(jié),其應用主要表現(xiàn)在:
- 大規(guī)模知識圖譜的自動構(gòu)建:利用關系抽取技術可以根據(jù)結(jié)構(gòu)化的抽取結(jié)果自動生成(典型的例子有Freebase莲绰、Yago和BDpedia)悦污。
- 為其他信息獲取技術提供支持:(1)對信息檢索提供支持:可以對復雜的查詢進行關聯(lián)搜索和推理,提供智能檢索結(jié)果钉蒲。(2)對問答系統(tǒng)提供支持:在問答中,關鍵步驟是建設一個領域無關的問答類型體系并找出與問答類型體系中每個問答類型相對應的答案模式彻坛,這就需要關系抽取技術的支持顷啼。 (3)自然語言理解:關系抽取是篇章理解的關鍵技術,運用語言處理技術可以對文本的核心 內(nèi)容進行理解昌屉,語義關系抽取的研究將成為從簡單的自然語言處理技術到真正的自然語言理解應用之間的一個重要紐帶钙蒙,能改進自然語言處理領域的很多任務的性能,如實體鏈接和機器翻譯等间驮。
-
關系抽取系統(tǒng)處理各種非結(jié)構(gòu)化/半結(jié)構(gòu)化的文本輸入(如新聞網(wǎng)頁躬厌、商品頁面、微博竞帽、論壇頁面等)扛施,使用多種技術(如規(guī)則方法、統(tǒng)計方法屹篓、知識挖掘方法)疙渣,識別和發(fā)現(xiàn)各種預定義類別和開發(fā)類別的體系。根據(jù)關系類別是否預定義堆巧,目前關系抽取的核心研究內(nèi)容可以劃分為限定域關系抽取和開放域關系抽取妄荔。
- 限定域關系抽取泼菌。系統(tǒng)所抽取的關系類別是預先定義好的,在限定域關系抽取中關系的類別一般是人工定義或者從現(xiàn)有知識圖譜中自動獲取啦租,主要研究如何利用有監(jiān)督或弱監(jiān)督的方法抽取預定義的實體關系知識哗伯,在有監(jiān)督方法中集中于如何挖掘更多能表征相應語義關系的特征,在弱監(jiān)督方法中集中于如何降低自動生成的語料中的噪聲篷角。
- 開放域關系抽取焊刹。又稱開放式關系發(fā)現(xiàn),不預先定義抽取的關系類別内地,由系統(tǒng)自動從文本中發(fā)現(xiàn)并抽取關系伴澄。利用關系指示詞代表關系的類型,主要研究如何利用無監(jiān)督的方法自動抽取關系三元組阱缓。
- 關系抽取目前主要面臨如下三個挑戰(zhàn):自然語言表達的多樣性非凌、關系表達的隱含性和實體關系的復雜性。
- 現(xiàn)有的關系抽取方法可以從不同維度進行劃分荆针,根據(jù)關系類型敞嗡,關系抽取可以分為限定域關系抽取和開放域關系抽取航背;根據(jù)關系抽取的方法可以分為基于規(guī)則的方法和基于機器學習的方法喉悴;根據(jù)對于監(jiān)督知識的依賴,關系抽取可以分為有監(jiān)督關系抽取玖媚、無監(jiān)督關系抽取和弱監(jiān)督知識抽取箕肃。
- 關系抽取的發(fā)展方向如下:面向開放域的可語義化的關系抽取技術、篇章級的關系抽取今魔、具有時空特性的多元關系抽取勺像。
- 面向開放域的可語義化的關系抽取技術:在構(gòu)建真實環(huán)境下的關系抽取系統(tǒng)時,有監(jiān)督方法往往存在如下不足:1)更換語料類型之后错森,現(xiàn)有模型往往會有一個大幅度的性能下降吟宦;2)無法抽取目標關系類別 之外的實體關系知識;3)性能依賴于大規(guī)模的訓練語料涩维;4)現(xiàn)有監(jiān)督模型往往依賴于高復雜度的自然語言處理應用殃姓,如句法分析。
- 篇章級的關系抽韧卟:現(xiàn)有大多數(shù)的關系抽取集中在從包含兩個指定實體的一個或者多個句子中抽取關系蜗侈,很少有工作將抽取范圍擴大到篇章級別,真實環(huán)境下睡蟋,一篇文章會描述多個實體的多個屬性或者關系宛篇,而且文本中存在大量的零指代的語言現(xiàn)象,因此必須利用篇章級的信息進行關系和屬性值的抽取薄湿。
- 具有時空特性的多元關系抽冉斜丁:二元關系很難表達實體關系的時間特性和空間特性偷卧,而且很多關系是多元的,具有時空特性的多元關系能建模和表達更豐富的關系知識吆倦,是未來研究的一個方向听诸。
限定關系抽取和開放域關系抽取
限定域關系抽取
- 是指指系統(tǒng)所抽取的關系是預先定義好的,因為預定義關系的個數(shù)是有限的蚕泽,可以將關系抽取任務視為多分類任務晌梨,其中每個關系為一個類別。
- 可以抽取語義化的實體關系三元組须妻,可以方便的用于輔助其他任務仔蝌。
開放域關系抽取
- 開放域關系抽取是指不預先定義關系,由系統(tǒng)自動從文本中發(fā)現(xiàn)荒吏、抽取關系敛惊。
- 難以抽取語義化三元組。
- 開放域關系抽取是為了處理大量異構(gòu)數(shù)據(jù)绰更,其抽取的關系類型不受限制瞧挤,數(shù)量也不定。目的是處理單個句子儡湾,將其變成三元組樣式的結(jié)構(gòu)化表示特恬。
- 現(xiàn)有的方法都是開放域的不限制關系的類別,因此抽取出的關系缺乏語義信息徐钠,同一類關系會出現(xiàn)多種不同的抽取結(jié)果癌刽。
基于規(guī)則的關系抽取和基于機器學習的關系抽取
基于規(guī)則的關系抽取
- 是指首先由通曉語言學知識的專家根據(jù)抽取任務的要求設計出一些包含詞匯、句法和語義特征的手工規(guī)則(或稱模式)尝丐,然后在文本分析的過程中尋找與這些模式相匹配的實例显拜,從而推導出實體之間的語義關系。
- 基于手工規(guī)則的方法需要領域?qū)<覙?gòu)筑大規(guī)模的知識庫摊崭,這不但需要有專業(yè)技能的專家,也需要付出大量勞動杰赛,因此這種方法的代價很大呢簸。知識庫構(gòu)建完成后,對于特定的領域的抽取具有較好的準確率乏屯,但移植到其他領域十分困難根时,效果往往較差。因此這種方法在可移植性方面存在著明顯的不足辰晕。
基于機器學習的關系抽取
- 按照機器學習方法對語料庫的不同需求導致可分成三大類:無監(jiān)督關系抽取蛤迎、有監(jiān)督關系抽取、弱監(jiān)督關系抽取含友。
- 無監(jiān)督關系抽忍骜伞:希望把表示相同關系的模版聚合起來校辩,不需要人工標注的數(shù)據(jù)。
- 有監(jiān)督關系抽攘就:使用人工標注的訓練語料進行訓練宜咒。有監(jiān)督關系抽取目前可以取得最好的抽取效果,但是由于其需要費時費力的人工標注把鉴。
- 弱監(jiān)督關系抽裙屎凇:有學者提出了利用知識庫回標文本來自動獲得大量的弱監(jiān)督數(shù)據(jù)。目前弱監(jiān)督關系抽取是關系抽取領域的一大熱點庭砍。
-
無監(jiān)督關系抽取
- 主要基于分布假設场晶,分布假設的核心思想是:如果兩個詞的用法相似及出現(xiàn)在相同上下文中,那么這兩個詞就意思相近怠缸。相應的诗轻,在實體關系抽取中,如果兩個實體對具有相似的語境凯旭,那么這兩個實體對傾向于具有相同的語義關系概耻,基于此理論,無監(jiān)督關系抽取將兩個實體的上下文作為表征語義關系的特征罐呼。
- 無監(jiān)督關系抽取的核心是選取表示實體之間關系的特征鞠柄,然后再聚類。
- 無監(jiān)督關系抽取方法可以發(fā)現(xiàn)新的關系嫉柴,但其發(fā)現(xiàn)的新的關系往往是相似模板的聚類厌杜,其缺點是得到的關系不具語義信息,難以規(guī)則化计螺,很難被用來構(gòu)建知 識庫夯尽,如果需要得到語義關系,需要通過將其同現(xiàn)有知識庫的關系進行對齊登馒,或者通過人工的方式來給每個聚類關系簇賦予語義信息匙握。
-
有監(jiān)督關系抽取
- 在使用有監(jiān)督的方法解決關系抽取問題時,一般將關系抽取看作是一個多分類問題陈轿,提取特征向量后再使用有監(jiān)督的分類器進行關系抽取圈纺,有監(jiān)督的方法性能較好。
- 有監(jiān)督關系抽取可以分為:基于特征向量的方法麦射、基于核函數(shù)的方法和基于神經(jīng)網(wǎng)絡的方法蛾娶。
- 基于特征向量的方法特點是需要顯式地將關系實例轉(zhuǎn)換成分類器可以接受的特征向量,其研究重點在于怎樣提取具有區(qū)分性的特征潜秋,通過獲取各種有效的詞匯蛔琅、句法和語義等特征,然后有效地集成起來峻呛,從而產(chǎn)生描述關系實例的各種局部和全局特征罗售」家ぃ基于特征向量的方法盡管速度很快,也比較有效莽囤,但其缺點是在轉(zhuǎn)換結(jié)構(gòu)化特征時需要顯式地給出一個特征集合谬擦,由于實體間語義關系表達的復雜性和可變性,要進一步提高關系抽取的性能已經(jīng)很困難了朽缎,因為很難再找出適合語義關系抽取的新的有效的詞匯惨远、句法或語義特征。
- 基于核函數(shù)的方法不需要構(gòu)造固有的特征向量空間话肖,能很好地彌補基于特征向量方法的不足北秽。在關系抽取中,基于核函數(shù)的方法直接 以結(jié)構(gòu)樹為處理對象最筒,在計算關系之間的距離的時候不再使用特征向量的內(nèi)積而是用核函數(shù)贺氓,核函數(shù)可以在高維的特征空間中隱式地計算對象之間的距離,不用枚舉所有的特征也可以計算向量的點積床蜘,表示實體關系很靈活辙培,可以方便地利用多種不同的特征,使用支持核函數(shù)的分類器進行關系抽取邢锯。
- 基于神經(jīng)網(wǎng)絡的方法:目前大部分學者關注于如何更好的用深度學習模型建模句子扬蕊。此類方法一般默認句子中已經(jīng)標記出了候選實體,但是實際任務中丹擎,需要系統(tǒng)自動發(fā)現(xiàn)實體尾抑。而且此類方法需要大量的人工標注的語料作為訓練數(shù)據(jù)才能取得較好的性能。
-
弱監(jiān)督關系抽取
- 有監(jiān)督關系抽取需要大量的標注樣本蒂培,而人工標注數(shù)據(jù)費時費力再愈、一致性差,尤其是面向海量異構(gòu)的網(wǎng)絡數(shù)據(jù)時护戳,問題就更加明顯翎冲,為此,研究人員提出弱監(jiān)督關系抽取媳荒。
- 弱監(jiān)督關系抽取主要有兩種框架抗悍,一種是使用半監(jiān)督學習和主動學習等技術以盡可能少的代價提升抽取效果;另外一種框架是使用回標的思想肺樟,利用現(xiàn)有知識庫中的關系三元組檐春,自動回標三元組中實體所在的文本作為訓練數(shù)據(jù)逻淌,由于其訓練數(shù)據(jù)產(chǎn)生過程不需要人工標注么伯,所以這種方法代價很低,更加適合大規(guī)模多領域的網(wǎng)絡文本卡儒,它在信息抽取領域近年來得到較廣泛的應用田柔。
- 弱監(jiān)督回標主要基于以下假設:如果兩個實體在知識庫中具有一定的關系俐巴,那么根據(jù)同時包含這兩個實體的句子,就都能推斷出實體對在知識庫中具有的關系硬爆。由于語言表達的多樣性欣舵,弱監(jiān)督的這種假設往往太過強烈,兩個實體出現(xiàn)在同一個句子中并不能表示它們就一定具有某種語義關系缀磕,從而帶來回標噪聲問題缘圈。
- 目前,基于機器學習的關系抽取方法占據(jù)了主導地位袜蚕。然而糟把,無監(jiān)督的關系抽取得到的知識缺乏語義信息、很難歸一化牲剃;有監(jiān)督關系抽取中需要大量人工標注的高質(zhì)量數(shù)據(jù)作為訓練語料遣疯,人工標注耗時費力成本高,所以很難大規(guī)模推廣凿傅;弱監(jiān)督關系抽取雖然可以自動生成大規(guī)模訓練語料缠犀,但是自動生成訓練語料的過程中需要大規(guī)模的已有知識圖譜作為種子,而且生成的語料中會有噪音數(shù)據(jù)聪舒。
5辨液、事件知識學習
(1)事件
-
事件(Event)的概念起源于認知科學,事件是促使事物狀態(tài)和關系改變的條件过椎,是動態(tài)的室梅、結(jié)構(gòu)化的知識,在計算機科學的范疇內(nèi)最常用的事件定義有如下兩種疚宇,針對不同領域的不同應用:
- 一種源自信息抽取領域亡鼠,將事件定義為發(fā)生在某個特定的時間點或時間段、某個特定的地域范圍內(nèi)敷待,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變间涵。
- 一種源自信息檢索領域,將事件認為是細化了的主題榜揖,是由某些原因勾哩、條件引起,發(fā)生在特定時間举哟、地點思劳,涉及某些對象,并可能伴隨某些必然結(jié)果的事情妨猩。
- 事件是對現(xiàn)有知識資源的重要補充潜叛,目前已存在的知識資源所描述實體及實體間關聯(lián)關系大多是靜態(tài)的,事件能描述力度更大的、動態(tài)的威兜、結(jié)構(gòu)化的知識销斟。
(2)事件知識學習
-
事件知識學習,即將非結(jié)構(gòu)化文本中自然語言所表達的事件以結(jié)構(gòu)化的形式呈現(xiàn)椒舵。
- 信息抽取領域的事件知識學習相關研究為事件的識別與抽取蚂踊。
- 信息檢索領域的事件知識學習相關研究為事件的檢測與追蹤。
-
事件的識別與抽取研究如何從描述事件信息的文本中識別并抽取出事件信息并以結(jié)構(gòu)化的形式呈現(xiàn)出來笔宿,包括發(fā)生的時間犁钟、地點、參與角色以及與之相關的動作或者狀態(tài)的改變泼橘,核心概念如下:
- 事件描述特纤。客觀發(fā)生具體事件的自然語言描述,通常是一個句子或者句群侥加。同一個事件可以有很多不同的事件描述捧存,可能分布在同一文檔的不同位置或不同的文檔中。
- 事件觸發(fā)詞担败。事件描述中最能代表事件發(fā)生的詞昔穴,是決定事件類別的重要特征,在ACE評測中事件觸發(fā)詞一般為動詞或名詞提前。
- 事件元素吗货。事件的參與者,是組成事件的核心部分狈网,與事件觸發(fā)詞構(gòu)成了事件的整個框架宙搬。事件元素與主要由實體、時間和屬性值等表達完整語義的細粒度單位組成拓哺。
- 元素角色勇垛。事件元素與事件之間的語義關系,也就是事件元素在相應事件中扮演什么角色士鸥。
- 事件類型闲孤。事件元素和觸發(fā)詞決定了事件的類別。很多評測和任務均指定了事件類別和相應模板烤礁,方便元素識別及角色判定齿尽。
事件的檢測與追蹤旨在將文本新聞流按照其報道的事件進行組織轧膘,為傳統(tǒng)媒體多種來源的新聞監(jiān)控提供核心技術嚷闭,以便讓用戶了解新聞及其發(fā)展掩浙。事故發(fā)現(xiàn)與跟蹤包括三個主要任務:分割、發(fā)現(xiàn)和跟蹤鲤脏,將新聞文本分解為事件们颜、發(fā)現(xiàn)新的(不可預見的)事件、跟蹤以前報道事件的發(fā)展。事件的發(fā)現(xiàn)任務又可以細分為歷史事件發(fā)現(xiàn)和在線事件發(fā)現(xiàn)兩種形式掌桩,前者目標是從按照事件排序的新聞文檔中發(fā)現(xiàn)以前沒有識別的事件,后者則是從實時新聞流中實時發(fā)現(xiàn)新的事件姑食。
事件知識學習具有公開評測和數(shù)據(jù)集波岛。
-
事件知識學習是一項綜合研究,需要比較深入的自然語言處理方向和技術作為支撐音半,相較于其他抽取和識別任務(如實體識別则拷、關系抽取)曹鸠,事件識別和抽取的難點主要表現(xiàn)在如下幾個方面(事件的檢測和追蹤雖然著眼點比事件識別和抽取稍顯宏觀煌茬,但這些層面的挑戰(zhàn)是高度統(tǒng)一的):
- 認知層面。事件具有復雜的內(nèi)部結(jié)構(gòu)彻桃,涉及更多的實體和值坛善,并且事件中各個元素間具有復雜關系和結(jié)構(gòu)。
- 語言層面邻眷。事件的表述是靈活的眠屎、具有歧義的。
- 方法層面肆饶。事件抽取會遇到錯誤累計的問題改衩,低性能的工具引入的錯誤會降低事件抽取系統(tǒng)的性能。
- 語料層面驯镊。標注語料規(guī)模小葫督、數(shù)據(jù)稀疏。
-
事件識別和抽取的發(fā)展趨勢表現(xiàn)在如下方面:從分步抽取到聯(lián)合抽取板惑、從局部信息到全局信息橄镜、從人工標注到半自動生成語料。
- 從分步抽取到聯(lián)合抽确氤恕:事件抽取的目標往往是很多樣的蛉鹿,通常均會將任務拆分為幾個步驟完成,從更高層面上講往湿,其他信息抽取任務(如實體抽取妖异、關系抽取)也可以和事件抽取進行聯(lián)合學習领追,在之后的研究過程中他膳,聯(lián)合抽取以避免分步噪音積累的思路一定會更加普遍。
- 從局部信息到全局信息:事件抽取研究初期更多的考慮是當前詞自身的特征绒窑,但研究者逐漸開始利用不同詞之間的聯(lián)系棕孙,從而獲取更多的全局信息來完成事件抽取任務,事件抽取考慮的信息會越來越多樣化和全局化。
- 從人工標注到半自動生成語料:目前的語料多是英文語料蟀俊,中文和其他語言的語料非常稀少钦铺。且由于事件本身的復雜程度,人工標注大量的語料十分困難肢预。越來越多的學者開始思考如何利用現(xiàn)有的語料迭代生成更多語料矛洞。目前主流的解決思路是利用英文語料輔助另一種語言語料的生成,做跨語言遷移學習烫映。另一種可能的解決思路是借鑒外部知識來自動擴展語料沼本。
-
事件檢測和追蹤的發(fā)展趨勢表現(xiàn)在如下方面:非參數(shù)化、多流交互锭沟。
- 非參數(shù)化:放寬對話題數(shù)目的限制抽兆。
- 多流交互:多數(shù)據(jù)流共同建模,有效利用不同數(shù)據(jù)間的互補信息族淮。
事件識別與抽取
- 根據(jù)抽取方法辫红,事件抽取可以分為基于模式匹配的事件抽取和基于機器學習的事件抽取。
-
基于模式匹配的方法
- 是指對某種類型事件的識別和抽取是在一些模式的指導下進行的祝辣,模識匹配的過程就是事件識別和抽取的過程厉熟。
- 采用模式匹配的方法進行事件抽取的過程一般可以分為兩個步驟:模式獲取和模式匹配。
- 模式準確性是影響整個方法性能的重要因素较幌,按照模式構(gòu)建過程中所需訓練數(shù)據(jù)的來源可細分為基于人工標注語料的方法和弱監(jiān)督的方法揍瑟。 基于人工標注語料的方法的模式完全基于人工標注的語料,學習效果高度依賴人工標注質(zhì)量乍炉;弱監(jiān)督的方法不需要對語料進行完全標注绢片,只需人工對語料進行一定的預分類或指定種子模式,由機器根據(jù)預分類語料或者種子模式自動進行模式學習岛琼。
- 總體而言底循,基于模式匹配的方法在特定領域中性能較好,知識表示簡潔槐瑞,便于理解和后續(xù)應用熙涤,但對于語言、領域和文檔形式等均有不同程度的依賴困檩,覆蓋度和可移植性較差
-
基于機器學習的方法
- 基于機器學習的方法建立在統(tǒng)計模型基礎上祠挫,一般將事件抽取建模成多分類問題,因此研究的重點在于特征和分類器的選擇悼沿。根據(jù)利用信息的不同可以分為基于特征等舔、基于結(jié)構(gòu)和基于神經(jīng)網(wǎng)絡三類主要方法。
- 基于特征的方法研究重點在于于如何提取和集成具有區(qū)分性的特征糟趾,從而產(chǎn)生描述事件實例的各種局部和全局特征慌植,作為特征向量輸入分類器甚牲。該類方法多用于階段性的管道抽取,即順序執(zhí)行事件觸發(fā)詞識別和元素抽取蝶柿,從特征類型(或來源)上又可細分為利用句子級信息的方法和利用篇章級信息的方法丈钙。
- 基于結(jié)構(gòu)的方法:與基于特征適用的階段性的管道抽取不同,基于結(jié)構(gòu)的方法將事件結(jié)構(gòu)看作依存樹交汤,抽取任務則相應地轉(zhuǎn)化為依存樹結(jié)構(gòu)預測問題雏赦,觸發(fā)詞識別和元素抽取可以同時完成。
- 基于神經(jīng)網(wǎng)絡的方法:上述兩種方法在特征提取的過程中都依賴依存分析蜻展、詞性標注、句法分析等傳統(tǒng)的自然語言處理工具邀摆,容易造成誤差累積纵顾,而且有很多語言沒有自然語言處理工具,基于神經(jīng)網(wǎng)絡可以取得很好的性能栋盹。
- 弱監(jiān)督的方法:上述方法無一例外地需要大量的標注樣本施逾,而人工標注數(shù)據(jù)耗時費力、一致性差例获,尤其是面向海量異構(gòu)的網(wǎng)絡數(shù)據(jù)時汉额,問題就更加明顯。而無監(jiān)督方法得到 的事件信息沒有規(guī)范的語義標簽(事件類別榨汤,角色名稱等)蠕搜,很難直接映射到現(xiàn) 有的知識庫中。因此收壕,弱監(jiān)督方法也是事件抽取中的一個重要分支妓灌。目前基于弱監(jiān)督的事件抽取方法還處于起步階段,亟需能自動生成大規(guī)模的蜜宪、高質(zhì)量的標注數(shù)據(jù)的方法提升事件抽取的性能虫埂。
-
中文事件的抽取
- 目前國內(nèi)外事件抽取相關的研究大部分都是面向英文文本的英文事件抽取,面向中文文本的中文事件抽取工作才剛剛起步圃验,主要面臨技術和數(shù)據(jù)兩方面的挑戰(zhàn)掉伏。
- 技術層面,中文的詞句是意合的澳窑,詞語間沒有顯式分隔符斧散,而且中文實詞在時態(tài)和形態(tài)上也沒有明顯變化,因此面向中文的事件抽取研究在基礎自然語言處理層面具有天然的劣勢摊聋。數(shù)據(jù)層面颅湘,由于起步較晚,缺乏統(tǒng)一的栗精、公認的語料資 源和相關評測闯参,極大制約了中文事件抽取的研究瞻鹏。盡管如此,近些年中文事件抽取在公開評測鹿寨、領域擴展和跨預料遷移方面也取得一定進展新博。
事件檢測與追蹤
- 事件檢測和追蹤研究的主流方法包括基于相似度聚類和基于概率統(tǒng)計兩類。
-
相似度聚類法
- 基于相似度的方法首先需要定義相似度度量脚草,而后基于此進行聚類或者分類赫悄。
- 總體而言,基于相似度的模型用途廣泛馏慨,計算速度通常比較快埂淮,但缺乏對于統(tǒng)計規(guī)律的利用。
-
概率統(tǒng)計法
- 概率統(tǒng)計方法通常使用生成模型写隶,由于需要大量數(shù)據(jù)的支持倔撞,所以這種方法更加適用于歷史事件檢測。對比基于相似度聚類的模型慕趴,這類模型雖然復雜痪蝇,但當數(shù)據(jù)量充足時,通趁岱浚可以取得更好的準確率躏啰。
- 基于概率的方法是目前 TDT 中的研究熱點,主要分成兩個方向耙册,一是針對新聞等比較正式的規(guī)范文檔给僵,另一個則用于不規(guī)則或沒有規(guī)律的非規(guī)范文檔。對新聞等規(guī)范文檔详拙,文中一般包含有完整的時間想际、地點、人物等信息溪厘,找出這些要素可以幫助建立新聞之間的關聯(lián)胡本;不規(guī)范文檔方面,算法經(jīng)常是基于 LDA 等主題模型的變體建立文檔間的聯(lián)系畸悬。
事件知識庫構(gòu)建
- 已有的知識圖譜均側(cè)重于實體的客觀屬性及實體間的靜態(tài)關聯(lián)侧甫,缺乏結(jié)構(gòu)化的事件數(shù)據(jù)。事件知識學習的最終目的就是從非結(jié)構(gòu)化的文本數(shù)據(jù)中抽取結(jié)構(gòu)化的事件表示蹋宦,構(gòu)建事件知識庫 彌補現(xiàn)有知識圖譜的動態(tài)事件信息缺失問題披粟。目前事件知識庫構(gòu)建的研究處于起步階段,基礎就是上述兩方面研究冷冗,基于句子級的事件抽取和文檔級的事件發(fā)現(xiàn)守屉。
詳情請參考《KGDevReport2018知識圖譜》