Deep Learning in Knowledge Graph
the world is made up of entities instead of strings
1.概念和典型的知識圖
1.1基本概念
知識圖(KG)又稱知識庫硝清,是將人類關(guān)于世界的知識以結(jié)構(gòu)化的形式組織起來的一個重要數(shù)據(jù)集名扛,其中知識被表示為具體的實體及其之間的多關(guān)系抽象概念凌箕。
構(gòu)建知識圖的方法主要有兩種:
1.一在資源描述框架(RDF)中使用現(xiàn)有的語義web數(shù)據(jù)集怨喘,并借助于手工注釋气忠。
2.是利用機器學(xué)習(xí)或深度學(xué)習(xí)的方法蕉扮,從互聯(lián)網(wǎng)上大量的明文中自動提取知識菩浙。
由于這種結(jié)構(gòu)良好的統(tǒng)一知識表示彪笼,KG可以為復(fù)雜的現(xiàn)實世界提供有效的結(jié)構(gòu)化信息捧灰。因此淆九,它開始在人工智能的許多應(yīng)用中發(fā)揮重要作用,特別是在自然語言處理和信息檢索領(lǐng)域毛俏,如網(wǎng)絡(luò)搜索炭庙、問答、語音識別等煌寇,近年來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注焕蹄。
一個典型的知識圖譜由兩部分組成,實體(包括具體的實體和現(xiàn)實世界的抽象概念)和實體之間的關(guān)系.它將各種知識以(e1, relation, e2)的形式排列成大量的三重事實阀溶,其中e1表示頭實體腻脏,e2表示尾實體。例如:(美國银锻,總統(tǒng)永品,唐納德·特朗普)。此外击纬,需要注意的是鼎姐,在現(xiàn)實世界中,相同頭部實體和關(guān)系可能有幾個不同的尾部實體(既一對多、多對一炕桨、多對多)饭尝。
1.2經(jīng)典的知識圖譜
1.Freebase:世界上最受歡迎的知識圖表之一。它是一個大型的協(xié)作數(shù)據(jù)庫献宫,由主要由社區(qū)成員組成的數(shù)據(jù)組成芋肠。信息以結(jié)構(gòu)化的形式列出,就像簡歷一樣遵蚜。
<table>
<td>
<img src="./a.png" style="width:200px;height:300px;">
</td>
</table>
2.DBpedia:這是一個眾包社區(qū)項目帖池,旨在從維基百科中提取結(jié)構(gòu)化信息,并將這些信息發(fā)布到網(wǎng)絡(luò)上吭净。它可以隨著信息的變化進(jìn)行動態(tài)更新睡汹。
3.Wikidata:維基媒體基金會合作編輯的知識庫。每個條目表示一個主題(或用于維護Wikipedia的管理頁面)寂殉,并由一個惟一的編號標(biāo)識囚巴。信息通過創(chuàng)建語句添加到項中。語句采用鍵-值對的形式友扰,每個語句由一個屬性(鍵)和一個與該屬性鏈接的值組成彤叉。
<table>
<td>
<img src="./b.png" style="width:200px;height:300px;">
</td>
</table>
4.YAGO:是由馬克斯·普朗克信息學(xué)研究所和巴黎電信技術(shù)大學(xué)開發(fā)的一個巨大的高質(zhì)量知識庫。人工評估證實了其準(zhǔn)確率為95%村怪,并對每個關(guān)系進(jìn)行了置信值標(biāo)注秽浇。YAGO結(jié)合了wordnet的干凈分類和wikipedia分類系統(tǒng)的豐富內(nèi)容,將實體分配給超過350,000個類甚负。YAGO是一個同時錨定在時間和空間的本體柬焕,這意味著它將一個時間維度和一個空間維度附加到它的許多事實和實體上。
<table>
<td>
<img src="./c.png" style="width:200px;height:300px;">
</td>
</table>
2.三大類基于深度學(xué)習(xí)的知識圖譜技術(shù)
2.1知識表示學(xué)習(xí)
知識表示學(xué)習(xí)技術(shù)將知識表示中的實體和關(guān)系嵌入到一個密集的梭域、低維的斑举、實值的語義空間中。
基于翻譯的表示學(xué)習(xí)方法是一種高效病涨、有效的對關(guān)系事實進(jìn)行KG編碼的方法富玷,具有實體和關(guān)系的低維表示,可以緩解數(shù)據(jù)稀疏性的問題既穆,進(jìn)一步應(yīng)用于知識獲取赎懦、融合和推理。
TransE 是一種典型的基于翻譯的知識表示學(xué)習(xí)方法循衰,它對實體和關(guān)系都學(xué)習(xí)低維向量铲敛,非常簡單有效。TransE將關(guān)系三元組中的關(guān)系看作是頭尾實體嵌入之間的轉(zhuǎn)換会钝,即當(dāng)三元組(h, r, t)成立時伐蒋,h + r t工三。在知識圖補全任務(wù)中取得了驚人的效果。
TransE存在兩個問題:
1.如何處理復(fù)雜關(guān)系(1到n, n到1,n到n的關(guān)系模型)是知識表示學(xué)習(xí)的關(guān)鍵挑戰(zhàn)之一。很多transeE的擴展都在關(guān)注這一挑戰(zhàn)。
TransH和TransR 當(dāng)涉及到不同的關(guān)系時實體具有不同的表示驯遇。TransH 模型將關(guān)系轉(zhuǎn)換為超平面上的平移向量,并用法向量將實體嵌入到超平面中掸读。TransR表示實體語義空間中的實體,當(dāng)涉及到不同的關(guān)系時宏多,使用關(guān)系特定的轉(zhuǎn)換矩陣將其投影到不同的關(guān)系空間中儿惫。此外,研究人員提出了TransR的兩個擴展伸但,包括考慮投影矩陣中實體信息的TransD和通過稀疏矩陣考慮關(guān)系的異質(zhì)性和不平衡性的TranSpace肾请。此外,TransE還有很多其他的擴展更胖,分別側(cè)重于關(guān)系的不同特征铛铁,包括TransG 和 采用高斯嵌入對實體和關(guān)系進(jìn)行建模的KG2E;ManifoldE在知識表示學(xué)習(xí)中采用了基于流形的嵌入原理;等等.
2.TransE還有一個只考慮實體間直接關(guān)系的問題却妨。為了解決這個問題饵逐,Lin等人提出了基于路徑的TransE,通過選擇合理的關(guān)系路徑并用低維向量表示彪标,將TransE擴展到模型關(guān)系路徑倍权。幾乎與此同時,還有其他研究人員成功使用神經(jīng)網(wǎng)絡(luò)考慮知識圖譜關(guān)系路徑。此外捐下,基于知識圖譜的QA也使用了關(guān)系路徑學(xué)習(xí)账锹。
現(xiàn)有的知識表示學(xué)習(xí)方法大多只關(guān)注KG中的結(jié)構(gòu)信息萌业,而忽略了文本信息坷襟、類型信息、視覺信息等豐富的多源信息生年。這些跨模態(tài)信息可以為關(guān)系事實較少的實體提供實體補充知識婴程,在學(xué)習(xí)知識表示時具有重要意義。
對于文本信息抱婉,Wang等人和Zhon等人提出將實體和單詞與實體名稱档叔、描述和Wikipedia錨對齊,共同嵌入到一個統(tǒng)一的語義空間中蒸绩。此外衙四,Xie等人建議使用CBOW(連續(xù)詞袋)或CNN編碼器學(xué)習(xí)基于實體描述的實體表示。
對于類型信息,Krompa?et等人將類型信息作為每一個關(guān)系頭和尾的約束信息患亿,來區(qū)分屬于同一類型的實體传蹈。Xie等人不僅將類型信息視為類型約束押逼,還利用分層類型結(jié)構(gòu)通過投影矩陣的構(gòu)建來增強TransR。
對于視覺信息惦界,Xie等人提出了一種基于圖像的知識表示學(xué)習(xí)方法挑格,通過使用其對應(yīng)的圖形學(xué)習(xí)實體表示來考慮視覺信息。
我們在現(xiàn)實世界中學(xué)習(xí)各種各樣的信息是很自然的事沾歪。多源信息漂彤,如純文本、層次類型灾搏,甚至圖像和視頻挫望,在建模復(fù)雜的世界和構(gòu)建跨模式表示時非常重要。此外狂窑,其他類型的信息也可以編碼成知識表示學(xué)習(xí)士骤,以提高性能。
2.2神經(jīng)關(guān)系提取
從文本中提取事實/關(guān)系的神經(jīng)關(guān)系提取技術(shù)蕾域,可用于構(gòu)建/完成KG
近年來拷肌,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,為了豐富現(xiàn)有的知識體系旨巷,神經(jīng)關(guān)系提取采用端到端神經(jīng)網(wǎng)絡(luò)對關(guān)系提取任務(wù)進(jìn)行建模巨缘。神經(jīng)關(guān)系提取的框架包括:捕獲輸入句子語義的句子編碼器,并將其表示為句子向量;根據(jù)句子向量生成提取關(guān)系的概率分布的關(guān)系提取器采呐。神經(jīng)關(guān)系提取(NRE)主要包括語句級NRE和文檔級NRE若锁。
2.2.1語句級NRE
句子級NRE旨在預(yù)測句子中實體(或名詞)對之間的語義關(guān)系。形式上斧吐,給定由m個單詞組成的輸入句子和對應(yīng)的實體對
作為輸入,語句級NRE想要通過神經(jīng)網(wǎng)絡(luò)得到關(guān)系
的條件概率
煤率,可以形式化為
是神經(jīng)網(wǎng)絡(luò)的參數(shù),
是一組關(guān)系集
中的一個關(guān)系
句子級NRE基本形式包括三個部分:(a)一個輸入編碼器給出輸入單詞的表示,(b)一個句子編碼器計算代表原始句子的一個向量或一個向量序列,(c)關(guān)系分類器計算所有關(guān)系的條件概率分布仰冠。
1.輸入編碼器
首先,句子級NRE系統(tǒng)將離散的源句子詞投射到連續(xù)向量空間中蝶糯,并獲得源句的輸入表示
Word嵌入學(xué)習(xí)單詞的低維實值表示洋只,可以反映單詞之間的句法和語義關(guān)系。形式上昼捍,每個字由嵌入矩陣
中的相應(yīng)列向量編碼识虚,其中
表示固定大小的詞匯表
位置嵌入旨在針對句子中的兩個對應(yīng)實體指定單詞的位置信息。形式上妒茬,每個字分別相對于從字到兩個目標(biāo)實體的相對距離由兩個位置向量編碼担锤。例如,在句子“New York is a city of United States”中乍钻,從城市到紐約的相對距離是3肛循,美國是-2蛛株。
詞性標(biāo)簽嵌入表示句子中目標(biāo)詞的詞匯信息。由于單詞嵌入是從大規(guī)模的通用語料庫中獲得的育拨,因此它們包含的信息可能與特定句子中的含義不一致谨履,有必要將每個單詞與其語言信息對齊,形式上熬丧,每個字由嵌入矩陣
中的相應(yīng)列向量編碼笋粟,其中
是嵌入向量的維數(shù)
表示固定大小的詞性標(biāo)簽詞匯表。
WordNet 上位詞嵌入旨在利用上位詞的先驗知識來促進(jìn)關(guān)系提取析蝴。當(dāng)在WordNet中給出每個詞的上位詞信息時害捕,在不同但概念性的相似詞之間建立鏈接更容易。形式上闷畸,每個詞由嵌入矩陣
中的相應(yīng)列向量編碼尝盼,其中
是嵌入向量的維度,
表示固定大小的上位詞佑菩。
2.句子編碼器
接下來盾沫,句子編碼器將輸入表示編碼成單個向量或向量x的序列。
卷積神經(jīng)網(wǎng)絡(luò)編碼器使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)嵌入輸入語句殿漠,該卷積神經(jīng)網(wǎng)絡(luò)通過卷積層提取局部特征并通過最大池化操作組合所有局部特征以獲得固定大小輸入句子的向量赴精。形式上,如圖所示
<table>
<td>
<img src="./e.png" style="width:200px;height:300px;">
</td>
</table>
卷積運算被定義為向量序列與卷積矩陣和具有滑動窗口的偏置向量
之間的矩陣乘法绞幌。讓我們將向量
定義為第i個窗口中輸入表示序列的串聯(lián)蕾哟,我們有
其中表示非線性函數(shù)莲蜘,如sigmoid或tangent函數(shù)谭确。此外,為了更好地捕獲兩個實體之間的結(jié)構(gòu)信息票渠,提出了分段最大池化操作而不是傳統(tǒng)的最大化池化操作逐哈。分段最大池化操作返回輸入句子的三個段中的最大值,這三個段被分成兩個目標(biāo)實體庄新。
循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器使用具有學(xué)習(xí)時間特征的能力的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來嵌入輸入語句鞠眉。如圖所示,
<table>
<td>
<img src="./d.png" style="width:200px;height:300px;">
</td>
</table>
每個單詞表示向量逐步放入循環(huán)層择诈。對于每個步驟,網(wǎng)絡(luò)采用單詞的表示向量
和前一步驟i-1的輸出
作為輸入出皇,然后我們有
其中表示RNN單元內(nèi)部的變換函數(shù)羞芍,可以是LSTM單元或GRU單元。另外郊艘,當(dāng)預(yù)測句子中間的語義時荷科,可以采用雙向RNN網(wǎng)絡(luò)來充分利用未來詞的信息唯咬。接下來,RNN將來自前向和后向網(wǎng)絡(luò)的信息組合為局部特征畏浆,并使用最大池化操作來提取全局特征胆胰,形成整個輸入句子的表示。最大池化層可以表示為
除了最大池化之外刻获,單詞還可以將所有局部特征向量組合在一起蜀涨。使用注意力機制來學(xué)習(xí)每一步的注意力。假設(shè)是由循環(huán)層產(chǎn)生的所有輸出向量組成的矩陣沐兵,整個句子的特征向量
由每個步驟輸出的加權(quán)和形成别垮。
其中是可訓(xùn)練的查詢向量,
表示其轉(zhuǎn)置扎谎。
3.關(guān)系分類器
最后碳想,當(dāng)獲得輸入句子的表示x時,關(guān)系分類器通過softmax層計算條件概率如下
其中表示關(guān)系矩陣移袍,
是偏差向量
2.2.2文檔級NRE
盡管現(xiàn)有的神經(jīng)模型在提取新的關(guān)系事實方面取得了巨大成功,但它總是受到訓(xùn)練數(shù)據(jù)不足的影響老充。為了解決這個問題葡盗,研究人員提出了遠(yuǎn)程監(jiān)督假說,通過對齊KG和明文來自動生成訓(xùn)練數(shù)據(jù)啡浊。從大量文本中觅够,對實體進(jìn)行標(biāo)注,通過聚類等方法抽取實體之間的關(guān)系字符串巷嚣。這種方法可以抽取非常大量的關(guān)系對喘先,但是抽取結(jié)果很難映射到知識庫中。
遠(yuǎn)程監(jiān)督假設(shè)的直覺是所有包含兩個實體的句子都會在知識圖譜中表達(dá)他們的關(guān)系廷粒。例如窘拯,(紐約,美國的城市)是知識圖譜中的關(guān)系事實坝茎。遠(yuǎn)程監(jiān)督假設(shè)將所有包含這兩個實體的句子視為關(guān)系城市的有效實例涤姊。它提供了一種自然的方式來利用來自多個句子(文檔級別)而不是單個句子(句子級別)的信息來判斷兩個實體之間是否存在關(guān)系。因此嗤放,文檔級NRE旨在使用所有涉及的句子來預(yù)測實體對之間的語義關(guān)系思喊。給定由n個句子及其對應(yīng)的實體對
和
組成的輸入句集
作為輸入舆乔,文檔級NRE想要通過神經(jīng)網(wǎng)絡(luò)獲得關(guān)系
的條件概率
希俩,可以形式化為
文檔級NRE的基本形式由四個部分組成:(a)類似于句子級NRE的輸入編碼器(b)類似于句子級NRE的句子編碼器(c)計算代表所有相關(guān)句子的向量的文檔編碼器 (d)類似于句子級NRE的關(guān)系分類器,它將文檔向量作為輸入而不是句子向量纲辽。
2.2.2.1文檔編譯器
將所有句子向量編碼為單個向量.我們將在下面介紹不同的文檔編碼器颜武。
隨機編碼器它簡單地假設(shè)每個句子可以表達(dá)兩個目標(biāo)實體之間的關(guān)系,并隨機選擇一個句子來表示文檔文兑。形式上盒刚,文檔表示被定義為
其中表示
的句子表示,
是隨機索引绿贞。
最大編碼器實際上因块,如上所述,并非所有包含兩個目標(biāo)實體的句子都可以表達(dá)它們的關(guān)系籍铁。例如涡上,句子“紐約市是合法移民到美國的首要門戶”并不表達(dá)city_of的關(guān)系。因此拒名,在(Zeng等人吩愧,2015)中,他們遵循至少一個假設(shè)增显,該假設(shè)假設(shè)包含這兩個目標(biāo)實體的至少一個句子可以表達(dá)他們的關(guān)系雁佳,并選擇具有最高概率的句子來表示關(guān)系該文件。形式上同云,文檔表示被定義為
2.2.2.2關(guān)系分類器
與句子級NRE類似糖权,當(dāng)獲得文檔表示S時,關(guān)系分類器通過softmax層計算條件概率如下
表示關(guān)系矩陣和
是偏向量旱易。
2.3基于深度學(xué)習(xí)的實體鏈接技術(shù)
將知識圖與文本數(shù)據(jù)連接起來禁偎,可以方便地完成許多不同的任務(wù)。
知識圖包含有關(guān)世界實體阀坏,它們的屬性以及不同實體之間的語義關(guān)系的豐富知識如暖。使用文本數(shù)據(jù)橋接知識圖可以促進(jìn)許多不同的任務(wù),例如信息提取全释,文本分類和問答装处。例如,如果我們知道“史蒂夫喬布斯是蘋果公司的首席執(zhí)行官”浸船,那么理解“喬布斯離開蘋果公司”是有幫助的妄迁。
目前,利用文本數(shù)據(jù)橋接知識圖的主要研究問題是實體鏈接(EL)李命。
給定一組文檔d中的名稱和包含一組實體
的知識圖KB流妻,實體鏈接系統(tǒng)是一個函數(shù)
,它將名稱提及映射到它們的指稱實體(KB)笆制。
<table>
<td>
<img src="./f.png" style="width:200px;height:300px;">
</td>
</table>
其中EL系統(tǒng)將識別三個實體的參考實體绅这,WWDC,Apple和Lion相應(yīng)地是Apple Worldwide Developers Conference在辆,Apple Inc.和MacOS X Lion证薇。基于鏈接結(jié)果的實體匆篓,可以使用KB中有關(guān)這些實體的所有知識來理解文本浑度,例如,我們可以將給定文檔分類為IT類別鸦概,而不是基于知識“獅子是操作系統(tǒng)”的動物類別 ”箩张。
實體鏈接的主要挑戰(zhàn)是名稱歧義問題和名稱變化問題。
名稱歧義問題與名稱可能指不同上下文中的不同實體的事實有關(guān)窗市。例如先慷,蘋果公司的名稱可以指維基百科中的20多個實體,如水果蘋果公司谨设,IT公司蘋果公司和蘋果銀行熟掂。名稱變化問題意味著可以以不同方式提及實體,例如其全名扎拣,別名赴肚,首字母縮寫詞和拼寫錯誤。例如二蓝,可以使用超過10個名稱來提及IBM公司誉券,例如IBM,International Business Machine及其昵稱Big Blue刊愚。為了解決名稱歧義問題和名稱變異問題踊跟,已經(jīng)提出了許多方法用于實體鏈接。
2.3.1實體鏈接框架
給定文檔d和知識圖KB,實體鏈接系統(tǒng)鏈接文檔中的名稱提及如下:
名稱提及識別:在此步驟中商玫,將標(biāo)識文檔中的所有名稱提及實體鏈接箕憾。
例如,EL系統(tǒng)應(yīng)該從上圖的文檔中識別出三個提及{WWDC拳昌,Apple袭异,Lion}。
目前炬藤,大多數(shù)EL系統(tǒng)采用兩種技術(shù)來完成這項任務(wù)御铃。
一種是經(jīng)典的命名實體識別(NER)技術(shù),它可以識別文檔中人物沈矿,位置和組織的名稱上真,然后這些實體名稱將用作實體鏈接的名稱提及。NER技術(shù)的主要缺點是它只能識別有限類型的實體羹膳,而忽略了許多常用的實體睡互,如音樂,電影和書籍溜徙。
名稱提及檢測的另一種技術(shù)是基于字典的匹配湃缎,它首先為知識圖中的所有實體構(gòu)建名稱字典(例如,從維基百科Mihalcea和Csomai 2007中的錨文本中收集)蠢壹,然后文檔中匹配的所有名稱將 用作名稱提及嗓违。基于字典的匹配的主要缺點是它可以匹配許多嘈雜的名稱提及图贸,例如蹂季,甚至停用詞is 和 an在維基百科中用作實體名稱。為了解決這個問題疏日,已經(jīng)提出了許多技術(shù)來過濾嘈雜的名稱提及偿洁。
候選實體選擇:在該步驟中,EL系統(tǒng)為在步驟1中檢測到的每個名稱提取選擇候選實體沟优。例如涕滋,系統(tǒng)可以將{Apple(fruit),Apple Inc.挠阁,Apple Bank}識別為名稱Apple的可能參考宾肺。由于名稱變化問題,大多數(shù)EL系統(tǒng)依賴于參考表來進(jìn)行候選實體選擇侵俗。具體來說锨用,參考表使用(名稱,實體)對記錄名稱的所有可能的指示對象隘谣,并且可以從維基百科錨文本增拥,網(wǎng)絡(luò),或查詢?nèi)罩尽?/p>
本地兼容性計算:給定文檔d中的名稱m及其候選引用實體秩仆。EL系統(tǒng)的關(guān)鍵步驟是計算提及
和實體
之間的局部兼容性
,即估計提及
將與實體
鏈接的可能性。
根據(jù)本地兼容性分?jǐn)?shù)蔬胯,名稱提及m將鏈接到具有最大兼容性得分的實體:
例如嚎朽,要在下面的句子中確定名稱apple的指示實體:
蘋果樹是薔薇科的落葉樹
我們需要計算它與實體Apple(水果)和Apple Inc.的兼容性,最后根據(jù)上下文詞“樹”卿城,“薔薇科”等將apple與Apple(水果)聯(lián)系起來枚钓。目前,已經(jīng)提出了許多用于局部兼容性計算的方法瑟押,基本思想是從提及的上下文和特定實體的描述(例如搀捷,實體的維基百科頁面)中提取判別特征(例如,重要詞多望,頻繁共現(xiàn)實體嫩舟,屬性值),然后兼容性是 由他們共同的共同特征決定怀偷。
全局推斷:長期以來家厌,已經(jīng)證明全局推斷可以顯著提高實體鏈接的性能。全局推斷的基本假設(shè)是主題一致性假設(shè)椎工,即文檔中的所有實體應(yīng)該在語義上與文檔的主要主題相關(guān)饭于。基于這一假設(shè)维蒙,指稱實體不僅應(yīng)與其局部語境兼容掰吕,而且應(yīng)與同一文件中的其他參照實體保持一致。
例如颅痊,如果我們知道名稱中的指示實體Lion是上圖中的Mac OSX(Lion)殖熟,我們可以使用語義關(guān)系產(chǎn)品(Apple Inc.,Mac OSX(Lion))斑响,輕松確定Apple的參照實體是Apple Inc. Mac OSX(Lion))菱属。
這些例子強烈表明,通過聯(lián)合而不是獨立地解決同一文檔中的問題的實體恋捆,可以提升實體連接的性能照皆。形式上,給出所有提及在文檔
中,全局推理算法旨在找到最大的指示實體,從而使全局一致性得分最大化:
近年來瘟滨,已經(jīng)提出了許多用于實體鏈接的全局推理算法候醒,包括基于圖的算法,基于主題模型的方法 和基于優(yōu)化的算法杂瘸。這些方法在如何建立文檔一致性模型以及如何推斷全局最優(yōu)EL決策方面各不相同倒淫。例如,Han等人(2011)將一致性建模為所有指稱實體之間語義關(guān)聯(lián)的總和:
然后通過圖形隨機游走算法獲得全局最優(yōu)決策败玉。相比之下敌土,Han和Sun提出了一個實體-主題模型,其中一致性被建模為從文檔的主要主題生成的所有參照實體的概率运翼,并且通過Gibbs采樣算法獲得全局最優(yōu)決策返干。
2.3.2實體鏈接的深度學(xué)習(xí)
如上所述,EL的一個主要問題是名稱歧義問題; 因此血淌,關(guān)鍵的挑戰(zhàn)是如何通過有效地使用上下文實例來計算名稱提及與實體之間的兼容性矩欠。
已經(jīng)觀察到實體鏈接的性能很大程度上取決于本地兼容性模型。現(xiàn)有研究通常使用手工制作的特征來表示不同類型的上下文實例(例如悠夯,提及癌淮,背景和實體描述),并使用啟發(fā)式相似性度量來衡量局部兼容性沦补。
然而乳蓄,這些基于特征工程的方法具有以下缺點:
?特征工程是勞動密集型的,并且難以手動設(shè)計判別特征策彤。
例如栓袖,設(shè)計能夠捕獲貓和狗之間的語義相似性的特征是具有挑戰(zhàn)性的。
?實體鏈接的上下文實例通常是異構(gòu)的店诗,并且可能具有不同的粒度裹刮。使用手工制作的特征,異構(gòu)實例的建模和利用并不簡單庞瘸。到目前為止捧弃,許多不同類型的上下文實例已被用于實體鏈接,包括實體名稱擦囊,實體類別违霞,實體描述,實體流行度瞬场,實體之間的語義關(guān)系买鸽,提及名稱,提及上下文贯被,提及文檔等眼五。很難設(shè)計 可以將所有這些實例投射到相同的特征空間中的特征妆艘,或者將所有這些實例匯總到EL決策的統(tǒng)一框架中。
?最后看幼,傳統(tǒng)的實體鏈接方法通常以啟發(fā)式的方式定義提及與實體之間的兼容性批旺,這在發(fā)現(xiàn)和捕獲實體鏈接決策的所有有用因素的能力較弱。
近年來已經(jīng)采用了許多深度學(xué)習(xí)技術(shù)來實現(xiàn)實體鏈接诵姜。接下來汽煮,我們首先描述如何通過神經(jīng)網(wǎng)絡(luò)表示異構(gòu)實例,然后介紹如何對不同類型的上下文實例之間的語義交互進(jìn)行建模棚唆,最后暇赤,我們描述如何使用深度學(xué)習(xí)技術(shù)優(yōu)化實體鏈接的本地兼容性度量
2.3.2.1通過神經(jīng)網(wǎng)絡(luò)表示異構(gòu)實例
神經(jīng)網(wǎng)絡(luò)的一個主要優(yōu)點是它可以從不同類型的原始輸入(例如文本,圖像和視頻)自動學(xué)習(xí)良好的表示瑟俭。
在實體鏈接中翎卓,已經(jīng)利用神經(jīng)網(wǎng)絡(luò)來表示異構(gòu)的上下文實例,例如提及名稱摆寄,提及上下文和實體描述。
通過對連續(xù)向量空間中適合于實體鏈接的所有上下文實例進(jìn)行編碼坯门,神經(jīng)網(wǎng)絡(luò)避免了設(shè)計手工制作的特征的需要微饥。
在下文中,我們將介紹如何詳細(xì)表示不同類型的上下文實例古戴。
名稱提及表示
通常由一到三個單詞組成现恼,例如Apple Inc.肃续,President Obama。以前的方法大多代表一個提及它所包含的單詞的嵌入的平均值
其中是單詞
的嵌入叉袍,可以使用CBOW或Skip-Gram模型學(xué)習(xí)始锚。
上述嵌入平均表示未考慮到一個詞的重要性和位置。
為了解決這個問題喳逛,一些方法采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來表示提及瞧捌,它提供了更靈活的表示名稱提及的能力。
局部上下文表示:提及的局部上下文為實體鏈接決策提供了關(guān)鍵信息润文。
例如姐呐,“蘋果樹是薔薇科中的落葉樹”中的上下文詞{tree, deciduous, rose family}提供了關(guān)聯(lián)蘋果名稱的關(guān)鍵信息。
Sun等人提出使用CNN表示本地上下文典蝌,其中上下文的表示由其包含的單詞組成曙砂,通過考慮單詞的語義及其相對位置。
下圖演示了如何使用CNN表示本地上下文骏掀。
<table>
<td>
<img src="./g.png" style="width:100px;height:200px;">
</td>
</table>
形式上鸠澈,給定上下文中的單詞款侵,我們將每個單詞
表示為
,其中
是單詞
的嵌入新锈,
是單詞
的位置嵌入甲脏,
和
是單詞向量和位置向量的維度 。一個單詞
的位置是它在局部上下文中與提及詞的距離妹笆。
為了表示上下文块请,我們首先將它的單詞的所有向量連接起來,如下:
然后將卷積運算應(yīng)用于,并且卷積層的輸出為
其中是線性變換矩陣拳缠,
是卷積層的上下文大小墩新。
由于局部上下文長度各異,并且為了確定特征向量的每個維度中最有用的特征窟坐,我們對卷積層的輸出執(zhí)行最大池化操作(或其他池化操作)如下
最后海渊,我們使用向量代表提到的
的局部上下文
哲鸳。
文檔表示:如先前的研究中所述臣疑,文檔和名稱提及的局部上下文提供了用于實體鏈接的不同粒度的信息。例如徙菠,文檔通常捕獲比本地上下文更大的主題信息讯沈。基于這種觀察婿奔,大多數(shù)實體鏈接系統(tǒng)將文檔和本地上下文視為兩種不同的實例缺狠,并單獨學(xué)習(xí)它們的表示。目前萍摊,已經(jīng)利用兩種類型的神經(jīng)網(wǎng)絡(luò)用于實體鏈接中的文檔表示挤茄。
第一個是卷積神經(jīng)網(wǎng)絡(luò),它與我們在局部上下文表示中引入的相同记餐。
第二個是去噪自動編碼器(DA)驮樊,其旨在學(xué)習(xí)可以在原始文檔中保留最大信息的緊湊文檔表示。
具體地片酝,首先將文檔表示為二進(jìn)制詞袋向量囚衔,其中
的每個維度表示是否出現(xiàn)詞
。
給定文檔表示雕沿,去噪自動編碼器試圖學(xué)習(xí)一個模型练湿,該模型可以在給定隨機損壞的
的情況下重構(gòu)
通過以下過程:(1)通過將掩蔽噪聲(隨機掩蔽1或0)應(yīng)用于原始來隨機破壞
; (2)通過編碼過程將
編碼為緊湊表示
; (3)通過解碼過程
從
重構(gòu)
。
DA的學(xué)習(xí)目標(biāo)是最小化重建誤差肥哎。
下圖演示了DA的編碼和解碼過程辽俗。
<table>
<td>
<img src="./h.png" style="width:200px;height:300px;">
</td>
</table>
DA進(jìn)行文檔表示具有幾個優(yōu)點。
首先篡诽,自動編碼器試圖學(xué)習(xí)文檔的緊湊表示崖飘,因此可以將相似的單詞分組成簇。
其次杈女,通過隨機破壞原始輸入朱浴,DA能捕獲主題并忽略無意義的單詞,例如功能詞是达椰,和翰蠢,等等。第三啰劲,自動編碼器可以重復(fù)堆疊在先前學(xué)習(xí)的上; 因此梁沧,DA可以學(xué)習(xí)多級別的文檔表示。
實體知識表示:目前蝇裤,大多數(shù)實體鏈接系統(tǒng)使用維基百科(或源自維基百科的知識庫廷支,如Yago,DBPedia等)作為其目標(biāo)知識庫猖辫。維基百科包含有關(guān)實體的豐富知識酥泞,例如標(biāo)題,描述啃憎,包含其重要屬性的信息框, 語義類別似炎,有時是與其他實體的關(guān)系辛萍。
如圖顯示了維基百科中包含的Apple Inc.的知識。
<table>
<td>
<img src="./i.png" style="width:200px;height:300px;">
</td>
</table>
在下文中羡藐,我們描述了如何使用神經(jīng)網(wǎng)絡(luò)來表示來自實體知識的實例贩毕。
?實體標(biāo)題表示:與名稱一樣,實體標(biāo)題通常由一到三個單詞組成; 因此仆嗦,大多數(shù)實體鏈接系統(tǒng)采用與名稱提及表示相同的神經(jīng)網(wǎng)絡(luò)來表示實體標(biāo)題辉阶,即字嵌入或CNN的平均值。
?實體描述:目前瘩扼,大多數(shù)實體鏈接系統(tǒng)將實體描述建模為普通文檔谆甜,并且通過CNN或DA了解其與文檔表示相同的表示。
從上面的介紹中集绰,深度學(xué)習(xí)技術(shù)提出了一系列神經(jīng)網(wǎng)絡(luò)规辱,用于表示從詞嵌入,去噪自動編碼器到卷積神經(jīng)網(wǎng)絡(luò)的上下文實例栽燕。
這些神經(jīng)網(wǎng)絡(luò)可以有效地學(xué)習(xí)上下文實例的表示罕袋,而無需手工制作的特征改淑。
近年來,許多其他類型的實例也被用于實體鏈接浴讯。
例如朵夏,實體流行度告訴實體出現(xiàn)在文檔中的可能性,語義關(guān)系捕獲不同實體之間的語義關(guān)聯(lián)/關(guān)系((e.g., CEO-of(Steve Jobs, Apple Inc.) and Employeeof(Michael I. Jordan, UC Berkeley)),為實體提供關(guān)鍵概括信息的類別entity(e.g., apple ISA fruit, Steve Jobs is a Businessman, MichaelJeffery Jordan ISA NBA player).
使用神經(jīng)網(wǎng)絡(luò)表示這些上下文實例仍然不是直截了當(dāng)?shù)挠芘Ατ谖磥淼墓ぷ餮霾褂蒙窠?jīng)網(wǎng)絡(luò)來表示這些上下文實例仍然不是很直觀。在今后的工作中掠河,設(shè)計出能夠有效表達(dá)這些上下文實例的其他神經(jīng)網(wǎng)絡(luò)是很有用的亮元。
2.3.2.2對上下文實例之間語義交互的建模
如上所示,實體鏈接存在許多類型的上下文實例唠摹。為了做出準(zhǔn)確的EL決策爆捞,EL系統(tǒng)需要考慮所有不同類型的上下文實例。此外勾拉,近年來煮甥,跨語言實體鏈接的任務(wù)使得必須比較不同語言的語境實例。例如藕赞,EL系統(tǒng)需要將中文名稱“pingguo (Apple)fabu
(released) xin(new) iPhone”與維基百科中“Apple Inc.”的英文描述進(jìn)行比較成肘,以便進(jìn)行中英文實體鏈接。為了考慮所有上下文實例斧蜕,最近的研究采用神經(jīng)網(wǎng)絡(luò)來模擬不同上下文實例之間的語義相互作用双霍。
通常,使用兩種策略來對不同上下文實例之間的語義交互進(jìn)行建模:
?第一種是通過神經(jīng)網(wǎng)絡(luò)將不同類型的上下文實例映射到相同的連續(xù)特征空間批销,然后可以使用它們的表示之間的相似性(主要是余弦相似性)來捕獲上下文實例之間的語義交互洒闸。
?第二個是學(xué)習(xí)一種新的代表,它可以匯總來自不同上下文實例的信息均芽,然后根據(jù)新的表示做出實體鏈接決策丘逸。
在下文中,我們將描述如何在實體鏈接系統(tǒng)中使用這兩種策略掀宋。
Francis-Landau等人提出學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)深纲,將項目名稱提及,提及的本地上下文劲妙,源文檔湃鹊,實體標(biāo)題和實體描述投射到同一個連續(xù)特征空間; 然后,不同實例之間的語義交互被建模為它們的表示之間的相似性是趴。
具體而言涛舍,給定CNN學(xué)習(xí)的連續(xù)向量表示,F(xiàn)rancis-Landau等提出捕獲提及與實體之間的語義交互如下
其中相應(yīng)地是提及的文檔富雅,上下文和名稱的學(xué)習(xí)到的向量掸驱,并且
和
相應(yīng)地是實體名稱和描述的學(xué)習(xí)到的向量。
最后没佑,將上述語義相似性與鏈路計數(shù)等其他信號相結(jié)合毕贼,預(yù)測局部兼容性。
Sun等人提出為每次提及學(xué)習(xí)一種新的表示形式蛤奢,該表示由提及的名稱和基于其表示的本地上下文的實例組成鬼癣。
具體來說,新的表示使用神經(jīng)張量網(wǎng)絡(luò)來組成提及向量和上下文向量
:
這樣啤贩,不同上下文實例之間的語義交互被總結(jié)為新的特征向量待秃。
Sun等人還通過組合其實體名稱表示和實體類別表示來學(xué)習(xí)每個實體的新表示。最后痹屹,提及與實體之間的局部兼容性計算為其新表示之間的余弦相似度章郁。
在Tsai和Roth提出了一種用于跨語言實體鏈接的多語言嵌入方法≈狙埽跨語言實體鏈接旨在將以非英語文檔編寫的廣泛的提及與英語維基百科中的條目相對應(yīng)暖庄。
Tsai和Roth將外語和英語中的詞和實體名稱投射到新的連續(xù)向量空間,然后可以有效地計算外語提及與英語維基百科條目之間的實體鏈接楼肪。
具體來說培廓,給定對齊的英語和外語標(biāo)題 和
的嵌入,其中
是對齊的標(biāo)題號春叫,
和
相應(yīng)地是英語和外語的嵌入維度肩钠,Tsai和Roth 對這兩個矩陣應(yīng)用典范相關(guān)分析(CCA):
然后,將英語嵌入和外語嵌入投射到新的特征空間中
和
是英語和外語中所有單詞的原始嵌入暂殖,
與
是英語和外語中所有單詞的新嵌入蔬将。
2.3.2.3學(xué)習(xí)本地兼容性度量
上下文實例表示學(xué)習(xí)和語義交互建模都依賴于大量參數(shù)以獲得良好的性能。
深度學(xué)習(xí)技術(shù)提供端到端框架央星,可以使用反向傳播算法和基于梯度的優(yōu)化算法有效地優(yōu)化所有參數(shù)。
在下圖中惫东,我們展示了一種常用的本地兼容性學(xué)習(xí)架構(gòu)莉给。
<table>
<td>
<img src="./l.png" style="width:200px;height:300px;">
</td>
</table>
我們可以看到提及的實例和實體的實例將首先使用上下文實例表示神經(jīng)網(wǎng)絡(luò)編碼到連續(xù)特征空間中,然后將使用語義交互建模神經(jīng)網(wǎng)絡(luò)計算提及與實體之間的兼容性信號廉沮,最后颓遏,所有這些信號將是總結(jié)為本地兼容性得分。
為了學(xué)習(xí)上述神經(jīng)網(wǎng)絡(luò)以獲得本地兼容性滞时,我們需要從不同資源(例如叁幢,來自維基百科超鏈接)收集實體鏈接注釋曼玩。
然后鳞骤,訓(xùn)練目標(biāo)是最小化排名損失:
其中是每個訓(xùn)練實例
的成對排序標(biāo)準(zhǔn)黍判,如果排名第1的實體
不是真正的參照實體
豫尽。
我們可以看到,在上述學(xué)習(xí)過程中顷帖,深度學(xué)習(xí)技術(shù)可以通過微調(diào)提及表示和實體表示來優(yōu)化相似性度量美旧,并學(xué)習(xí)不同兼容性信號的權(quán)重。通過這種方式贬墩,它通沉裥幔可以實現(xiàn)比啟發(fā)式設(shè)計的相似性度量更好的性能。
3.總結(jié)
知識圖是自然語言理解和常識推理的基礎(chǔ)知識庫陶舞,其中包含有關(guān)世界實體嗽测,其屬性和實體之間語義關(guān)系的豐富知識羽莺。
在本章中盆犁,我們將介紹幾個重要的知識圖俏险,包括DBPedia吸占,F(xiàn)reebase杈曲,Wikidata翅敌,Yago和HowNet山涡。
之后伺通,我們介紹知識圖的三個重要任務(wù)雅宾,并描述深度學(xué)習(xí)技術(shù)如何應(yīng)用于這些問題:
第一個是表示學(xué)習(xí)养涮,可用于嵌入實體、關(guān)系眉抬,到連續(xù)的特征空間;
第二個是神經(jīng)關(guān)系抽取贯吓,它展示了如何通過從網(wǎng)頁和文本中提取知識來構(gòu)建知識圖; 第三個是實體鏈接,可用于將知識與文本聯(lián)系起來蜀变。深度學(xué)習(xí)技術(shù)被用于知識圖表示的實體和關(guān)系嵌入悄谐,并表示知識圖構(gòu)建的關(guān)系提取中的關(guān)系實例,并表示實體鏈接的異構(gòu)實例库北。上述技術(shù)將為在不同的任務(wù)中理解爬舰,表示,構(gòu)建并利用KGs提供堅實的基礎(chǔ)寒瓦,例如問答情屹,文本理解和常識推理。
除了有利于KG的建設(shè)杂腰,知識表示學(xué)習(xí)為我們提供了一個令人興奮的方法來應(yīng)用KG垃你。將來,重要的是探索如何更好地將KGs考慮到自然語言理解和生成的深度學(xué)習(xí)模型,并為自然語言處理開發(fā)知識淵博的神經(jīng)模型惜颇。