系統(tǒng)簡(jiǎn)稱:EmbedKGQA
發(fā)表會(huì)議:ACL 2020
研究領(lǐng)域:KBQA
作者團(tuán)隊(duì):Indian Institute of Science
KBQA旨在通過KG回答自然語言問句胞四。multi-hop KGQA需要在KG上的多條邊之間進(jìn)行推理恬汁,同時(shí)知識(shí)庫上存在很多missing links,這些都給multi-hop KGQA帶來了挑戰(zhàn)。
本文嘗試將KG embedding與multi-hop KGQA結(jié)合氓侧,實(shí)驗(yàn)表明EmbedKGQA是一種有效的multi-hop KGQA的方式脊另。
如上圖所示,當(dāng)這里缺失了一條
has_genre(Ganster No.1, Crime)
邊時(shí)约巷,現(xiàn)有的KGQA系統(tǒng)就無法很好地回答了(因?yàn)橥ǔK麄兿拗?跳以內(nèi)的實(shí)體)偎痛。
為了解決這種問題,作者提出了EmbedKGQA独郎,利用KG embedding來回答多跳問題踩麦。(應(yīng)該是首個(gè)將 KG embedding應(yīng)用到multi-hop問題上的方法)
Overview
KG Embedding模塊學(xué)習(xí)KG中所有的entity embedding,Question Embedding模塊學(xué)習(xí)句子的embedding氓癌。 Answer selection 模塊選擇最終的答案谓谦。
通過這種方式,能夠:
- 解決KG稀疏的問題(缺失邊)
- 由于EmbedKGQA將所有的實(shí)體作為候選實(shí)體贪婉,因此不存在答案實(shí)體out-of-reach的問題
KG Embedding Module
這里采用了ComplEX的embedding反粥。
Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//International Conference on Machine Learning. PMLR, 2016: 2071-2080.
https://arxiv.org/abs/1606.06357
ComplEx是一種基于張量分解的embedding方法,將relation和entity嵌入到復(fù)數(shù)空間疲迂。
score function定義為:
Question Embedding Module
用RoBERTa做question embedding才顿,將[CLS]過了一個(gè)4層的全連接層。打分函數(shù)和ComplEx的定義相同 (從topic entity出發(fā)尤蒿,經(jīng)過句子的embedding郑气,得到target entity):
損失函數(shù)為預(yù)測(cè)的分?jǐn)?shù)的sigmoid概率與實(shí)際標(biāo)簽的binary cross entropy
Answer Selection Module
很簡(jiǎn)單,選取打分最高的實(shí)體即可腰池。
但是顯然尾组,去遍歷所有的實(shí)體是不可接受的,因此需要進(jìn)行搜索空間裁剪巩螃。這里采用了Relation matching進(jìn)行空間裁剪演怎。
定義關(guān)系和句子的相似度為:
其中為relation 的embedding。
選取分?jǐn)?shù)大于0.5的作為集合避乏。
對(duì)每個(gè)候選實(shí)體爷耀,找到從頭實(shí)體到的最短路徑中的relation,記為集合拍皮。
定義relation score為:
實(shí)驗(yàn)
數(shù)據(jù)集:
- MetaQA
- WebQuestionSP (這里為WebQuestionSP抽取了一個(gè)freebase子圖,只包含問句集中出現(xiàn)的關(guān)系和topic entity及其兩跳內(nèi)的entity)
實(shí)驗(yàn)結(jié)果
QA實(shí)驗(yàn):
missing link 實(shí)驗(yàn):
neighbour based 過濾及relation matching model的重要性: