Entity Linking 文章思路整理

Entity Linking,或者Entity Normalization枪狂,Concept Linking等,通常指將自然語言中辜限,通常為科學(xué)文獻(xiàn)的各類概念,實體提及薄嫡,對應(yīng)到Ontology或是數(shù)據(jù)庫,例如wiki中的唯一ID。通過對Entity Linking近年來方法的閱讀杭措,主要總結(jié)為一下幾步,1. 對Token進(jìn)行表示鸳址,通常利用work2vec泉懦,glove等模型,也有利用Bert崩哩,ELMO等基于上下文調(diào)整token詞嵌入模型的邓嘹。2. 利用Token嵌入加權(quán)求和,Attention矿筝,卷積等方法得到Entity及Mention的嵌入。3. 利用余弦相似度等嵌入相似度評價指標(biāo)窖维,或神經(jīng)網(wǎng)絡(luò)等方法妙痹,得到與每個Mention最相似的Entity嵌入排序怯伊。4. 部分文章包含,使用外部信息利赋,例如知識圖譜提供的Entity嵌入猩系,或者其他上下文嵌入,Entity的description等嵌入來進(jìn)行Re-Rank寇甸,加強每個Mention最相似的Entity排序疗涉。這一問題同知識檢索系統(tǒng)系統(tǒng)所解決的Query對應(yīng)Key的問題大相徑庭咱扣,下面將整理近期讀過的關(guān)于Entity Linking的文章思路進(jìn)行總結(jié)匯總涵防,僅供項目推進(jìn)。

關(guān)鍵貢獻(xiàn)點及參考點用加粗注釋偏瓤。

一. Efficient One-Pass End-to-End Entity Linking for Questions. EMNLP 2020.

  1. 提出了一個Mention detection 和 Entity Linking 結(jié)合的Bert based bi-encoder model(ELQ Model).

  2. Aims to:
    2.1 identify the mention boundaries of entities in a given question.
    2.2 and their Wikipedia entity椰憋。

  3. Methods step:
    3.1 entity encoder利用Wikipedia中每個實體的描述構(gòu)建每個實體的嵌入,(考慮利用Concept的description或Ontology構(gòu)建實體嵌入)橙依。
    3.2 question encoder為輸入的問題構(gòu)建 token-level的嵌入窗骑。
    3.3 利用question encoder 中每個token的嵌入決定Mention boundaries,并且每個Mention candidate的嵌入為包含的token嵌入的平均嵌入慧域。
    3.4 利用entity和mention嵌入的內(nèi)積進(jìn)行實體連接昔榴。

Biencoder
  1. ELQ Model.
    4.1 Question嵌入為[q1...qn]通過Bert后的嵌入互订。Entity嵌入通過Wikipedia中該實體對應(yīng)網(wǎng)頁的Title和description初始化。

    ELQ Model

    4.2 分別用W_{start}^TW_{end}^T表示Mention起始及終止位置的狀態(tài)嵌入氮墨。W^T_{mention}表示Mention所包含單詞的權(quán)重规揪。則p([i,j])表示該Mention出現(xiàn)的概率温峭,其中i,j表示在Question中的第i個單詞和第j個單詞作為Mention的起始位置和終止位置。
    Mention Detection

    4.3 s(e,[i,j]))計算Question嵌入x_e和Mention嵌入y_{i,j}的相似度奸忽,p(e|[i,j])對分?jǐn)?shù)進(jìn)行softmax操作栗菜,利用神經(jīng)網(wǎng)絡(luò)最優(yōu)化Mention及Entity打分函數(shù)s(e,[i,j])
    Entity Disambiguation

    4.4 構(gòu)建兩個損失函數(shù)富俄,L_{MD}為衡量所有Mention出現(xiàn)的概率損失的binary cross entropy loss蛙酪,L_{ED}衡量Entity Liking的損失翘盖,總損失為鏈各個損失之和馍驯。

  2. Trick
    5.1 實際計算中玛痊,因為Wikipedia中Entity數(shù)量太多,Softmax不好計算擂煞,所以設(shè)計參數(shù)\gammap([i,j])進(jìn)行限制对省,再計算每個保留下來的Mention10個最近的Entity計算softmax。

  1. 參考:
    6.1 利用Wikipedia對每個Entity的title和description來初始化Entity嵌入蒿涎。作為參考,我們同樣可以將Concept的描述仓手,或者其他外部信息嗽冒,例如定義等來強化Entity嵌入,或者將Ontology的樹狀結(jié)構(gòu)加入嵌入信息补履⌒廖浚或利用包含Mention的句子來加強Mention嵌入干像,但是需要確保句子質(zhì)量,特別是利用Bert速客,ELMO這類模型時。
    6.2 設(shè)計打分函數(shù)利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)Mention及Entity的Linking溺职。
    6.3 最后Python package的輸出可以是Mention最相似的TopN的Entity浪耘。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市七冲,隨后出現(xiàn)的幾起案子痛倚,更是在濱河造成了極大的恐慌,老刑警劉巖澜躺,帶你破解...
    沈念sama閱讀 221,406評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蝉稳,死亡現(xiàn)場離奇詭異,居然都是意外死亡掘鄙,警方通過查閱死者的電腦和手機(jī)耘戚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來操漠,“玉大人收津,你說我怎么就攤上這事∽腔铮” “怎么了撞秋?”我有些...
    開封第一講書人閱讀 167,815評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長吧黄。 經(jīng)常有香客問我拗慨,道長剧蹂,這世上最難降的妖魔是什么宠叼? 我笑而不...
    開封第一講書人閱讀 59,537評論 1 296
  • 正文 為了忘掉前任伸蚯,我火速辦了婚禮,結(jié)果婚禮上挥萌,老公的妹妹穿的比我還像新娘引瀑。我一直安慰自己,他們只是感情好徒像,可當(dāng)我...
    茶點故事閱讀 68,536評論 6 397
  • 文/花漫 我一把揭開白布灭衷。 她就那樣靜靜地躺著迫像,像睡著了一般闻妓。 火紅的嫁衣襯著肌膚如雪由缆。 梳的紋絲不亂的頭發(fā)上均唉,一...
    開封第一講書人閱讀 52,184評論 1 308
  • 那天层扶,我揣著相機(jī)與錄音,去河邊找鬼炉抒。 笑死,一個胖子當(dāng)著我的面吹牛扒袖,可吹牛的內(nèi)容都是我干的野瘦。 我是一名探鬼主播鞭光,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼汹买!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起见妒,我...
    開封第一講書人閱讀 39,668評論 0 276
  • 序言:老撾萬榮一對情侶失蹤邀层,失蹤者是張志新(化名)和其女友劉穎寥院,沒想到半個月后霹肝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沫换,經(jīng)...
    沈念sama閱讀 46,212評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡冷尉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,299評論 3 340
  • 正文 我和宋清朗相戀三年磕谅,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片放刨。...
    茶點故事閱讀 40,438評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡宏榕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出馋辈,到底是詐尸還是另有隱情迈螟,我是刑警寧澤,帶...
    沈念sama閱讀 36,128評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響耘拇,放射性物質(zhì)發(fā)生泄漏倡勇。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,807評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望厅目。 院中可真熱鬧深啤,春花似錦溯街、人聲如沸挥等。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽粘室。三九已至先朦,卻和暖如春喳魏,著一層夾襖步出監(jiān)牢的瞬間刺彩,已是汗流浹背创倔。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評論 1 272
  • 我被黑心中介騙來泰國打工十电, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,827評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親熔酷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,446評論 2 359