融合實體詞典的命名實體識別

碩士論文:基于生物醫(yī)學詞典的實體表示及其應用研究

問題:生物醫(yī)學領域的命名實體普遍具有模糊性皱坛,主要表現在:
1.多樣性:也叫同義詞或者同一實體多種變體
2.歧義性:也叫一詞多義或者不同實體同名
多樣性和歧義性的廣泛存在使得生物醫(yī)學實體識別和鏈接成為具有挑戰(zhàn)性的任務绩社。生物醫(yī)學領域存在豐富的詞典校读,這些詞典中包含了大量的實體名信息實體ID描述文本以及實體結構信息等先驗知識,有助于解決實體識別和鏈接所面臨的問題。

基于生物醫(yī)學詞典的實體識別系統

  • 數據預處理階段:對語料進行噪音過濾(將所有字母轉換為小寫谜慌,并用空格替換特殊符號)、細粒度分詞以及標簽標注莺奔、對數據進行詞元分析(即基于詞典進行的標準化欣范,還原出每個詞的原型)
  • 特征抽取階段:通過生物醫(yī)學詞典抽取了兩種詞典特征,用于增加實體的提示信息令哟,這兩種詞典特征分別是:分布式特征n元特征
  • 分布式詞典特征:給定句子恼琼,若當前匹配子序列出現在詞典中,且匹配結構僅是一個詞屏富,我們就標記其為“B”晴竞;若匹配結果包含多個詞,則將匹配結果的第一個詞標記為“B”狠半,后面的詞標記為“I”噩死;對于S中剩余的未匹配單詞,統一標記為“O”神年。最后已维,將這些BIO標記通過隨機初始化的方式映射為低維的向量表示,獲得分布式詞典特征表示瘤袖。
  • n元詞典特征

    具體來說:就是根據詞w的上下文構造7個文本片段衣摩。對于每個文本片段,我們可以生成一個二進制值以指示該文本片段是否在生物醫(yī)學詞典中捂敌,最終可以獲得一個長度為7的二值特征向量。

模型最終的架構圖如下:


基于實體描述文本的生物醫(yī)學實體鏈接

  • 候選ID生成和候選ID排序:

  • 候選ID生成主要有兩種方法既琴,分別是詞典匹配和API查詢占婉。詞典匹配就是將實體提及與詞典實體進行字符串匹配,得到實體與候選ID的映射列表甫恩。API查詢是指利用詞典提供的API接口對實體提及進行基于關鍵字的搜索逆济。

  • 候選ID排序的核心是相關度得分的計算


    基于實體結構信息的生物醫(yī)學實體鏈接

  • 與前一節(jié)基本相同,區(qū)別在于候選ID表示的學習方法不同。首先從生物醫(yī)學詞典中抽取實體的結構信息奖慌,包括同一實體多種變體和不同實體同名抛虫。然后,將其作為向量空間上的約束简僧,采用自動編碼機對其進行學習建椰,獲得候選ID表示。


  • 提出兩種基于transformer改進的實體消歧模型岛马,從兩方面探究實體ID表示嵌入到神經網絡模型的方法棉姐。


  • 右圖將候選ID表示S作為查詢Q的輸入,K和V仍為上下文詞向量序列保持不變啦逆。這樣做的目的是希望通過計算Q和K的相似性伞矩,獲得對輸入文本其他部分的關注權重,根據這些權重對序列自身V進行加權求和夏志,建模序列內部聯系乃坤,從而實現候選ID和上下文表示的融合。

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末沟蔑,一起剝皮案震驚了整個濱河市湿诊,隨后出現的幾起案子,更是在濱河造成了極大的恐慌溉贿,老刑警劉巖枫吧,帶你破解...
    沈念sama閱讀 221,406評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異宇色,居然都是意外死亡九杂,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 94,395評論 3 398
  • 文/潘曉璐 我一進店門宣蠕,熙熙樓的掌柜王于貴愁眉苦臉地迎上來例隆,“玉大人,你說我怎么就攤上這事抢蚀《撇悖” “怎么了?”我有些...
    開封第一講書人閱讀 167,815評論 0 360
  • 文/不壞的土叔 我叫張陵皿曲,是天一觀的道長唱逢。 經常有香客問我,道長屋休,這世上最難降的妖魔是什么坞古? 我笑而不...
    開封第一講書人閱讀 59,537評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮劫樟,結果婚禮上痪枫,老公的妹妹穿的比我還像新娘织堂。我一直安慰自己,他們只是感情好奶陈,可當我...
    茶點故事閱讀 68,536評論 6 397
  • 文/花漫 我一把揭開白布易阳。 她就那樣靜靜地躺著,像睡著了一般吃粒。 火紅的嫁衣襯著肌膚如雪潦俺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,184評論 1 308
  • 那天声搁,我揣著相機與錄音黑竞,去河邊找鬼。 笑死疏旨,一個胖子當著我的面吹牛很魂,可吹牛的內容都是我干的。 我是一名探鬼主播檐涝,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼遏匆,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了谁榜?” 一聲冷哼從身側響起幅聘,我...
    開封第一講書人閱讀 39,668評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎窃植,沒想到半個月后帝蒿,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 46,212評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡巷怜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,299評論 3 340
  • 正文 我和宋清朗相戀三年葛超,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片延塑。...
    茶點故事閱讀 40,438評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡绣张,死狀恐怖,靈堂內的尸體忽然破棺而出关带,到底是詐尸還是另有隱情侥涵,我是刑警寧澤,帶...
    沈念sama閱讀 36,128評論 5 349
  • 正文 年R本政府宣布宋雏,位于F島的核電站芜飘,受9級特大地震影響,放射性物質發(fā)生泄漏磨总。R本人自食惡果不足惜燃箭,卻給世界環(huán)境...
    茶點故事閱讀 41,807評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舍败。 院中可真熱鬧,春花似錦、人聲如沸邻薯。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,279評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厕诡。三九已至累榜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間灵嫌,已是汗流浹背壹罚。 一陣腳步聲響...
    開封第一講書人閱讀 33,395評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留寿羞,地道東北人猖凛。 一個月前我還...
    沈念sama閱讀 48,827評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像绪穆,于是被迫代替她去往敵國和親辨泳。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,446評論 2 359

推薦閱讀更多精彩內容