碩士論文:基于生物醫(yī)學詞典的實體表示及其應用研究
問題:生物醫(yī)學領域的命名實體普遍具有模糊性皱坛,主要表現在:
1.多樣性:也叫同義詞或者同一實體多種變體
2.歧義性:也叫一詞多義或者不同實體同名
多樣性和歧義性的廣泛存在使得生物醫(yī)學實體識別和鏈接成為具有挑戰(zhàn)性的任務绩社。生物醫(yī)學領域存在豐富的詞典校读,這些詞典中包含了大量的實體名信息、實體ID描述文本以及實體結構信息等先驗知識,有助于解決實體識別和鏈接所面臨的問題。
基于生物醫(yī)學詞典的實體識別系統:
- 數據預處理階段:對語料進行噪音過濾(將所有字母轉換為小寫谜慌,并用空格替換特殊符號)、細粒度分詞以及標簽標注莺奔、對數據進行詞元分析(即基于詞典進行的標準化欣范,還原出每個詞的原型)
- 特征抽取階段:通過生物醫(yī)學詞典抽取了兩種詞典特征,用于增加實體的提示信息令哟,這兩種詞典特征分別是:分布式特征和n元特征
- 分布式詞典特征:給定句子恼琼,若當前匹配子序列出現在詞典中,且匹配結構僅是一個詞屏富,我們就標記其為“B”晴竞;若匹配結果包含多個詞,則將匹配結果的第一個詞標記為“B”狠半,后面的詞標記為“I”噩死;對于S中剩余的未匹配單詞,統一標記為“O”神年。最后已维,將這些BIO標記通過隨機初始化的方式映射為低維的向量表示,獲得分布式詞典特征表示瘤袖。
-
n元詞典特征:
具體來說:就是根據詞w的上下文構造7個文本片段衣摩。對于每個文本片段,我們可以生成一個二進制值以指示該文本片段是否在生物醫(yī)學詞典中捂敌,最終可以獲得一個長度為7的二值特征向量。
模型最終的架構圖如下:
基于實體描述文本的生物醫(yī)學實體鏈接
候選ID生成和候選ID排序:
-
候選ID生成主要有兩種方法既琴,分別是詞典匹配和API查詢占婉。詞典匹配就是將實體提及與詞典實體進行字符串匹配,得到實體與候選ID的映射列表甫恩。API查詢是指利用詞典提供的API接口對實體提及進行基于關鍵字的搜索逆济。
-
候選ID排序的核心是相關度得分的計算
基于實體結構信息的生物醫(yī)學實體鏈接 -
與前一節(jié)基本相同,區(qū)別在于候選ID表示的學習方法不同。首先從生物醫(yī)學詞典中抽取實體的結構信息奖慌,包括同一實體多種變體和不同實體同名抛虫。然后,將其作為向量空間上的約束简僧,采用自動編碼機對其進行學習建椰,獲得候選ID表示。
-
提出兩種基于transformer改進的實體消歧模型岛马,從兩方面探究實體ID表示嵌入到神經網絡模型的方法棉姐。
右圖將候選ID表示S作為查詢Q的輸入,K和V仍為上下文詞向量序列保持不變啦逆。這樣做的目的是希望通過計算Q和K的相似性伞矩,獲得對輸入文本其他部分的關注權重,根據這些權重對序列自身V進行加權求和夏志,建模序列內部聯系乃坤,從而實現候選ID和上下文表示的融合。