2021-03-03

Biomedical Named Entity Recognition and Linking Datasets: Survey and Our Recent Development
  • task1: 命名實(shí)體識(shí)別(NER)
    task 2: 命名實(shí)體規(guī)范化(NEN)
    task 3: 蛋白質(zhì)-蛋白質(zhì)關(guān)系抽褥(PPIE)
  • 貢獻(xiàn):
    1.介紹了常見的BioNER數(shù)據(jù)集及其潛在的標(biāo)注問(wèn)題视事,如:不一致性和低可移植性
    2.介紹了JNLPBA數(shù)據(jù)集的修訂版本译蒂,并使用最先進(jìn)的BioNER系統(tǒng)來(lái)評(píng)估其對(duì)各種生物醫(yī)學(xué)文獻(xiàn)(蛋白質(zhì)-蛋白質(zhì)關(guān)系抽取和生物事件)的可移植性
    3.介紹了集成的生物醫(yī)學(xué)實(shí)體數(shù)據(jù)集(EBED)动漾,它擴(kuò)展了經(jīng)過(guò)修訂的JNLPBA數(shù)據(jù)集忍燥,其中包含了PubMed Central 全文摘要和圖標(biāo)題和專利摘要
  • 內(nèi)容:
    1.對(duì)生物醫(yī)學(xué)數(shù)據(jù)集的介紹:包括常見的命名實(shí)體識(shí)別的數(shù)據(jù)集和下游應(yīng)用相關(guān)的生物醫(yī)學(xué)數(shù)據(jù)集
    2.對(duì)BioNER系統(tǒng)的介紹
    3.JNLPBA數(shù)據(jù)集存在的問(wèn)題以及修改的方法:
    1)一般實(shí)體問(wèn)題



    如上例所示,在第一個(gè)句子中,“SKW 6.4、IL 6征字、c-fos”在一些大型的公開數(shù)據(jù)庫(kù)上都可以被找到,但第二個(gè)句子中的“consensus sequence”一致的序列并未突出DNA類型的主要特征娇豫,因此將其標(biāo)注刪除
    2)冗余前綴



    如上例所示匙姜,對(duì)于”MAPKK-1”這個(gè)實(shí)體來(lái)說(shuō),前面的修飾詞“dominant negative"是多余的
    3)實(shí)體類型混淆
    4)忽略的相鄰上下文信息

    如上例所示冯痢,如果不考慮”genes"氮昧、“nucleotide"基因和蛋白質(zhì)兩個(gè)近端關(guān)鍵詞的話,IL-16將會(huì)被錯(cuò)誤的標(biāo)注為蛋白質(zhì)類型
    5)缺少標(biāo)注

    4.EBED數(shù)據(jù)集的形成
    1.數(shù)據(jù)的收集
    2.數(shù)據(jù)的標(biāo)注:
    1)自動(dòng)實(shí)體預(yù)標(biāo)注
    PubTator 和TaggerOne
    2)手工修正
    3.數(shù)據(jù)的統(tǒng)計(jì)

5.實(shí)驗(yàn)
1.注釋間協(xié)定分析(IAA)
針對(duì)不一致的實(shí)體標(biāo)注進(jìn)行分析浦楣,最終對(duì)EBED數(shù)據(jù)集中的實(shí)體標(biāo)注袖肥、規(guī)范化和屬性鏈接達(dá)成一致性的結(jié)果
2.評(píng)價(jià)指標(biāo)
1)對(duì)于NER任務(wù),P,R,F1值仍然作為它的評(píng)價(jià)指標(biāo)
2)對(duì)于NEN任務(wù)振劳,F(xiàn)1值仍然是它的評(píng)價(jià)指標(biāo)椎组,但由于將每個(gè)實(shí)體都映射到數(shù)據(jù)庫(kù)中的ID是非常困難的,因此簡(jiǎn)化了任務(wù):

  • 不需要返回每個(gè)實(shí)體的ID澎迎,只需要返回所在文檔在Entrez/MeSH/ChEBI這些數(shù)據(jù)庫(kù)中的ID
  • Entrez數(shù)據(jù)庫(kù)中包含許多同源基因庐杨,我們提供一個(gè)同源詞典选调,允許提交的ID是標(biāo)準(zhǔn)ID的同源ID
  • 對(duì)于化合物實(shí)體來(lái)說(shuō)夹供,允許返回在ChEBI數(shù)據(jù)庫(kù)中標(biāo)準(zhǔn)ID所對(duì)應(yīng)的父ID或子ID
    3)對(duì)于屬性鏈接任務(wù):
  • 由于一種疾病實(shí)體可能鏈接到多個(gè)器官ID,將其視為不同的鏈接關(guān)系
  • 同一疾病/化合物實(shí)體在不同的句子中會(huì)鏈接到不同的器官/疾病實(shí)體仁堪,將其視為不同的鏈接關(guān)系
    3.實(shí)驗(yàn)結(jié)果
    1)修訂后的JNLPBA數(shù)據(jù)集在NER任務(wù)和PPIE任務(wù)上的實(shí)驗(yàn)都提升了原有方法的性能
    2)對(duì)于EBED數(shù)據(jù)集哮洽,回顧了人工智能杯生物醫(yī)學(xué)論文分析的比賽
    具體的實(shí)驗(yàn)結(jié)果見原論文
NER、NEN弦聂、AI 3個(gè)任務(wù)的標(biāo)注過(guò)程的示意圖
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末鸟辅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子莺葫,更是在濱河造成了極大的恐慌匪凉,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,525評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捺檬,死亡現(xiàn)場(chǎng)離奇詭異再层,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,203評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門聂受,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蒿秦,“玉大人,你說(shuō)我怎么就攤上這事蛋济」鞅睿” “怎么了?”我有些...
    開封第一講書人閱讀 164,862評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵碗旅,是天一觀的道長(zhǎng)渡处。 經(jīng)常有香客問(wèn)我,道長(zhǎng)扛芽,這世上最難降的妖魔是什么骂蓖? 我笑而不...
    開封第一講書人閱讀 58,728評(píng)論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮川尖,結(jié)果婚禮上登下,老公的妹妹穿的比我還像新娘。我一直安慰自己叮喳,他們只是感情好被芳,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,743評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著馍悟,像睡著了一般畔濒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上锣咒,一...
    開封第一講書人閱讀 51,590評(píng)論 1 305
  • 那天侵状,我揣著相機(jī)與錄音,去河邊找鬼毅整。 笑死趣兄,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的悼嫉。 我是一名探鬼主播艇潭,決...
    沈念sama閱讀 40,330評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼戏蔑!你這毒婦竟也來(lái)了蹋凝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,244評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤总棵,失蹤者是張志新(化名)和其女友劉穎鳍寂,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體情龄,經(jīng)...
    沈念sama閱讀 45,693評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡迄汛,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,885評(píng)論 3 336
  • 正文 我和宋清朗相戀三年候味,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片隔心。...
    茶點(diǎn)故事閱讀 40,001評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡白群,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出硬霍,到底是詐尸還是另有隱情帜慢,我是刑警寧澤,帶...
    沈念sama閱讀 35,723評(píng)論 5 346
  • 正文 年R本政府宣布唯卖,位于F島的核電站粱玲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏拜轨。R本人自食惡果不足惜抽减,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,343評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望橄碾。 院中可真熱鬧卵沉,春花似錦、人聲如沸法牲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,919評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拒垃。三九已至停撞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間悼瓮,已是汗流浹背戈毒。 一陣腳步聲響...
    開封第一講書人閱讀 33,042評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留横堡,地道東北人埋市。 一個(gè)月前我還...
    沈念sama閱讀 48,191評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像翅萤,于是被迫代替她去往敵國(guó)和親恐疲。 傳聞我的和親對(duì)象是個(gè)殘疾皇子腊满,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,955評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 核酸和蛋白質(zhì)序列分析 關(guān)鍵詞: 核酸序列蛋白質(zhì)序列分析軟件 在獲得一個(gè)基因序列后套么,需要對(duì)其進(jìn)行生物信息學(xué)分析,從中...
    85164760f6ac閱讀 1,385評(píng)論 0 5
  • GO碳蛋,KEGG胚泌,GSEA等久負(fù)盛名的功能富集分析方法對(duì)于解析各種基因的調(diào)控功能和互作網(wǎng)絡(luò)起到非常重要的作用。但這些...
    NAome閱讀 4,933評(píng)論 0 6
  • 舌頭舌尖深紅色肃弟,舌苔很薄或者有裂痕的時(shí)候玷室,體質(zhì)是一個(gè)極端陰虛的體質(zhì)零蓉,那他的這個(gè)抽搐跟震顫比較是血虛生風(fēng)的狀態(tài)造成的...
    最閃亮的那顆星_b02d閱讀 411評(píng)論 0 0
  • 那些微生物為制作發(fā)酵食品所必需? 本文仍然是對(duì)《ISAPP發(fā)酵食品》共識(shí)聲明的翻譯與解讀穷缤。 要了解發(fā)酵食品在營(yíng)養(yǎng)和...
    薩瓦蘭閱讀 189評(píng)論 0 0
  • 推薦指數(shù): 6.0 書籍主旨關(guān)鍵詞:特權(quán)敌蜂、焦點(diǎn)、注意力津肛、語(yǔ)言聯(lián)想章喉、情景聯(lián)想 觀點(diǎn): 1.統(tǒng)計(jì)學(xué)現(xiàn)在叫數(shù)據(jù)分析,社會(huì)...
    Jenaral閱讀 5,721評(píng)論 0 5