- pytorch中NLLLoss函數(shù)和CrossEntropyLoss函數(shù)的區(qū)別:
https://www.cnblogs.com/jiading/p/11979391.html
Biomedical Named Entity Recognition and Linking Datasets: Survey and Our Recent Development
- task1: 命名實(shí)體識(shí)別(NER)
task 2: 命名實(shí)體規(guī)范化(NEN)
task 3: 蛋白質(zhì)-蛋白質(zhì)關(guān)系抽褥(PPIE) - 貢獻(xiàn):
1.介紹了常見的BioNER數(shù)據(jù)集及其潛在的標(biāo)注問(wèn)題视事,如:不一致性和低可移植性
2.介紹了JNLPBA數(shù)據(jù)集的修訂版本译蒂,并使用最先進(jìn)的BioNER系統(tǒng)來(lái)評(píng)估其對(duì)各種生物醫(yī)學(xué)文獻(xiàn)(蛋白質(zhì)-蛋白質(zhì)關(guān)系抽取和生物事件)的可移植性
3.介紹了集成的生物醫(yī)學(xué)實(shí)體數(shù)據(jù)集(EBED)动漾,它擴(kuò)展了經(jīng)過(guò)修訂的JNLPBA數(shù)據(jù)集忍燥,其中包含了PubMed Central 全文摘要和圖標(biāo)題和專利摘要 -
內(nèi)容:
1.對(duì)生物醫(yī)學(xué)數(shù)據(jù)集的介紹:包括常見的命名實(shí)體識(shí)別的數(shù)據(jù)集和下游應(yīng)用相關(guān)的生物醫(yī)學(xué)數(shù)據(jù)集
2.對(duì)BioNER系統(tǒng)的介紹
3.JNLPBA數(shù)據(jù)集存在的問(wèn)題以及修改的方法:
1)一般實(shí)體問(wèn)題
如上例所示,在第一個(gè)句子中,“SKW 6.4、IL 6征字、c-fos”在一些大型的公開數(shù)據(jù)庫(kù)上都可以被找到,但第二個(gè)句子中的“consensus sequence”一致的序列并未突出DNA類型的主要特征娇豫,因此將其標(biāo)注刪除
2)冗余前綴
如上例所示匙姜,對(duì)于”MAPKK-1”這個(gè)實(shí)體來(lái)說(shuō),前面的修飾詞“dominant negative"是多余的
3)實(shí)體類型混淆
4)忽略的相鄰上下文信息
如上例所示冯痢,如果不考慮”genes"氮昧、“nucleotide"基因和蛋白質(zhì)兩個(gè)近端關(guān)鍵詞的話,IL-16將會(huì)被錯(cuò)誤的標(biāo)注為蛋白質(zhì)類型
5)缺少標(biāo)注
4.EBED數(shù)據(jù)集的形成
1.數(shù)據(jù)的收集
2.數(shù)據(jù)的標(biāo)注:
1)自動(dòng)實(shí)體預(yù)標(biāo)注
PubTator 和TaggerOne
2)手工修正
3.數(shù)據(jù)的統(tǒng)計(jì)
5.實(shí)驗(yàn)
1.注釋間協(xié)定分析(IAA)
針對(duì)不一致的實(shí)體標(biāo)注進(jìn)行分析浦楣,最終對(duì)EBED數(shù)據(jù)集中的實(shí)體標(biāo)注袖肥、規(guī)范化和屬性鏈接達(dá)成一致性的結(jié)果
2.評(píng)價(jià)指標(biāo)
1)對(duì)于NER任務(wù),P,R,F1值仍然作為它的評(píng)價(jià)指標(biāo)
2)對(duì)于NEN任務(wù)振劳,F(xiàn)1值仍然是它的評(píng)價(jià)指標(biāo)椎组,但由于將每個(gè)實(shí)體都映射到數(shù)據(jù)庫(kù)中的ID是非常困難的,因此簡(jiǎn)化了任務(wù):
- 不需要返回每個(gè)實(shí)體的ID澎迎,只需要返回所在文檔在Entrez/MeSH/ChEBI這些數(shù)據(jù)庫(kù)中的ID
- Entrez數(shù)據(jù)庫(kù)中包含許多同源基因庐杨,我們提供一個(gè)同源詞典选调,允許提交的ID是標(biāo)準(zhǔn)ID的同源ID
- 對(duì)于化合物實(shí)體來(lái)說(shuō)夹供,允許返回在ChEBI數(shù)據(jù)庫(kù)中標(biāo)準(zhǔn)ID所對(duì)應(yīng)的父ID或子ID
3)對(duì)于屬性鏈接任務(wù): - 由于一種疾病實(shí)體可能鏈接到多個(gè)器官ID,將其視為不同的鏈接關(guān)系
- 同一疾病/化合物實(shí)體在不同的句子中會(huì)鏈接到不同的器官/疾病實(shí)體仁堪,將其視為不同的鏈接關(guān)系
3.實(shí)驗(yàn)結(jié)果
1)修訂后的JNLPBA數(shù)據(jù)集在NER任務(wù)和PPIE任務(wù)上的實(shí)驗(yàn)都提升了原有方法的性能
2)對(duì)于EBED數(shù)據(jù)集哮洽,回顧了人工智能杯生物醫(yī)學(xué)論文分析的比賽
具體的實(shí)驗(yàn)結(jié)果見原論文