生物醫(yī)學(xué)命名實(shí)體識(shí)別的進(jìn)展:
https://github.com/lingluodlut/BioNER-Progress
- 數(shù)據(jù)集的介紹
- Disease NER
- NCBI-Disease
NCBI這個(gè)數(shù)據(jù)集包含793篇PubMed(PubMed文獻(xiàn)數(shù)據(jù)庫包含超過240萬生物醫(yī)學(xué)文獻(xiàn))摘要宪巨,它包含了總共6892個(gè)疾病實(shí)體提及
- NCBI-Disease
- Gene/Protein NER
- BC2GM
基因提到標(biāo)記任務(wù)是生物創(chuàng)新II挑戰(zhàn)的一部分婶熬,它涉及到基因命名實(shí)體的提取,以及在文本中提到的基因產(chǎn)品荐捻。BC2GM語料庫中共有24583個(gè)基因?qū)嶓w被提及惑畴。 - JNLPBA
JNLPBA語料庫包含從MEDLINE中提取的2404個(gè)摘要观谦,使用“人”、“血細(xì)胞”桨菜、“轉(zhuǎn)錄因子”這3個(gè)MeSH本體,即蛋白質(zhì)捉偏、DNA倒得、RNA、細(xì)胞系夭禽、細(xì)胞類型霞掺。該語料庫用于BioNLP/NLPBA 2004 中的生物實(shí)體識(shí)別任務(wù),提供2000份摘要供培訓(xùn)讹躯,其余404份用于測(cè)試菩彬。
- BC2GM
- Species NER
- LINNAEUS
一組文本格式的開放訪問文檔,用于物種提及標(biāo)記的手動(dòng)注釋潮梯。它包含了100個(gè)來自PMC OA文檔的全文文檔骗灶,其中包含了總共4259個(gè)物種實(shí)體提及
- LINNAEUS
2.BioBERT論文閱讀
問題:由于BERT在NLP領(lǐng)域的成功,使得很多學(xué)者想將其遷移到生物醫(yī)學(xué)秉馏,但存在領(lǐng)域適應(yīng)的問題耙旦,于是催生了BioBERT預(yù)訓(xùn)練語言模型的發(fā)展,BioBERT是在大量生物醫(yī)學(xué)文獻(xiàn)上進(jìn)行預(yù)訓(xùn)練得到的一個(gè)語言模型萝究,事實(shí)證明免都,它在生物醫(yī)學(xué)領(lǐng)域的很多項(xiàng)任務(wù)(NER锉罐、RE、QA)上都取得了比bert更好的性能绕娘。
模型:
- 為了提高計(jì)算效率脓规,作者先用在通用領(lǐng)域上預(yù)訓(xùn)練的BERT模型的權(quán)重去初始化BioBERT
數(shù)據(jù)集:
在NER任務(wù)上的結(jié)果: