一和敬、寫(xiě)在前面的話(huà)
1. 論文領(lǐng)域
生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練
2. 論文主要解決的問(wèn)題
如何檢索(挖掘)生物醫(yī)學(xué)領(lǐng)域知識(shí)
如何在模型預(yù)訓(xùn)練中利用生物醫(yī)學(xué)領(lǐng)域的知識(shí)
3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)
整理和貢獻(xiàn)了生物醫(yī)療領(lǐng)域的測(cè)評(píng)數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE
提出了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練方法
二、論文摘要翻譯
隨著生物醫(yī)學(xué)領(lǐng)域的文檔和web數(shù)據(jù)數(shù)量的飛速增長(zhǎng)诬像,生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘變得愈發(fā)重要怠褐。盡管諸如BERT的表示模型在研究領(lǐng)域已經(jīng)取得了不錯(cuò)的效果畏梆,但是由于一般語(yǔ)料庫(kù)和生物醫(yī)學(xué)語(yǔ)料庫(kù)的詞分布有很大不同您宪,所以簡(jiǎn)單地將它們直接遷移到生物醫(yī)學(xué)領(lǐng)域的效果往往很難滿(mǎn)足預(yù)期奈懒。此外,醫(yī)學(xué)領(lǐng)域通常有較多的長(zhǎng)尾概念和難以通過(guò)語(yǔ)言模型學(xué)習(xí)的術(shù)語(yǔ)宪巨。生物醫(yī)學(xué)領(lǐng)域的文本內(nèi)容和結(jié)構(gòu)的復(fù)雜性磷杏,導(dǎo)致該領(lǐng)域的數(shù)據(jù)挖掘工作相比于一般的數(shù)據(jù)挖掘更具有挑戰(zhàn)性。在本文中捏卓,我們探討了如何將預(yù)訓(xùn)練語(yǔ)言模型BERT用于中文生物醫(yī)學(xué)語(yǔ)料庫(kù)极祸,提出了一種新的概念化表示學(xué)習(xí)方法。此外怠晴,我們還發(fā)布了新的中文生物醫(yī)學(xué)語(yǔ)言理解評(píng)估基準(zhǔn)(ChineseBLUE)遥金,用于評(píng)估BERT、BERT-wwm蒜田、RoBERTa和在本文中提到的方法的效果稿械。基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果表明冲粤,本文所提出的方法可以獲得顯著的增益美莫。我們?cè)贕itHub上發(fā)布預(yù)訓(xùn)練的模型:https://github.com/alibaba-research/ChineseBLUE
三页眯、論文模型
1. Whole Entity Masking
將BERT中的隨機(jī)MASK換成MASK生物醫(yī)療領(lǐng)域的實(shí)體例如“腹痛”,生物醫(yī)療領(lǐng)域的實(shí)體的獲取和鏈接主要通過(guò)知識(shí)圖譜和命名實(shí)體
2. Whole Span Masking
除了對(duì)實(shí)體進(jìn)行MASK之外厢呵,還對(duì)生物醫(yī)療領(lǐng)域的短語(yǔ)進(jìn)行MASK窝撵,例如“肚子有一點(diǎn)疼”、“腹部一陣一陣痛”等襟铭。生物醫(yī)療領(lǐng)域的短語(yǔ)通過(guò)Autophrase和Alibaba Congitive Concept Graph獲取碌奉,此外會(huì)使用一個(gè)二分類(lèi)的模型(fasttext)用來(lái)識(shí)別是否真的是生物醫(yī)療領(lǐng)域的短語(yǔ)
3. Next Sentence Prediction
和BERT一樣,會(huì)做隨機(jī)將下文進(jìn)行替換蝌矛。后期研究表明這一任務(wù)在BERT預(yù)訓(xùn)練中沒(méi)有什么效果(因?yàn)槿蝿?wù)過(guò)于簡(jiǎn)單)道批,不知道在生物醫(yī)療領(lǐng)域是否需要。
4. Further Pretraining in Biomedical Domain
MC-BERT并不是從零訓(xùn)練的入撒,而是在BERT的基礎(chǔ)上進(jìn)行訓(xùn)練隆豹,其中:學(xué)習(xí)率設(shè)置為1e-5、seps:100K茅逮、maximum length:512璃赡。此外,論文提到在BERT基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練時(shí)不要使用learning rate warmup
5. 訓(xùn)練流程圖
四献雅、論文實(shí)驗(yàn)
1. 實(shí)驗(yàn)數(shù)據(jù)集
主要來(lái)自神馬搜索和一些公開(kāi)數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE
2. 論文所使用的參數(shù)信息
MC-BERT層數(shù)碉考、注意力頭數(shù)等和BERT設(shè)置相同(12 layers, 12 self-attention heads, and 768-dimensional of hidden size;Large model: 24 layers, 16 self-attention heads, and 1024-dimensional of hidden size)
3. 對(duì)比結(jié)果
可以看出在生物醫(yī)學(xué)領(lǐng)域的測(cè)評(píng)任務(wù)上挺身,MC-BERT都有提升(雖然沒(méi)提升才是奇怪的事情侯谁,畢竟是在BERT的基礎(chǔ)上又在相關(guān)領(lǐng)域做預(yù)訓(xùn)練,就是不知道從零訓(xùn)練結(jié)果會(huì)怎么樣)
另外章钾,論文在NER任務(wù)上做了消融實(shí)驗(yàn)墙贱,其中w/o entity是移除Whole Entity Masking,w/o span是移除Whole Span Masking贱傀,可以看到去除Whole Entity Masking和Whole Span Masking都會(huì)對(duì)效果產(chǎn)生影響惨撇,但Whole Span Masking似乎影響很大,去掉之后模型效果僅比BERT好一點(diǎn)府寒,也就是說(shuō)可能單純的生物醫(yī)療實(shí)體詞的Mask無(wú)法使模型學(xué)到這個(gè)詞后面的知識(shí)魁衙,個(gè)人感覺(jué)可能和論文使用的實(shí)體詞的多少和顆粒程度有關(guān)系,但從結(jié)果上看株搔,Whole Entity Masking可能對(duì)模型僅僅起到了word Mask的作用剖淀,所以移除Whole Span Masking之后比BERT-wwm這個(gè)word Mask的預(yù)訓(xùn)練模型差很多
五、模型下載
論文提供了下載地址纤房,但因?yàn)槭窃诠雀柙粕献莞簦韵螺d速度不太行,所以轉(zhuǎn)存了一份在百度云上帆卓。另外巨朦,論文只提供了Tensorflow的模型權(quán)值米丘,個(gè)人實(shí)驗(yàn)多用Pytorch,故使用拍拍臉的代碼轉(zhuǎn)化成了Pytorch的
Tensorflow 權(quán)值下載:鏈接:https://pan.baidu.com/s/1LMkWJnQnfXUt2iL4b8v5hw 提取碼:5njc
Pytorch 權(quán)值下載:鏈接:https://pan.baidu.com/s/1-jlg8RicjRBa_W5F9qzSbw 提取碼:lawg