Conceptualized Representation Learning for Chinese Biomedical Text Mining

一和敬、寫(xiě)在前面的話(huà)

1. 論文領(lǐng)域

生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練

2. 論文主要解決的問(wèn)題
  • 如何檢索(挖掘)生物醫(yī)學(xué)領(lǐng)域知識(shí)

  • 如何在模型預(yù)訓(xùn)練中利用生物醫(yī)學(xué)領(lǐng)域的知識(shí)

3. 論文的主要?jiǎng)?chuàng)新和貢獻(xiàn)
  • 整理和貢獻(xiàn)了生物醫(yī)療領(lǐng)域的測(cè)評(píng)數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE

  • 提出了一種針對(duì)生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練方法


二、論文摘要翻譯

隨著生物醫(yī)學(xué)領(lǐng)域的文檔和web數(shù)據(jù)數(shù)量的飛速增長(zhǎng)诬像,生物醫(yī)學(xué)領(lǐng)域的數(shù)據(jù)挖掘變得愈發(fā)重要怠褐。盡管諸如BERT的表示模型在研究領(lǐng)域已經(jīng)取得了不錯(cuò)的效果畏梆,但是由于一般語(yǔ)料庫(kù)和生物醫(yī)學(xué)語(yǔ)料庫(kù)的詞分布有很大不同您宪,所以簡(jiǎn)單地將它們直接遷移到生物醫(yī)學(xué)領(lǐng)域的效果往往很難滿(mǎn)足預(yù)期奈懒。此外,醫(yī)學(xué)領(lǐng)域通常有較多的長(zhǎng)尾概念和難以通過(guò)語(yǔ)言模型學(xué)習(xí)的術(shù)語(yǔ)宪巨。生物醫(yī)學(xué)領(lǐng)域的文本內(nèi)容和結(jié)構(gòu)的復(fù)雜性磷杏,導(dǎo)致該領(lǐng)域的數(shù)據(jù)挖掘工作相比于一般的數(shù)據(jù)挖掘更具有挑戰(zhàn)性。在本文中捏卓,我們探討了如何將預(yù)訓(xùn)練語(yǔ)言模型BERT用于中文生物醫(yī)學(xué)語(yǔ)料庫(kù)极祸,提出了一種新的概念化表示學(xué)習(xí)方法。此外怠晴,我們還發(fā)布了新的中文生物醫(yī)學(xué)語(yǔ)言理解評(píng)估基準(zhǔn)(ChineseBLUE)遥金,用于評(píng)估BERT、BERT-wwm蒜田、RoBERTa和在本文中提到的方法的效果稿械。基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果表明冲粤,本文所提出的方法可以獲得顯著的增益美莫。我們?cè)贕itHub上發(fā)布預(yù)訓(xùn)練的模型:https://github.com/alibaba-research/ChineseBLUE


三页眯、論文模型

1. Whole Entity Masking

將BERT中的隨機(jī)MASK換成MASK生物醫(yī)療領(lǐng)域的實(shí)體例如“腹痛”,生物醫(yī)療領(lǐng)域的實(shí)體的獲取和鏈接主要通過(guò)知識(shí)圖譜和命名實(shí)體

2. Whole Span Masking

除了對(duì)實(shí)體進(jìn)行MASK之外厢呵,還對(duì)生物醫(yī)療領(lǐng)域的短語(yǔ)進(jìn)行MASK窝撵,例如“肚子有一點(diǎn)疼”、“腹部一陣一陣痛”等襟铭。生物醫(yī)療領(lǐng)域的短語(yǔ)通過(guò)Autophrase和Alibaba Congitive Concept Graph獲取碌奉,此外會(huì)使用一個(gè)二分類(lèi)的模型(fasttext)用來(lái)識(shí)別是否真的是生物醫(yī)療領(lǐng)域的短語(yǔ)

3. Next Sentence Prediction

和BERT一樣,會(huì)做隨機(jī)將下文進(jìn)行替換蝌矛。后期研究表明這一任務(wù)在BERT預(yù)訓(xùn)練中沒(méi)有什么效果(因?yàn)槿蝿?wù)過(guò)于簡(jiǎn)單)道批,不知道在生物醫(yī)療領(lǐng)域是否需要。

4. Further Pretraining in Biomedical Domain

MC-BERT并不是從零訓(xùn)練的入撒,而是在BERT的基礎(chǔ)上進(jìn)行訓(xùn)練隆豹,其中:學(xué)習(xí)率設(shè)置為1e-5、seps:100K茅逮、maximum length:512璃赡。此外,論文提到在BERT基礎(chǔ)上進(jìn)行預(yù)訓(xùn)練時(shí)不要使用learning rate warmup

5. 訓(xùn)練流程圖


四献雅、論文實(shí)驗(yàn)

1. 實(shí)驗(yàn)數(shù)據(jù)集

主要來(lái)自神馬搜索和一些公開(kāi)數(shù)據(jù)集:https://github.com/alibaba-research/ChineseBLUE

2. 論文所使用的參數(shù)信息

MC-BERT層數(shù)碉考、注意力頭數(shù)等和BERT設(shè)置相同(12 layers, 12 self-attention heads, and 768-dimensional of hidden size;Large model: 24 layers, 16 self-attention heads, and 1024-dimensional of hidden size)

3. 對(duì)比結(jié)果

可以看出在生物醫(yī)學(xué)領(lǐng)域的測(cè)評(píng)任務(wù)上挺身,MC-BERT都有提升(雖然沒(méi)提升才是奇怪的事情侯谁,畢竟是在BERT的基礎(chǔ)上又在相關(guān)領(lǐng)域做預(yù)訓(xùn)練,就是不知道從零訓(xùn)練結(jié)果會(huì)怎么樣)

另外章钾,論文在NER任務(wù)上做了消融實(shí)驗(yàn)墙贱,其中w/o entity是移除Whole Entity Masking,w/o span是移除Whole Span Masking贱傀,可以看到去除Whole Entity Masking和Whole Span Masking都會(huì)對(duì)效果產(chǎn)生影響惨撇,但Whole Span Masking似乎影響很大,去掉之后模型效果僅比BERT好一點(diǎn)府寒,也就是說(shuō)可能單純的生物醫(yī)療實(shí)體詞的Mask無(wú)法使模型學(xué)到這個(gè)詞后面的知識(shí)魁衙,個(gè)人感覺(jué)可能和論文使用的實(shí)體詞的多少和顆粒程度有關(guān)系,但從結(jié)果上看株搔,Whole Entity Masking可能對(duì)模型僅僅起到了word Mask的作用剖淀,所以移除Whole Span Masking之后比BERT-wwm這個(gè)word Mask的預(yù)訓(xùn)練模型差很多


五、模型下載

論文提供了下載地址纤房,但因?yàn)槭窃诠雀柙粕献莞簦韵螺d速度不太行,所以轉(zhuǎn)存了一份在百度云上帆卓。另外巨朦,論文只提供了Tensorflow的模型權(quán)值米丘,個(gè)人實(shí)驗(yàn)多用Pytorch,故使用拍拍臉的代碼轉(zhuǎn)化成了Pytorch的

Tensorflow 權(quán)值下載:鏈接:https://pan.baidu.com/s/1LMkWJnQnfXUt2iL4b8v5hw 提取碼:5njc

Pytorch 權(quán)值下載:鏈接:https://pan.baidu.com/s/1-jlg8RicjRBa_W5F9qzSbw 提取碼:lawg

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末糊啡,一起剝皮案震驚了整個(gè)濱河市拄查,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌棚蓄,老刑警劉巖堕扶,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異梭依,居然都是意外死亡稍算,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)役拴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)糊探,“玉大人,你說(shuō)我怎么就攤上這事河闰】破剑” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵姜性,是天一觀的道長(zhǎng)瞪慧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)部念,這世上最難降的妖魔是什么弃酌? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮儡炼,結(jié)果婚禮上妓湘,老公的妹妹穿的比我還像新娘。我一直安慰自己射赛,他們只是感情好多柑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布奶是。 她就那樣靜靜地躺著楣责,像睡著了一般。 火紅的嫁衣襯著肌膚如雪聂沙。 梳的紋絲不亂的頭發(fā)上秆麸,一...
    開(kāi)封第一講書(shū)人閱讀 51,155評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音及汉,去河邊找鬼沮趣。 笑死,一個(gè)胖子當(dāng)著我的面吹牛坷随,可吹牛的內(nèi)容都是我干的房铭。 我是一名探鬼主播驻龟,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼缸匪!你這毒婦竟也來(lái)了翁狐?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤凌蔬,失蹤者是張志新(化名)和其女友劉穎露懒,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體砂心,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡懈词,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了辩诞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坎弯。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖译暂,靈堂內(nèi)的尸體忽然破棺而出荞怒,到底是詐尸還是另有隱情,我是刑警寧澤秧秉,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布褐桌,位于F島的核電站,受9級(jí)特大地震影響象迎,放射性物質(zhì)發(fā)生泄漏荧嵌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一砾淌、第九天 我趴在偏房一處隱蔽的房頂上張望啦撮。 院中可真熱鬧,春花似錦汪厨、人聲如沸赃春。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)织中。三九已至,卻和暖如春衷戈,著一層夾襖步出監(jiān)牢的瞬間狭吼,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工殖妇, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留刁笙,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像疲吸,于是被迫代替她去往敵國(guó)和親座每。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353