Analyzing the Effect of Multi-task Learning for Biomedical Named Entity Recognition
- 貢獻:
1.分析生物醫(yī)學實體數(shù)據(jù)集之間的可轉移性漠酿,并找到一些有用的特性和方法來預測這些數(shù)據(jù)集之間的可轉移性奸忽,減少了今后尋找輔助數(shù)據(jù)集的工作量
2.將遷移學習和多任務學習結合起來任柜,提高BioNER系統(tǒng)的性能 - 分析數(shù)據(jù)集之間的可轉移性:
為了了解多任務學習在哪種條件下能帶來更大的增益,作者總共使用了12個數(shù)據(jù)集度量暂雹。
1.共享詞匯(有向):在輔助數(shù)據(jù)集詞匯表中找到目標數(shù)據(jù)集詞匯的比率
2.主題分布相似度(無向):用LDA主體建模方法得到一個n維向量,用該向量去表示一個數(shù)據(jù)集的主題分布,用余弦相似度計算兩個數(shù)據(jù)集主題嵌入之間的相似度
3.嵌入相似度(bert)(無向):先計算一個數(shù)據(jù)集中所有句子的bert嵌入表示驼壶,取平均收苏,用余弦相似度計算兩個數(shù)據(jù)集嵌入之間的相似度
4.共現(xiàn)實體比(有向):在輔助數(shù)據(jù)集中找到并標記目標數(shù)據(jù)集實體的比率 - 評估指標
為了評估每種方法(上面所列舉的4種特征和它們的兩兩組合)的有用性亿卤,作者使用了3種不同的評估指標
1.歸一化折現(xiàn)累積增益(NDGG)
2.最佳輔助數(shù)據(jù)集的平均排名
3.最佳輔助預測的平均排名 -
實驗結果:
多任務學習與單任務學習和SOTA結果的比較 - 結論與分析:
1.除了BC5CDR數(shù)據(jù)集,其他6個數(shù)據(jù)集多任務學習相比單任務學習對目標任務都有正向加成
2.JNLPBA和BC2GM都包含基因/蛋白質的實體標注鹿霸,所以當使用BC2GM作為輔助數(shù)據(jù)集排吴,JNLPBA作為目標數(shù)據(jù)集時,超過了SOTA的性能懦鼠,但反過來钻哩,BC2GM作為目標數(shù)據(jù)集,而JNLPBA作為輔助數(shù)據(jù)集時肛冶,性能卻最差
-
數(shù)據(jù)集大小和數(shù)據(jù)集中entity/token的比率與MTL增益的相關性:
結論和分析:
1.輔助數(shù)據(jù)集大小與MTL增益成負相關
2.目標數(shù)據(jù)集entity/token的比率與MTL增益成負相關街氢,而輔助數(shù)據(jù)集成正相關,說明目標數(shù)據(jù)集中實體標注稀疏而輔助數(shù)據(jù)集中實體標注豐富更有可能對MTL增益起作用 -
衡量所有相似度度量的goodness
結論和分析:
1.cooccur相似度度量的NDGG得分最高
2.topic相似度度量的最佳輔助數(shù)據(jù)集排名最高睦袖,而且它與其他相似度度量的結合占據(jù)了最佳輔助數(shù)據(jù)集排名的前4位珊肃。這表明,基于主題相似度信息對尋找最佳輔助數(shù)據(jù)集是非常有用的,LDA模型獲得的基于主題的相似性分數(shù)是MTL增益一個很好的預測器