《Leveraging Multi-Token Entities in Document-Level Named Entity Recognition》
-
動(dòng)機(jī):
1.以往對NER的研究都是基于句子級別的研究室囊,最好的模型也是基于獨(dú)立的句子級別的葫男,但在一篇文章中钮孵,不同句子中的同一實(shí)體可能由于不同的上下文或不完整的描述而被錯(cuò)誤的標(biāo)注成了不同的實(shí)體暂幼,因此作者提出利用文檔級別的上下文信息提取同一提及的文檔級別的特征
2.作者將數(shù)據(jù)集中的實(shí)體分為multi-token entity和single-token entity,在作者看來裸燎,multi-token entity 所在的上下文通常更具體茅逮,因此多個(gè)token組成的實(shí)體更有可能對與其包含相同token的單個(gè)實(shí)體的識(shí)別有所幫助膊存,為此作者設(shè)計(jì)了一個(gè)multi-token entity 分類器,以標(biāo)記某個(gè)實(shí)體是否是multi-token entity禁灼,在形成文檔級特征時(shí)轧简,不僅考慮到不同句子中的相同token的上下文輸出的隱藏向量之間的語義attention score,而且將分類器的結(jié)果也計(jì)算attention score匾二,并將其二者融合哮独,主要目的是為了讓模型更關(guān)注multi-token entity
貢獻(xiàn):
1.提出了一種新的基于注意的文檔級NER模型拳芙,該模型利用跨句子的全局上下文特征作為本地上下文特征的補(bǔ)充
2.利用文檔中的multi-token entity來幫助NER,利用多分類器的結(jié)果來指導(dǎo)生成文檔級特征皮璧,并最終影響NER的結(jié)果
3.實(shí)驗(yàn)結(jié)果證明了該方法的有效性-
模型:
以上是整個(gè)模型的框架舟扎,大致分為4個(gè)部分:
1.word embedding +char CNN embedding + sentence-level lstm
2.Muti-Token entity Classification:
從圖中可以看出,分類器的輸入主要是目標(biāo)token及其前面一個(gè)token和后面一個(gè)token的lstm隱藏向量輸出悴务,輸出有3類睹限,分別是SUB、NSUB和Other讯檐,SUB指示它是一個(gè)multi-token entity羡疗,NSUB指示它是一個(gè)single-token entity,其他為other
3.document-level module:
以上是文檔級別的特征表示的具體架構(gòu)圖别洪,可以看到輸入為lstm的隱藏向量輸出和多分類器的結(jié)果輸出叨恨,最終attention score為二者attention score相加
最終得到的ai是隱藏向量的權(quán)重,相當(dāng)于指示不同句子中的相同token之間的關(guān)系的大小挖垛,di是該token的文檔級特征表示
4.CRF 標(biāo)簽預(yù)測 -
實(shí)驗(yàn):
1.數(shù)據(jù)集:
對于Ontonotes數(shù)據(jù)集痒钝,只取了新聞專線(nw)、廣播新聞(bn)和雜志部分的數(shù)據(jù)集組成了Ontonotes(nbw)痢毒,其他部分的數(shù)據(jù)集全局相關(guān)性較弱送矩,比如:微博數(shù)據(jù)
2.實(shí)驗(yàn)結(jié)果:
其中g(shù)love、bert-base哪替、flair是用不同的向量去初始化word embedding的結(jié)果 -
case 分析:
為了體現(xiàn)ME 分類器的作用栋荸,作者選取了CoNLL 2003數(shù)據(jù)集中的兩個(gè)例子來做分析:
1.例1中的第二句話中MEID-ME(上述作者提出的模型去掉了ME部分)模型錯(cuò)誤地將“Matsushita”單詞識(shí)別成了ORG,而MEID(作者提出的模型)能夠?qū)⑵湔_地識(shí)別成PER凭舶,從以下兩圖能夠看出蒸其,未加ME部分時(shí),occ_2與occ_1之間的attention score不是很高库快,而b圖中摸袁,二者之間的attention score明顯上升,因此最終的識(shí)別結(jié)果是MEID模型識(shí)別正確
2.例2中“ZIMBABWE OPEN”是一個(gè)multi-token entity义屏,由于第一個(gè)句子太短靠汁,僅僅只是一個(gè)title,所以對于MEID-ME模型來說闽铐,它可能更多地將其與3蝶怔,4,5句子中的Zimbabwe聯(lián)系起來兄墅,所以導(dǎo)致最終的識(shí)別結(jié)果出錯(cuò)踢星,但MEID模型更多地將其與第2個(gè)句子聯(lián)系起來,所以最終將其正確識(shí)別成了MISC類別隙咸,從下面的c圖(MEID-ME)可以看出沐悦,occ_1與occ_3成洗、occ_4、occ_5的attention score最高藏否,但d圖中(MEID)瓶殃,occ_1與occ_2的attention score最高
3.還有一個(gè)現(xiàn)象,d圖中副签,occ_3遥椿,occ_4,occ_5與occ_1和occ_2的attention score也很高淆储,但最終的識(shí)別結(jié)果卻沒出錯(cuò)冠场,猜測可能是在最終進(jìn)行標(biāo)簽預(yù)測時(shí),本地的上下文特征起了主導(dǎo)作用(從整個(gè)模型的架構(gòu)圖可以看到本砰,最終是將hidden state和document representation 拼接起來)碴裙,所以需要將二者融合,共同對最終的預(yù)測起作用