2021-04-10

《Leveraging Multi-Token Entities in Document-Level Named Entity Recognition》
  • 動(dòng)機(jī):
    1.以往對NER的研究都是基于句子級別的研究室囊,最好的模型也是基于獨(dú)立的句子級別的葫男,但在一篇文章中钮孵,不同句子中的同一實(shí)體可能由于不同的上下文或不完整的描述而被錯(cuò)誤的標(biāo)注成了不同的實(shí)體暂幼,因此作者提出利用文檔級別的上下文信息提取同一提及的文檔級別的特征
    2.作者將數(shù)據(jù)集中的實(shí)體分為multi-token entity和single-token entity,在作者看來裸燎,multi-token entity 所在的上下文通常更具體茅逮,因此多個(gè)token組成的實(shí)體更有可能對與其包含相同token的單個(gè)實(shí)體的識(shí)別有所幫助膊存,為此作者設(shè)計(jì)了一個(gè)multi-token entity 分類器,以標(biāo)記某個(gè)實(shí)體是否是multi-token entity禁灼,在形成文檔級特征時(shí)轧简,不僅考慮到不同句子中的相同token的上下文輸出的隱藏向量之間的語義attention score,而且將分類器的結(jié)果也計(jì)算attention score匾二,并將其二者融合哮独,主要目的是為了讓模型更關(guān)注multi-token entity


  • 貢獻(xiàn):
    1.提出了一種新的基于注意的文檔級NER模型拳芙,該模型利用跨句子的全局上下文特征作為本地上下文特征的補(bǔ)充
    2.利用文檔中的multi-token entity來幫助NER,利用多分類器的結(jié)果來指導(dǎo)生成文檔級特征皮璧,并最終影響NER的結(jié)果
    3.實(shí)驗(yàn)結(jié)果證明了該方法的有效性

  • 模型:



    以上是整個(gè)模型的框架舟扎,大致分為4個(gè)部分:
    1.word embedding +char CNN embedding + sentence-level lstm
    2.Muti-Token entity Classification:
    從圖中可以看出,分類器的輸入主要是目標(biāo)token及其前面一個(gè)token和后面一個(gè)token的lstm隱藏向量輸出悴务,輸出有3類睹限,分別是SUB、NSUB和Other讯檐,SUB指示它是一個(gè)multi-token entity羡疗,NSUB指示它是一個(gè)single-token entity,其他為other
    3.document-level module:



    以上是文檔級別的特征表示的具體架構(gòu)圖别洪,可以看到輸入為lstm的隱藏向量輸出和多分類器的結(jié)果輸出叨恨,最終attention score為二者attention score相加


    最終得到的ai是隱藏向量的權(quán)重,相當(dāng)于指示不同句子中的相同token之間的關(guān)系的大小挖垛,di是該token的文檔級特征表示
    4.CRF 標(biāo)簽預(yù)測

  • 實(shí)驗(yàn):
    1.數(shù)據(jù)集:



    對于Ontonotes數(shù)據(jù)集痒钝,只取了新聞專線(nw)、廣播新聞(bn)和雜志部分的數(shù)據(jù)集組成了Ontonotes(nbw)痢毒,其他部分的數(shù)據(jù)集全局相關(guān)性較弱送矩,比如:微博數(shù)據(jù)
    2.實(shí)驗(yàn)結(jié)果:




    其中g(shù)love、bert-base哪替、flair是用不同的向量去初始化word embedding的結(jié)果
  • case 分析:
    為了體現(xiàn)ME 分類器的作用栋荸,作者選取了CoNLL 2003數(shù)據(jù)集中的兩個(gè)例子來做分析:



    1.例1中的第二句話中MEID-ME(上述作者提出的模型去掉了ME部分)模型錯(cuò)誤地將“Matsushita”單詞識(shí)別成了ORG,而MEID(作者提出的模型)能夠?qū)⑵湔_地識(shí)別成PER凭舶,從以下兩圖能夠看出蒸其,未加ME部分時(shí),occ_2與occ_1之間的attention score不是很高库快,而b圖中摸袁,二者之間的attention score明顯上升,因此最終的識(shí)別結(jié)果是MEID模型識(shí)別正確



    2.例2中“ZIMBABWE OPEN”是一個(gè)multi-token entity义屏,由于第一個(gè)句子太短靠汁,僅僅只是一個(gè)title,所以對于MEID-ME模型來說闽铐,它可能更多地將其與3蝶怔,4,5句子中的Zimbabwe聯(lián)系起來兄墅,所以導(dǎo)致最終的識(shí)別結(jié)果出錯(cuò)踢星,但MEID模型更多地將其與第2個(gè)句子聯(lián)系起來,所以最終將其正確識(shí)別成了MISC類別隙咸,從下面的c圖(MEID-ME)可以看出沐悦,occ_1與occ_3成洗、occ_4、occ_5的attention score最高藏否,但d圖中(MEID)瓶殃,occ_1與occ_2的attention score最高
    3.還有一個(gè)現(xiàn)象,d圖中副签,occ_3遥椿,occ_4,occ_5與occ_1和occ_2的attention score也很高淆储,但最終的識(shí)別結(jié)果卻沒出錯(cuò)冠场,猜測可能是在最終進(jìn)行標(biāo)簽預(yù)測時(shí),本地的上下文特征起了主導(dǎo)作用(從整個(gè)模型的架構(gòu)圖可以看到本砰,最終是將hidden state和document representation 拼接起來)碴裙,所以需要將二者融合,共同對最終的預(yù)測起作用
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末灌具,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子譬巫,更是在濱河造成了極大的恐慌咖楣,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件芦昔,死亡現(xiàn)場離奇詭異诱贿,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)咕缎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門珠十,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人凭豪,你說我怎么就攤上這事焙蹭。” “怎么了嫂伞?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵孔厉,是天一觀的道長。 經(jīng)常有香客問我帖努,道長撰豺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任拼余,我火速辦了婚禮污桦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘匙监。我一直安慰自己,他們只是感情好饺蚊,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布砾淌。 她就那樣靜靜地躺著,像睡著了一般躲惰。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上变抽,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天础拨,我揣著相機(jī)與錄音,去河邊找鬼绍载。 笑死诡宗,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的击儡。 我是一名探鬼主播塔沃,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼阳谍!你這毒婦竟也來了蛀柴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤矫夯,失蹤者是張志新(化名)和其女友劉穎鸽疾,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體训貌,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡制肮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了递沪。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片豺鼻。...
    茶點(diǎn)故事閱讀 38,599評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖款慨,靈堂內(nèi)的尸體忽然破棺而出儒飒,到底是詐尸還是另有隱情,我是刑警寧澤檩奠,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布约素,位于F島的核電站,受9級特大地震影響笆凌,放射性物質(zhì)發(fā)生泄漏圣猎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一乞而、第九天 我趴在偏房一處隱蔽的房頂上張望送悔。 院中可真熱鬧,春花似錦、人聲如沸欠啤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽洁段。三九已至应狱,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間祠丝,已是汗流浹背疾呻。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留写半,地道東北人岸蜗。 一個(gè)月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像叠蝇,于是被迫代替她去往敵國和親璃岳。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容