FLAT: 屠榜NER

Paper Name: FLAT: Chinese NER Using Flat-Lattice Transformer
論文鏈接
https://arxiv.org/pdf/2004.11795.pdf
開(kāi)源代碼
https://github.com/LeeSureman/Flat-Lattice-Transformer
文章來(lái)源ACL2020 復(fù)旦大學(xué)邱錫鵬團(tuán)隊(duì)。引入詞匯信息用來(lái)提升中NER指標(biāo)。

表現(xiàn)對(duì)比

如上圖在MSRA-NER任務(wù)中甸各,F(xiàn)LAT+BERT登頂榜首浸锨,即使是單層FLAT(1層Transformer),也超越了預(yù)訓(xùn)練模型ERNIE.
本文創(chuàng)新點(diǎn):

  1. 基于Transfomer設(shè)計(jì)了一種巧妙Position encoding(位置編碼)來(lái)融合Lattice結(jié)構(gòu)澡为,無(wú)損的引入詞匯信息驾荣。(因?yàn)橐话阒形亩际亲址斎?
  2. 基于Transformer融合了詞匯信息的動(dòng)態(tài)結(jié)構(gòu)撑柔,支持并行化計(jì)算鲜结,提升推斷速度展运。

背景:

中文NER通常是以字符為單位進(jìn)行序列標(biāo)注建模,主要原因中文分詞誤差精刷,導(dǎo)致基于字符的要好于基于詞匯(分詞結(jié)果)的序列標(biāo)注建模方法拗胜。
但是引入詞匯也有好處:
①詞匯信息可以強(qiáng)化實(shí)體便捷,尤其是span較長(zhǎng)的實(shí)體邊界更有效
②詞匯信息對(duì)NLP分類(lèi)任務(wù)也是一個(gè)明顯的數(shù)據(jù)增強(qiáng)方法怒允,往往不能直接用于NER,指標(biāo)增益有限埂软。相反引入詞匯信息增強(qiáng)對(duì)小樣本下的中文NER提升明顯。

下文將引入詞匯信息增強(qiáng)中文NER性能的方法稱為詞匯增強(qiáng)

詞匯增強(qiáng)的方式有哪些纫事?

  1. 詞向量和詞匯列表:利用良好分詞結(jié)果的詞向量勘畔,或者不利用詞向量,只是用詞匯或者實(shí)體邊界信息丽惶,通常通過(guò)圖網(wǎng)絡(luò)提取相關(guān)信息炫七。該種增強(qiáng)方式,主要有2大范式:

a).Dynamic Architecture: 設(shè)計(jì)動(dòng)態(tài)抽取框架钾唬,能夠兼容詞匯輸入万哪,本文所介紹FLAT就屬于這種范式。
b).Adaptive Embedding:基于詞匯信息抡秆,構(gòu)建自適應(yīng)Embedding;與模型框架入關(guān)奕巍。僅僅在embedding層融合詞匯信息,對(duì)于詞匯信息的引入更簡(jiǎn)單有效儒士,采取靜態(tài)加權(quán)的方法可以提前離線計(jì)算伍绳。
c).分詞器:單一分詞會(huì)造成邊界錯(cuò)誤,引入多源分詞器并pooling不同分詞結(jié)果乍桂。ACL2020中將多種分詞結(jié)果中詞匯信息pooling對(duì)齊到字符編碼中( Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention:)冲杀。

詞匯增強(qiáng)方式的對(duì)比

Lattice LSTM

在系統(tǒng)理解FLAT之前,必須掌握Lattice LSTM文章(Chinese NER Using Lattice LSTM,
https://arxiv.org/pdf/1805.02023.pdf)睹酌。如下圖所示权谁,當(dāng)我們通過(guò)詞匯信息(詞典)匹配一個(gè)句子時(shí),可以獲得類(lèi)似Lattice的結(jié)構(gòu)憋沿。

Lattice 結(jié)構(gòu)

Lattice為有向無(wú)環(huán)圖旺芽,詞匯的開(kāi)始和結(jié)束字符決定了格子位置。Lattice Lstm結(jié)構(gòu)融合了詞匯信息到原生LSTM中。
Lattice word cell結(jié)構(gòu)

如上圖采章,Lattice LSTM引入word cell結(jié)構(gòu)运嗜,對(duì)于當(dāng)前字符,融合以該字符結(jié)束的所有word信息悯舟,如“店”融合了“人和藥店”和"藥店"信息担租。對(duì)于每個(gè)字符,Lattice LSTM采取attention機(jī)制去融合個(gè)數(shù)可變的word cell單元抵怎,主要表達(dá)信息如下:
c^c_j = \sum_{b\in\{b^I|w^d_{b^I,j} \}} \alpha^c_{b,j} \cdot c^w_{b,j} + \alpha^c_j \cdot \hat c^c_j

具體參考論文奋救。當(dāng)前字符有詞匯融入時(shí),則采取上述公式進(jìn)行計(jì)算反惕;如當(dāng)前字符沒(méi)有詞匯時(shí)尝艘,則采取原生的LSTM進(jìn)行計(jì)算。雖然Lattice LSTM有效提升了NER性能姿染,但也存在一些缺點(diǎn):

信息損失:

  1. 每個(gè)字符只能獲取以該字符結(jié)尾的詞匯信息背亥。如對(duì)于”藥“,無(wú)法獲得”人和藥店“的信息悬赏。
    RNN特性導(dǎo)致前后向詞匯信息不能共享隘梨。Lasstic LSTM并沒(méi)有利用前一時(shí)刻記憶向量c^c_{j-1} ,即不保留對(duì)詞匯信息的持續(xù)記憶舷嗡。
  2. 計(jì)算性能低下,不能batch并行化:究其原因是每個(gè)字符之間增加word cell(看做節(jié)點(diǎn))數(shù)目不一致嵌莉,不過(guò)后續(xù)有將Lattice LSTM進(jìn)行batch化进萄。
  3. 可遷移性差:只適配LSTM,不具備向其他網(wǎng)絡(luò)遷移的特性锐峭。

FLAT

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末中鼠,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子沿癞,更是在濱河造成了極大的恐慌援雇,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件椎扬,死亡現(xiàn)場(chǎng)離奇詭異惫搏,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蚕涤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門(mén)筐赔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人揖铜,你說(shuō)我怎么就攤上這事茴丰。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵贿肩,是天一觀的道長(zhǎng)峦椰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)汰规,這世上最難降的妖魔是什么汤功? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任,我火速辦了婚禮控轿,結(jié)果婚禮上冤竹,老公的妹妹穿的比我還像新娘。我一直安慰自己茬射,他們只是感情好鹦蠕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著在抛,像睡著了一般钟病。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上刚梭,一...
    開(kāi)封第一講書(shū)人閱讀 49,730評(píng)論 1 289
  • 那天肠阱,我揣著相機(jī)與錄音,去河邊找鬼朴读。 笑死屹徘,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的衅金。 我是一名探鬼主播噪伊,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼氮唯!你這毒婦竟也來(lái)了鉴吹?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤惩琉,失蹤者是張志新(化名)和其女友劉穎豆励,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瞒渠,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡良蒸,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了伍玖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片诚啃。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖私沮,靈堂內(nèi)的尸體忽然破棺而出始赎,到底是詐尸還是另有隱情和橙,我是刑警寧澤,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布造垛,位于F島的核電站魔招,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏五辽。R本人自食惡果不足惜办斑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望杆逗。 院中可真熱鬧乡翅,春花似錦、人聲如沸罪郊。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)悔橄。三九已至靶累,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間癣疟,已是汗流浹背挣柬。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留睛挚,地道東北人邪蛔。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像扎狱,于是被迫代替她去往敵國(guó)和親侧到。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容