Paper Name: FLAT: Chinese NER Using Flat-Lattice Transformer
論文鏈接
https://arxiv.org/pdf/2004.11795.pdf
開(kāi)源代碼:
https://github.com/LeeSureman/Flat-Lattice-Transformer
文章來(lái)源ACL2020 復(fù)旦大學(xué)邱錫鵬團(tuán)隊(duì)。引入詞匯信息用來(lái)提升中NER指標(biāo)。
如上圖在MSRA-NER任務(wù)中甸各,F(xiàn)LAT+BERT登頂榜首浸锨,即使是單層FLAT(1層Transformer),也超越了預(yù)訓(xùn)練模型ERNIE.
本文創(chuàng)新點(diǎn):
- 基于Transfomer設(shè)計(jì)了一種巧妙Position encoding(位置編碼)來(lái)融合Lattice結(jié)構(gòu)澡为,無(wú)損的引入詞匯信息驾荣。(因?yàn)橐话阒形亩际亲址斎?
- 基于Transformer融合了詞匯信息的動(dòng)態(tài)結(jié)構(gòu)撑柔,支持并行化計(jì)算鲜结,提升推斷速度展运。
背景:
中文NER通常是以字符為單位進(jìn)行序列標(biāo)注建模,主要原因中文分詞誤差精刷,導(dǎo)致基于字符的要好于基于詞匯(分詞結(jié)果)的序列標(biāo)注建模方法拗胜。
但是引入詞匯也有好處:
①詞匯信息可以強(qiáng)化實(shí)體便捷,尤其是span較長(zhǎng)的實(shí)體邊界更有效
②詞匯信息對(duì)NLP分類(lèi)任務(wù)也是一個(gè)明顯的數(shù)據(jù)增強(qiáng)方法怒允,往往不能直接用于NER,指標(biāo)增益有限埂软。相反引入詞匯信息增強(qiáng)對(duì)小樣本下的中文NER提升明顯。
下文將引入詞匯信息增強(qiáng)中文NER性能的方法稱為詞匯增強(qiáng)
詞匯增強(qiáng)的方式有哪些纫事?
- 詞向量和詞匯列表:利用良好分詞結(jié)果的詞向量勘畔,或者不利用詞向量,只是用詞匯或者實(shí)體邊界信息丽惶,通常通過(guò)圖網(wǎng)絡(luò)提取相關(guān)信息炫七。該種增強(qiáng)方式,主要有2大范式:
a).Dynamic Architecture: 設(shè)計(jì)動(dòng)態(tài)抽取框架钾唬,能夠兼容詞匯輸入万哪,本文所介紹FLAT就屬于這種范式。
b).Adaptive Embedding:基于詞匯信息抡秆,構(gòu)建自適應(yīng)Embedding;與模型框架入關(guān)奕巍。僅僅在embedding層融合詞匯信息,對(duì)于詞匯信息的引入更簡(jiǎn)單有效儒士,采取靜態(tài)加權(quán)的方法可以提前離線計(jì)算伍绳。
c).分詞器:單一分詞會(huì)造成邊界錯(cuò)誤,引入多源分詞器并pooling不同分詞結(jié)果乍桂。ACL2020中將多種分詞結(jié)果中詞匯信息pooling對(duì)齊到字符編碼中( Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention:)冲杀。
Lattice LSTM
在系統(tǒng)理解FLAT之前,必須掌握Lattice LSTM文章(Chinese NER Using Lattice LSTM,
https://arxiv.org/pdf/1805.02023.pdf)睹酌。如下圖所示权谁,當(dāng)我們通過(guò)詞匯信息(詞典)匹配一個(gè)句子時(shí),可以獲得類(lèi)似Lattice的結(jié)構(gòu)憋沿。
Lattice為有向無(wú)環(huán)圖旺芽,詞匯的開(kāi)始和結(jié)束字符決定了格子位置。Lattice Lstm結(jié)構(gòu)融合了詞匯信息到原生LSTM中。
如上圖采章,Lattice LSTM引入word cell結(jié)構(gòu)运嗜,對(duì)于當(dāng)前字符,融合以該字符結(jié)束的所有word信息悯舟,如“店”融合了“人和藥店”和"藥店"信息担租。對(duì)于每個(gè)字符,Lattice LSTM采取attention機(jī)制去融合個(gè)數(shù)可變的word cell單元抵怎,主要表達(dá)信息如下:
具體參考論文奋救。當(dāng)前字符有詞匯融入時(shí),則采取上述公式進(jìn)行計(jì)算反惕;如當(dāng)前字符沒(méi)有詞匯時(shí)尝艘,則采取原生的LSTM進(jìn)行計(jì)算。雖然Lattice LSTM有效提升了NER性能姿染,但也存在一些缺點(diǎn):
信息損失:
- 每個(gè)字符只能獲取以該字符結(jié)尾的詞匯信息背亥。如對(duì)于”藥“,無(wú)法獲得”人和藥店“的信息悬赏。
RNN特性導(dǎo)致前后向詞匯信息不能共享隘梨。Lasstic LSTM并沒(méi)有利用前一時(shí)刻記憶向量 ,即不保留對(duì)詞匯信息的持續(xù)記憶舷嗡。- 計(jì)算性能低下,不能batch并行化:究其原因是每個(gè)字符之間增加word cell(看做節(jié)點(diǎn))數(shù)目不一致嵌莉,不過(guò)后續(xù)有將Lattice LSTM進(jìn)行batch化进萄。
- 可遷移性差:只適配LSTM,不具備向其他網(wǎng)絡(luò)遷移的特性锐峭。