命名實(shí)體泛讀系列(二)—— Chinese NER Using Lattice LSTM論文筆記

一昭雌、寫在前面的話

該論文針對中文命名實(shí)體任務(wù),在原有的字LSTM+CRF的基礎(chǔ)上健田,通過設(shè)定特定的LSTM cell以及大規(guī)模自動分詞的語料烛卧,將詞級別的信息加入模型中,從而使得模型在獲得字信息的同時(shí)妓局,也可以有效地利用分詞的先驗(yàn)信息总放。在Bert之前,該模型是中文領(lǐng)域的SOTA跟磨。


二间聊、論文模型

該模型首先整體結(jié)構(gòu)上繼承自字LSTM+CRF的結(jié)構(gòu),在對字信息的提取上同原始結(jié)構(gòu)一樣抵拘。而對于詞信息哎榴,模型先是使用大規(guī)模自動分詞獲得詞典,再通過重新設(shè)計(jì)Cell的結(jié)構(gòu)僵蛛,將句子中的詞信息加入模型中尚蝌。故該模型創(chuàng)新的重點(diǎn)便在于如何設(shè)計(jì)Cell。

1. 字LSTM CRF結(jié)構(gòu)

對于每個(gè)句子中的每個(gè)字充尉,都通過嵌入方法將其轉(zhuǎn)化成向量飘言,然后使用LSTM(或者BiLSTM)對輸入的信息進(jìn)行編碼,最后在LSTM的輸出處使用CRF進(jìn)行序列標(biāo)注驼侠。

2. Lattice LSTM模型

  • 字級的特征

在當(dāng)前輸入的這個(gè)字在詞典中不存在任何以它結(jié)尾的詞時(shí)姿鸿,cell之間的傳遞就和正常的LSTM一樣(也就是說,假設(shè)我們沒有任何詞典信息時(shí)倒源,Lattice LSTM也就退化成了LSTM)苛预,其計(jì)算公式如下所示:

x^c_j = e^c(c_j)

\begin{bmatrix} i^c_j \\ o^c_j \\ f^c_j \\ \widetilde{c}^c_j \end{bmatrix} = \begin{bmatrix} \sigma \\ \sigma \\ \sigma \\ tanh \end{bmatrix}({W^c}^T \begin{bmatrix} x^c_j \\ h^c_{j-1} \end{bmatrix}+b^c)

c^c_j = f^c_j \odot c^c_{j-1} + i^c_j \odot \hat{c}^c_j

h^c_j = o^c_j \odot tanh(c^c_j)

其中,c_j是當(dāng)前的輸入笋熬,e^c是字級別的字向量嵌入字典热某,x^c_j就是當(dāng)前輸入的字向量,i^c_j胳螟、f^c_jo^c_j是輸入昔馋、遺忘和輸出門,\sigma表示sigmoid函數(shù)(上述的公式其實(shí)就是正常的LSTM的cell)糖耸。

  • 詞級的特征

詞級特征分為兩部分秘遏,假設(shè)存在當(dāng)前輸入的是京字,則它在詞典中匹配到的是南京這個(gè)詞蔬捷,那么此時(shí)的詞級特征的輸入向量為南京這個(gè)詞開頭這個(gè)字在模型中的隱向量(即南這個(gè)字被輸入時(shí)的h^c_j 垄提,記為h^c_b榔袋,其中b表示這個(gè)詞開頭的字在句子中的開始位置的index)以及南京這個(gè)詞直接嵌入的向量(記為x^w_{b,e},其中b铡俐,e表示這個(gè)詞開頭的字在句子中的開始位置的index和結(jié)束位置的index)凰兑。

得到兩個(gè)輸入向量后,以h^c_b作為正常LSTM中的h^c_{j-1}审丘,x^w_{b,e}作為正常LSTM中的x^c_j吏够,進(jìn)行計(jì)算:

\begin{bmatrix} i^w_{b,e} \\ f^w_{b,e} \\ \widetilde{c}^w_{b,e} \end{bmatrix} = \begin{bmatrix} \sigma \\ \sigma \\ tanh \end{bmatrix}({w^w}^T \begin{bmatrix} x^w_{b,e} \\ h^c_b \end{bmatrix} + b^w)

c^w_{b,e} = f^w_{b,e} \odot c^c_b + i^w_{b,e} \odot \widetilde{c}^w_{b,e}

PS:這邊不需要輸出門,文中給的解釋是這邊不是最后的需要輸出的地方滩报,最后將字信息和詞信息融合之后那邊已經(jīng)有個(gè)輸出門控制了锅知,這邊不加也沒事。

  • 字詞級的特征融合

上面以南京舉例脓钾,只出現(xiàn)了一個(gè)詞售睹,但其實(shí)對部分字來說,它可能會在詞典中匹配上很多詞可训,例如橋這個(gè)字就可以在詞典中匹配出大橋和長江大橋昌妹。為了將詞、字信息融合握截,這里做了一個(gè)類似Attention的操作:

對于匹配出的每個(gè)詞的c^w_{b,e}向量都進(jìn)行如下操作計(jì)算出屬于它的輸出門:

i^c_{b,e} = \sigma({w^l}^T \begin{bmatrix} x^c_e \\ c^w_{b,e} \end{bmatrix} + b^l)

再使用當(dāng)前字計(jì)算出的輸入門和所有詞的輸入門做歸一計(jì)算出權(quán)重:

\alpha^c_{b,j} = \frac{exp(i^c_{b,j})}{exp(i^c_j)+\sum_{b’ \in \lbrace b’’ \mid w^d_{b’’,j} \in \mathbb{D}\rbrace}exp(i^c_{b’,j})}

\alpha^c_{j} = \frac{exp(i^c_{j})}{exp(i^c_j)+\sum_{b’ \in \lbrace b’’ \mid w^d_{b’’,j} \in \mathbb{D}\rbrace}exp(i^c_{b’,j})}

可以看出飞崖,其實(shí)也就是計(jì)算了一種特殊的Attention(這里可以進(jìn)一步探究一下?lián)Q成其他Attention對結(jié)果的影響)。

最后和通常計(jì)算Attention特征向量一樣谨胞,利用計(jì)算出的權(quán)重進(jìn)行向量加權(quán)融合即可:

c^c_j = \sum_{b \in \lbrace b’ \mid w^d_{b’,j} \in \mathbb{D}\rbrace } \alpha^c_{b,j} \odot c^w_{b,j} + \alpha^c_j \odot \widetilde{c}^c_j

對于h^c_j及其最后輸出的計(jì)算同原來的LSTM的計(jì)算一致:

h^c_j = o^c_j \odot tanh(c^c_j)


三固歪、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集:作者將 Lattice LSTM用如下的四個(gè)數(shù)據(jù)集中:

Onto Notes
MSRA
Weibo
resume

其中bichar是指使用了bigrams嵌入、softword是指將分詞的詞嵌入直接在輸入層和字向量拼接胯努。

可以看出Lattice LSTM對比另外兩種比較簡單地利用額外信息的方式有不錯(cuò)的進(jìn)步牢裳,同時(shí)對比softword方式,很好地驗(yàn)證了Lattice LSTM結(jié)構(gòu)上的優(yōu)勢叶沛,而不僅僅只是額外引入了詞信息贰健。

整體說來,文章思路清晰恬汁,創(chuàng)新的地方有理有據(jù),很值得研究辜伟,而且Lattice LSTM的思路完全可以在bert等模型上添加氓侧,是個(gè)不錯(cuò)的后續(xù)研究的點(diǎn),另外导狡,模型都出現(xiàn)很多引入的詞信息的地方如果使用Attention會有什么影響也值得探究约巷。


參考

  1. https://davidham3.github.io/blog/2018/05/23/lattice-lstm-%E4%B8%AD%E6%96%87ner/
  2. https://www.cnblogs.com/bep-feijin/p/9650856.html
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市旱捧,隨后出現(xiàn)的幾起案子独郎,更是在濱河造成了極大的恐慌踩麦,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件氓癌,死亡現(xiàn)場離奇詭異谓谦,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)贪婉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門反粥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人疲迂,你說我怎么就攤上這事才顿。” “怎么了尤蒿?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵郑气,是天一觀的道長。 經(jīng)常有香客問我腰池,道長尾组,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任巩螃,我火速辦了婚禮演怎,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘避乏。我一直安慰自己爷耀,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布拍皮。 她就那樣靜靜地躺著歹叮,像睡著了一般。 火紅的嫁衣襯著肌膚如雪铆帽。 梳的紋絲不亂的頭發(fā)上咆耿,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機(jī)與錄音爹橱,去河邊找鬼萨螺。 笑死,一個(gè)胖子當(dāng)著我的面吹牛愧驱,可吹牛的內(nèi)容都是我干的慰技。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼组砚,長吁一口氣:“原來是場噩夢啊……” “哼吻商!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起糟红,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤艾帐,失蹤者是張志新(化名)和其女友劉穎乌叶,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體柒爸,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡准浴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了揍鸟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兄裂。...
    茶點(diǎn)故事閱讀 40,115評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖阳藻,靈堂內(nèi)的尸體忽然破棺而出晰奖,到底是詐尸還是另有隱情,我是刑警寧澤腥泥,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布匾南,位于F島的核電站,受9級特大地震影響蛔外,放射性物質(zhì)發(fā)生泄漏蛆楞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一夹厌、第九天 我趴在偏房一處隱蔽的房頂上張望豹爹。 院中可真熱鬧,春花似錦矛纹、人聲如沸臂聋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽孩等。三九已至,卻和暖如春采够,著一層夾襖步出監(jiān)牢的瞬間肄方,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工蹬癌, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留权她,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓逝薪,卻偏偏與公主長得像伴奥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子翼闽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容