一昭雌、寫在前面的話
該論文針對中文命名實(shí)體任務(wù),在原有的字LSTM+CRF的基礎(chǔ)上健田,通過設(shè)定特定的LSTM cell以及大規(guī)模自動分詞的語料烛卧,將詞級別的信息加入模型中,從而使得模型在獲得字信息的同時(shí)妓局,也可以有效地利用分詞的先驗(yàn)信息总放。在Bert之前,該模型是中文領(lǐng)域的SOTA跟磨。
二间聊、論文模型
該模型首先整體結(jié)構(gòu)上繼承自字LSTM+CRF的結(jié)構(gòu),在對字信息的提取上同原始結(jié)構(gòu)一樣抵拘。而對于詞信息哎榴,模型先是使用大規(guī)模自動分詞獲得詞典,再通過重新設(shè)計(jì)Cell的結(jié)構(gòu)僵蛛,將句子中的詞信息加入模型中尚蝌。故該模型創(chuàng)新的重點(diǎn)便在于如何設(shè)計(jì)Cell。
1. 字LSTM CRF結(jié)構(gòu)
對于每個(gè)句子中的每個(gè)字充尉,都通過嵌入方法將其轉(zhuǎn)化成向量飘言,然后使用LSTM(或者BiLSTM)對輸入的信息進(jìn)行編碼,最后在LSTM的輸出處使用CRF進(jìn)行序列標(biāo)注驼侠。
2. Lattice LSTM模型
- 字級的特征
在當(dāng)前輸入的這個(gè)字在詞典中不存在任何以它結(jié)尾的詞時(shí)姿鸿,cell之間的傳遞就和正常的LSTM一樣(也就是說,假設(shè)我們沒有任何詞典信息時(shí)倒源,Lattice LSTM也就退化成了LSTM)苛预,其計(jì)算公式如下所示:
其中,是當(dāng)前的輸入笋熬,
是字級別的字向量嵌入字典热某,
就是當(dāng)前輸入的字向量,
胳螟、
和
是輸入昔馋、遺忘和輸出門,
表示sigmoid函數(shù)(上述的公式其實(shí)就是正常的LSTM的cell)糖耸。
- 詞級的特征
詞級特征分為兩部分秘遏,假設(shè)存在當(dāng)前輸入的是京字,則它在詞典中匹配到的是南京這個(gè)詞蔬捷,那么此時(shí)的詞級特征的輸入向量為南京這個(gè)詞開頭這個(gè)字在模型中的隱向量(即南這個(gè)字被輸入時(shí)的 垄提,記為
榔袋,其中b表示這個(gè)詞開頭的字在句子中的開始位置的index)以及南京這個(gè)詞直接嵌入的向量(記為
,其中b铡俐,e表示這個(gè)詞開頭的字在句子中的開始位置的index和結(jié)束位置的index)凰兑。
得到兩個(gè)輸入向量后,以作為正常LSTM中的
审丘,
作為正常LSTM中的
吏够,進(jìn)行計(jì)算:
PS:這邊不需要輸出門,文中給的解釋是這邊不是最后的需要輸出的地方滩报,最后將字信息和詞信息融合之后那邊已經(jīng)有個(gè)輸出門控制了锅知,這邊不加也沒事。
- 字詞級的特征融合
上面以南京舉例脓钾,只出現(xiàn)了一個(gè)詞售睹,但其實(shí)對部分字來說,它可能會在詞典中匹配上很多詞可训,例如橋這個(gè)字就可以在詞典中匹配出大橋和長江大橋昌妹。為了將詞、字信息融合握截,這里做了一個(gè)類似Attention的操作:
對于匹配出的每個(gè)詞的向量都進(jìn)行如下操作計(jì)算出屬于它的輸出門:
再使用當(dāng)前字計(jì)算出的輸入門和所有詞的輸入門做歸一計(jì)算出權(quán)重:
可以看出飞崖,其實(shí)也就是計(jì)算了一種特殊的Attention(這里可以進(jìn)一步探究一下?lián)Q成其他Attention對結(jié)果的影響)。
最后和通常計(jì)算Attention特征向量一樣谨胞,利用計(jì)算出的權(quán)重進(jìn)行向量加權(quán)融合即可:
對于及其最后輸出的計(jì)算同原來的LSTM的計(jì)算一致:
三固歪、實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集:作者將 Lattice LSTM用如下的四個(gè)數(shù)據(jù)集中:
其中bichar是指使用了bigrams嵌入、softword是指將分詞的詞嵌入直接在輸入層和字向量拼接胯努。
可以看出Lattice LSTM對比另外兩種比較簡單地利用額外信息的方式有不錯(cuò)的進(jìn)步牢裳,同時(shí)對比softword方式,很好地驗(yàn)證了Lattice LSTM結(jié)構(gòu)上的優(yōu)勢叶沛,而不僅僅只是額外引入了詞信息贰健。
整體說來,文章思路清晰恬汁,創(chuàng)新的地方有理有據(jù),很值得研究辜伟,而且Lattice LSTM的思路完全可以在bert等模型上添加氓侧,是個(gè)不錯(cuò)的后續(xù)研究的點(diǎn),另外导狡,模型都出現(xiàn)很多引入的詞信息的地方如果使用Attention會有什么影響也值得探究约巷。