【論文筆記一】Chinese NER Using Lattice LSTM(Yue Zhang,Jie Yang)
本文針對中文NER提出了一種網(wǎng)格LSTM結(jié)構(gòu)模型(Lattice LSTM):
相比character-based方法驯妄,能夠充分利用單詞和詞序信息荷并;
相比word-based方法捌议,獨(dú)立于分詞委可,不會(huì)因?yàn)榉衷~錯(cuò)誤從而影響識別結(jié)果;
門控循環(huán)單元使得模型能夠從句子中選擇最相關(guān)的字符和詞誉己,生成更好的 NER 結(jié)果微猖。
模型核心思想:
?通過用Lattice結(jié)構(gòu)的LSTM模型表示句子中的詞谈息,將潛在的詞信息整合到基于字符的LSTM-CRF中(integrate latent
word information into characterbased LSTM-CRF by representing lexicon wordsfrom the sentence using a lattice structure LSTM.)
在目前,英文 NER 的最高水準(zhǔn)是使用LSTM-CRF 模型實(shí)現(xiàn)的凛剥,研究者同樣使用了 LSTM-CRF 作為主要網(wǎng)絡(luò)結(jié)構(gòu)侠仇。(原論文提及)
實(shí)驗(yàn):
數(shù)據(jù)集:OntoNotes、MSRA犁珠、Weibo(all)逻炊、resume
模型比較:
結(jié)論:
本文實(shí)證研究了一種適用于漢語NER的點(diǎn)陣LSTM-CRF表示法,它在不同領(lǐng)域的性能始終優(yōu)于基于文字(word-based)和字符(char-based)的LSTM-CRF表示法犁享。Lattice模型完全獨(dú)立于分詞余素,但由于可以在上下文中自由選擇詞匯來消除歧義,因此在使用單詞信息時(shí)更加有效炊昆。
【論文筆記二】Bidirectional LSTM-CRF Models for Sequence?Tagging(Huang et al.)
本篇論文介紹了多種序列標(biāo)注模型桨吊,包括LSTM網(wǎng)絡(luò)、BI-LSTM網(wǎng)絡(luò)窑眯、CRF網(wǎng)絡(luò)屏积、LSTM-CRF網(wǎng)絡(luò)医窿、BI-LSTM-CRF網(wǎng)絡(luò)磅甩,比較將它們用于自然語言處理的性能與準(zhǔn)確率。
重點(diǎn)是本文首次提出將BI-LSTM-CRF模型應(yīng)用于自然語言處理基準(zhǔn)序列標(biāo)記數(shù)據(jù)集姥卢。該模型可以在POS卷要、分塊和NER數(shù)據(jù)集上產(chǎn)生最先進(jìn)(或接近于)的精度,并且本文證明BI-LSTMCRF模型的穩(wěn)健性独榴,相比Collobert等人的研究僧叉,該模型對嵌入詞的依賴更少,它不需要嵌入詞就可以精確的標(biāo)注棺榔。
實(shí)驗(yàn)結(jié)果:
對于POS瓶堕、chunk ing、NER在各個(gè)模型上的F1值的對比症歇,比較模型如下表:
實(shí)驗(yàn)部分:
在三個(gè)NLP標(biāo)記任務(wù)(Penn TreeBank (PTB) POS標(biāo)記郎笆、CoNLL 2000分塊和CoNLL 2003命名實(shí)體標(biāo)記)上測試了LSTM谭梗、BI-LSTM、CRF宛蚓、LSTM-CRF和BI-LSTM-CRF模型:
Feature:401K, 76K, and 341K features extracted for POS,chunkingand NER data sets respectively.
Spelling Features:lower case word features, whether start with a capitalletter, whether has all capital letters.
… …
實(shí)驗(yàn)對比:
模型:
1.長短時(shí)記憶模型:輸入門激捏、遺忘門、輸出門凄吏,一個(gè)信息進(jìn)入LSTM網(wǎng)絡(luò)當(dāng)中远舅,可以根據(jù)規(guī)則來判斷是否有用,只有符合算法的認(rèn)證才能留下痕钢,不符合的通過遺忘門遺忘图柏。
2.雙向長短時(shí)記憶模型:可以訪問給定時(shí)間過于和未來的輸入。
3.條件隨機(jī)場模型:CRF可以產(chǎn)生更高的精度任连。
4.LSTM-CRF模型:1).結(jié)合LSTM和CRF組成LSTM-CRF
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2).通過LSTM可以有效利用過去的輸入特征
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 3).通過CRF可以有效利用句子級標(biāo)簽信息
因此爆办,可以通過LSTM-CRF,有效的使用過去和未來的特征標(biāo)簽來預(yù)測當(dāng)前標(biāo)簽
5. BI-LSTM-CRF模型:1).結(jié)合BI-LSTM-CRF和CRF
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 2).提升了標(biāo)記的準(zhǔn)確率
【論文筆記三】End-to-end Sequence Labeling via Bi-directional?LSTM-CNNs-CRF(Xuezhe Ma and Eduard Hovy)
本文提出了:1. 一種新的用于語言序列標(biāo)記的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)课梳。
? ? ? ? ? ? ? ? ? ? ? 2.對兩個(gè)經(jīng)典NLP任務(wù)的基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)證評價(jià)距辆。
? ? ? ? ? ? ? ? ? ? ? 3.實(shí)現(xiàn)了真正的端到端系統(tǒng)并且取得不錯(cuò)的實(shí)驗(yàn)結(jié)果。
端到端特征:
? ? ? ? ? ? ? ? ? ?1.no task-specific resources,
? ? ? ? ? ? ? ? ? ?2.no feature engineering,
? ? ? ? ? ? ? ? ? ?3.no data pre-processing beyond pre-trained wordembeddings on unlabeled corpora.
本文神經(jīng)網(wǎng)絡(luò)的主要架構(gòu)如上圖所示暮刃。每個(gè)單詞的字符表示由圖1中的CNN計(jì)算跨算。然后將字符表示向量與嵌入詞連接起來,再送入BLSTM網(wǎng)絡(luò)椭懊。虛線箭頭表示在BLSTM的輸入和輸出向量上都應(yīng)用了Dropout層:
步驟一:用Character-level CNN獲得詞表示诸蚕。
步驟二:把步驟一的詞表示和事先訓(xùn)練好的詞向量拼接起來,輸入Bi-directional LSTM氧猬,得到每個(gè)狀態(tài)的表示背犯。注意,BLSTM的輸入和輸出都過了Dropout層盅抚。
步驟三:用步驟二的輸出輸入CRF層漠魏,最終預(yù)測。
模型訓(xùn)練
實(shí)驗(yàn)參數(shù):
數(shù)據(jù)集:we evaluate our neural network model on two sequence labeling tasks: POS
tagging and NER
實(shí)驗(yàn)結(jié)果:
結(jié)論
本文提出了一種用于序列標(biāo)記的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)妄均。它是一個(gè)真正的端到端模型柱锹,不依賴于特定任務(wù)的資源、特征工程丰包、數(shù)據(jù)預(yù)處理禁熏。與之前最先進(jìn)的系統(tǒng)相比,我們在兩個(gè)語言序列標(biāo)記任務(wù)上取得了最先進(jìn)的性能邑彪。
未來的工作有幾個(gè)潛在的方向:
首先瞧毙,我們的模型可以進(jìn)一步改進(jìn),探索多任務(wù)學(xué)習(xí)方法,結(jié)合更有用和相關(guān)的信息宙彪。例如撑柔,我們可以用POS和NER標(biāo)記聯(lián)合訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型,以改進(jìn)我們在網(wǎng)絡(luò)中學(xué)習(xí)到的中間表示(intermediate representations)您访。
另一個(gè)有趣的方向是將我們的模型應(yīng)用于來自其他領(lǐng)域的數(shù)據(jù)铅忿,如社交媒體(Twitter和微博)。由于我們的模型不需要任何領(lǐng)域或特定于任務(wù)的知識灵汪,因此可以輕松地將其應(yīng)用到這些領(lǐng)域檀训。
【論文筆記四】Named Entity Recognition With Parallel Recurrent Neural Networks(Andrej Zukov-Gregori ˇ cˇ)
本文貢獻(xiàn):提出了一種新的命名實(shí)體識別體系結(jié)構(gòu)模型,并行遞歸神經(jīng)網(wǎng)絡(luò)模型享言,在相同的輸入中使用多個(gè)獨(dú)立的雙向LSTM單元峻凫,并通過使用模型間正則化項(xiàng)來促進(jìn)它們之間的多樣性。通過在多個(gè)較小的LSTMs上的分布計(jì)算览露,我們發(fā)現(xiàn)參數(shù)總數(shù)有所減少荧琼。本文架構(gòu)在CoNLL 2003 NER數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的性能。
實(shí)驗(yàn)
? ? ? ? ?使用雙向LSTMs作為基本的循環(huán)單元差牛,并使用大小為100的預(yù)先訓(xùn)練的單詞嵌入命锄。
? ? ? ? ?連接到詞嵌入式字符級嵌入式,類似于?(Lample et al., 2016)但使用了最大池層偏化。
? ? ? ? ?與并行LSTM不同脐恩,我們只使用一個(gè)字符嵌入LSTM。
實(shí)驗(yàn)結(jié)果:
結(jié)論
在CoNLL 2003英語數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果侦讨,并引入了一種新的模型驶冒,其主要?jiǎng)訖C(jī)是易于分發(fā)和減少參數(shù)總數(shù)。
展望:研究在不同的分類和序列分類任務(wù)中的性能韵卤。
? ? ? ? ? ?如果模型是跨CPU內(nèi)核并行化骗污,可以通過運(yùn)行分析比較速度。