Markdown編輯器修好了毫玖,重發(fā)一下。
學(xué)習(xí)路線參考:
https://blog.51cto.com/u_15298598/3121189
https://github.com/Ailln/nlp-roadmap
https://juejin.cn/post/7113066539053482021
https://zhuanlan.zhihu.com/p/100567371
https://cloud.tencent.com/developer/article/1884740
本節(jié)學(xué)習(xí)使用工具&閱讀文章:
https://zhuanlan.zhihu.com/p/156914795
https://spaces.ac.cn/archives/7213
https://zhuanlan.zhihu.com/p/97829287
https://www.zhihu.com/question/62399257
https://zhuanlan.zhihu.com/p/47802053
https://zhuanlan.zhihu.com/p/150103958?from_voters_page=true
-
命名實(shí)體標(biāo)注
命名實(shí)體識(shí)別是指識(shí)別中文文本中實(shí)體的邊界和類別凌盯。命名實(shí)體識(shí)別是文本處理中的基礎(chǔ)技術(shù)付枫,廣泛應(yīng)用在自然語言處理居凶、推薦系統(tǒng)思币、知識(shí)圖譜等領(lǐng)域携龟,比如推薦系統(tǒng)中的基于實(shí)體的用戶畫像妆偏、基于實(shí)體召回等建炫。
-
命名實(shí)體分類
- 3大類:實(shí)體類徐勃、時(shí)間類窒百、數(shù)字類
- 7小類:人名熟丸、地名症杏、組織機(jī)構(gòu)名装获、時(shí)間、日期厉颤、貨幣量穴豫、百分?jǐn)?shù)
-
命名實(shí)體識(shí)別思想
通常先進(jìn)行實(shí)體標(biāo)注,然后識(shí)別單個(gè)實(shí)體逼友,最后再識(shí)別復(fù)合實(shí)體精肃。
-
實(shí)體標(biāo)注方法
- IOB標(biāo)注法:I表示內(nèi)部,O表示外部帜乞,B表示開始
- BIOES標(biāo)注法:B表示開始司抱,I表示內(nèi)部,O表示外部挖函,E表示結(jié)束状植,S表示這個(gè)詞是單獨(dú)形成一個(gè)命名實(shí)體
-
-
命名實(shí)體識(shí)別方法
- 基于規(guī)則的方法:依賴詞典浊竟、模板、正則表達(dá)式等匹配方法津畸。
- 基于機(jī)器學(xué)習(xí)方法:HMM振定、MEMM、ME肉拓、SVM后频、CRF,關(guān)注概率暖途。
- 基于深度學(xué)習(xí)方法:BiLSTM-CNN-CRF卑惜、BERT-BiLSTM-CRF,關(guān)注整體驻售。
基于機(jī)器學(xué)習(xí)方法的主要方法對(duì)比如下:
模型 優(yōu)點(diǎn) 缺點(diǎn) ME最大熵 通用性好 訓(xùn)練效率低 MEMM最大熵馬爾科夫模型 充分利用特征 局部最優(yōu) HMM隱馬爾可夫模型 訓(xùn)練快 局部最優(yōu) SVM支持向量機(jī) 理論完備 訓(xùn)練效率低 CRF條件隨機(jī)場 特征靈活露久、全局最優(yōu) 依賴特征模版 -
MEMM
回顧C(jī)RF,其對(duì)概率分布
建模欺栗。MEMM同樣也是對(duì)該概率分布建模毫痕,其先對(duì)原概率分布進(jìn)行分解,為:
再假設(shè)標(biāo)簽依賴只發(fā)生在相鄰位置迟几,所以:
再仿照線性鏈CRF的設(shè)計(jì)消请,可以設(shè)
,
至此,這就得到了MEMM了类腮。由于MEMM已經(jīng)將整體的概率分布分解為逐步的分布之積了臊泰,所以算loss只需要把每一步的交叉熵求和。
對(duì)比MEMM和CRF蚜枢,二者的區(qū)別僅在于分母(歸一化因子
)的計(jì)算方式不同缸逃,CRF的我們稱之為是全局歸一化的,而MEMM的我們稱之為是局部歸一化的祟偷。全局歸一化模型效果通常好些察滑,但實(shí)現(xiàn)通常相對(duì)困難一些;局部歸一化模型效果通常不超過全局歸一化模型修肠,但勝在易于實(shí)現(xiàn),并與易于拓展户盯。
MEMM除了訓(xùn)練速度快之外嵌施,性能并不優(yōu)于CRF。
-
LSTM-CRF
序列標(biāo)注問題本質(zhì)上是分類問題莽鸭,因?yàn)槠渚哂行蛄刑卣髀鹕耍訪STM就很合適進(jìn)行序列標(biāo)注。
我們可以直接利用LSTM進(jìn)行序列標(biāo)注硫眨。但是這樣的做法有一個(gè)問題:每個(gè)時(shí)刻的輸出沒有考慮上一時(shí)刻的輸出足淆。我們?cè)诶肔STM進(jìn)行序列建模的時(shí)候只考慮了輸入序列的信息,即單詞信息,但是沒有考慮標(biāo)簽信息巧号,即輸出標(biāo)簽信息族奢。
這樣會(huì)導(dǎo)致一個(gè)問題,以“我 喜歡 跑步”為例丹鸿,LSTM輸出“喜歡”的標(biāo)簽是“動(dòng)詞”越走,而“跑步”的標(biāo)簽可能也是“動(dòng)詞”。但是實(shí)際上靠欢,“名詞”標(biāo)簽更為合適廊敌,因?yàn)椤芭懿健边@里是一項(xiàng)運(yùn)動(dòng)。也就是“動(dòng)詞”+“名詞”這個(gè)規(guī)則并沒有被LSTM模型捕捉到门怪。也就是說這樣使用LSTM無法對(duì)標(biāo)簽轉(zhuǎn)移關(guān)系進(jìn)行建模骡澈。
而標(biāo)簽轉(zhuǎn)移關(guān)系對(duì)序列標(biāo)注任務(wù)來說是很重要的,所以就在LSTM的基礎(chǔ)上引入一個(gè)標(biāo)簽轉(zhuǎn)移矩陣對(duì)標(biāo)簽轉(zhuǎn)移關(guān)系進(jìn)行建模掷空。
CRF有兩類特征函數(shù)肋殴,一類是針對(duì)觀測序列與狀態(tài)的對(duì)應(yīng)關(guān)系,一類是針對(duì)狀態(tài)間關(guān)系拣帽。在LSTM+CRF模型中疼电,前一類特征函數(shù)的輸出由LSTM的輸出替代,后一類特征函數(shù)就變成了標(biāo)簽轉(zhuǎn)移矩陣减拭。
可以將LSTM的輸出矩陣看作是一個(gè)打分矩陣蔽豺,將其輸出作為CRF的發(fā)射概率;再由CRF自己學(xué)習(xí)轉(zhuǎn)移概率拧粪,即構(gòu)成了LSTM-CRF體系修陡。
-
BiLSTM
利用LSTM對(duì)句子進(jìn)行建模存在一個(gè)問題:無法編碼從后到前的信息。在更細(xì)粒度的分類時(shí)可霎,如對(duì)于強(qiáng)程度的褒義魄鸦、弱程度的褒義、中性癣朗、弱程度的貶義拾因、強(qiáng)程度的貶義的五分類任務(wù)需要注意情感詞、程度詞旷余、否定詞之間的交互绢记。舉一個(gè)例子,“這個(gè)餐廳臟得不行正卧,沒有隔壁好”蠢熄,這里的“不行”是對(duì)“臟”的程度的一種修飾,通過BiLSTM可以更好的捕捉雙向的語義依賴炉旷。
BiLSTM就是雙向的LSTM签孔,同時(shí)具備前向的LSTM和后向的LSTM叉讥。
BiLSTM訓(xùn)練過程例如“我愛中國”這句話,前向LSTM依次輸入
我 愛 中國
得到三個(gè)向量饥追,后向LSTM依次輸入
中國 愛 我
得到三個(gè)向量图仓。最后將前向和后向?qū)?yīng)的隱向量進(jìn)行拼接即可得到最終的結(jié)果。
隱向量拼接
-
BiLSTM-CRF
同LSTM-CRF一樣判耕,相比LSTM-CRF透绩,BiLSTM更能識(shí)別上下文信息。
-
BiLSTM-CNNS-CRF
出自ACL2016《End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF》特點(diǎn)是END2END壁熄,不需要手工進(jìn)行特征設(shè)計(jì)帚豪,不需要任何特征工程,這說明不需要手工的特征也能有好的性能草丧。
BiLSTM-CNNS-CRF
流程:
- 卷積神經(jīng)網(wǎng)絡(luò):提取單詞字符級(jí)表示
- BiLSTM:單向LSTM只能獲取過去信息狸臣,無法獲取未來信息,所以雙向LSTM的基本思想是將每個(gè)序列向前和向后呈現(xiàn)到兩個(gè)單獨(dú)的隱藏狀態(tài)昌执,以分別捕獲過去和未來的信息烛亦。 然后將兩個(gè)隱藏狀態(tài)連接起來形成最終的輸出。
- CRF:使用條件隨機(jī)場 (CRF)聯(lián)合建模標(biāo)簽序列懂拾,而不是獨(dú)立解碼每個(gè)標(biāo)簽煤禽。
后面部分與BiLSTM-CRF是相同的,只是在前面加上了一個(gè)CNN岖赋。在先前的研究工作中發(fā)現(xiàn)檬果,CNN可以有效抽取單詞字符的形態(tài)學(xué)特征(如單詞的前綴、后綴等)形成字符級(jí)別的表示特征唐断。網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示选脊,需要注意的是虛線表示Dropout操作。
這里的Word Embedding分別使用了GloVe脸甘、Senna-50恳啥、Google's Word2Vec-300,實(shí)驗(yàn)表明GloVe的效果最好丹诀。