NER命名實(shí)體識(shí)別
命名實(shí)體識(shí)別(Named Entity Recognition,簡(jiǎn)稱NER),又稱作“專名識(shí)別”翩迈,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名盔夜、地名负饲、機(jī)構(gòu)名、專有名詞等比吭。簡(jiǎn)單的講绽族,就是識(shí)別自然文本中的實(shí)體指稱的邊界和類別。
實(shí)體識(shí)別方法的發(fā)展史
NER的關(guān)鍵:在進(jìn)行實(shí)體識(shí)別的過程中衩藤,有兩個(gè)問題是十分關(guān)鍵的:實(shí)體邊界的確認(rèn)吧慢;實(shí)體類別的判斷
所謂實(shí)體邊界的確認(rèn),指的是對(duì)一個(gè)句子中的實(shí)體詞進(jìn)行正確的劃分赏表,例如在句子“黃黃被清華大學(xué)錄取”中检诗,一個(gè)好的識(shí)別算法必須將實(shí)體詞“黃黃”進(jìn)行正確的標(biāo)記,而不是在其它的位置進(jìn)行劃分瓢剿;所謂實(shí)體類別的判斷逢慌,仍以上例說明,算法必須判定“黃黃”為人名實(shí)體间狂,而不是其它類型的實(shí)體攻泼。
標(biāo)記對(duì)于實(shí)體邊界確認(rèn)的重要性不言而喻,通常的方法有B-I-O鉴象,但是這種方法實(shí)體的末尾字不容易得到區(qū)分忙菠;另一種相對(duì)復(fù)雜的表示方法為B-M-E-S-O,B表示begin纺弊,M表示middle牛欢,E表示end,S表示實(shí)體只有一個(gè)字時(shí)的標(biāo)記single淆游,O表示other非實(shí)體字
目前比較主流的方法是 lstm+crf及其變體
接下來要深入研究的是 embedding? crf lstm
以下為參考文章:
https://blog.csdn.net/SunJW_2017/article/details/82460284
http://blog.itpub.net/69946223/viewspace-2657672/