命名實(shí)體識(shí)別(Named EntitiesRecognition, NER)是自然語言處理(Natural LanguageProcessing, NLP)的一個(gè)基礎(chǔ)任務(wù)。其目的是識(shí)別語料中人名、地名加酵、組織機(jī)構(gòu)名等命名實(shí)體立叛。由于這些命名實(shí)體數(shù)量不斷增加难菌,通常不可能在詞典中窮盡列出痹仙,且其構(gòu)成方法具有各自的一些規(guī)律性,因而,通常把對(duì)這些詞的識(shí)別從詞匯形態(tài)處理(如漢語切分)任務(wù)中獨(dú)立處理,稱為命名實(shí)體識(shí)別悲立。命名實(shí)體識(shí)別技術(shù)是信息抽取、信息檢索新博、機(jī)器翻譯薪夕、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。
命名實(shí)體是命名實(shí)體識(shí)別的研究主體赫悄,一般包括3大類(實(shí)體類原献、時(shí)間類和數(shù)字類)和7小類(人名、地名埂淮、機(jī)構(gòu)名姑隅、時(shí)間、日期倔撞、貨幣和百分比)命名實(shí)體讲仰。評(píng)判一個(gè)命名實(shí)體是否被正確識(shí)別包括兩個(gè)方面:實(shí)體的邊界是否正確;實(shí)體的類型是否標(biāo)注正確痪蝇。主要錯(cuò)誤類型包括文本正確鄙陡,類型可能錯(cuò)誤;反之躏啰,文本邊界錯(cuò)誤,而其包含的主要實(shí)體詞和詞類標(biāo)記可能正確趁矾。
命名實(shí)體識(shí)別的主要技術(shù)方法分為:基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)的方法给僵、二者混合的方法等毫捣。
1.基于規(guī)則和詞典的方法
基于規(guī)則的方法多采用語言學(xué)專家手工構(gòu)造規(guī)則模板,選用特征包括統(tǒng)計(jì)信息、標(biāo)點(diǎn)符號(hào)帝际、關(guān)鍵字蔓同、指示詞和方向詞、位置詞(如尾字)胡本、中心詞等方法牌柄,以模式和字符串相匹配為主要手段,這類系統(tǒng)大多依賴于知識(shí)庫和詞典的建立侧甫∩河叮基于規(guī)則和詞典的方法是命名實(shí)體識(shí)別中最早使用的方法,一般而言披粟,當(dāng)提取的規(guī)則能比較較精確地反映語言現(xiàn)象時(shí)咒锻,基于規(guī)則的方法性能要優(yōu)于基于統(tǒng)計(jì)的方法。但是這些規(guī)則往往依賴于具體語言守屉、領(lǐng)域和文本風(fēng)格惑艇,編制過程耗時(shí)且難以涵蓋所有的語言現(xiàn)象,特別容易產(chǎn)生錯(cuò)誤拇泛,系統(tǒng)可移植性不好滨巴,對(duì)于不同的系統(tǒng)需要語言學(xué)專家重新書寫規(guī)則“嘲龋基于規(guī)則的方法的另外一個(gè)缺點(diǎn)是代價(jià)太大恭取,存在系統(tǒng)建設(shè)周期長(zhǎng)、移植性差而且需要建立不同領(lǐng)域知識(shí)庫作為輔助以提高系統(tǒng)識(shí)別能力等問題熄守。
2.基于統(tǒng)計(jì)的方法
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)
的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)蜈垮、較大熵(MaxmiumEntropy,ME)、支持向量機(jī)(Support VectorMachine,SVM)裕照、條件隨機(jī)場(chǎng)( ConditionalRandom Fields,CRF)等攒发。
在這4種學(xué)習(xí)方法中,較大熵模型結(jié)構(gòu)緊湊晋南,具有較好的通用性惠猿,主要缺點(diǎn)是訓(xùn)練時(shí)間復(fù)雜性非常高,有時(shí)甚至導(dǎo)致訓(xùn)練代價(jià)難以承受负间,另外由于需要明確的歸一化計(jì)算紊扬,導(dǎo)致開銷比較大。而條件隨機(jī)場(chǎng)為命名實(shí)體識(shí)別提供了一個(gè)特征靈活唉擂、全局最優(yōu)的標(biāo)注框架餐屎,但同時(shí)存在收斂速度慢、訓(xùn)練時(shí)間長(zhǎng)的問題玩祟。一般說來腹缩,較大熵和支持向量機(jī)在正確率上要比隱馬爾可夫模型高一些,但是隱馬爾可夫模型在訓(xùn)練和識(shí)別時(shí)的速度要快一些空扎,主要是由于在利用Viterbi算法
求解命名實(shí)體類別序列的效率較高藏鹊。隱馬爾可夫模型更適用于一些對(duì)實(shí)時(shí)性有要求以及像信息檢索這樣需要處理大量文本的應(yīng)用,如短文本命名實(shí)體識(shí)別。
基于統(tǒng)計(jì)的方法對(duì)特征選取的要求較高转锈,需要從文本中選擇對(duì)該項(xiàng)任務(wù)有影響的各種特征盘寡,并將這些特征加入到特征向量中。依據(jù)特定命名實(shí)體識(shí)別所面臨的主要困難和所表現(xiàn)出的特性撮慨,考慮選擇能有效反映該類實(shí)體特性的特征集合竿痰。主要做法是通過對(duì)訓(xùn)練語料所包含的語言信息進(jìn)行統(tǒng)計(jì)和分析脆粥,從訓(xùn)練語料中挖掘出特征。有關(guān)特征可以分為具體的單詞特征影涉、上下文特征变隔、詞典及詞性特征、停用詞特征蟹倾、核心詞特征以及語義特征等匣缘。
基于統(tǒng)計(jì)的方法對(duì)語料庫的依賴也比較大,而可以用來建設(shè)和評(píng)估命名實(shí)體識(shí)別系統(tǒng)的大規(guī)模通用語料庫又比較少鲜棠。
3.混合方法
自然語言處理并不完全是一個(gè)隨機(jī)過程,單獨(dú)使用基于統(tǒng)計(jì)的方法使?fàn)顟B(tài)搜索空間非常龐大肌厨,必須借助規(guī)則知識(shí)提前進(jìn)行過濾修剪處理。目前幾乎沒有單純使用統(tǒng)計(jì)模型而不使用規(guī)則知識(shí)的命名實(shí)體識(shí)別系統(tǒng)豁陆,在很多情況下是使用混合方法:
3.1 統(tǒng)計(jì)學(xué)習(xí)方法之間或內(nèi)部層疊融合柑爸。
3.2 規(guī)則、詞典和機(jī)器學(xué)習(xí)方法之間的融合献联,其核心是融合方法技術(shù)竖配。
在基于統(tǒng)計(jì)的學(xué)習(xí)方法中引入部分規(guī)則,將機(jī)器學(xué)習(xí)和人工知識(shí)結(jié)合起來里逆。
3.3 將各類模型进胯、算法結(jié)合起來,將前一級(jí)模型的結(jié)果作為下一級(jí)的訓(xùn)練數(shù)據(jù)原押,并用這些訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練胁镐,得到下一級(jí)模型。
這種方法在具體實(shí)現(xiàn)過程中需要考慮怎樣高效地將兩種方法結(jié)合起來诸衔,采用什么樣的融合技術(shù)盯漂。由于命名實(shí)體識(shí)別在很大程度上依賴于分類技術(shù),在分類方面可以采用的融合技術(shù)主要包括如Voting, XVoting,GradingVa,l Grading等。
命名實(shí)體識(shí)別(Named EntitiesRecognition, NER)
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門锁摔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來廓旬,“玉大人,你說我怎么就攤上這事谐腰≡斜” “怎么了涩盾?”我有些...
- 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)巩步。 經(jīng)常有香客問我旁赊,道長(zhǎng)桦踊,這世上最難降的妖魔是什么椅野? 我笑而不...
- 正文 為了忘掉前任,我火速辦了婚禮籍胯,結(jié)果婚禮上竟闪,老公的妹妹穿的比我還像新娘。我一直安慰自己杖狼,他們只是感情好炼蛤,可當(dāng)我...
- 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蝶涩,像睡著了一般理朋。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绿聘,一...
- 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼哲思!你這毒婦竟也來了洼畅?” 一聲冷哼從身側(cè)響起,我...
- 序言:老撾萬榮一對(duì)情侶失蹤棚赔,失蹤者是張志新(化名)和其女友劉穎帝簇,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忆嗜,經(jīng)...
- 正文 獨(dú)居荒郊野嶺守林人離奇死亡己儒,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
- 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捆毫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片闪湾。...
- 正文 年R本政府宣布何暇,位于F島的核電站陶夜,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏裆站。R本人自食惡果不足惜条辟,卻給世界環(huán)境...
- 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望宏胯。 院中可真熱鬧羽嫡,春花似錦、人聲如沸肩袍。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽氛赐。三九已至魂爪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間艰管,已是汗流浹背滓侍。 一陣腳步聲響...
- 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像街图,于是被迫代替她去往敵國(guó)和親浇衬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
推薦閱讀更多精彩內(nèi)容
- 命名實(shí)體識(shí)別 命名實(shí)體的提出源自信息抽取問題餐济,即從報(bào)章等非結(jié)構(gòu)化文本中抽取關(guān)于公司活動(dòng)和國(guó)防相關(guān)活動(dòng)的結(jié)構(gòu)化信息耘擂,...
- 關(guān)鍵詞:命名實(shí)體;識(shí)別絮姆;Named Entities Recognition醉冤,NER;命名實(shí)體抽取 ????命名實(shí)...
- 前面的文章主要從理論的角度介紹了自然語言人機(jī)對(duì)話系統(tǒng)所可能涉及到的多個(gè)領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識(shí)篙悯。這篇文章蚁阳,甚至之后...
- 層次化的隱馬爾可夫模型 在自然語言處理等應(yīng)用中,由于處理序列具有遞歸特性鸽照,尤其當(dāng)序列長(zhǎng)度比較大時(shí)螺捐,HMM的復(fù)雜度將...
- 科大的網(wǎng)絡(luò)課。2016年4月記錄的 第一課 科研工作者的信息修煉 信息社會(huì)該如何學(xué)習(xí): 學(xué)會(huì)使用搜索引擎;學(xué)習(xí)理念...