中文分詞四個(gè)難題
- 詞的清晰定義
- 分詞和理解熟先熟后
- 分詞歧義消解
- 未登錄詞
詞的清晰界定
規(guī)范+詞表 到分詞語料庫的詞語定義過程;
語料標(biāo)注的質(zhì)量取決于一下三條:
- 嚴(yán)格執(zhí)行詞表驅(qū)動(dòng)原則:
詞表驅(qū)動(dòng)平项,就是在上下文未見歧義的情況下拨与,詞表詞應(yīng)當(dāng)作為一個(gè)完整的切分單位肮街,決不許隨意切碎或組合铭拧。
必須杜絕所謂的“語法詞” (比詞表詞短)和“心理詞”(非詞表詞惹恃,又不屬于新詞)的干擾 - 把人名淆游, 地名傍睹, 機(jī)構(gòu)等命名實(shí)體和日期,時(shí)間等數(shù)字表達(dá)式的定義納入分詞規(guī)范犹菱;
保證分詞標(biāo)注質(zhì)量的第二條措施是把人名拾稳、地名、機(jī)構(gòu)名等命名實(shí)體和日期腊脱、時(shí)間等數(shù)字表達(dá)式的定義納入分詞規(guī)范访得。一方面,這是因?yàn)閷?shí)體詞的識(shí)別任務(wù)與自動(dòng)分詞任務(wù)陕凹,你中有我悍抑,我中有你,是不可分割的整體杜耙。另一方面搜骡,是因?yàn)檫@些實(shí)體詞占了文本中未登錄詞的大約三分之二,把它們定義清楚了肯定有助于進(jìn)一步提高標(biāo)注的一致性泥技。 - 把規(guī)范制定和語料標(biāo)注兩個(gè)過程緊密結(jié)合起來浆兰。
讓分詞的規(guī)范的制定與分詞語料的標(biāo)注,審定過程交互進(jìn)行。因?yàn)樵~表只是對(duì)詞語的一種靜態(tài)描寫珊豹,沒有說明每個(gè)詞進(jìn)入句子以后同周圍的詞發(fā)生的黏著簸呈,競(jìng)爭(zhēng),重組等復(fù)雜行為店茶。當(dāng)文本中動(dòng)態(tài)出現(xiàn)未登錄詞蜕便,交集型歧義,組合型歧義等現(xiàn)象時(shí)贩幻,需要在分詞規(guī)范中引用帶標(biāo)語料庫的大量實(shí)例來進(jìn)一步完善下面舉些例子
和/道班/工人/吃/捉蜗佟/在/一起/两嘴。
最近/,/內(nèi)蒙古/赤峰市/又/發(fā)生/一/起/,1,/煤窯/淹/井/事故/族壳,/17/人/死亡/憔辫。
香港中旅/與/中國(guó)/旅行社/一道/,/努力/降低/內(nèi)地/赴/港/旅游團(tuán)/價(jià)格/
紅/馬甲/成為/沈陽/初夏/文化/市場(chǎng)/一/道/亮/麗/的/風(fēng)景/線/仿荆。
2005—2006年微軟亞洲研究院(MSRA)提供給Bake off的語料庫贰您,由于嚴(yán)格實(shí)施質(zhì)量控制,其百萬詞級(jí)訓(xùn)練語料庫的出錯(cuò)率低于千分之一拢操,十萬詞級(jí)測(cè)試語料庫的出錯(cuò)率低于萬分之五
分詞的評(píng)價(jià)指標(biāo):
評(píng)價(jià)指標(biāo)是分詞召回率R锦亦、準(zhǔn)確率P以及R和P的平均值F1
準(zhǔn)確率定義為給定分詞結(jié)果中切分正確的詞次數(shù)除以該分詞結(jié)果中的總詞次數(shù)
召回率定義為給定分詞結(jié)果中切分正確的詞次數(shù)除以標(biāo)準(zhǔn)答案中的總詞次數(shù)
分詞和理解熟先熟后
由于自動(dòng)分詞是大部分中文信息處理系統(tǒng)的第一步(即前端),是對(duì)句子實(shí)施句法一語義分析的前提令境。也就是說杠园,自動(dòng)分詞所依據(jù)的只能是文本的表層信息。所以舔庶,盡管人在識(shí)別句子中的詞語時(shí)是以理解為基礎(chǔ)的抛蚁,然而從實(shí)用的角度考慮,計(jì)算機(jī)自動(dòng)分詞系統(tǒng)不可能完全照搬人類的分詞模式栖茉,而通常會(huì)選擇“先分詞后理解”的處理策略篮绿。
也就是說分詞在先,理解在后吕漂。
未登錄詞對(duì)分詞精度的影響
長(zhǎng)期以來亲配,研究人員一直把未登錄詞和分詞歧義并列為影響分詞精度的兩大因素。十年來惶凝,研究人員在這兩個(gè)問題上傾注了大量的精力吼虎,探索過各種各樣的解決方案。其中苍鲜,對(duì)交集型歧義字串進(jìn)行的大規(guī)模語料庫調(diào)查思灰,以及明確提出把分詞歧義消解過程分解為偵察和消歧兩個(gè)子過程的認(rèn)識(shí),都是近十年來分詞研究的重大收獲混滔。
每屆 Bake off 都用正向最大匹配(Forward Maximum Matching , 簡(jiǎn)稱 FMM)算法對(duì)每個(gè)語料庫進(jìn)行帶有未登錄詞的基線(Baseline)和不含未登錄詞的頂線(Topline)兩種切分, 并分別形成兩套性能指標(biāo)洒疚,驗(yàn)證了未登錄次對(duì)分詞的影響最大。
這個(gè)結(jié)論給我們的重要啟示是 :在考慮自動(dòng)分詞系統(tǒng)的總體方案時(shí), 那些能夠大幅度提升未登錄詞識(shí)別性能的分詞方法 ,一般來講,也將提高分詞系統(tǒng)的總體性能 坯屿。Bakeoff-2003 及其后的分詞技術(shù)發(fā)展趨勢(shì)完全證實(shí)了這樣一個(gè)推斷油湖。
基于字的分詞方法
在 2002 年之前 ,自動(dòng)分詞方法基本上是基于詞(或詞典)的, 在此基礎(chǔ)上可進(jìn)一步分成基于規(guī)則和基于統(tǒng)計(jì)的兩大類。以往的分詞方法, 無論是基于規(guī)則的還是基于統(tǒng)計(jì)的 ,一般都依賴于一個(gè)事先編制的詞表(詞典)领跛。自動(dòng)分詞過程就是通過詞表和相關(guān)信息來做出詞語切分的決策 乏德。
與此相反 , 基于字標(biāo)注的分詞方法實(shí)際上是構(gòu)詞方法。即把分詞過程視為字在字串中的標(biāo)注問題。由于每個(gè)字在構(gòu)造一個(gè)特定的詞語時(shí)都占據(jù)著一個(gè)確定的構(gòu)詞位置(即詞位), 假如規(guī)定每個(gè)字最多只有四個(gè)構(gòu)詞位置:即 B(詞首), M (詞中),E(詞尾)和 S(單獨(dú)成詞)喊括。
(甲)分詞結(jié)果 :/上海/計(jì)劃/到/本/世紀(jì)/末/實(shí)現(xiàn)/人均/國(guó)內(nèi)/生產(chǎn)/總值/五千美元/ 胧瓜。
(乙)字標(biāo)注形式 :上/B 海/E 計(jì)/B 劃/ E 到/S本/S 世/B 紀(jì)/E 末/S 實(shí)/B 現(xiàn)/E 人/B均/ E 國(guó)/B 內(nèi)/E 生/B產(chǎn)/E 總/B 值/E五/B 千/M 美/M 元/E 。/S
經(jīng)過實(shí)驗(yàn)與實(shí)際過程的驗(yàn)證: 字的分詞方法已經(jīng)被證明由于其它方法郑什。
現(xiàn)在較常見的是基于HMM的和基于CRF的分詞方法府喳。近來隨著深度學(xué)習(xí)的興起,基于LSTM的分詞模型也在探索中蘑拯。
Reference
http://jcip.cipsc.org.cn/UserFiles/File/473%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%8D%81%E5%B9%B4%E5%9B%9E%E9%A1%BE_%E9%BB%84%E6%98%8C%E5%AE%81.pdf
http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90