NLP系列-中文分詞(基于詞典)

中文分詞概述

????????詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分娜庇,一般分詞是自然語言處理的第一項(xiàng)核心技術(shù)。英文中每個(gè)句子都將詞用空格或標(biāo)點(diǎn)符號(hào)分隔開來套蒂,而在中文中很難對詞的邊界進(jìn)行界定抚太,難以將詞劃分出來坪它。在漢語中,雖然是以字為最小單位蛾派,但是一篇文章的語義表達(dá)卻仍然是以詞來劃分的俄认。因此處理中文文本時(shí),需要進(jìn)行分詞處理碍脏,將句子轉(zhuǎn)為詞的表示梭依,這就是中文分詞。

中文分詞的三個(gè)難題:? ? ? ??

????????分詞規(guī)則典尾,消除歧義和未登錄詞識(shí)別役拴。

????????構(gòu)建完美的分詞規(guī)則便可以將所有的句子正確的劃分,但是這根本無法實(shí)現(xiàn)钾埂,語言是長期發(fā)展自然而然形成的河闰,而且語言規(guī)則龐大復(fù)雜,很難做出完美的分詞規(guī)則褥紫。

????????在中文句子中姜性,很多詞是由歧義性的,在一句話也可能有多種分詞方法髓考。比如:”結(jié)婚/的/和尚/未結(jié)婚/的“部念,“結(jié)婚/的/和/尚未/結(jié)婚/的”,人分辨這樣的句子都是問題氨菇,更何況是機(jī)器儡炼。

????????此外對于未登陸詞,很難對其進(jìn)行正確的劃分查蓉。

目前主流分詞方法:

????????基于規(guī)則乌询,基于統(tǒng)計(jì)以及二者混合。

基于規(guī)則的分詞:

????????主要是人工建立詞庫也叫做詞典豌研,通過詞典匹配的方式對句子進(jìn)行劃分妹田。其實(shí)現(xiàn)簡單高效唬党,但是對未登陸詞很難進(jìn)行處理。主要有正向最大匹配法鬼佣,逆向最大匹配法以及雙向最大匹配法驶拱。

正向最大匹配法(FMM)

????FMM的步驟是:

????(1)從左向右取待分漢語句的m個(gè)字作為匹配字段,m為詞典中最長詞的長度沮趣。

????(2)查找詞典進(jìn)行匹配屯烦。

????(3)若匹配成功,則將該字段作為一個(gè)詞切分出去房铭。

????(4)若匹配不成功驻龟,則將該字段最后一個(gè)字去掉,剩下的字作為新匹配字段缸匪,進(jìn)行再次匹配翁狐。

????(5)重復(fù)上述過程,直到切分所有詞為止凌蔬。

FMM主要代碼實(shí)現(xiàn)

????????分詞的結(jié)果為:

測試結(jié)果

逆向最大匹配法(RMM)? ? ? ??

? ? ? ? RMM的基本原理與FMM基本相同露懒,不同的是分詞的方向與FMM相反。RMM是從待分詞句子的末端開始砂心,也就是從右向左開始匹配掃描懈词,每次取末端m個(gè)字作為匹配字段,匹配失敗辩诞,則去掉匹配字段前面的一個(gè)字坎弯,繼續(xù)匹配。

RMM主要代碼實(shí)現(xiàn)

????????分詞的結(jié)果為:

測試結(jié)果

雙向最大匹配法(Bi-MM)

? ? ? ? Bi-MM是將正向最大匹配法得到的分詞結(jié)果和逆向最大匹配法得到的結(jié)果進(jìn)行比較译暂,然后按照最大匹配原則抠忘,選取詞數(shù)切分最少的作為結(jié)果。據(jù)SunM.S.和Benjamin K.T.(1995)的研究表明外永,中文中90.0%左右的句子崎脉,正向最大匹配法和逆向最大匹配法完全重合且正確,只有大概9.0%的句子兩種切分方法得到的結(jié)果不一樣伯顶,但其中必有一個(gè)是正確的(歧義檢測成功)囚灼,只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分雖然重合但是錯(cuò)的祭衩,或者兩種方法切分不同但結(jié)果都不對(歧義檢測失斣钐濉)。

????雙向最大匹配的規(guī)則是:

????(1)如果正反向分詞結(jié)果詞數(shù)不同汪厨,則取分詞數(shù)量少的那個(gè)赃春。

????(2)如果分詞結(jié)果詞數(shù)相同:

????????????1)分詞結(jié)果相同愉择,沒有歧義劫乱,返回任意一個(gè)织中。

????????????2)分詞結(jié)果不同,返回其中單字?jǐn)?shù)量較少的那個(gè)衷戈。

????比如:上述例子中詞數(shù)相同狭吼,但結(jié)果不同,逆向最大匹配法的分詞結(jié)果單字個(gè)數(shù)是1殖妇,所以返回的是逆向最大匹配法的結(jié)果刁笙。

Bi-MM主要代碼實(shí)現(xiàn)

????????分詞的結(jié)果為:

測試結(jié)果

????????基于規(guī)則的分詞,一般較為簡單高效谦趣,但是詞典的維護(hù)很大的人力維護(hù)疲吸,同時(shí)對于未登錄詞也沒有很好的解決辦法。雙向最大匹配結(jié)合了正反兩種方法的結(jié)果前鹅,結(jié)果較為準(zhǔn)確摘悴,在實(shí)用中文信息處理中使用廣泛。

待更新舰绘。

詳細(xì)代碼可參考GitHub: 代碼連接

參考書籍:

《Python自然語言處理實(shí)戰(zhàn)-核心技術(shù)與算法》涂銘蹂喻,劉祥,劉樹春? 著

《統(tǒng)計(jì)自然語言處理》 宗成慶? 著

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捂寿,一起剝皮案震驚了整個(gè)濱河市口四,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌秦陋,老刑警劉巖蔓彩,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異踱侣,居然都是意外死亡粪小,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門抡句,熙熙樓的掌柜王于貴愁眉苦臉地迎上來探膊,“玉大人,你說我怎么就攤上這事待榔〕驯冢” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵锐锣,是天一觀的道長腌闯。 經(jīng)常有香客問我,道長雕憔,這世上最難降的妖魔是什么姿骏? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮斤彼,結(jié)果婚禮上分瘦,老公的妹妹穿的比我還像新娘蘸泻。我一直安慰自己,他們只是感情好嘲玫,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布悦施。 她就那樣靜靜地躺著,像睡著了一般去团。 火紅的嫁衣襯著肌膚如雪抡诞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天土陪,我揣著相機(jī)與錄音昼汗,去河邊找鬼。 笑死鬼雀,一個(gè)胖子當(dāng)著我的面吹牛乔遮,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播取刃,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼蹋肮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了璧疗?” 一聲冷哼從身側(cè)響起坯辩,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎崩侠,沒想到半個(gè)月后漆魔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡却音,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年改抡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片系瓢。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡阿纤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出夷陋,到底是詐尸還是另有隱情欠拾,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布骗绕,位于F島的核電站藐窄,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏酬土。R本人自食惡果不足惜荆忍,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧刹枉,春花似錦践惑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽凉袱。三九已至芥吟,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間专甩,已是汗流浹背钟鸵。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留涤躲,地道東北人棺耍。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像种樱,于是被迫代替她去往敵國和親蒙袍。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348