Day 2 中文分詞算法

與拉丁語(yǔ)系語(yǔ)言不同维雇,漢藏語(yǔ)系的自然語(yǔ)言中詞匯是沒有自然分割開的,因此中文分詞是中文自然語(yǔ)言處理的第一步(不過(guò)可以考慮和后面的步驟結(jié)合在一起來(lái)降低算法復(fù)雜度啊……然后還可以考慮仿生算法)着逐,所以先研究和總結(jié)一下現(xiàn)有的中文分詞算法赏廓。

本文許多內(nèi)容參考這篇文獻(xiàn)格遭,感謝分享狠鸳。本文就是在理解這篇文獻(xiàn)的基礎(chǔ)上加點(diǎn)私貨揣苏。

文獻(xiàn)中看到(當(dāng)然這個(gè)不是權(quán)威文獻(xiàn)悯嗓,可能不夠可靠),斯坦福的CRF好像是現(xiàn)在效果最好的算法(中文分詞算法最好的竟然是外國(guó)研究機(jī)構(gòu)也是醉了)卸察,但是算法復(fù)雜度比較大脯厨,效率不夠高,所以我們來(lái)討論一下一些常用的模型坑质。

字典匹配

最簡(jiǎn)單的就是字典匹配合武,其實(shí)跟暴力破解里面的一些想法比較類似,就是搞個(gè)詞庫(kù)涡扼,然后遍歷對(duì)比詞庫(kù)里有沒有這個(gè)詞稼跳。當(dāng)然有時(shí)候還要考慮到整個(gè)句子分解的完整性,最經(jīng)典的就是“最大匹配”的思想吃沪,就是盡可能的匹配最長(zhǎng)的詞岂贩,比如我的句子里有“馬克思主義”這個(gè)詞,而我的詞典里有“馬克思”和“馬克思主義”這兩個(gè)詞巷波,肯定是去匹配“馬克思主義”這個(gè)最長(zhǎng)的詞。其實(shí)可以理解為“馬克思主義”的匹配優(yōu)先級(jí)比“馬克思”高卸伞,其實(shí)我覺得都不需要額外的計(jì)算量抹镊,只要把合成詞的優(yōu)先級(jí)調(diào)整在原詞前面就好了。
[個(gè)人疑惑:在這個(gè)過(guò)程中是不是要保證匹配出的詞匯數(shù)也盡量小]

統(tǒng)計(jì)與消除歧義

當(dāng)然荤傲,我在Day 0里就提到了垮耳,所有的計(jì)算機(jī)項(xiàng)目如果沒有“社科經(jīng)驗(yàn)”的指導(dǎo)是很難提高效率的,其實(shí)這就是所謂的“啟發(fā)式”算法遂黍,在分詞算法中比較有名的之一就是MMSEG终佛。在這個(gè)算法中也延伸到了第二種分詞思路,統(tǒng)計(jì)消除歧義雾家。
舉個(gè)簡(jiǎn)單的例子铃彰,“黑鍵盤/算什么”在沒有消除歧義的情況下有可能被分成“黑鍵/盤算/什么”。
MMSEG算法采取了以下四個(gè)規(guī)則來(lái)消除歧義:

  1. 選取最大匹配詞匯芯咧;
  2. 最大平均單詞長(zhǎng)度牙捉;
  3. 單詞長(zhǎng)度的最小方差;
  4. 單字單詞的語(yǔ)素自由度的最大和(一個(gè)漢字的出現(xiàn)頻率可以作為它的語(yǔ)素自由度的索引敬飒。一個(gè)高頻率的漢字更可能是一個(gè)單字單詞邪铲,反之亦然。)
    具體規(guī)則內(nèi)容和實(shí)例可以查看這篇文獻(xiàn)翻譯无拗。

而統(tǒng)計(jì)算法的實(shí)例可以參見這篇文章

對(duì)于一個(gè)中文字符串“a1a2a3...an”如何正確的用詞語(yǔ)c1,c2..cm表示就是中文分詞的任務(wù)带到,也就是說(shuō)我們要去找尋P(c1c2..cm)最大的分詞,按照馬爾科夫鏈的想法就是說(shuō)我們就是求P(c1)P(c1|c2)P(c1c2|c3)...P(c1c2...cm-1|cm)最大英染。按照阿卡姆剃刀的想法我們可以假設(shè)一個(gè)最可能的實(shí)現(xiàn)揽惹,于是google黑板報(bào)的假設(shè)就是每個(gè)詞只跟前面的詞有關(guān)被饿,于是變?yōu)榍驪(c1)P(c1|c2)P(c2|c3)...P(cm-1|cm)最大。進(jìn)一步的其實(shí)我們可以假設(shè)每個(gè)詞都是相對(duì)獨(dú)立的永丝,也就是求P(c1)P(c2)...P(cm)最大锹漱,那么這個(gè)怎么求呢,就是用dp的方法慕嚷。

解決字典中不存在的詞語(yǔ)

隱馬爾可夫模型HMM(Hidden Markov Model)(<-這個(gè)項(xiàng)目簡(jiǎn)直就是救星哥牍,感覺基礎(chǔ)模型就可以照做了,不過(guò)千萬(wàn)不能抄襲喝检。)基于字標(biāo)注的分詞嗅辣,把分詞問(wèn)題轉(zhuǎn)變?yōu)闃?biāo)注問(wèn)題。
例如:“我s喜b歡e天b安m門e”
其中標(biāo)注的含義為
s:single(標(biāo)注前為單字)
b:begin(標(biāo)注前為詞語(yǔ)開始)
m:middle(標(biāo)注前為詞語(yǔ)中間)
e:end(標(biāo)注前衛(wèi)詞語(yǔ)末尾)

進(jìn)一步的概率模型

在對(duì)語(yǔ)義處理的過(guò)程中最大熵模型ME(Maximum Entropy)挠说、最大熵馬爾可夫模型MEMM(Maximum-entropy Markov model)和條件隨機(jī)場(chǎng)CRF(Conditional Random Field)被分別提出(這也是我在開頭提到的澡谭,既然都開始分析語(yǔ)義了,自然可以把分詞和后續(xù)的語(yǔ)義分析過(guò)程結(jié)合在一起了)损俭。
這篇文章介紹了信息熵的概念蛙奖,信息熵越大不確定性也就越大,信息熵最大時(shí)表示各種概率的均等分布杆兵,也就是個(gè)不偏不倚的猜測(cè)雁仲,最大熵模型一般就是在已知條件下,來(lái)求是的熵最大的情況琐脏。
pˉ(f)=Σpˉ(ai,ci)?f(ai,ci)=p(f)=Σp(ci|ai)?pˉ(ai)?f(ai,ci)
在已知條件下就是求熵最大的情況
argmaxH(ci|ai)
因?yàn)檫@些算法我還沒有深入了解攒砖,就不繼續(xù)抄襲這篇文獻(xiàn)了,有興趣的同學(xué)可以去看看日裙,如果我有深入了解和新的理解之后之后過(guò)幾天再更新吹艇,并且會(huì)在這篇更新鏈接。

Deep Learning

這篇2013年的文獻(xiàn)已經(jīng)采用了Deep Learning的方法解決分詞問(wèn)題昂拂。具體而簡(jiǎn)潔地說(shuō)就是神經(jīng)網(wǎng)絡(luò)什么的受神,有空再深入挖掘。

(PS:昨天的Intro我沒忘政钟,不過(guò)今天晚上跟男神去電影院刷了一下<Big Hero 6>路克,所以明天再戰(zhàn)咯~)

That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.2.2015

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市养交,隨后出現(xiàn)的幾起案子精算,更是在濱河造成了極大的恐慌,老刑警劉巖碎连,帶你破解...
    沈念sama閱讀 219,589評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件灰羽,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)廉嚼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,615評(píng)論 3 396
  • 文/潘曉璐 我一進(jìn)店門玫镐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人怠噪,你說(shuō)我怎么就攤上這事恐似。” “怎么了傍念?”我有些...
    開封第一講書人閱讀 165,933評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵矫夷,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我憋槐,道長(zhǎng)双藕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,976評(píng)論 1 295
  • 正文 為了忘掉前任阳仔,我火速辦了婚禮忧陪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘近范。我一直安慰自己嘶摊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,999評(píng)論 6 393
  • 文/花漫 我一把揭開白布评矩。 她就那樣靜靜地躺著更卒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪稚照。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,775評(píng)論 1 307
  • 那天俯萌,我揣著相機(jī)與錄音果录,去河邊找鬼。 笑死咐熙,一個(gè)胖子當(dāng)著我的面吹牛弱恒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播棋恼,決...
    沈念sama閱讀 40,474評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼返弹,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了爪飘?” 一聲冷哼從身側(cè)響起义起,我...
    開封第一講書人閱讀 39,359評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎师崎,沒想到半個(gè)月后默终,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,854評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,007評(píng)論 3 338
  • 正文 我和宋清朗相戀三年齐蔽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了两疚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,146評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡含滴,死狀恐怖诱渤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谈况,我是刑警寧澤勺美,帶...
    沈念sama閱讀 35,826評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站鸦做,受9級(jí)特大地震影響励烦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜泼诱,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,484評(píng)論 3 331
  • 文/蒙蒙 一坛掠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧治筒,春花似錦屉栓、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,029評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至堤框,卻和暖如春域滥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蜈抓。 一陣腳步聲響...
    開封第一講書人閱讀 33,153評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工启绰, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人沟使。 一個(gè)月前我還...
    沈念sama閱讀 48,420評(píng)論 3 373
  • 正文 我出身青樓委可,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親腊嗡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子着倾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,107評(píng)論 2 356

推薦閱讀更多精彩內(nèi)容