(1)什么是分詞?
句子切出詞。
(2)分詞的作用是什么?
1:讀音俺叭。2:信息檢索泰偿。3:詞頻統(tǒng)計(jì)。
種種裕照,說白了就是讓文章變成一個(gè)個(gè)詞語调塌,使得能夠操作。
(3)有什么方法负间?
1- 基于詞表
(1)最大匹配法
正向最大匹配(MM) 反向最大匹配(RMM)
長詞優(yōu)先姜凄。
2- 基于字序列標(biāo)記
詞位標(biāo)記:
(1)B 詞首(2)M 詞中 (3)E 詞尾 (4)S 單字成詞
使得切分變成了給每個(gè)字進(jìn)行標(biāo)記。
切分的時(shí)候會遇到的問題:
(1)切分消除歧義
(2)未登錄詞識別
并且有文檔顯示董虱,未登陸詞(OOV)造成的影響是 出現(xiàn)歧義造成的影響的至少5倍屿聋。
歧義類型有:
(1)AJB -> AJ/B , A/JB 交集型藏鹊。
(2)AB -> AB A/B 組合型。
(3)同時(shí)有(1)和(2)盘寡。
有文檔顯示。組合型的出現(xiàn)頻率是交集型出現(xiàn)的頻率的22倍脆粥。
并且有文檔顯示:將交集型的部分引入鏈長影涉。在鏈長為8的時(shí)候就只有一個(gè)。從鏈長為5的開始就只有0.09了匣缘。其中4為1.35.
理解真假歧義于現(xiàn)實(shí)語境而言。
假歧義:真歧義 = 94:6
解除歧義是必須要做的肌厨。但是MM,RMM沒有發(fā)現(xiàn)歧義的功能。那么如何發(fā)現(xiàn)歧義吵护?
1:使用雙向最大匹配表鳍。(MM+RMM)
但是即使是雙向最大匹配。
1:不能發(fā)現(xiàn)組合歧義用爪。
2:鏈長為偶數(shù)的時(shí)候胁镐,不能發(fā)現(xiàn)交集歧義。
但是由于歧義本身可能也不是很多颇玷。并且加入了算法檢測就缆。在加入了雙向最大匹配之后的文本的正確率還是比較高的。
90%句子 竭宰。 MM=RMM 并且 沒有歧義
1% 句子 。 MM=RMM 但是 有歧義
9% 句子 狞甚。 MM廓旬!=RMM 并且 有歧義
所以只有1%的句子 我們是會做壞的。
另外還有一些操作:
發(fā)現(xiàn)組合歧義:
MM+逆向最小匹配涩盾。
發(fā)現(xiàn)所有切分歧義:
全切分算法励背。
另外表示歧義還有詞圖。
邊為詞叶眉,點(diǎn)為狀態(tài)籍胯。其實(shí)就是FSA
發(fā)現(xiàn)歧義后离福,對歧義進(jìn)行消除:
1:基于記憶的偽歧義消除
弄一個(gè)高頻偽歧義的表即可。
2:可以設(shè)置一些規(guī)則妖爷。
比如: 一起 根據(jù)后面是n還是v可以分為 一/起 和 一起。
3:可以在詞圖上面跑最佳路徑绿聘。
基于n-gram次舌。用訓(xùn)練集使得有條件概率。這樣就能計(jì)算了挪圾。
感覺因?yàn)槭荈SA并且是有向的所以和馬爾可夫差不多逐沙。可以用動(dòng)態(tài)規(guī)劃棚赔。
解決未登陸詞(OOV)
進(jìn)展:
較成熟:
人名徘郭,地名,譯名残揉。
較困難:
商標(biāo),機(jī)構(gòu)冲甘。
很困難:
專業(yè)術(shù)語途样,縮略詞,新詞語陶夜。
中文人名有強(qiáng)特征裆站。
最后切分得好不好也有評價(jià)標(biāo)準(zhǔn):
P,R,F
最后黔夭,什么是詞羽嫡?
詞由詞素構(gòu)成,能夠獨(dú)立運(yùn)用的最小的詞言單位婚惫。
但是現(xiàn)在什么是一個(gè)詞語 不同的人仍然有不同的標(biāo)準(zhǔn)魂爪。
比如說 象牙。吃飯蒋川。吃魚撩笆。
有實(shí)驗(yàn)證明,不同人的把握是不一樣的夕冲。
然后會有一個(gè)推薦標(biāo)準(zhǔn)耘擂。
《信息處理用漢語分詞規(guī)范》