? 上次寫到了統(tǒng)計語言模型進行語言處理,由于模型是建立在詞匯的基礎(chǔ)之上的爽醋,日韓中等國家的語言首先要進行分詞耻蛇。例如把句子“中國航天員應(yīng)邀到美國與太空總部官員去開會”,說實話看到句子分詞就有點頭痛篷牌,應(yīng)為中國語言實在有些博大精深,不同的分詞會造成不同的意思踏幻。
? 分成一串詞: “中國/航天/官員/應(yīng)邀/到/美國/與/太空/總署/官員/開會枷颊。”
最簡單的分詞方法就是查字典该面,把一串詞從到右掃描一遍夭苗,遇到字典中有的詞就標識出來,遇到復合詞就例如“上海交通大學”就尋找最長的詞進行匹配隔缀,遇到不認識的詞就分成單個的詞题造,這樣的方法是我們最先使用的,但是后來發(fā)現(xiàn)這種方有明顯的不足之處猾瘸,例如由二義性的詞(有雙重意思的詞)就無能為力了界赔,例如(發(fā)展中國家)可以表示“發(fā)展/中/國家”,也可以表示為“發(fā)展/中國/家”牵触。但是后者明顯錯了淮悼。還有未必所有最長匹配原則都正確例如“上海大學城書店”可以寫成“上海-大學城-書店”也可寫成“上海大學-城-書店”。最好的分詞就是結(jié)合在前面說的統(tǒng)計語言模型揽思,句子出現(xiàn)的概率最大袜腥。但在這里還有一個技巧我們窮舉所有可能性并計算每種分詞概率,那末計算量相當大钉汗。因此我們可以把它看作一個動態(tài)規(guī)劃問題羹令,并利用維特比算法快速找到最佳分詞。
語言學家對詞語的定位不完全相同损痰,例如”北京大學“可以把它看成一個嵌套詞匯福侈,先是四字詞語然后再進行分解成2個2字詞語。一般來說根據(jù)不同的應(yīng)用徐钠,漢語分詞顆粒的大小應(yīng)該不同癌刽,在機器翻譯中顆粒應(yīng)該會大一些,在語音識別當中顆粒就會小一些,其實在中文中的分詞在英語中也有了很大啟發(fā)显拜,中文分詞可以幫助判斷英語單詞的邊界衡奥。