以Bigram為例缤底,闡述平滑需要解決的問(wèn)題,如下圖所示
對(duì)于所有的grams均存在于語(yǔ)料中自娩,有如下的計(jì)算值用踩。
可以看到渠退, 可以計(jì)算出給定句子的概率忙迁。
再看另外一個(gè)例子,如下圖所示
對(duì)于未出現(xiàn)過(guò)的grams碎乃, 例如上圖中的?? CHER
姊扔,表示CHER作為第一個(gè)單詞出現(xiàn),在語(yǔ)料中找不到對(duì)應(yīng)的次數(shù)梅誓。與此同時(shí)恰梢,對(duì)于CHER READ
也找不到。因此這兩項(xiàng)為零梗掰。那么總體該句子的概率也為0, 這樣看來(lái)很顯然是不對(duì)的嵌言。這時(shí)候就需要采用相應(yīng)的平滑技術(shù)去解決上述的困境。
下面主要提及一些常見(jiàn)的平滑技術(shù)及穗。
Add-one smooothing
經(jīng)過(guò)Add-one修正以后摧茴,有下圖的計(jì)算結(jié)果:
但是該平滑技術(shù)的主要漏洞是,不同的grams之間埂陆,即便他們都是以UNK
形式存在苛白,也即未登陸詞的形式,但是他們理論上出現(xiàn)的可能性卻不能執(zhí)一而論焚虱。因此下面將會(huì)介紹其他的平滑方法购裙。
Additive smoothing
Good-Turing estimate
要理解圖靈估計(jì),先理解下面的幾個(gè)概念
表示計(jì)數(shù)為1的grams的個(gè)數(shù)鹃栽,例如上圖中躏率,trout, salmon, eel每一個(gè)的計(jì)數(shù)均為1,那么計(jì)數(shù)為1的grams出現(xiàn)了三次,因此禾锤, 理解了這個(gè)后私股,下圖中的就表示計(jì)數(shù)為r
的grams出現(xiàn)了次
可以看出對(duì)于計(jì)數(shù)為0的gram,我只需要計(jì)算前一個(gè)計(jì)數(shù)狀態(tài)出現(xiàn)的次數(shù)恩掷,即我去計(jì)算計(jì)數(shù)為1的情形出現(xiàn)了幾次倡鲸。但是這樣存在一個(gè)問(wèn)題,如果怎么辦黄娘?此時(shí)需要考慮其他的方法峭状,但是圖靈估計(jì)是其他估計(jì)的基礎(chǔ)。