各位小伙伴們大家好,數(shù)據(jù)平滑這個(gè)地方我想使用宗成慶老師的書中的一個(gè)例子進(jìn)行開始,從而引出這一篇文章的主題,我們?yōu)槭裁匆枰獢?shù)據(jù)平滑以及常用的數(shù)據(jù)平滑的模型,話不多說,開始行動(dòng):
請(qǐng)看這個(gè)例子:
假設(shè)語料是由下面的三個(gè)句子構(gòu)成:
①:BROWN READ HOLY BIBLE
②:MARK READ A TEXT BOOK
③:HE READ A BOOK BY DAVID
如果按照最大似然估計(jì)的方法計(jì)算p(BROWN READ A BOOK)的話:
因此:
但是這時(shí)候問題來了:
如果我們這時(shí)候要求p(David read a book),這時(shí)候概率是多少呢?
但是根據(jù)我們自己積累的知識(shí),Brown和David都是人,Brown可以看書,為啥David不可以看書,這個(gè)顯然是不對(duì)的,而造成這個(gè)方法的主要原因還是因?yàn)槲覀兊恼Z料庫太小,不夠豐富,事實(shí)上我們是希望我們的語料庫越大越好,越全越給力,不然一旦給定你的語句的概率是0,無論你的句子書寫的多么優(yōu)美,也是達(dá)不到我們?nèi)祟惖钠谕男Ч?所以這時(shí)候我們需要給所有可能出現(xiàn)的字符串一個(gè)非零的概率值來去解決這樣的問題,這就是所謂的平滑.
平滑的目的在上邊我們已經(jīng)所說,總結(jié)概括就是解決由于數(shù)據(jù)匱乏(稀疏)引起的零概率的問題,而所采用的方法就是從高概率語句中分出微小的概率給予零概率的句子,在宗成慶老師的書中形象的說明是”劫富濟(jì)貧”,而數(shù)據(jù)平滑是語言模型的核心的問題,宗成慶老師的書中給出了太多的算法,在這里我只記錄幾種算法,然后貫通思路,如果大家深入了解的話可以自己讀書和讀宗老師提供的論文:
一:加法平滑方法
算法的基本思想是:在這里先說一下加一法,加一法其實(shí)是每一種情況出現(xiàn)之后次數(shù)加1,即假設(shè)每個(gè)二元語法出現(xiàn)的次數(shù)比實(shí)際出現(xiàn)的次數(shù)多一次,這樣就叫做了加一法,而加法平滑其實(shí)就是不是讓每一個(gè)n元語法發(fā)生的次數(shù)比實(shí)際的統(tǒng)計(jì)次數(shù)多一次,而是假設(shè)比實(shí)際出現(xiàn)的情況多發(fā)生△次,并且0<△<1,這就有公式:
二:Good Turing估計(jì)法:
這個(gè)方法是很多平滑技術(shù)的核心
在上邊為什么會(huì)是小于1,在這里我證明了一下:
缺陷:
三:Jelinek-Merer平滑方法
基本思想:主要利用低元N-gram模型對(duì)高元N-gram模型進(jìn)行線性插值
四:絕對(duì)減值法
各種平滑方法的比較:
不管訓(xùn)練語料規(guī)模多大,對(duì)于二元語法和三元語法而言控乾,Kneser-Ney平滑方法和修正的Kneser-Ney平滑方法的效果都好于其他所有的平滑方法抢蚀。Katz平滑方法和Jelinek- Mercer平滑方法次之边败。
在稀疏數(shù)據(jù)的情況下趴梢,Jelinek-Mercer平滑方法優(yōu)于Katz平滑方法;而在有大量數(shù)據(jù) 的情況下噩峦,Katz平滑方法則優(yōu)于Jelinek-Mercer平滑方法薪捍。
這里我畫了一張圖:
這里淺談一下我在讀宗成慶老師這本書的時(shí)候的一點(diǎn)點(diǎn)小看法,讀宗老師的書總是感覺太過于全,但是很多東西都講得不夠透徹,并且很多地方也是有趕工的痕跡,不過總體上的路線都能夠總結(jié)出來,但是其中宗老師提供了很多的論文地址,大家可以去搜一搜然后在去詳細(xì)深入.
影響平滑算法性能的因素:
平滑方法的相對(duì)性能不訓(xùn)練語料的規(guī)模笼痹、n元語法模型的階數(shù)和訓(xùn)練語料本身有較大 的關(guān)系,其效果可能會(huì)隨著這些因素的丌同而出現(xiàn)很大的變化酪穿。
語言模型的缺陷 :
1:在訓(xùn)練語言模型時(shí)所采用的語料往往來自多種丌同的領(lǐng)域凳干,這些綜合性語料難以反映在不同領(lǐng)域之間在語言使用規(guī)律上的差異,而語言模型恰恰對(duì)于訓(xùn)練文本的類型被济、主題 和風(fēng)格等都十分敏感;
2:n 元語言模型的獨(dú)立性假設(shè)的前提是一個(gè)文本中的當(dāng)前詞出現(xiàn)的概率只不它前面相鄰 的n-1 個(gè)詞相關(guān)救赐,但這種假設(shè)在很多情況下是明顯不成立的。