機(jī)器學(xué)習(xí)基礎(chǔ)(3)- 數(shù)據(jù)平滑

本文主要用于理解數(shù)據(jù)平滑的原理,并且重點(diǎn)介紹了幾種數(shù)據(jù)平滑的方法~

基本目錄如下:

  1. 數(shù)據(jù)平滑的本質(zhì)理解
    1.1 為什么需要數(shù)據(jù)平滑拔稳?

  2. 數(shù)據(jù)平滑的方法
    2.1 加法平滑方法
    2.2 Good-Turing估計(jì)法
    2.3 Katz平滑方法

------------------第一菇 - 數(shù)據(jù)平滑的本質(zhì)理解------------------

1.1 為什么需要數(shù)據(jù)平滑?

在傳統(tǒng)AI領(lǐng)域,數(shù)據(jù)的平滑處理一般都是數(shù)據(jù)的預(yù)處理階段的核心步驟。簡單來說乃摹,平滑的本質(zhì)就是用來解決零概率問題的。這里跟衅,以自然語言處理中的語言模型為例孵睬,進(jìn)行展開理解。

當(dāng)我們構(gòu)建一個(gè)Bi-Gram的語言模型的時(shí)候伶跷,假設(shè)我們的語料庫為(參考《統(tǒng)計(jì)自然語言處理》第5章):

(“ BROWN READ HOLY BIBLE”,
“ MARK READ A TEXT BOOK”,
“HE READ A BOOK BY DAVID”)

則此時(shí)對(duì)于句子“BROWN READ A BOOK”掰读,我們可以利用最大似然的方法估計(jì)該句子的概率為,

p(S) = p(BROWN | <BOS>) * P(READ | BROWN) * P(A | READ) * P(BOOK | A) * P(<EOS> | BOOK)
根據(jù)上述語料庫叭莫,我們可以計(jì)算得到蹈集,

p(S) = \frac{1}{3} * \frac{1}{1} * \frac{2}{3} * \frac{1}{2} * \frac{1}{2} \approx 0.06

但如果我們對(duì)于一個(gè)句子“BROWN READ A PAPER”,我們同樣可以利用上述的思路去計(jì)算雇初,但是顯然拢肆,訓(xùn)練語料庫中,沒有一句話是以PAPER結(jié)尾的靖诗,那也就會(huì)造成該句的概率為善榛,

p(S) = \frac{1}{3} * \frac{1}{1} * \frac{2}{3} * \frac{1}{2} * 0 = 0
但這顯然不是我們希望看到的,因?yàn)樯牖琍APER這個(gè)詞作為結(jié)尾確實(shí)在訓(xùn)練語料庫中模型沒有見到移盆,但并不代表這句話的概率就應(yīng)該是0,或者說伤为,由于連乘的緣故咒循,凡是有一種情況不符合語料庫,那我們都會(huì)得到概率為0的情況绞愚,這其實(shí)是我們?cè)谟?xùn)練模型的時(shí)候不希望看到的事情(在其他自然語言處理任務(wù)中也會(huì)頻繁出現(xiàn)這樣的問題)叙甸,因此,我們必須分配給可能出現(xiàn)的情況一個(gè)非0的概率值來規(guī)避這種錯(cuò)誤的發(fā)生位衩。

而本文所要介紹的平滑就是用來解決這類零概率問題的裆蒸。其本質(zhì)核心就是“劫富濟(jì)貧”,即提高低概率糖驴,降低高概率僚祷,盡量使概率分布趨于均勻。

------------------第二菇 - 數(shù)據(jù)平滑的方法------------------
數(shù)據(jù)平滑由于其重要性贮缕,也是學(xué)界的重點(diǎn)研究方向辙谜。本文接下來就重點(diǎn)介紹一些方法。

2.1 加法平滑方法

在上述語言模型利用最大似然的思想來計(jì)算條件概率的時(shí)候感昼,我們可以總結(jié)出計(jì)算公式即為装哆,

P_{MLE}(w_i | w_{i-1}) = \frac{c(w_{i-1}, w_i)}{c(w_i)}
而對(duì)于加法平滑方法,其本質(zhì)思想很簡單,就是假設(shè)每個(gè)二元語法出現(xiàn)的次數(shù)都比實(shí)際語料庫中出現(xiàn)的次數(shù)多k次蜕琴,其中當(dāng)k=1的時(shí)候萍桌,我們又稱為加一平滑或是拉普拉斯平滑,則上式就會(huì)改進(jìn)為凌简,

P_{add}(w_i | w_{i-1}) = \frac{k + c(w_{i-1}, w_i)}{k*|V| + c(w_i)}
其中|V|就是詞庫的大小上炎。該平滑方法比較容易理解,也比較簡單号醉,但其實(shí)際的使用效果還要依使用場(chǎng)景而看反症。

2.2 古德-圖靈估計(jì)法

該種平滑方法是由I.J.Good引用圖靈(Turing)的方法提出來的。在介紹這個(gè)方法之前畔派,首先介紹一個(gè)概念N_c铅碍,出現(xiàn)c次的單詞的個(gè)數(shù)。

舉個(gè)例子:Sam I am I am Sam I do not eat线椰。我們可以統(tǒng)計(jì)出單詞出現(xiàn)的個(gè)數(shù)為:
Sam - 2次
I - 3次
am - 2次
do - 1次
not - 1次
eat - 1次
那么我們可以統(tǒng)計(jì)出胞谈,
N_3 = 1 即出現(xiàn)3次的單詞有1個(gè)
N_2 = 2 即出現(xiàn)2次的單詞有2個(gè)
N_1 = 3 即出現(xiàn)1次的單詞有3個(gè)

介紹完了上面這個(gè)例子,我們?cè)賮斫榻BGood-Turning平滑方法憨愉。這里需要分兩種情況來討論烦绳,
1)對(duì)于沒有出現(xiàn)過的單詞,其計(jì)算方法為:
P_{GT} = \frac{N_1}{N}
2)對(duì)于已經(jīng)出現(xiàn)過的單詞配紫,其計(jì)算方法為:
P_{GT} = \frac{(c + 1)N_{c+1}}{N_c * N}

這里將繼續(xù)舉例為大家解釋径密。假設(shè)我們正在釣魚,而且已經(jīng)抓到來18只魚躺孝,其中10條鯉魚享扔,3條黑魚,2條刀魚植袍,1條鯊魚惧眠,1條草魚,1條鰻魚于个。
那么再試問下一條釣上來草魚的概率為多少氛魁?此時(shí)草魚為當(dāng)前出現(xiàn)過的魚,統(tǒng)計(jì)出出現(xiàn)次數(shù)為1的魚有3種厅篓,出現(xiàn)次數(shù)為2的魚有1種秀存,則利用上述公式可計(jì)算得出,
P_{GT}(草魚) = \frac{(1 + 1) * 1}{3*18} = \frac{1}{27}

那么再試問下一條釣上來飛魚的概率為多少贷笛?此時(shí)飛魚為當(dāng)前未出現(xiàn)過的魚应又,統(tǒng)計(jì)出出現(xiàn)次數(shù)為1的魚有3種,則利用上述公式可計(jì)算得出乏苦,
P_{GT}(飛魚) = \frac{3}{18} = \frac{1}{6}

因此,我們可以看出,如果是MLE的思想汇荐,則顯然草魚的概率為\frac{1}{18}而飛魚的概率為0洞就。因?yàn)閷?duì)于一般的情況(之前出現(xiàn)過的事件),我們可以看到掀淘,
P_{GT} < P_{MLE}
這也符合預(yù)期旬蟋,因?yàn)椋摲N平滑方法正是有\frac{N_1}{N}的概率剩余量用于分配給了之前沒有發(fā)生過的情況革娄。

為了加深大家的理解倾贰,這邊我再多貼一張圖,用以表示在構(gòu)建語言模型的時(shí)候統(tǒng)計(jì)出來的一張表格拦惋,

語言模型統(tǒng)計(jì)表格.png

這里其實(shí)就是統(tǒng)計(jì)了一份訓(xùn)練數(shù)據(jù)的結(jié)果匆浙,我們可以清晰看到大部分的單詞其實(shí)是沒有出現(xiàn)在訓(xùn)練語料之中的(7,514,941,065)的,而如果將這些統(tǒng)統(tǒng)置為0顯然是不合理的厕妖,因此利用上述古德-圖靈的平滑方法首尼,我們可以看到調(diào)整后的預(yù)期的count還是比較符合預(yù)期的(與后一列的測(cè)試數(shù)據(jù)基本出入不大)。

當(dāng)然整個(gè)古德-圖靈的方法并不是完美的言秸,其最大的缺點(diǎn)就是软能,如果我的N_{c+1}為0咋辦?就比如計(jì)算上式的N_{21}為0举畸,則我們的N_{20}計(jì)算就會(huì)有問題查排。因此,當(dāng)實(shí)際的應(yīng)用場(chǎng)景中碰到這樣的情況時(shí)抄沮,我們一般會(huì)采用另一種曲線平滑(比如機(jī)器學(xué)習(xí)算法去擬合)的方法跋核,來彌補(bǔ)上缺陷值,然后再通過古德-圖靈的方法去繼續(xù)數(shù)據(jù)處理的工作合是。

2.3 Katz平滑方法

這種方法其本質(zhì)是一種后備的平滑方法了罪。其基本的思路就是當(dāng)事件在樣本中出現(xiàn)的頻次大于某一數(shù)值k的時(shí)候,運(yùn)用最大似然估計(jì)方法聪全,通過減值來估計(jì)其概率值泊藕,而當(dāng)事件的頻次小于k的時(shí)候,使用低階的語法模型作為代替高階語法模型的后備难礼,但這種代替受歸一化因子的約束【1】娃圆。簡單來講,該方法仍是古德-圖靈方法的延伸蛾茉,其本質(zhì)思想依然是將一部分的概率剩余量分配給未知事件讼呢,但與上一種平均分配的思想不同,該方法認(rèn)為我們可以通過低階的模型(語言模型里面就由2階降為1階等)來近似擬合每一個(gè)未知事件的權(quán)重谦炬,從而重新分配概率剩余量悦屏。具體的數(shù)學(xué)公式理解本文將不作展開节沦,而與之相關(guān)的平滑方法還包括比如Kneser-Ney, Witten-Bell等。有興趣的同學(xué)可以翻閱宗成慶老師的《統(tǒng)計(jì)自然語言處理》一書础爬,來仔細(xì)研讀甫贯。

簡單總結(jié)一下本文,先是講述了一些數(shù)據(jù)平滑處理的背景看蚜,幫助大家理解認(rèn)識(shí)到數(shù)據(jù)平滑的必要性叫搁。隨后,又附上了多種現(xiàn)今流行的數(shù)據(jù)處理的平滑方法供炎。希望大家讀完本文后對(duì)機(jī)器學(xué)習(xí)中的數(shù)據(jù)平滑處理這一塊有全新的認(rèn)識(shí)渴逻。有說的不對(duì)的地方也請(qǐng)大家指出,多多交流音诫,大家一起進(jìn)步~??

參考文獻(xiàn):
【1】《統(tǒng)計(jì)自然語言處理-第五章》

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末惨奕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子纽竣,更是在濱河造成了極大的恐慌墓贿,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜓氨,死亡現(xiàn)場(chǎng)離奇詭異聋袋,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)穴吹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門幽勒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人港令,你說我怎么就攤上這事啥容。” “怎么了顷霹?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵咪惠,是天一觀的道長。 經(jīng)常有香客問我淋淀,道長遥昧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任朵纷,我火速辦了婚禮炭臭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘袍辞。我一直安慰自己鞋仍,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布搅吁。 她就那樣靜靜地躺著威创,像睡著了一般落午。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上那婉,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天板甘,我揣著相機(jī)與錄音党瓮,去河邊找鬼详炬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛寞奸,可吹牛的內(nèi)容都是我干的呛谜。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼枪萄,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼隐岛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瓷翻,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤聚凹,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后齐帚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體妒牙,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年对妄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了湘今。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡剪菱,死狀恐怖摩瞎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情孝常,我是刑警寧澤旗们,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站构灸,受9級(jí)特大地震影響上渴,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜冻押,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一驰贷、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧洛巢,春花似錦括袒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽芥炭。三九已至,卻和暖如春恃慧,著一層夾襖步出監(jiān)牢的瞬間园蝠,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來泰國打工痢士, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留彪薛,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓怠蹂,卻偏偏與公主長得像善延,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子城侧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容