大數(shù)據(jù)經(jīng)典算法解析(9)一Na?ve Bayes算法

? 姓名:崔升? ? 學(xué)號(hào):14020120005

? 轉(zhuǎn)載自:http://www.cnblogs.com/en-heng/p/5173704.html

【嵌牛導(dǎo)讀】:

?樸素貝葉斯(Na?ve Bayes)屬于監(jiān)督學(xué)習(xí)的生成模型,實(shí)現(xiàn)簡(jiǎn)單,沒(méi)有迭代前鹅,學(xué)習(xí)效率高焙糟,在大? 樣? 本量下會(huì)有較好的表現(xiàn)。但因?yàn)榧僭O(shè)太強(qiáng)——假設(shè)特征條件獨(dú)立,在輸入向量的特征條件有關(guān)聯(lián)的場(chǎng)? ?景下并不適用。

【嵌牛鼻子】:經(jīng)典大數(shù)據(jù)算法之Na?ve Bayes算法的簡(jiǎn)單介紹

【嵌牛提問(wèn)】:Na?ve Bayes是一種怎么的算法,其數(shù)學(xué)原理又是如何柴墩?

【嵌牛正文】:

1. 樸素貝葉斯算法

樸素貝葉斯分類器的主要思路:通過(guò)聯(lián)合概率P(x,y)=P(x|y)P(y)P(x,y)=P(x|y)P(y)建模,運(yùn)用貝葉斯定理求解后驗(yàn)概率P(y|x)P(y|x)顷扩;將后驗(yàn)概率最大者對(duì)應(yīng)的的類別作為預(yù)測(cè)類別拐邪。

分類方法

首先,我們定義訓(xùn)練集T={(x1,y1),(x2,y2),?,(xN,yN)}T={(x1,y1),(x2,y2),?,(xN,yN)}隘截,其類別yi∈{c1,c2,?,cK}yi∈{c1,c2,?,cK}扎阶,則訓(xùn)練集中樣本點(diǎn)數(shù)為NN,類別數(shù)為KK婶芭。輸入待預(yù)測(cè)數(shù)據(jù)xx东臀,則預(yù)測(cè)類別

argmaxckp(y=ck|x)(1)(1)arg?maxck?p(y=ck|x)

由貝葉斯定理可知:

p(y=ck|x)=p(x|y=ck)p(y=ck)p(x)p(y=ck|x)=p(x|y=ck)p(y=ck)p(x)

對(duì)于類別ckck而言,p(x)p(x)是恒等的犀农,因此式子(1)(1)等價(jià)于

argmaxckp(x|y=ck)p(y=ck)(2)(2)arg?maxck?p(x|y=ck)p(y=ck)

從上面式子可以看出:樸素貝葉斯將分類問(wèn)題轉(zhuǎn)化成了求條件概率與先驗(yàn)概率的最大乘積問(wèn)題惰赋。先驗(yàn)概率p(y=ck)p(y=ck)可通過(guò)計(jì)算類別的頻率得到,但如何計(jì)算條件概率p(x|y=ck)p(x|y=ck)呢呵哨?

樸素貝葉斯對(duì)條件概率做了條件獨(dú)立性的假設(shè)赁濒,即特征條件相互獨(dú)立。設(shè)輸入xx為n維特征向量(x(1),x(2),?,x(j),?,x(n))(x(1),x(2),?,x(j),?,x(n))孟害,第jj維特征x(j)x(j)的取值有SjSj個(gè)拒炎。由概率論的知識(shí)可知:

p(x|y=ck)=∏jp(x(j)|y=ck)p(x|y=ck)=∏jp(x(j)|y=ck)

式子(2)(2)等價(jià)于

argmaxckp(y=ck)∏jp(x(j)|y=ck)(3)(3)arg?maxck?p(y=ck)∏jp(x(j)|y=ck)

為什么要選擇后驗(yàn)概率最大的類別作為預(yù)測(cè)類別呢?因?yàn)楹篁?yàn)概率最大化挨务,可以使得期望風(fēng)險(xiǎn)最小化击你,具體證明參看[1]玉组。

極大似然估計(jì)

在樸素貝葉斯學(xué)習(xí)中,需要估計(jì)先驗(yàn)概率與條件概率丁侄,一般時(shí)采用極大似然估計(jì)惯雳。先驗(yàn)概率的極大似然估計(jì):

p^(y=ck)=∑iI(yi=ck)Np^(y=ck)=∑iI(yi=ck)N

其中,II是指示函數(shù)鸿摇,滿足括號(hào)內(nèi)條件時(shí)為1否則為0石景;可以看作為計(jì)數(shù)。

設(shè)第jj維特征的取值空間為{aj1,aj2,?,ajSj}{aj1,aj2,?,ajSj}户辱,且輸入變量的第jj維x(j)=ajlx(j)=ajl鸵钝,則條件概率的極大似然估計(jì):

p^(x(j)=ajl|y=ck)=∑iI(x(j)i=ajl,y=ck)I(yi=ck)p^(x(j)=ajl|y=ck)=∑iI(xi(j)=ajl,y=ck)I(yi=ck)

貝葉斯估計(jì)

在估計(jì)先驗(yàn)概率與條件概率時(shí)糙臼,有可能出現(xiàn)為0的情況庐镐,則計(jì)算得到的后驗(yàn)概率亦為0,從而影響分類的效果变逃。因此必逆,需要在估計(jì)時(shí)做平滑,這種方法被稱為貝葉斯估計(jì)(Bayesian estimation)揽乱。先驗(yàn)概率的貝葉斯估計(jì):

p^(y=ck)=∑iI(yi=ck)+λN+kλp^(y=ck)=∑iI(yi=ck)+λN+kλ

后驗(yàn)概率的貝葉斯估計(jì):

p^(x(j)=ajl|y=ck)=∑iI(x(j)i=ajl,y=ck)+λI(yi=ck)+Sjλp^(x(j)=ajl|y=ck)=∑iI(xi(j)=ajl,y=ck)+λI(yi=ck)+Sjλ

常取λ=1λ=1名眉,這時(shí)被稱為L(zhǎng)aplace平滑(Laplace smoothing)。下面提到的拼寫(xiě)檢查則用到了Laplace平滑——初始時(shí)將所有單詞的計(jì)數(shù)置為1凰棉。

2. 拼寫(xiě)檢查

當(dāng)用戶在輸入拼寫(xiě)錯(cuò)誤單詞時(shí)损拢,如何返回他想輸入的拼寫(xiě)正確單詞。比如撒犀,用戶輸入單詞thew福压,用戶有到底是想輸入the,還是想輸入thaw或舞?這種拼寫(xiě)檢查的問(wèn)題等同于分類問(wèn)題:在許多可能拼寫(xiě)正確單詞中荆姆,到底哪一個(gè)時(shí)最有可能的呢?大神Peter Norvig [2]采用樸素貝葉斯解決這個(gè)拼寫(xiě)問(wèn)題映凳。

樸素貝葉斯分類

設(shè)用戶輸入的單詞為ww胆筒,要返回的拼寫(xiě)正確單詞為cc,拼寫(xiě)檢查要找出最大可能的cc诈豌,即

argmaxcp(c|w)arg?maxc?p(c|w)

p(c|w)p(c|w)可以理解為在已發(fā)生ww的情況下發(fā)生cc的概率仆救。根據(jù)貝葉斯定理:

p(c|w)=p(w|c)p(c)p(w)p(c|w)=p(w|c)p(c)p(w)

貝葉斯分類器可表示為:

argmaxcp(w|c)p(c)arg?maxc?p(w|c)p(c)

如何估計(jì)p(w|c)p(w|c)與p(c)p(c)呢?估計(jì)p(c)p(c)的辦法可以在文本庫(kù)中統(tǒng)計(jì)單詞cc的頻率矫渔。p(w|c)p(w|c)表示大多數(shù)用戶在輸入cc時(shí)拼寫(xiě)錯(cuò)誤輸入成了ww的概率彤蔽,可以看作時(shí)錯(cuò)誤模型。這需要對(duì)大量的錯(cuò)誤輸入進(jìn)行統(tǒng)計(jì)蚌斩,才能對(duì)p(w|c)p(w|c)估計(jì)得較為準(zhǔn)確铆惑。Norvig對(duì)此做了簡(jiǎn)易化的處理:

統(tǒng)計(jì)所有與ww編輯距離為1的拼寫(xiě)正確單詞范嘱,選出在文本庫(kù)中頻率最高者;

若未找到與ww編輯距離為1的拼寫(xiě)正確單詞员魏,則統(tǒng)計(jì)所有與ww編輯距離為2的拼寫(xiě)正確單詞丑蛤,選出在文本庫(kù)中頻率最高者

若與ww編輯距離為2的拼寫(xiě)正確單詞也未找到,則返回ww(即分類失斔貉帧)受裹。

所謂編輯距離為1,指單詞可以通過(guò)增加虏束、刪除棉饶、修改(一個(gè)字母)或交換(相鄰兩個(gè)字母)變成另外的單詞。上述處理辦法默認(rèn)了:編輯距離為1的拼寫(xiě)正確單詞永遠(yuǎn)比編輯距離為2的更有可能镇匀。

存在問(wèn)題

Norvig所介紹的拼寫(xiě)檢查是非常簡(jiǎn)單的一種照藻,他在博文[2]中指出不足。此外汗侵,還有一些需要優(yōu)化的地方:

上下文關(guān)聯(lián)幸缕,比如輸入thew,在不同的上下文中可能返回的拼寫(xiě)正確單詞不同晰韵;

輸入媒介发乔,比如用戶用鍵盤輸入與用手機(jī)的九宮格輸入,其拼寫(xiě)錯(cuò)誤的方式時(shí)不一樣的雪猪。

3. 參考資料

[1] 李航栏尚,《統(tǒng)計(jì)學(xué)習(xí)方法》.

[2] Peter Norvig,How to Write a Spelling Corrector.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市只恨,隨后出現(xiàn)的幾起案子译仗,更是在濱河造成了極大的恐慌,老刑警劉巖坤次,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件古劲,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡缰猴,警方通過(guò)查閱死者的電腦和手機(jī)产艾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)滑绒,“玉大人闷堡,你說(shuō)我怎么就攤上這事∫晒剩” “怎么了杠览?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)纵势。 經(jīng)常有香客問(wèn)我踱阿,道長(zhǎng)管钳,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任软舌,我火速辦了婚禮才漆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘佛点。我一直安慰自己醇滥,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布超营。 她就那樣靜靜地躺著鸳玩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪演闭。 梳的紋絲不亂的頭發(fā)上不跟,一...
    開(kāi)封第一講書(shū)人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音船响,去河邊找鬼躬拢。 笑死躲履,一個(gè)胖子當(dāng)著我的面吹牛见间,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播工猜,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼米诉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了篷帅?” 一聲冷哼從身側(cè)響起史侣,我...
    開(kāi)封第一講書(shū)人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎魏身,沒(méi)想到半個(gè)月后惊橱,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡箭昵,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年税朴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片家制。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡正林,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出颤殴,到底是詐尸還是另有隱情觅廓,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布涵但,位于F島的核電站杈绸,受9級(jí)特大地震影響帖蔓,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜瞳脓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一讨阻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧篡殷,春花似錦钝吮、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至劲弦,卻和暖如春耳标,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背邑跪。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工次坡, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人画畅。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓砸琅,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親轴踱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子症脂,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容