關(guān)注貝葉斯的原因是看不懂這篇論文:Surprise! Bayesian Weighting for De-Biasing Thematic Maps剪廉。這篇可視化的文章引入了貝葉斯理論贱田,將不符合預(yù)期分布的區(qū)域突出顯示了涯穷,作者認(rèn)為那個(gè)部分的內(nèi)容更有可視化的價(jià)值冷蚂。然后問題就來了狈涮,什么是貝葉斯垃沦?阮一峰的博客有簡單的介紹懂牧,例子比較容易懂:http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html
關(guān)于貝葉斯定理幾個(gè)解釋
P(A|B)是B事件發(fā)生的情況下锋边,A事件發(fā)生的概率是多少皱坛?假設(shè)A指代“下雨”,B指代“公交延誤”豆巨,那么P(A|B)指的就是在公交延誤的情形中剩辟,下雨的概率是多少。我們可以假定輸入的數(shù)據(jù)集為:
A(下雨)B(公交延誤):(1,0),(0,0)贩猎,(1,1)熊户,(1,1),(0,1)吭服,(1,0)
那么通過統(tǒng)計(jì)計(jì)算P(A|B)=2/3嚷堡,P(B|A)=2/4=1/2。現(xiàn)在讓我們來驗(yàn)證定理艇棕,P(A|B)=P(B|A)P(A)/P(B)=2/3 與通過統(tǒng)計(jì)計(jì)算的結(jié)果是一致的蝌戒。
貝葉斯有什么用?
假設(shè)數(shù)據(jù)集非常完備沼琉,特別是如今的大數(shù)據(jù)時(shí)代北苟,我們可以收集到近乎完整的樣本,這樣便可以通過貝葉斯公式進(jìn)行事件的估計(jì)打瘪。根據(jù)之前的樣本和計(jì)算結(jié)果粹淋,我們可以得出,假設(shè)今天下雨了瑟慈,那么公交延誤的概率應(yīng)該是1/2桃移。如果發(fā)生的事件非常多的話,貝葉斯可以用做事件分類葛碧。
貝葉斯分類器
我們現(xiàn)在擴(kuò)充集合A和B借杰,A(小雨,大雨进泼,下雪)B(公交延誤蔗衡,地鐵延誤,輪渡延誤乳绕,飛機(jī)延誤)绞惦,我們稱A集合中的子集為Category,我們假設(shè)每條數(shù)據(jù)只能屬于一個(gè)Category洋措,B中的子集為Feature济蝉,貝葉斯分類器的作用就是基于已有的Feature和Category數(shù)據(jù),再跟進(jìn)輸入的數(shù)據(jù)做分析菠发,得出該輸入屬于哪個(gè)Category王滤。
用做訓(xùn)練的數(shù)據(jù)假定是:
A(小雨),B(公交延誤滓鸠,地鐵延誤)
A(大雨)雁乡,B(公交延誤,地鐵延誤糜俗,飛機(jī)延誤)
A(小雨)踱稍,B(公交延誤)
A(小雨)曲饱,B(地鐵延誤)
A(大雨),B(地鐵延誤珠月,飛機(jī)延誤)
A(下雪)扩淀,B(公交延誤,地鐵延誤桥温,飛機(jī)延誤)
于是P(A|B)=P(B1B2...Bn|A)P(A)/P(B1B2...Bn)引矩,如果B1B2...Bn之間相互不獨(dú)立的話梁丘,計(jì)算是非常麻煩的侵浸,于是有人就提出了假設(shè),假設(shè)B1B2...Bn之前彼此是相互獨(dú)立的氛谜,基于這種假設(shè)的貝葉斯叫樸素貝葉斯:P(A|B)=[P(B1|A)P(B2|A)...P(Bn|A)]P(A)/P(B1B2...Bn)
特殊的例子
如果輸入B的值在訓(xùn)練集中沒有對應(yīng)的數(shù)據(jù)掏觉,就需要用正態(tài)分布來估計(jì)數(shù)據(jù)的值。讓我們看一個(gè)新的數(shù)據(jù)集:A(小雨值漫,大雨澳腹,下雪)B(溫度,風(fēng)速杨何,空氣質(zhì)量AQI):
A(小雨)B(25酱塔,2,50)
A(小雨)B(22危虱,1羊娃,45)
A(小雨)B(27,3埃跷,53)
A(大雨)B(20蕊玷,4,45)
A(大雨)B(19弥雹,3垃帅,59)
A(下雪)B(18,5剪勿,66)
假設(shè)現(xiàn)在輸入一組數(shù)據(jù)B(B1,B2,B3)=(24,2,51)贸诚,求P(A|B),其實(shí)就是分別求P(小雨|B)厕吉,P(大雨|B)赦颇,P(下雪|B)。根據(jù)貝葉斯定理得P(小雨|B)=P(B|小雨)P(A)/P(B)赴涵。假定B事件各個(gè)部分相互獨(dú)立媒怯,可得P(小雨|B)=P(B|小雨)P(A)/P(B)=[ P(B1|小雨)P(B2|小雨) P(B3|小雨)]P(A)/[P(B1)P(B2)P(B3)],P(B1|小雨)=P(24|小雨)是其中的一個(gè)未知量髓窜,讓我們詳細(xì)討論這個(gè)量的求解過程扇苞。
因?yàn)?4這個(gè)值原數(shù)據(jù)集中沒有欺殿,所以就需要用正態(tài)分布做估算。現(xiàn)統(tǒng)計(jì)原始數(shù)據(jù)集中小雨的情況鳖敷,小雨情況的溫度的期望為:24.6(平均值估計(jì)期望)脖苏,方差1.187,利用正態(tài)分布的公式可求得定踱,溫度值為24時(shí)棍潘,天氣為小雨的概率密度是0.285,求解方法如下:
其他幾個(gè)分量的計(jì)算參考上面的公式p(24,小雨)就好了崖媚。最后可以分別求出P(小雨|B)亦歉,P(大雨|B),P(下雪|B)的概率畅哑,選擇概率最大的做為最后的分類結(jié)果肴楷。