概念介紹
貝葉斯統(tǒng)計都是以條件概率银酬,聯(lián)合概率為基礎(chǔ)的,所以我們從概率筐钟,條件概率揩瞪,聯(lián)合概率開始,然后到貝葉斯定理篓冲。
1.概率:事件發(fā)生的可能性李破,比如拋一枚硬幣宠哄,正面向上的可能性有50%,擲色子點數(shù)為6的可能性為1/6嗤攻。我們用符號表示為P(A)琳拨。
2.條件概率:滿足某些條件下事件發(fā)生的可能性,比如求一個人在買了褲子的前提下再買衣服的概率屯曹,我們用符號表示為P(B|A)狱庇,即事件A發(fā)生下B發(fā)生的概率。
3.聯(lián)合概率:多個事件同時發(fā)生的可能性恶耽,比如拋硬幣兩次都朝上的概率P(AB) = P(A)P(B),前提是事件是相互獨立的互不影響密任,如果不獨立則聯(lián)合概率為P(AB) = P(A)P(B|A)=P(B)P(A|B)=P(BA),即當(dāng)P(B) = P(B|A)時表示事件是相互獨立的偷俭。
4.貝葉斯定理:P(Y|X) = P(X|Y)P(Y) / P(X),這就是貝葉斯定理浪讳。P(Y)是先驗概率,P(X)是全概率涌萤,P(X|Y)是后驗概率淹遵。
樸素貝葉斯的算法過程
極大似然估計下的算法過程(lambda=0)
極大似然估計就是對參數(shù)的估計,即對先驗概率和后驗概率的估計负溪。
1.先驗概率(I是指示函數(shù))
2.后驗概率
其中透揣,xi(j)代表第i個樣本的第j個特征,yi代表類別川抡,ajl代表第j個特征取第l個值辐真。
3.計算P(Y|X) = P(X|Y)P(Y) / P(X)約等于?P(X|Y)P(Y)
貝葉斯估計下的算法過程(lambda=1)
1.先驗概率 (k代表類別的數(shù)量)
2.后驗概率
其中,sj代表比如x=(x1,x2),那么x1可能有3個值崖堤,那么sj=3侍咱,此時j=1;那么x2的可能值是2個密幔,那么sj=2,此時j=2楔脯。
小結(jié)
當(dāng)lambada=0時,就是極大似然估計胯甩,當(dāng)lambada=1時昧廷,就是貝葉斯估計,稱之為拉普拉斯平滑(Laplace smoothing)蜡豹。