·本文最早發(fā)表在本人博客:http://www.gotoli.us/?p=173
樸素貝葉斯分類器是一種應(yīng)用貝葉斯定理的分類器。線性分類器是通過特征的線性組合來做出分類決定的分類器。本質(zhì)上陕习,樸素貝葉斯分類器是一種線性分類器缩麸。樸素貝葉斯分類器是建立在屬性變量相互獨(dú)立的基礎(chǔ)上帐要,后驗(yàn)概率為判定準(zhǔn)則的分類器府喳。不等式1成立针姿,則樣例x=[x_1,...,x_n]為正類窗声。否則相恃,樣例為負(fù)類。
線性分類器直觀地來說笨觅,是在高維樣本空間中找到一組超平面拦耐,將樣本空間劃分了兩個(gè)區(qū)域。每個(gè)區(qū)域?qū)?yīng)于不同的類別见剩。數(shù)學(xué)上來說杀糯,線性分類器能找到權(quán)值向量w,使得判別公式可以寫成特征值的線性加權(quán)組合炮温。
(2)如果公式2成立火脉,則樣本屬于正類;反之柒啤,則樣本屬于負(fù)類倦挂。
離散特征的樸素貝葉斯分類器
一般離散特征的取值范圍有兩種,{-1,1}或者{0,1}担巩。這兩種取值方式不會影響分析方援。不妨假設(shè)離散特征的取值范圍為{-1,1}。下面的不等式成立涛癌,樣例x=[x_1,...,x_n]為正類犯戏。
(3)
對于某個(gè)特征x,我們很容易推導(dǎo)出下面的公式
其中p(x|F)也有類似的結(jié)果,從而有
(5)
將公式5帶入樸素貝葉斯分類器的公式3呀非,得到下面的公式
(6)
根據(jù)公式6,離散特征的樸素貝葉斯分類器判別公式能夠?qū)懗商卣髦档募訖?quán)線性組合降允。也就是說剧董,離散特征的樸素貝葉斯分類器本質(zhì)上是線性分類器送滞。
連續(xù)特征的樸素貝葉斯分類器
樸素貝葉斯分類器也適用于連續(xù)特征犁嗅。一般情況下,連續(xù)特征的樸素貝葉斯分類假設(shè)條件概率p(x|T)滿足高斯分布。
如果同一個(gè)特征的條件概率方差相同式撼,連續(xù)特征的樸素貝葉斯分類器也是線性分類器求厕。條件概率的方差是指,在不同類別的條件下某屬性值成立的條件概率的方差相同美浦。
因此我們有
方差相同的情況下浦辨,連續(xù)特征的樸素貝葉斯分類器可以寫成特征值的線性加權(quán)組合沼沈。方差相同的情況下列另,連續(xù)特征的樸素貝葉斯分布本質(zhì)上是線性分類器页衙。直觀上看,方差相同的情況下响巢,兩個(gè)類別的特征和類別的聯(lián)合分布(即p(x|T)p(T)和p(x|F)*p(F))如下圖的左圖所示踪古。判別準(zhǔn)則其實(shí)就是下圖右圖中的黑色直線伏穆。
不是線性分類器的樸素貝葉斯分類器
其實(shí)并不是所有的樸素貝葉斯分類器都是線性分類器枕扫。如果連續(xù)特征的樸素貝葉斯分類器中方差不相同,那我們就會發(fā)現(xiàn)判別公式不能寫成特征值的線性加權(quán)組合烟瞧。
上面的不等式表明,方差不相等的情況下参滴,連續(xù)特征的樸素貝葉斯分類器判別公式不能寫成特征值的線性加權(quán)組合(判別公式與特征值x_i的二次方有關(guān))。上述例子表明砾赔,只有某些具有特定屬性的樸素貝葉斯分類器才是線性分類器。