轉(zhuǎn)自微信公眾號(hào):機(jī)器學(xué)習(xí)算法與Python學(xué)習(xí)
樸素貝葉斯:
注意點(diǎn):
1. 如果給出的特征向量長(zhǎng)度可能不同,需要?dú)w一化為同長(zhǎng)度的向量(這里以文本分類為例),比如是句子單詞的話边涕,則長(zhǎng)度為整個(gè)詞匯量的長(zhǎng)度,對(duì)應(yīng)位置是該單詞出現(xiàn)的次數(shù)。
2. 計(jì)算公式:
其中條件概率可以通過樸素貝葉斯獨(dú)立條件展開,
因此一般有兩種细诸,一種是在類別ci的那些樣本集中,找到wj出現(xiàn)次數(shù)的綜合陋守,然后除以樣本的總和震贵。第二種方法是類別為ci的那些樣本集中,找到wj出現(xiàn)的次數(shù)水评,然后除以該樣本所有特征出現(xiàn)次數(shù)的總和猩系。
3. 如果P(w|ci)中的某一項(xiàng)為0,則其聯(lián)合概率乘積也可能為0,之碗。為了避免這種現(xiàn)象出現(xiàn)蝙眶,一般會(huì)將這一項(xiàng)初始化為1季希,為了保證概率相當(dāng)分母初始化為k(表示k類)叫做拉普拉斯平滑
樸素貝葉斯的優(yōu)點(diǎn):對(duì)小規(guī)模數(shù)據(jù)表現(xiàn)很好褪那,適合多分類任務(wù)幽纷,適合增量式訓(xùn)練。
缺點(diǎn):對(duì)數(shù)據(jù)的表達(dá)形式很敏感
問題延伸:大家都知道樸素貝葉斯是一種分類監(jiān)督算法博敬,那么樸素貝葉斯可以用來聚類嗎友浸?
答案是可以的。
如果將貝葉斯方法進(jìn)行聚類偏窝,可以把每個(gè)樣本看成單獨(dú)一類收恢,用層次聚類的方法,依次找到后驗(yàn)概率最大的樣本然后將它們聚合在一起祭往。