樸素貝葉斯 Naive Bayes
樸素貝葉斯分類建立在 貝葉斯原理 的基礎(chǔ)上蚌斩,關(guān)于貝葉斯原理這一部分可以參考鏈接中給出的解釋。
Bayes Theorem
樸素貝葉斯之所以如此得名是在于我們?cè)诟怕视?jì)算中假設(shè)作為判斷條件的多個(gè)事件之間彼此獨(dú)立定欧,即 P(A ∩ B) = P(B)P(A | B) = P(A)P(B | A) = P(A)P(B)稽莉。盡管這一假設(shè)在很多情況下對(duì)于事實(shí)過于簡(jiǎn)化课舍,顯得 Naive霹俺,幼稚,天真掰邢,但在實(shí)際應(yīng)用中牺陶,其判斷的效果實(shí)際上非常的好,因此得以廣泛應(yīng)用辣之。
為了便于說明掰伸,在此以垃圾郵件分類任務(wù)為例,假定我們預(yù)先發(fā)現(xiàn)垃圾郵件中一般包含 easy 或包含 money 這兩個(gè)單詞怀估,則有:
- P(spam | 'easy', 'money')P('easy', 'money) = P('easy', 'money | spam)P(spam)
我們可以進(jìn)一步將上式簡(jiǎn)化為:
- P(spam | 'easy', 'money') ∝ P('easy', 'money | spam)P(spam)
再利用樸素貝葉斯原理有:
- P(spam | 'easy', 'money') ∝ P('easy' | spam)P('money' | spam)P(spam)
Spam emai detector with Naive Bayes
在實(shí)際使用中對(duì)于正負(fù)例的計(jì)算結(jié)果相加并不總是等于 1狮鸭,因此需要再進(jìn)一步做歸一化以確定二者的比例合搅。