樸素貝葉斯分類是一種十分簡單的分類算法先紫,叫它樸素貝葉斯分類是因為這種方法的思想真的很Naive。
它有一個基本的假設:樣本的特征屬性相互獨立且權重相同诡曙。
樸素貝葉斯的思想基礎是這樣的:
對于給出的待分類項湿右,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大票髓,就認為此待分類項屬于哪個類別。
通俗來說铣耘,就好比這么個道理洽沟,你在街上看到一個黑人,我問你你猜這哥們哪里來的涡拘,你十有八九猜非洲。為什么呢据德?因為黑人中非洲人的比率最高鳄乏,當然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下棘利,我們會選擇條件概率最大的類別橱野,這就是樸素貝葉斯的思想基礎。
樸素貝葉斯分類的正式定義如下:
那么現(xiàn)在的關鍵就是如何計算第3步中的各個條件概率善玫。我們可以這么做:
1水援、找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集茅郎。
2蜗元、統(tǒng)計得到在各類別下各個特征屬性的條件概率估計。即
3系冗、如果各個特征屬性是條件獨立的奕扣,則根據(jù)貝葉斯定理有如下推導:
因為分母對于所有類別為常數(shù),因為我們只要將分子最大化皆可掌敬。又因為各特征屬性是條件獨立的惯豆,所以有:
可以看到池磁,整個樸素貝葉斯分類分為三個階段:
第一階段——準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備楷兽,主要工作是根據(jù)具體情況確定特征屬性地熄,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類芯杀,形成訓練樣本集合端考。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓練樣本瘪匿。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段跛梗,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性棋弥、特征屬性劃分及訓練樣本質量決定核偿。
第二階段——分類器訓練階段,這個階段的任務就是生成分類器顽染,主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計漾岳,并將結果記錄。其輸入是特征屬性和訓練樣本粉寞,輸出是分類器尼荆。這一階段是機械性階段,根據(jù)前面討論的公式可以由程序自動計算完成唧垦。
第三階段——應用階段捅儒。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項振亮,輸出是待分類項與類別的映射關系巧还。這一階段也是機械性階段,由程序完成坊秸。
參考于貝葉斯模型及其應用總結