最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model评肆,NBM)薄疚。樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。
學(xué)過概率的同學(xué)一定都知道貝葉斯定理:
這個在250多年前發(fā)明的算法昧捷,在信息領(lǐng)域內(nèi)有著無與倫比的地位秉馏。貝葉斯分類是一系列分類算法的總稱更耻,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類罚渐。樸素貝葉斯算法(Naive Bayesian) 是其中應(yīng)用最為廣泛的分類算法之一却汉。
樸素貝葉斯分類器基于一個簡單的假定:給定目標(biāo)值時屬性之間相互條件獨立。
通過以上定理和“樸素”的假定荷并,我們知道:
P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)
樸素貝葉斯分類器(Naive Bayes Classifier,或 NBC)發(fā)源于古典數(shù)學(xué)理論合砂,貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ)源织,故統(tǒng)稱為貝葉斯分類翩伪。它有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率谈息。同時缘屹,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感侠仇,算法也比較簡單轻姿。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此踢代,這是因為NBC模型假設(shè)屬性之間相互獨立盲憎,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響胳挎。
解決這個問題的方法一般是建立一個屬性模型,對于不相互獨立的屬性,把他們單獨處理饼疙。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些詞組慕爬。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性窑眯,那么就單獨處理。
樸素貝葉斯分類是一種十分簡單的分類算法医窿,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素磅甩,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率姥卢,哪個最大卷要,就認(rèn)為此待分類項屬于哪個類別。通俗來說独榴,就好比這么個道理僧叉,你在街上看到一個黑人,我問你你猜這哥們哪里來的棺榔,你十有八九猜非洲瓶堕。為什么呢?因為黑人中非洲人的比率最高症歇,當(dāng)然人家也可能是美洲人或亞洲人郎笆,但在沒有其它可用信息下,我們會選擇條件概率最大的類別忘晤,這就是樸素貝葉斯的思想基礎(chǔ)宛蚓。
可以看到,整個樸素貝葉斯分類分為三個階段:
第一階段——準(zhǔn)備工作階段德频,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備苍息,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進(jìn)行適當(dāng)劃分壹置,然后由人工對一部分待分類項進(jìn)行分類竞思,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù)钞护,輸出是特征屬性和訓(xùn)練樣本盖喷。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響难咕,分類器的質(zhì)量很大程度上由特征屬性课梳、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定距辆。
第二階段——分類器訓(xùn)練階段,這個階段的任務(wù)就是生成分類器暮刃,主要工作是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計跨算,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本椭懊,輸出是分類器诸蚕。這一階段是機械性階段,根據(jù)前面討論的公式可以由程序自動計算完成氧猬。
第三階段——應(yīng)用階段(預(yù)測階段)背犯。這個階段的任務(wù)是使用分類器對待分類項進(jìn)行分類,其輸入是分類器和待分類項盅抚,輸出是待分類項與類別的映射關(guān)系漠魏。這一階段也是機械性階段,由程序完成妄均。