學(xué)習(xí)“樸素貝葉斯”

最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型(Naive Bayesian Model评肆,NBM)薄疚。樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。

學(xué)過概率的同學(xué)一定都知道貝葉斯定理:

這個在250多年前發(fā)明的算法昧捷,在信息領(lǐng)域內(nèi)有著無與倫比的地位秉馏。貝葉斯分類是一系列分類算法的總稱更耻,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類罚渐。樸素貝葉斯算法(Naive Bayesian) 是其中應(yīng)用最為廣泛的分類算法之一却汉。

樸素貝葉斯分類器基于一個簡單的假定:給定目標(biāo)值時屬性之間相互條件獨立。

通過以上定理和“樸素”的假定荷并,我們知道:

P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)

樸素貝葉斯分類器(Naive Bayes Classifier,或 NBC)發(fā)源于古典數(shù)學(xué)理論合砂,貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ)源织,故統(tǒng)稱為貝葉斯分類翩伪。它有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率谈息。同時缘屹,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感侠仇,算法也比較簡單轻姿。理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此踢代,這是因為NBC模型假設(shè)屬性之間相互獨立盲憎,這個假設(shè)在實際應(yīng)用中往往是不成立的,這給NBC模型的正確分類帶來了一定影響胳挎。
解決這個問題的方法一般是建立一個屬性模型,對于不相互獨立的屬性,把他們單獨處理饼疙。例如中文文本分類識別的時候,我們可以建立一個字典來處理一些詞組慕爬。如果發(fā)現(xiàn)特定的問題中存在特殊的模式屬性窑眯,那么就單獨處理。

樸素貝葉斯分類是一種十分簡單的分類算法医窿,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素磅甩,樸素貝葉斯的思想基礎(chǔ)是這樣的:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率姥卢,哪個最大卷要,就認(rèn)為此待分類項屬于哪個類別。通俗來說独榴,就好比這么個道理僧叉,你在街上看到一個黑人,我問你你猜這哥們哪里來的棺榔,你十有八九猜非洲瓶堕。為什么呢?因為黑人中非洲人的比率最高症歇,當(dāng)然人家也可能是美洲人或亞洲人郎笆,但在沒有其它可用信息下,我們會選擇條件概率最大的類別忘晤,這就是樸素貝葉斯的思想基礎(chǔ)宛蚓。


可以看到,整個樸素貝葉斯分類分為三個階段:

第一階段——準(zhǔn)備工作階段德频,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備苍息,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進(jìn)行適當(dāng)劃分壹置,然后由人工對一部分待分類項進(jìn)行分類竞思,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù)钞护,輸出是特征屬性和訓(xùn)練樣本盖喷。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響难咕,分類器的質(zhì)量很大程度上由特征屬性课梳、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定距辆。

第二階段——分類器訓(xùn)練階段,這個階段的任務(wù)就是生成分類器暮刃,主要工作是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計跨算,并將結(jié)果記錄。其輸入是特征屬性和訓(xùn)練樣本椭懊,輸出是分類器诸蚕。這一階段是機械性階段,根據(jù)前面討論的公式可以由程序自動計算完成氧猬。

第三階段——應(yīng)用階段(預(yù)測階段)背犯。這個階段的任務(wù)是使用分類器對待分類項進(jìn)行分類,其輸入是分類器和待分類項盅抚,輸出是待分類項與類別的映射關(guān)系漠魏。這一階段也是機械性階段,由程序完成妄均。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末柱锹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子丛晦,更是在濱河造成了極大的恐慌奕纫,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烫沙,死亡現(xiàn)場離奇詭異,居然都是意外死亡隙笆,警方通過查閱死者的電腦和手機锌蓄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撑柔,“玉大人瘸爽,你說我怎么就攤上這事∏Ψ蓿” “怎么了剪决?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長檀训。 經(jīng)常有香客問我柑潦,道長,這世上最難降的妖魔是什么峻凫? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任渗鬼,我火速辦了婚禮,結(jié)果婚禮上荧琼,老公的妹妹穿的比我還像新娘譬胎。我一直安慰自己差牛,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布堰乔。 她就那樣靜靜地躺著偏化,像睡著了一般。 火紅的嫁衣襯著肌膚如雪镐侯。 梳的紋絲不亂的頭發(fā)上夹孔,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機與錄音析孽,去河邊找鬼搭伤。 笑死,一個胖子當(dāng)著我的面吹牛袜瞬,可吹牛的內(nèi)容都是我干的怜俐。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼邓尤,長吁一口氣:“原來是場噩夢啊……” “哼拍鲤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起汞扎,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤季稳,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后澈魄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體景鼠,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年痹扇,在試婚紗的時候發(fā)現(xiàn)自己被綠了铛漓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡鲫构,死狀恐怖浓恶,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情结笨,我是刑警寧澤包晰,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站炕吸,受9級特大地震影響伐憾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜算途,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一塞耕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嘴瓤,春花似錦扫外、人聲如沸莉钙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽磁玉。三九已至,卻和暖如春驾讲,著一層夾襖步出監(jiān)牢的瞬間蚊伞,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工吮铭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留时迫,地道東北人。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓谓晌,卻偏偏與公主長得像掠拳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子纸肉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容