機(jī)器學(xué)習(xí)基礎(chǔ)算法(2)--樸素貝葉斯

理工科的我們?cè)缭诟咧袝r(shí)期就聽聞貝葉斯公式大名,我們接觸較多的是條件概率公式,即P(X,Y|C)此類胡控,完整的貝葉斯公式阻课,是條件概率公式的升級(jí)版叫挟。

我們需要基礎(chǔ)概率知識(shí)作為前提:

  • 條件概率,事件B發(fā)生的情況下限煞,事件A發(fā)生的概率抹恳,用P(A|B)來表示。
  • 先驗(yàn)概率署驻,普通的已知事件的概率奋献。(這個(gè)人來自趙家堡的概率健霹?)
  • 后驗(yàn)概率,比較重要瓶蚂,已知一個(gè)事實(shí)條件糖埋,對(duì)于另一事件的概率。(已知這個(gè)人姓趙窃这,那么他來自趙家堡的概率瞳别?)
  • 推導(dǎo)了這個(gè)貝葉斯公式就能看懂后面了:


    貝葉斯公式變形,后面會(huì)用

同時(shí)我們需要理解杭攻,樸素的概念祟敛。樸素貝葉斯用在算法中,是考慮了最理想的情況兆解,每一個(gè)特征/數(shù)據(jù)都是獨(dú)立的馆铁,即特征與特征之間不考慮相關(guān)性。雖然在現(xiàn)實(shí)中看似不現(xiàn)實(shí)锅睛,但是在實(shí)際算法中叼架,“樸素”使得數(shù)據(jù)降維,避免了模型的過度復(fù)雜衣撬。

我們舉垃圾郵件分類的例子來理解這個(gè)算法乖订。
對(duì)于電子郵件;

  1. 垃圾郵件的垃圾詞匯具练,假設(shè)構(gòu)建一個(gè)垃圾詞匯列表乍构,假設(shè)列表有m個(gè)特征;
    每一封郵件包含N個(gè)詞匯扛点;那么對(duì)于這封郵件哥遮,用來判斷的樣本數(shù)為 m*N
  2. 我們將這N個(gè)詞匯,看作N個(gè)向量(簡(jiǎn)化認(rèn)為無重復(fù)詞匯)陵究;每一個(gè)向量眠饮,在列表中遍歷一次,對(duì)比有無和垃圾詞匯重合铜邮,記為0或1仪召。此時(shí)得到的向量形如[0, 0, 1, 0, 1, 1, 1, 0, 0, 0...0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0](1*N)
  3. 我們此時(shí)開始訓(xùn)練貝葉斯函數(shù);在訓(xùn)練函數(shù)的過程中松蒜,我們拿出相當(dāng)一部分垃圾郵件和正常郵件(即有標(biāo)注的訓(xùn)練數(shù)據(jù))
  • 容易計(jì)算訓(xùn)練集中扔茅,郵件類型的概率。
  • 循環(huán)遍歷所有詞匯秸苗,我們能夠計(jì)算召娜,每個(gè)詞匯的類型(是否為垃圾詞匯)的概率
  • 對(duì)于任意一個(gè)詞匯我們得到他的后驗(yàn)概率。(已知文檔類型惊楼,詞匯類型的概率)
  • 訓(xùn)練集中的郵件玖瘸,有N個(gè)詞匯秸讹,我們得到1*N的后驗(yàn)概率向量,這
    一向量非常重要雅倒,要用來構(gòu)建分類函數(shù)璃诀。示例一段簡(jiǎn)明的Python分類函數(shù)代碼。
    def train(train_matrix, train_category):
     # 樸素貝葉斯分類器訓(xùn)練函數(shù)
     num_train = len(train_matrix)
     num_words = len(train_matrix[0])
     p_abusive = sum(train_category)/float(num_train)
     p0num = np.ones(num_words)
     p1num = np.ones(num_words)
     p0_denom = 2.0  #取2.0使得計(jì)算結(jié)果不會(huì)過小
     p1_denom = 2.0
     p0vec = []
     p1vec = []
     for i in range(num_train):
         if train_category[i] == 1:
             p1num += train_matrix[i]
             p1_denom += sum(train_matrix[i])
         else:
             p0num += train_matrix[i]
             p0_denom += sum(train_matrix[i])
     for i in range(num_words):
         p0vec.append(math.log(p0num[i] / p0_denom))
         p1vec.append(math.log(p1num[i] / p1_denom))
         # 取對(duì)數(shù)了防止多個(gè)很小的數(shù)相乘使得程序下溢出
     return p_abusive, p0vec, p1vec
    
    
  1. 我們根據(jù)后驗(yàn)概率的向量形式屯断,構(gòu)建出分類函數(shù),這點(diǎn)需要根據(jù)二分類或者多分類問題的不同侣诺。接下來殖演,就可以導(dǎo)入測(cè)試集進(jìn)行測(cè)試了

樸素貝葉斯在機(jī)器學(xué)習(xí)中,初步展示給我們訓(xùn)練和測(cè)試的意義所在年鸳,訓(xùn)練是從部分已知中尋找特定規(guī)律來推測(cè)未知趴久。個(gè)人愚鈍,文字描述還有不清晰的地方搔确,必須盡快提高彼棍。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市膳算,隨后出現(xiàn)的幾起案子座硕,更是在濱河造成了極大的恐慌,老刑警劉巖涕蜂,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件华匾,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡机隙,警方通過查閱死者的電腦和手機(jī)蜘拉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來有鹿,“玉大人旭旭,你說我怎么就攤上這事〈邪希” “怎么了持寄?”我有些...
    開封第一講書人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)娱俺。 經(jīng)常有香客問我际看,道長(zhǎng),這世上最難降的妖魔是什么矢否? 我笑而不...
    開封第一講書人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任仲闽,我火速辦了婚禮,結(jié)果婚禮上僵朗,老公的妹妹穿的比我還像新娘赖欣。我一直安慰自己屑彻,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開白布顶吮。 她就那樣靜靜地躺著社牲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪悴了。 梳的紋絲不亂的頭發(fā)上搏恤,一...
    開封第一講書人閱讀 51,708評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音湃交,去河邊找鬼熟空。 笑死,一個(gè)胖子當(dāng)著我的面吹牛搞莺,可吹牛的內(nèi)容都是我干的息罗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼才沧,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼迈喉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起温圆,我...
    開封第一講書人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤挨摸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后岁歉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體油坝,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年刨裆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了澈圈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡帆啃,死狀恐怖瞬女,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情努潘,我是刑警寧澤诽偷,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站疯坤,受9級(jí)特大地震影響报慕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜压怠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一眠冈、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菌瘫,春花似錦蜗顽、人聲如沸布卡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忿等。三九已至,卻和暖如春崔挖,著一層夾襖步出監(jiān)牢的瞬間贸街,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來泰國打工狸相, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留薛匪,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓卷哩,卻偏偏與公主長(zhǎng)得像蛋辈,于是被迫代替她去往敵國和親属拾。 傳聞我的和親對(duì)象是個(gè)殘疾皇子将谊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容