理工科的我們?cè)缭诟咧袝r(shí)期就聽聞貝葉斯公式大名,我們接觸較多的是條件概率公式,即P(X,Y|C)此類胡控,完整的貝葉斯公式阻课,是條件概率公式的升級(jí)版叫挟。
我們需要基礎(chǔ)概率知識(shí)作為前提:
- 條件概率,事件B發(fā)生的情況下限煞,事件A發(fā)生的概率抹恳,用P(A|B)來表示。
- 先驗(yàn)概率署驻,普通的已知事件的概率奋献。(這個(gè)人來自趙家堡的概率健霹?)
- 后驗(yàn)概率,比較重要瓶蚂,已知一個(gè)事實(shí)條件糖埋,對(duì)于另一事件的概率。(已知這個(gè)人姓趙窃这,那么他來自趙家堡的概率瞳别?)
-
推導(dǎo)了這個(gè)貝葉斯公式就能看懂后面了:
貝葉斯公式變形,后面會(huì)用
同時(shí)我們需要理解杭攻,樸素的概念祟敛。樸素貝葉斯用在算法中,是考慮了最理想的情況兆解,每一個(gè)特征/數(shù)據(jù)都是獨(dú)立的馆铁,即特征與特征之間不考慮相關(guān)性。雖然在現(xiàn)實(shí)中看似不現(xiàn)實(shí)锅睛,但是在實(shí)際算法中叼架,“樸素”使得數(shù)據(jù)降維,避免了模型的過度復(fù)雜衣撬。
我們舉垃圾郵件分類的例子來理解這個(gè)算法乖订。
對(duì)于電子郵件;
- 垃圾郵件的垃圾詞匯具练,假設(shè)構(gòu)建一個(gè)垃圾詞匯列表乍构,假設(shè)列表有m個(gè)特征;
每一封郵件包含N個(gè)詞匯扛点;那么對(duì)于這封郵件哥遮,用來判斷的樣本數(shù)為 m*N - 我們將這N個(gè)詞匯,看作N個(gè)向量(簡(jiǎn)化認(rèn)為無重復(fù)詞匯)陵究;每一個(gè)向量眠饮,在列表中遍歷一次,對(duì)比有無和垃圾詞匯重合铜邮,記為0或1仪召。此時(shí)得到的向量形如[0, 0, 1, 0, 1, 1, 1, 0, 0, 0...0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0](1*N)
- 我們此時(shí)開始訓(xùn)練貝葉斯函數(shù);在訓(xùn)練函數(shù)的過程中松蒜,我們拿出相當(dāng)一部分垃圾郵件和正常郵件(即有標(biāo)注的訓(xùn)練數(shù)據(jù))
- 容易計(jì)算訓(xùn)練集中扔茅,郵件類型的概率。
- 循環(huán)遍歷所有詞匯秸苗,我們能夠計(jì)算召娜,每個(gè)詞匯的類型(是否為垃圾詞匯)的概率
- 對(duì)于任意一個(gè)詞匯我們得到他的后驗(yàn)概率。(已知文檔類型惊楼,詞匯類型的概率)
- 訓(xùn)練集中的郵件玖瘸,有N個(gè)詞匯秸讹,我們得到1*N的后驗(yàn)概率向量,這
一向量非常重要雅倒,要用來構(gòu)建分類函數(shù)璃诀。示例一段簡(jiǎn)明的Python分類函數(shù)代碼。def train(train_matrix, train_category): # 樸素貝葉斯分類器訓(xùn)練函數(shù) num_train = len(train_matrix) num_words = len(train_matrix[0]) p_abusive = sum(train_category)/float(num_train) p0num = np.ones(num_words) p1num = np.ones(num_words) p0_denom = 2.0 #取2.0使得計(jì)算結(jié)果不會(huì)過小 p1_denom = 2.0 p0vec = [] p1vec = [] for i in range(num_train): if train_category[i] == 1: p1num += train_matrix[i] p1_denom += sum(train_matrix[i]) else: p0num += train_matrix[i] p0_denom += sum(train_matrix[i]) for i in range(num_words): p0vec.append(math.log(p0num[i] / p0_denom)) p1vec.append(math.log(p1num[i] / p1_denom)) # 取對(duì)數(shù)了防止多個(gè)很小的數(shù)相乘使得程序下溢出 return p_abusive, p0vec, p1vec
- 我們根據(jù)后驗(yàn)概率的向量形式屯断,構(gòu)建出分類函數(shù),這點(diǎn)需要根據(jù)二分類或者多分類問題的不同侣诺。接下來殖演,就可以導(dǎo)入測(cè)試集進(jìn)行測(cè)試了
樸素貝葉斯在機(jī)器學(xué)習(xí)中,初步展示給我們訓(xùn)練和測(cè)試的意義所在年鸳,訓(xùn)練是從部分已知中尋找特定規(guī)律來推測(cè)未知趴久。個(gè)人愚鈍,文字描述還有不清晰的地方搔确,必須盡快提高彼棍。