03-naive bayes

預(yù)備知識

條件概率

考慮這么一個問題有兩個箱子A,B,
A中有2個紅球夺英,2個白球 A=[r,r,w,w]
B中有3個紅球晌涕,2個白球 B=[r,r,r,w,w]
總共有4個紅球5個白球
問題1: 如果從這9個球中取一個球取到紅球,白球概率分別為多少痛悯?
  顯然:$p(r) = \frac{5}{9}$, $p(w) = \frac{4}{9}$

問題2: 如果已知球取自A箱取到紅球概率為多少余黎?
  顯然:$p(r|A) = \frac{2}{4}$
  我們還知道 $p(r ; and ;A) =p(A) \times p(r|A)=\frac{4}{9} \times \frac{2}{4}=\frac{2}{9}$

問題3: 如果已知拿到的是白球,那么這個求是來自A箱的概率是多少呢载萌?
  A中有三個白球驯耻,B中有1個白球,共有4個白球, 那么顯然這個球從A中取的概率是$p(A|w)=\frac{2}{4}$, 我們看看來自A并且是白球的概率:
$$p(w ; and ;A) =p(A) \times p(w|A)=\frac{4}{9} \times \frac{2}{4}\
= p(w) \times p(A|w)=\frac{4}{9} \times \frac{2}{4} = \frac{2}{9}\
$$

根據(jù)上式可以得出:
$$p(A|w) = \frac{p(w|A) \times p(A)}{p(w)}$$
這就是貝葉斯準則炒考。

文本分類問題

以在線社區(qū)留言為例可缚,下面是某社區(qū)留言本的留言統(tǒng)計,作為訓(xùn)練數(shù)據(jù),postingList是留言記錄,每一行是一條留言斋枢,classVec記錄對應(yīng)的分類帘靡,0表示非侮辱性留言$c_0$,1表示侮辱性留言$c_1$

     postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not

目標:
  當輸入一條新的留言的時候判斷是否是侮辱性留言,設(shè)$w$為輸入的留言
  那么問題就是$p(c_i|w) = \frac{p(w|c_i) \times p(c_i)}{p(w)}$瓤帚,計算出每一個$p(c_i|w)$后只需要找出概率最大的$p(c_i|w)$就可以確定類別了描姚, 由于是比較大小所以$p(w)$相同的情況下只需要計算$p(c_i|w) = p(w|c_i) \times p(c_i)$用于比較即可. 對于訓(xùn)練集數(shù)據(jù),$p(w)$表示單詞在所有訓(xùn)練文本中出現(xiàn)的概率戈次,$p(c_i)$表示訓(xùn)練集中某一個類別出現(xiàn)的概率轩勘,$p(w|c_i)$

詞向量:
  由于句子和單詞用來計算或者用來統(tǒng)計比較麻煩,所以我們可以把訓(xùn)練集中的單詞轉(zhuǎn)為詞向量來方便統(tǒng)計。詞向量$w$是一個元素為0或1的list怯邪,這個list對應(yīng)訓(xùn)練集中出現(xiàn)的所有單詞绊寻,每一個元素對應(yīng)一個單詞,0代表沒有出現(xiàn)悬秉,1代表出現(xiàn)澄步。
1.生成單詞表
  首先需要一個包含所有單詞的單詞表vocablist,單詞表里不需要用一個單詞重復(fù)出現(xiàn),因此對于訓(xùn)練集輸入的所有句子和泌,先用set保存單詞再轉(zhuǎn)換成list

def createVocablist(dataset):
    vocablist = set()
    for doc in dataset:
        vocablist = vocablist | set(doc)
    return list(vocablist)

2.生成詞向量
  inputSet為當前輸入的句子村缸,返回的詞向量為句子中的單詞在單詞表中的出現(xiàn)情況,先構(gòu)建一個值為0長度和vocablist一樣的詞向量武氓,遍歷輸入的句子inputSet,中的所有單詞梯皿,如果單詞是單詞表里的就像對應(yīng)位置的詞向量元素置為1。這里輸入的句子中有可能會出現(xiàn)單詞表中不存在的單詞县恕,這里我們可以忽略這些單詞东羹。

def word2vec(vocablist,inputSet):
    ret = [0]*len(vocablist)
    for word in inputSet:
        if word in vocablist:
            ret[vocablist.index(word)] = 1
        else:
            pass
    return ret

處理訓(xùn)練集:
  首先需要將訓(xùn)練集中的原始數(shù)據(jù)轉(zhuǎn)換為詞向量的形式,對于每一個留言生成稱為一個詞向量
  處理后的訓(xùn)練集trainMat = [ [0,1,0,0,1....1,0,1],
               [1,1,0,0,1....1,1,1],
               ...
               [0,1,0,1,0....1,0,1],
               [0,0,0,0,1....0,0,1], ]
  形式弱睦,每一個詞向量的長度和vocavlist長度一致百姓。

訓(xùn)練數(shù)據(jù):
  訓(xùn)練數(shù)據(jù)就是統(tǒng)計$p(c_i)$ 和$p(w|c_i)$,
  對于$p(c_i)$,classlist為0,1向量形式况木,只需要 pAbusive = sum(classlist)/float(len(classlist)),即可得到$p(c_1)$ ,$p(c_0) = 1-p(c_1)$
  對于$p(w|c_i) = \frac{每一個單詞出現(xiàn)次數(shù)}{所有單詞出現(xiàn)次數(shù)} |c_i$, 由于可能這里除法出現(xiàn)極小的數(shù)垒拢,對計算不利旬迹,我們可以用log來轉(zhuǎn)換一下,后面的乘法也可以改為加法計算
  訓(xùn)練結(jié)束后我們得到了$p(c_1)$和$p(c_0) = 1-p(c_1)$,以及$p(w|c_i)$,(p1Vec,p2Vec)注意這里的w是一個向量($w=[w_1,w_2...,w_n]$),表示每一個詞在$c_i$中出現(xiàn)的概率

    for i in range(numTrainDocs):
        if classlist[i] == 1:
            perWordNum1 += trainMat[i]
            totalWord1  += sum(trainMat[i])
        else:
            perWordNum0 += trainMat[i]
            totalWord0  += sum(trainMat[i])
 
    p1Vec = log(perWordNum1/totalWord1)
    p0Vec = log(perWordNum0/totalWord0)

分類:
 當有新的句子需要分類時,需要將句子先轉(zhuǎn)換為詞向量

    testInput = word2vec(vocablist,['love','my','daltation'])
    testInput = word2vec(vocablist,['stupid','garbege'])

然后將輸入的詞向量和p1Vec求类,p0Vec跟別相乘判斷拿一個類別概率更大即可

  def classifyNB(inputVec,p0Vec,p1Vec,pClass1):
    inputArray =array(inputVec)
    p1 = sum(inputArray * p1Vec) + pClass1
    p0 = sum(inputArray * p0Vec) + 1 - pClass1
    if p1 > p0:return 1
    else:return 0

完整代碼

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末奔垦,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子尸疆,更是在濱河造成了極大的恐慌椿猎,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寿弱,死亡現(xiàn)場離奇詭異犯眠,居然都是意外死亡,警方通過查閱死者的電腦和手機症革,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門筐咧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人噪矛,你說我怎么就攤上這事量蕊。” “怎么了艇挨?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵残炮,是天一觀的道長。 經(jīng)常有香客問我缩滨,道長势就,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任楷怒,我火速辦了婚禮蛋勺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鸠删。我一直安慰自己,他們只是感情好贼陶,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布刃泡。 她就那樣靜靜地躺著,像睡著了一般碉怔。 火紅的嫁衣襯著肌膚如雪烘贴。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天撮胧,我揣著相機與錄音桨踪,去河邊找鬼。 笑死芹啥,一個胖子當著我的面吹牛锻离,可吹牛的內(nèi)容都是我干的铺峭。 我是一名探鬼主播,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼汽纠,長吁一口氣:“原來是場噩夢啊……” “哼卫键!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起虱朵,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤莉炉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后碴犬,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體絮宁,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年服协,在試婚紗的時候發(fā)現(xiàn)自己被綠了绍昂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚯涮,死狀恐怖治专,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情遭顶,我是刑警寧澤张峰,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站棒旗,受9級特大地震影響喘批,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铣揉,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一饶深、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逛拱,春花似錦敌厘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至曹步,卻和暖如春宪彩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讲婚。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工尿孔, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓活合,卻偏偏與公主長得像雏婶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子芜辕,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容