樸素貝葉斯法(2) 之 惡意留言過(guò)濾

攜程筆試的時(shí)候碰到了這個(gè)題目,當(dāng)時(shí)其實(shí)沒(méi)多想走搁。貝葉斯這個(gè)路子怕也太過(guò)氣了吧... 攜程也真是...

回顧思路

  • 計(jì)算先驗(yàn)概率
  • 計(jì)算條件概率
  • 不同類(lèi)別概率估計(jì)

原始數(shù)據(jù)集

image

代碼

加載數(shù)據(jù)集

import numpy as np

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1 is abusive, 0 not
    return postingList,classVec

這里類(lèi)別為兩類(lèi),1-惡意留言唱凯;0-非惡意留言尔许。

vocab

def getVocabList(dataSet):
    vocab = {}
    vocab_reverse = {}
    index = 0
    for line in dataSet:
        for word in line:
            if word not in vocab:
                vocab[word] = index
                vocab_reverse[index] = word
                index += 1
    return vocab,vocab_reverse

先驗(yàn)概率與條件概率

def native_bayes(vocab,postingList,classVec):
    # 先驗(yàn)概率
    label = [0,1]
    label_num = len(label)
    vocab_len = len(vocab)

    prior_probability = np.ones(label_num)                     # 初始化先驗(yàn)概率
    conditional_probability = np.ones((label_num,vocab_len))   # 初始化條件概率
    postingList_ids = [[vocab[word] for word in line]for line in postingList]
    # 默認(rèn)N為2,
    p_n = np.array([2,2])

    for i in range(len(postingList_ids)):
        for word in postingList_ids[i]:
            conditional_probability[classVec[i]][word]+=1
            p_n[classVec[i]] += 1

    # 條件概率
    conditional_probability[0] /= p_n[0]  
    conditional_probability[1] /= p_n[1]  

    # 先驗(yàn)概率
    all_N = sum(p_n)
    p_n = p_n/all_N
    return p_n,conditional_probability

argmax 判斷

def judge(testEntry):
    postingList,classVec = loadDataSet()
    vocab,vocab_reverse = getVocabList(postingList)
    p_n,conditional_probability = native_bayes(vocab,postingList,classVec)
    Ans_p = p_n
    
    testEntry_ids = [vocab[word] for word in testEntry]
    for num in testEntry_ids:
        Ans_p[0] *= conditional_probability[0][num]
        Ans_p[1] *= conditional_probability[1][num]
    return np.argmax(Ans_p)

調(diào)用

judge(testEntry = ['stupid', 'garbage'])

輸出 1,和我們預(yù)期的一樣诀浪。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末棋返,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子雷猪,更是在濱河造成了極大的恐慌睛竣,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件求摇,死亡現(xiàn)場(chǎng)離奇詭異射沟,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)与境,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)验夯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人摔刁,你說(shuō)我怎么就攤上這事挥转。” “怎么了共屈?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵绑谣,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我拗引,道長(zhǎng)借宵,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任矾削,我火速辦了婚禮壤玫,結(jié)果婚禮上豁护,老公的妹妹穿的比我還像新娘。我一直安慰自己欲间,他們只是感情好择镇,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著括改,像睡著了一般腻豌。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上嘱能,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天吝梅,我揣著相機(jī)與錄音,去河邊找鬼惹骂。 笑死苏携,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的对粪。 我是一名探鬼主播右冻,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼著拭!你這毒婦竟也來(lái)了纱扭?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤儡遮,失蹤者是張志新(化名)和其女友劉穎乳蛾,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體鄙币,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡肃叶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了十嘿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片因惭。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖绩衷,靈堂內(nèi)的尸體忽然破棺而出蹦魔,到底是詐尸還是另有隱情,我是刑警寧澤唇聘,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布版姑,位于F島的核電站柱搜,受9級(jí)特大地震影響迟郎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜聪蘸,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一宪肖、第九天 我趴在偏房一處隱蔽的房頂上張望表制。 院中可真熱鬧,春花似錦控乾、人聲如沸么介。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)壤短。三九已至,卻和暖如春慨仿,著一層夾襖步出監(jiān)牢的瞬間久脯,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工镰吆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留帘撰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓万皿,卻偏偏與公主長(zhǎng)得像摧找,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子牢硅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容