概率統(tǒng)計(jì):如何利用樸素貝葉斯算法過濾垃圾短信尸闸?

算法解析1. 基于黑名單的過濾器1,維護(hù)一個(gè)騷擾電話號碼和垃圾短信發(fā)送號碼的黑名單孕锄。①:如果黑名單中的電話號碼不多吮廉,可以使用散列表、二叉樹等動(dòng)態(tài)數(shù)據(jù)結(jié)構(gòu)來存儲畸肆,對內(nèi)存的消耗并不會很大 每個(gè)號碼看作一個(gè)字符串宦芦,并且假設(shè)平均長度是 16 個(gè)字節(jié),那存儲 50 萬個(gè)電話號碼恼除,大約需要 10MB 的內(nèi)存空間踪旷,但當(dāng)號碼超過500萬個(gè)時(shí),使用散列表就需要100MB空間豁辉,這個(gè)對用戶的手機(jī)而言是不可接受的。②:布隆過濾器最大的特點(diǎn)就是比較省存儲空間舀患,所以徽级,用它來解決這個(gè)問題很合適 存儲 500 萬個(gè)手機(jī)號碼,把位圖大小設(shè)置為 10 倍數(shù)據(jù)大小聊浅,也只需要5000 萬 bits餐抢,換算成字節(jié)不到 7MB 的存儲空間③:還有一種時(shí)間換空間的方法,可以將內(nèi)存的消耗優(yōu)化到極致 把黑名單存儲在服務(wù)器端上低匙,服務(wù)器端來做過濾和攔截的核心工作旷痕。手機(jī)端只將要檢查的號碼發(fā)送給服務(wù)器端,服務(wù)器端將判斷結(jié)果返回給手機(jī)端顽冶,但網(wǎng)絡(luò)通信通常比較慢2. 基于規(guī)則的過濾器

1欺抗,基于規(guī)則的過濾方式
①:預(yù)先設(shè)定一些規(guī)則,如果某條短信符合這些規(guī)則强重,我們就可以判定它是垃圾短信
②:但如果短信只是滿足其中一條規(guī)則绞呈,如果就判定為垃圾短信,會存在比較大的誤判的情況间景。所以可以綜合多條規(guī)則進(jìn)行判斷
③:或每條規(guī)則對應(yīng)一個(gè)不同的得分佃声,滿足哪條規(guī)則,就累加對應(yīng)的分?jǐn)?shù)倘要,某短信的總得分超過閾值圾亏,才會被判定為垃圾短信

2,難點(diǎn)問題
過濾規(guī)則要實(shí)到執(zhí)行層面,其實(shí)還有很大的距離志鹃,還有很多細(xì)節(jié)需要處理父晶,如第一條規(guī)則中,我們該如何定義特殊單詞弄跌;第二條規(guī)則中甲喝,我們該如何定義什么樣的號碼是群發(fā)號碼等等
3,具體細(xì)節(jié)
我們該如何定義特殊單詞
雖然可以基于概率統(tǒng)計(jì)的方法铛只,借助計(jì)算機(jī)強(qiáng)大的計(jì)算能力埠胖,找出哪些單詞最常出現(xiàn)在垃圾短信中,將這些最常出現(xiàn)的單詞淳玩,作為特殊單詞直撤,用來過濾短信。
不過這種方法的前提是蜕着,要有大量的樣本數(shù)據(jù)谋竖,并且每條短信都做好了標(biāo)記,它是垃圾短信還是非垃圾短信承匣。
如對 1000 萬條短信蓖乘,
①,進(jìn)行分詞處理(借助中文或者英文分詞算法)韧骗,去掉“的嘉抒、和、是”等沒有意義的停用詞(Stop words)袍暴,得到 n 個(gè)不同的單詞
②些侍,針對每個(gè)單詞,統(tǒng)計(jì)有多少個(gè)垃圾短信出現(xiàn)了這個(gè)單詞政模,有多少個(gè)非垃圾短信會出現(xiàn)這個(gè)單詞岗宣,進(jìn)而求出每個(gè)單詞分別出現(xiàn)在垃圾短信,非垃圾短信中的概率淋样。
③耗式,如果某個(gè)單詞出現(xiàn)在垃圾短信中的概率,遠(yuǎn)大于出現(xiàn)在非垃圾短信中的概率习蓬,則可這個(gè)單詞作為特殊單詞纽什,用來過濾垃圾短信
4,缺點(diǎn)問題
一方面躲叼,這些規(guī)則受人的思維方式局限芦缰,規(guī)則未免太過簡單;
另一方面枫慷,垃圾短信發(fā)送者可能會針對規(guī)則让蕾,精心設(shè)計(jì)短信浪规,繞過這些規(guī)則的攔截

  1. 基于概率統(tǒng)計(jì)的過濾器

1,理論基礎(chǔ)
①:這種基于概率統(tǒng)計(jì)的過濾方式探孝,基礎(chǔ)理論是基于樸素貝葉斯算法
2笋婿,實(shí)踐方法
①:基于概率統(tǒng)計(jì)的過濾器,是基于短信內(nèi)容來判定是否是垃圾短信
②:需要把短信抽象成一組計(jì)算機(jī)可以理解并且方便計(jì)算的特征項(xiàng)顿颅,用這一組特征項(xiàng)代替短信本身缸濒,來做垃圾短信過濾
③:可以通過分詞算法,把一個(gè)短信分割成 n 個(gè)單詞粱腻。這 n 個(gè)單詞就是一組特征項(xiàng)庇配,全權(quán)代表這個(gè)短信。
④:因此绍些,判定一個(gè)短信是否是垃圾短信的問題捞慌,就變成了,判定同時(shí)包含這幾個(gè)單詞的短信是否是垃圾短信
3柬批,

使用概率啸澡,來表征一個(gè)短信是垃圾短信的可信程度。如果用公式將這個(gè)概率表示出來氮帐,就是下面這個(gè)樣子:

盡管我們有大量的短信樣本嗅虏,但是我們沒法通過樣本數(shù)據(jù)統(tǒng)計(jì)得到這個(gè)概率。沒有樣本揪漩,也就無法計(jì)算概率旋恼。所以這樣的推理方式雖然正確,但是實(shí)踐中并不好用奄容。所以我們需要通過樸素貝葉斯公式,將這個(gè)概率的求解产徊,分解為其他三個(gè)概率的求解昂勒。

基于下面這條著名的概率規(guī)則來計(jì)算。

獨(dú)立事件發(fā)生的概率計(jì)算公式:P(AB) = P(A)P(B)

如果事件 A 和事件 B 是獨(dú)立事件舟铜,兩者的發(fā)生沒有相關(guān)性戈盈,事件 A 發(fā)生的概率 P(A) 等于 p1,事件 B 發(fā)生的概率 P(B) 等于 p2谆刨,那兩個(gè)同時(shí)發(fā)生的概率 P(AB) 就等于 P(A)P(B)塘娶。
基于這條獨(dú)立事件發(fā)生概率的計(jì)算公式,我們可以把 P(W1痊夭,W2刁岸,W3,…她我,Wn 同時(shí)出現(xiàn)在一條短信中 | 短信是垃圾短信)分解為下面這個(gè)公式:

在求解 p1 和 p2 倍數(shù)(p1/p2)的時(shí)候虹曙,我們也就不需要這個(gè)值迫横。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市酝碳,隨后出現(xiàn)的幾起案子矾踱,更是在濱河造成了極大的恐慌,老刑警劉巖疏哗,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呛讲,死亡現(xiàn)場離奇詭異,居然都是意外死亡返奉,警方通過查閱死者的電腦和手機(jī)贝搁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來衡瓶,“玉大人徘公,你說我怎么就攤上這事∠耄” “怎么了关面?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長十厢。 經(jīng)常有香客問我等太,道長,這世上最難降的妖魔是什么蛮放? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任缩抡,我火速辦了婚禮,結(jié)果婚禮上包颁,老公的妹妹穿的比我還像新娘瞻想。我一直安慰自己,他們只是感情好娩嚼,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布蘑险。 她就那樣靜靜地躺著,像睡著了一般岳悟。 火紅的嫁衣襯著肌膚如雪佃迄。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天贵少,我揣著相機(jī)與錄音呵俏,去河邊找鬼。 笑死滔灶,一個(gè)胖子當(dāng)著我的面吹牛普碎,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播宽气,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼随常,長吁一口氣:“原來是場噩夢啊……” “哼潜沦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起绪氛,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤唆鸡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后枣察,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體争占,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年序目,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了臂痕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡猿涨,死狀恐怖握童,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情叛赚,我是刑警寧澤澡绩,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站俺附,受9級特大地震影響肥卡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜事镣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一步鉴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧璃哟,春花似錦氛琢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蕴掏,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間调鲸,已是汗流浹背盛杰。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留藐石,地道東北人即供。 一個(gè)月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像于微,于是被迫代替她去往敵國和親逗嫡。 傳聞我的和親對象是個(gè)殘疾皇子青自,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評論 2 354