總結自《極客時間——數(shù)據(jù)分析》課程
貝葉斯原理跟我們的生活聯(lián)系非常緊密。舉個例子贷揽,如果你看到一個人總是花錢,那么會推斷這個人多半是個有錢人梦碗。當然這也不是絕對擒滑,也就是說,當你不能準確預知一個事物本質(zhì)的時候叉弦,你可以依靠和事物本質(zhì)相關的事件來進行判斷丐一,如果事情發(fā)生的頻次多,則證明這個屬性更有可能存在淹冰。
一.貝葉斯原理
貝葉斯原理是怎么來的呢库车?
貝葉斯為了解決“逆向概率”問題,嘗試解答在沒有太多可靠證據(jù)的情況下樱拴,怎樣做出更符合數(shù)學邏輯的推測柠衍。
所謂“逆向概率”是相對“正向概率”而言。正向概率的問題很容易理解晶乔,比如我們已經(jīng)知道袋子里面有 N 個球珍坊,不是黑球就是白球,其中 M 個是黑球正罢,那么把手伸進去摸一個球阵漏,就能知道摸出黑球的概率是多少。
在現(xiàn)實生活中翻具,我們很難知道事情的全貌履怯。如果我們事先不知道袋子里面黑球和白球的比例,而是通過我們摸出來的球的顏色裆泳,能判斷出袋子里面黑白球的比例么叹洲?
貝葉斯原理建立在主觀判斷的基礎上:在我們不了解所有客觀事實的情況下,同樣可以先估計一個值工禾,然后根據(jù)實際結果不斷進行修正运提。
先驗概率
通過經(jīng)驗來判斷事情發(fā)生的概率蝗柔,再比如南方的梅雨季是 6-7 月,就是通過往年的氣候總結出來的經(jīng)驗民泵。
后驗概率
后驗概率就是發(fā)生結果之后诫咱,推測原因的概率。它是屬于條件概率的一種洪灯。
條件概率
事件 A 在另外一個事件 B 已經(jīng)發(fā)生條件下的發(fā)生概率坎缭,表示為 P(A|B),讀作“在 B 發(fā)生的條件下 A 發(fā)生的概率”签钩。
似然函數(shù)
可以把概率模型的訓練過程理解為求參數(shù)估計的過程掏呼。舉個例子,如果一個硬幣在 10次拋落中正面均朝上铅檩。那么你肯定在想憎夷,這個硬幣是均勻的可能性是多少?這里硬幣均勻就是個參數(shù)昧旨,似然函數(shù)就是用來衡量這個模型的參數(shù)拾给。似然在這里就是可能性的意思,它是關于統(tǒng)計參數(shù)的函數(shù)兔沃。
實際上蒋得,貝葉斯原理就是求解后驗概率。
公式如下:
二.樸素貝葉斯
樸素貝葉斯是一種簡單但極為強大的預測建模算法乒疏。之所以稱為樸素貝葉斯额衙,是因為它假設每個輸入變量是獨立的。
樸素貝葉斯模型由兩種類型的概率組成:
(1)類別概率:每個類別的概率P(Cj)
(2)條件概率:每個屬性的條件概率P(Ai|Cj)
什么是類別概率怕吴?
假設我有 7 個棋子窍侧,其中 3 個是白色的,4 個是黑色的转绷。那么棋子是白色的概率就是 3/7伟件,黑色的概率就是 4/7,這個就是類別概率议经。
什么是條件概率斧账?
假設我把這 7 個棋子放到了兩個盒子里,其中盒子 A 里面有 2 個白棋爸业,2 個黑棋其骄;盒子 B里面有 1 個白棋亏镰,2 個黑棋扯旷。那么在盒子 A 中抓到白棋的概率就是 1/2,抓到黑棋的概率也是 1/2索抓,這個就是條件概率钧忽,也就是在某個條件(比如在盒子 A 中)下的概率毯炮。
在樸素貝葉斯中,我們要統(tǒng)計的是屬性的條件概率耸黑,也就是假設取出來的是白色的棋子桃煎,那么它屬于盒子 A 的概率是 2/3。
以下為貝葉斯原理大刊、貝葉斯分類及樸素貝葉斯的關系:
樸素貝葉斯分類器工作流程
樸素貝葉斯分類常用于文本分類为迈,尤其是對于英文等語言來說,分類效果很好缺菌。它常用于垃圾文本過濾葫辐、情感預測、推薦系統(tǒng)等伴郁。
三.樸素貝葉斯實戰(zhàn)
樸素貝葉斯分類最適合的場景就是文本分類耿战、情感分析和垃圾郵件識別。其中情感分析和垃圾郵件識別都是通過文本來進行判斷焊傅。從這里你能看出來剂陡,這三個場景本質(zhì)上都是文本分類,這也是樸素貝葉斯最擅長的地方狐胎。所以樸素貝葉斯也常用于自然語言處理 NLP 的工具鸭栖。
Scikit-learn給我們提供了 3 個樸素貝葉斯分類算法,分別是高斯樸素貝葉斯(GaussianNB)握巢、多項式樸素貝葉斯(MultinomialNB)和伯努利樸素貝葉斯(BernoulliNB)纤泵。
可以根據(jù)特征變量的不同選擇不同的算法:
高斯樸素貝葉斯:特征變量是連續(xù)變量,符合高斯分布镜粤,比如說人的身高捏题,物體的長度。
多項式樸素貝葉斯:特征變量是離散變量肉渴,符合多項分布公荧,在文檔分類中特征變量體現(xiàn)在一個單詞出現(xiàn)的次數(shù),或者是單詞的 TF-IDF 值等同规。
伯努利樸素貝葉斯:特征變量是布爾變量循狰,符合 0/1 分布,在文檔分類中特征是單詞是否出現(xiàn)券勺。
高斯樸素貝葉斯:特征變量是連續(xù)變量绪钥,符合高斯分布,比如說人的身高关炼,物體的長度程腹。
多項式樸素貝葉斯:特征變量是離散變量,符合多項分布儒拂,在文檔分類中特征變量體現(xiàn)在一個單詞出現(xiàn)的次數(shù)寸潦,或者是單詞的 TF-IDF 值等色鸳。
伯努利樸素貝葉斯:特征變量是布爾變量,符合 0/1 分布见转,在文檔分類中特征是單詞是否出現(xiàn)命雀。
什么是TF-IDF值?
TF-IDF 是一個統(tǒng)計方法斩箫,用來評估某個詞語對于一個文件集或文檔庫中的其中一份文件的重要程度吏砂。
TF-IDF 實際上是兩個詞組 Term Frequency 和 Inverse Document Frequency 的總稱,兩者縮寫為 TF 和 IDF乘客,分別代表了詞頻和逆向文檔頻率赊抖。
詞頻TF計算一個單詞在文檔中出現(xiàn)的次數(shù)。
逆向文檔頻率 IDF寨典,是指一個單詞在文檔中的區(qū)分度氛雪。它認為一個單詞出現(xiàn)在的文檔數(shù)越少,就越能通過這個單詞把該文檔和其他文檔區(qū)分開耸成。IDF 越大就代表該單詞的區(qū)分度越大报亩。
所以 TF-IDF 實際上是詞頻 TF 和逆向文檔頻率 IDF 的乘積。這樣我們傾向于找到 TF 和IDF 取值都高的單詞作為區(qū)分井氢,即這個單詞在一個文檔中出現(xiàn)的次數(shù)多弦追,同時又很少出現(xiàn)在其他文檔中几莽。這樣的單詞適合用于分類腺办。