貝葉斯分類器（1）貝葉斯決策論概述鸿脓、貝葉斯和頻率、概率和似然

貝葉斯分類器思維導(dǎo)圖

貝葉斯分類器廊移，即是以貝葉斯決策理論為基礎(chǔ)的分類器画机，什么是貝葉斯決策理論呢步氏？

貝葉斯決策論

1 統(tǒng)計推斷中的貝葉斯學(xué)派和頻率學(xué)派

貝葉斯決策論是貝葉斯學(xué)派關(guān)于統(tǒng)計推斷（根據(jù)已有資料或者說數(shù)據(jù)荚醒，對未知問題作出判斷）的理論界阁，要理解貝葉斯理論泡躯，就不得不和他的 “老對手”——頻率學(xué)派（經(jīng)典學(xué)派）一起聊较剃。

首先我們看看統(tǒng)計推斷的問題是什么。statistical inference 是學(xué)統(tǒng)計的目的,即根據(jù)樣本數(shù)據(jù),對總體進行統(tǒng)計推斷(假設(shè)檢驗或預(yù)測).是指統(tǒng)計學(xué)中研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法。統(tǒng)計推斷主要可以分為兩大類：一類是參數(shù)估計問題偿短；另一類是假設(shè)檢驗問題馋没。

常見統(tǒng)計推斷問題

關(guān)于這些問題纤子，從20世紀上半頁至今款票，頻率學(xué)派和貝葉斯學(xué)派兩大學(xué)派一直在辯論艾少，也一直互相不服缚够。貝葉斯學(xué)派的發(fā)展在二十世紀滯后于頻率學(xué)派谍椅，所以我們在學(xué)校教材上學(xué)到的統(tǒng)計推斷的方法基本上都是頻率學(xué)派的雏吭，比如最大似然估計杖们、卡方檢驗摘完、T檢驗孝治、矩估計等等谈飒。

兩個學(xué)派爭論的點是什么呢？

頻率學(xué)派 認為頻率即概率掺逼，我們所看到的樣本只是無數(shù)可能的試驗結(jié)果的一部分展現(xiàn)吕喘，樣本中未出現(xiàn)的結(jié)果不是不可能出現(xiàn)氯质，只是這次抽樣沒有出現(xiàn)而已闻察，綜合考慮我們看到的和沒看到的全部可能的結(jié)果辕漂，總體分布 $F(X,\theta )$ 是確定的钉嘹，因此其中參數(shù) $\theta$ 也是確定的跋涣，按我的理解陈辱，頻率學(xué)派是忽略我們觀察者沛贪，而從事件本身出發(fā)鹏浅，希望以純粹的客觀事實來描述事件隐砸。所以我們看像極大似然估計季希、區(qū)間估計等方法式塌，都是希望盡可能的找到那個未知的峰尝、確定的參數(shù)武学。
貝葉斯學(xué)派 認為概率是反映事件發(fā)生可能性的一個度量硼补，并且不認為樣本X是無數(shù)可能中的一部分已骇，既然樣本X出現(xiàn)了，那么就只能依靠事件X去做判斷卵渴，我們不知道是什么分布生成了這些樣本奖恰，所以什么分布都有可能，因此其中參數(shù) $\theta$ 是不確定的，只是不同的 $\theta$ 的概率不同岩榆，而且應(yīng)該是服從一個分布 $H(\theta )$ 的勇边， $H(\theta )$ 為“先驗分布”（指抽樣之前得到的分布）粒褒，這是貝葉斯學(xué)派引入的主觀概率的概念（主觀概率是根據(jù)對事件的周密觀察所得到的先驗知識诚镰，并不是唯心主義的）奕坟，這里的“驗”就是這些樣本X的作用， $H(\theta )$ 經(jīng)過真實樣本的“驗”之后清笨，就得到了“后驗概率” $H(\theta|X )$ （后驗概率是條件概率的形式月杉，但不可以理解為這個形式的就是后驗概率，重點要看有沒有后驗概率的思想）抠艾。因此我們可以理解為貝葉斯學(xué)派沒有忽略觀察者的作用苛萎，在做判斷時需要不僅要考慮抽樣信息，也要考慮觀察者對事件的先驗知識腌歉，同時還引入了各種推斷結(jié)果所帶來的損失，顯然這與頻率學(xué)派的出發(fā)點是不同的谨敛，從拉普拉斯所說的Probability theory is nothing but common sense reduced to calculation也可窺一二究履。

現(xiàn)在應(yīng)該對貝葉斯學(xué)派的思想有了一點認識了。那我們看看在分類問題上貝葉斯分類器是怎么一回事呢脸狸？

2 貝葉斯分類器

2.1 貝葉斯分類器概述

貝葉斯分類器是一類分類算法的總稱最仑，貝葉斯定理是這類算法的核心藐俺，因此統(tǒng)稱為貝葉斯分類。

在分類問題中泥彤，我們可以根據(jù)樣本 $x$ 計算出在樣本中各個類別 $c$ 出現(xiàn)的概率欲芹，即后驗概率 $P(c|x )$ ，根據(jù)之前對貝葉斯統(tǒng)計推斷的介紹吟吝，還需要引入各種推斷結(jié)果所帶來的損失菱父，我們定義 $\lambda _{i,j}$ 為將 $c_j$ 誤分為 $c_i$ 時所產(chǎn)生的損失，根據(jù)誤判出現(xiàn)的概率和導(dǎo)致的損失剑逃，可以計算出錯誤分類是產(chǎn)生的期望損失浙宜，稱之為“風(fēng)險”：

設(shè)想我們制定了一個判定準則 $h$ 來對 $x$ 進行分類得到 $h(x)$ ，如果每個分類結(jié)果 $h(x)$ 都是風(fēng)險最小的結(jié)果蛹磺，那個總體的風(fēng)險 $R(h)$ 也是最小的粟瞬，這就是貝葉斯判定準則，稱 $h$ 為貝葉斯最優(yōu)分類器萤捆。

貝葉斯最優(yōu)分類器為：

后驗概率最大化與風(fēng)險最小化：對于二分類問題裙品，λ要么等于0要么等于1

當 $i=i$ ，即正確分類時俗或， $\lambda_{ii}=0$ 市怎，所以可以計算此時所以條件風(fēng)險(該條件下的風(fēng)險)為

$R(c_{i}|x)=\sum_{j=1}^N \lambda _{ij}P(c_{j}|x) =\sum_{j=1}^N 1*P(c_{j}|x) - P(c_{i}|x) =1-P(c_{i}|x)$
即

所以當分類錯誤率達到最小時，需要使后驗概率最大化就是使風(fēng)險最小化辛慰。即：

$P(c|x)$ 就是根據(jù)樣本 $x$ 進行分類区匠，想想以前講過的KNN、LR等昆雀，所做的不就是這個工作嗎辱志，這種直接對 $P(c|x)$ 進行建模來預(yù)測 $c$ 的方法，都叫做判別式模型（Discriminative Model）狞膘，判別式模型不考慮樣本的產(chǎn)生模型揩懒，直接研究預(yù)測模型。如果我們換一種思路挽封，先得到聯(lián)合分布 $P(c,x)$ 已球，再得到后驗概率 $P(c|x)$ ，這就是生成式模型（Generative Model）辅愿，顧名思義智亮，生成式模型會研究樣本的產(chǎn)生模型，判別式模型和生成式模型都是監(jiān)督學(xué)習(xí)中的概念点待。

顯然生成模型比判別模型包含更多的信息阔蛉，可以做到更多的事，實際上由生成模型可以得到判別模型癞埠，但由判別模型得不到生成模型状原，貝葉斯分類器就是從生成模型的角度來解決分類問題聋呢，怎么實現(xiàn)呢？

$h^*(x)=\argmax_{c\in Y} P(c|x)=\argmax_{c\in Y} \frac{P(x,c)}{P(x)}=\argmax_{c\in Y} \frac{P(c)*P(x|c)}{P(x)}$

$P(c)$ 是類“先驗”（prior）概率颠区； $P(x|c)$ 是樣本x相對于類標記c的類條件概率（class-conditional probability）; $P(x)$ 是用于歸一化的“證據(jù)”（evidence）因子削锰。

2.2 求解方法

類先驗概率 $P(c)$ 表達了樣本空間中各類樣本所占的比例，根據(jù)大數(shù)定律毕莱，當訓(xùn)練集包含充足的獨立同分布樣本時器贩， $P(c)$ 可通過各類樣本出現(xiàn)的頻率來進行估計. $P(x)$ 看起來是樣本出現(xiàn)的概率，對給定樣本 $x$ 朋截，從形式上也可以看出與樣本的類標記無關(guān)蛹稍，因此估計 $P(c|x)$ 的問題就轉(zhuǎn)化為如何基于訓(xùn)練數(shù)據(jù)D來估計先驗 $P(c)$ 和 $P(x|c)$ 的問題，所以問題的重點就是怎么求 $P(x|c)$ 质和，得到 $P(x|c)$ 就能得到聯(lián)合概率 $P(x,c)$ 稳摄，也能能得到一個貝葉斯分類器了。那么怎么完成呢饲宿？能直接通過樣本中的頻率來統(tǒng)計嗎？

對 $P(x|c)$ 來說胆描，由于它涉及關(guān)于x 所有屬性的聯(lián)合概率瘫想，直接根據(jù)樣本出現(xiàn)的頻率來估計將會遇到嚴重的困難，例如昌讲，假設(shè)樣本的 d 個屬性都是二值的国夜，則樣本空間將有 $2^d$ 種可能的取值，在現(xiàn)實應(yīng)用中短绸，這個值往往遠大于訓(xùn)練樣本數(shù)m车吹，也就是說，很多樣本取值在訓(xùn)練集中根本沒有出現(xiàn)醋闭，直接使用頻率來估計 $P(x|c)$ 顯然不可行窄驹，因為"未被觀測到"與"出現(xiàn)概率為零"通常是不同的。

那應(yīng)該怎么計算呢证逻？先說第一種方法：最大似然估計乐埠。

要求得類條件概率 $P(x|c)$ ，如果我們什么信息都沒有肯定是不行的囚企，所以一般假設(shè)我們知道它的概率分布丈咐，然后用一定方法來求出分布的參數(shù)即可。對于求分布的參數(shù)龙宏，一般使用最大似然估計MLE棵逊，雖然MLE是頻率學(xué)派的估計方法，不過好用的東西大家一起用嘛银酗，貝葉斯學(xué)派有個差不多的估計方法：最大后驗估計MAP辆影，不過MAP比MLE多了個作為因子的先驗概率P(θ)徒像，更復(fù)雜一些，這些內(nèi)容咱們下回再講秸歧。

說回最大似然估計厨姚，說到最大似然估計就不得不問一句，什么是似然键菱？這里需要好好的說道說道谬墙，只有搞清楚似然的概念才能理解怎么計算它。

2.3 似然

2.3.1 似然经备、似然與概率的區(qū)別和聯(lián)系

極大似然是頻率學(xué)派的參數(shù)估計方法拭抬，似然即參數(shù)的似然，是由頻率學(xué)派建立的侵蒙、極大似然估計中的重要概念造虎。從前文可知，頻率學(xué)派認為參數(shù)是確定值纷闺，參數(shù)的似然就表達了給定樣本 $x$ 下某參數(shù)為這個確定值的可能性算凿。在計算上，參數(shù)的似然值等于在該參數(shù)下事件發(fā)生的概率 $L(θ|x)=P(X=x|θ)$ 犁功。也就是說氓轰，似然值可以用概率來計算，但似然卻不是概率浸卦，因為頻率學(xué)派的體系下署鸡，參數(shù)不是隨機變量，故似然不是概率限嫌，概率是在確定參數(shù)的情況下花墩，觀測結(jié)果發(fā)生的可能性墨坚，概率的對象是概率空間中的事件，而似然的對象是參數(shù)。

因此县恕，似然函數(shù)定義為：似然函數(shù) $L(θ|x)$ 是給定樣本x時冰啃，關(guān)于參數(shù)θ的函數(shù)枫攀，其在數(shù)值上等于給定參數(shù)θ后變量X的概率

$L(θ|x)=f(x;θ)$

如果 $x$ 是離散型隨機變量時 $f(x;θ)$ 是概率分布偎快， $f(x;θ)=P_{θ}(x)$ ；
如果 $x$ 是連續(xù)型隨機變量時 $f(x;θ)$ 是概率密度入录，此時在 $x$ （一個樣本點）處 $f(x;θ)=0$ （那給定這一個點的 $θ$ 的似然也是0蛤奥，是不是可以理解為根據(jù)這點信息判斷出 $θ$ 是否為真值的可能性太低），此時應(yīng)該給定一段 $x$ 區(qū)間來積分得到似然值僚稿。

值得注意的是凡桥，因為 $θ$ 不是隨機變量，所以各個 $θ$ 所對應(yīng)的似然值是不能做累加的蚀同，我們都知道： $\sum_{x}^X P(x)=1$ 缅刽，這也是概率的一個基本性質(zhì)啊掏，而似然是不滿足這一點的， $\sum_{θ} L(θ;x)$ 并不為1衰猛，比如兩個不均勻的硬幣迟蜜，正面的概率未知作為 $θ$ ，給定 $x$ 為觀察到一次正面啡省， $θ=0.6$ 時 $P=0.6$ 娜睛， $θ=0.8$ 時 $P=0.8$ ，顯然加和大于1卦睹，其實甚至可以說這樣相加是沒有意義的畦戒，因為 $θ$ 只是似然函數(shù)的自變量，并不是概率空間里的取值结序。這也從一方面說明似然是不滿足概率定理（柯爾莫果洛夫公理）的三個條件的障斋，似然并不是概率。

2.3.2 一個例子

關(guān)于似然徐鹤，知乎上還有一個很形象的例子垃环，他山之石，可以借鑒一下返敬，如何理解似然函數(shù)?HiTao的回答

其中的核心觀點是：似然和概率兩個函數(shù)有著不同的名字晴裹，卻源于同一個函數(shù)。 $p(x|θ)$ 是一個有著兩個變量的函數(shù)救赐。如果，你將θ設(shè)為常量只磷，則你會得到一個概率函數(shù)（關(guān)于x的函數(shù)）经磅；如果，你將x設(shè)為常量你將得到似然函數(shù)（關(guān)于θ的函數(shù)）钮追。