貝葉斯分類器(1)貝葉斯決策論概述肌幽、貝葉斯和頻率喂急、概率和似然

貝葉斯分類器思維導(dǎo)圖

貝葉斯分類器廊移,即是以貝葉斯決策理論為基礎(chǔ)的分類器画机,什么是貝葉斯決策理論呢步氏?

貝葉斯決策論

1 統(tǒng)計推斷中的貝葉斯學(xué)派和頻率學(xué)派

貝葉斯決策論是貝葉斯學(xué)派關(guān)于統(tǒng)計推斷(根據(jù)已有資料或者說數(shù)據(jù)荚醒,對未知問題作出判斷)的理論界阁,要理解貝葉斯理論泡躯,就不得不和他的 “老對手”——頻率學(xué)派(經(jīng)典學(xué)派)一起聊较剃。

首先我們看看統(tǒng)計推斷的問題是什么。statistical inference 是學(xué)統(tǒng)計的目的,即根據(jù)樣本數(shù)據(jù),對總體進行統(tǒng)計推斷(假設(shè)檢驗 或 預(yù)測).是指統(tǒng)計學(xué)中研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法。統(tǒng)計推斷主要可以分為兩大類:一類是參數(shù)估計問題偿短;另一類是假設(shè)檢驗問題馋没。

常見統(tǒng)計推斷問題

關(guān)于這些問題纤子,從20世紀上半頁至今款票,頻率學(xué)派和貝葉斯學(xué)派兩大學(xué)派一直在辯論艾少,也一直互相不服缚够。貝葉斯學(xué)派的發(fā)展在二十世紀滯后于頻率學(xué)派谍椅,所以我們在學(xué)校教材上學(xué)到的統(tǒng)計推斷的方法基本上都是頻率學(xué)派的雏吭,比如最大似然估計杖们、卡方檢驗摘完、T檢驗孝治、矩估計等等谈飒。

兩個學(xué)派爭論的點是什么呢?

  • 頻率學(xué)派 認為頻率即概率掺逼,我們所看到的樣本只是無數(shù)可能的試驗結(jié)果的一部分展現(xiàn)吕喘,樣本中未出現(xiàn)的結(jié)果不是不可能出現(xiàn)氯质,只是這次抽樣沒有出現(xiàn)而已闻察,綜合考慮我們看到的和沒看到的全部可能的結(jié)果辕漂,總體分布F(X,\theta )是確定的钉嘹,因此其中參數(shù)\theta也是確定的跋涣,按我的理解陈辱,頻率學(xué)派是忽略我們觀察者沛贪,而從事件本身出發(fā)鹏浅,希望以純粹的客觀事實來描述事件隐砸。所以我們看像極大似然估計季希、區(qū)間估計等方法式塌,都是希望盡可能的找到那個未知的峰尝、確定的參數(shù)武学。

  • 貝葉斯學(xué)派 認為概率是反映事件發(fā)生可能性的一個度量硼补,并且不認為樣本X是無數(shù)可能中的一部分已骇,既然樣本X出現(xiàn)了,那么就只能依靠事件X去做判斷卵渴,我們不知道是什么分布生成了這些樣本奖恰,所以什么分布都有可能,因此其中參數(shù)\theta是不確定的,只是不同的\theta的概率不同岩榆,而且應(yīng)該是服從一個分布H(\theta )的勇边,H(\theta )為“先驗分布”(指抽樣之前得到的分布)粒褒,這是貝葉斯學(xué)派引入的主觀概率的概念(主觀概率是根據(jù)對事件的周密觀察所得到的先驗知識诚镰,并不是唯心主義的)奕坟,這里的“驗”就是這些樣本X的作用,H(\theta )經(jīng)過真實樣本的“驗”之后清笨,就得到了“后驗概率”H(\theta|X )(后驗概率是條件概率的形式月杉,但不可以理解為這個形式的就是后驗概率,重點要看有沒有后驗概率的思想)抠艾。因此我們可以理解為貝葉斯學(xué)派沒有忽略觀察者的作用苛萎,在做判斷時需要不僅要考慮抽樣信息,也要考慮觀察者對事件的先驗知識腌歉,同時還引入了各種推斷結(jié)果所帶來的損失,顯然這與頻率學(xué)派的出發(fā)點是不同的谨敛,從拉普拉斯所說的Probability theory is nothing but common sense reduced to calculation也可窺一二究履。

現(xiàn)在應(yīng)該對貝葉斯學(xué)派的思想有了一點認識了。那我們看看在分類問題上貝葉斯分類器是怎么一回事呢脸狸?

2 貝葉斯分類器

2.1 貝葉斯分類器概述

貝葉斯分類器是一類分類算法的總稱最仑,貝葉斯定理是這類算法的核心藐俺,因此統(tǒng)稱為貝葉斯分類。

在分類問題中泥彤,我們可以根據(jù)樣本x計算出在樣本中各個類別c出現(xiàn)的概率欲芹,即后驗概率P(c|x ),根據(jù)之前對貝葉斯統(tǒng)計推斷的介紹吟吝,還需要引入各種推斷結(jié)果所帶來的損失菱父,我們定義\lambda _{i,j}為將c_j誤分為c_i時所產(chǎn)生的損失,根據(jù)誤判出現(xiàn)的概率和導(dǎo)致的損失剑逃,可以計算出錯誤分類是產(chǎn)生的期望損失浙宜,稱之為“風(fēng)險”:

設(shè)想我們制定了一個判定準則h來對x進行分類得到h(x),如果每個分類結(jié)果h(x)都是風(fēng)險最小的結(jié)果蛹磺,那個總體的風(fēng)險R(h)也是最小的粟瞬,這就是貝葉斯判定準則,稱h為貝葉斯最優(yōu)分類器萤捆。

貝葉斯最優(yōu)分類器為:

后驗概率最大化與風(fēng)險最小化:對于二分類問題裙品,λ要么等于0要么等于1

i=i,即正確分類時俗或,\lambda_{ii}=0市怎,所以可以計算此時所以條件風(fēng)險(該條件下的風(fēng)險)為

R(c_{i}|x)=\sum_{j=1}^N \lambda _{ij}P(c_{j}|x) =\sum_{j=1}^N 1*P(c_{j}|x) - P(c_{i}|x) =1-P(c_{i}|x)

  • 所以當分類錯誤率達到最小時,需要使后驗概率最大化就是使風(fēng)險最小化辛慰。即:

P(c|x)就是根據(jù)樣本x進行分類区匠,想想以前講過的KNN、LR等昆雀,所做的不就是這個工作嗎辱志,這種直接對P(c|x)進行建模來預(yù)測c的方法,都叫做判別式模型(Discriminative Model)狞膘,判別式模型不考慮樣本的產(chǎn)生模型揩懒,直接研究預(yù)測模型。如果我們換一種思路挽封,先得到聯(lián)合分布P(c,x)已球,再得到后驗概率P(c|x),這就是生成式模型(Generative Model)辅愿,顧名思義智亮,生成式模型會研究樣本的產(chǎn)生模型,判別式模型和生成式模型都是監(jiān)督學(xué)習(xí)中的概念点待。

顯然生成模型比判別模型包含更多的信息阔蛉,可以做到更多的事,實際上由生成模型可以得到判別模型癞埠,但由判別模型得不到生成模型状原,貝葉斯分類器就是從生成模型的角度來解決分類問題聋呢,怎么實現(xiàn)呢?

h^*(x)=\argmax_{c\in Y} P(c|x)=\argmax_{c\in Y} \frac{P(x,c)}{P(x)}=\argmax_{c\in Y} \frac{P(c)*P(x|c)}{P(x)}

P(c)是類“先驗”(prior)概率颠区;P(x|c)是樣本x相對于類標記c的類條件概率(class-conditional probability);P(x)是用于歸一化的“證據(jù)”(evidence)因子削锰。

2.2 求解方法

類先驗概率P(c)表達了樣本空間中各類樣本所占的比例,根據(jù)大數(shù)定律毕莱,當訓(xùn)練集包含充足的獨立同分布樣本時器贩, P(c)可通過各類樣本出現(xiàn)的頻率來進行估計.P(x)看起來是樣本出現(xiàn)的概率,對給定樣本x朋截,從形式上也可以看出與樣本的類標記無關(guān)蛹稍,因此估計P(c|x)的問題就轉(zhuǎn)化為如何基于訓(xùn)練數(shù)據(jù)D來估計先驗P(c)P(x|c)的問題,所以問題的重點就是怎么求P(x|c)质和,得到P(x|c)就能得到聯(lián)合概率P(x,c)稳摄,也能能得到一個貝葉斯分類器了。那么怎么完成呢饲宿?能直接通過樣本中的頻率來統(tǒng)計嗎?

P(x|c)來說胆描,由于它涉及關(guān)于x 所有屬性的聯(lián)合概率瘫想,直接根據(jù)樣本出現(xiàn)的頻率來估計將會遇到嚴重的困難,例如昌讲,假設(shè)樣本的 d 個屬性都是二值的国夜,則樣本空間將有2^d種可能的取值,在現(xiàn)實應(yīng)用中短绸,這個值往往遠大于訓(xùn)練樣本數(shù)m车吹,也就是說,很多樣本取值在訓(xùn)練集中根本沒有出現(xiàn)醋闭,直接使用頻率來估計P(x|c)顯然不可行窄驹,因為"未被觀測到"與"出現(xiàn)概率為零"通常是不同的。

那應(yīng)該怎么計算呢证逻?先說第一種方法:最大似然估計乐埠。

要求得類條件概率P(x|c),如果我們什么信息都沒有肯定是不行的囚企,所以一般假設(shè)我們知道它的概率分布丈咐,然后用一定方法來求出分布的參數(shù)即可。對于求分布的參數(shù)龙宏,一般使用最大似然估計MLE棵逊,雖然MLE是頻率學(xué)派的估計方法,不過好用的東西大家一起用嘛银酗,貝葉斯學(xué)派有個差不多的估計方法:最大后驗估計MAP辆影,不過MAP比MLE多了個作為因子的先驗概率P(θ)徒像,更復(fù)雜一些,這些內(nèi)容咱們下回再講秸歧。

說回最大似然估計厨姚,說到最大似然估計就不得不問一句,什么是似然键菱?這里需要好好的說道說道谬墙,只有搞清楚似然的概念才能理解怎么計算它。

2.3 似然

2.3.1 似然经备、似然與概率的區(qū)別和聯(lián)系

極大似然是頻率學(xué)派的參數(shù)估計方法拭抬,似然即參數(shù)的似然,是由頻率學(xué)派建立的侵蒙、極大似然估計中的重要概念造虎。從前文可知,頻率學(xué)派認為參數(shù)是確定值纷闺,參數(shù)的似然就表達了給定樣本x下某參數(shù)為這個確定值的可能性算凿。在計算上,參數(shù)的似然值等于在該參數(shù)下事件發(fā)生的概率L(θ|x)=P(X=x|θ)犁功。也就是說氓轰,似然值可以用概率來計算,但似然卻不是概率浸卦,因為頻率學(xué)派的體系下署鸡,參數(shù)不是隨機變量,故似然不是概率限嫌,概率是在確定參數(shù)的情況下花墩,觀測結(jié)果發(fā)生的可能性墨坚,概率的對象是概率空間中的事件,而似然的對象是參數(shù)。

因此县恕,似然函數(shù)定義為:似然函數(shù)L(θ|x)是給定樣本x時冰啃,關(guān)于參數(shù)θ的函數(shù)枫攀,其在數(shù)值上等于給定參數(shù)θ后變量X的概率

L(θ|x)=f(x;θ)

  • 如果x是離散型隨機變量時f(x;θ)是概率分布偎快,f(x;θ)=P_{θ}(x)
  • 如果x是連續(xù)型隨機變量時f(x;θ)是概率密度入录,此時在x(一個樣本點)處f(x;θ)=0(那給定這一個點的θ的似然也是0蛤奥,是不是可以理解為根據(jù)這點信息判斷出θ是否為真值的可能性太低),此時應(yīng)該給定一段x區(qū)間來積分得到似然值僚稿。

值得注意的是凡桥,因為θ不是隨機變量,所以各個θ所對應(yīng)的似然值是不能做累加的蚀同,我們都知道:\sum_{x}^X P(x)=1缅刽,這也是概率的一個基本性質(zhì)啊掏,而似然是不滿足這一點的,\sum_{θ} L(θ;x)并不為1衰猛,比如兩個不均勻的硬幣迟蜜,正面的概率未知作為θ,給定x為觀察到一次正面啡省,θ=0.6P=0.6娜睛,θ=0.8P=0.8,顯然加和大于1卦睹,其實甚至可以說這樣相加是沒有意義的畦戒,因為θ只是似然函數(shù)的自變量,并不是概率空間里的取值结序。這也從一方面說明似然是不滿足概率定理(柯爾莫果洛夫公理)的三個條件的障斋,似然并不是概率。

2.3.2 一個例子

關(guān)于似然徐鹤,知乎上還有一個很形象的例子垃环,他山之石,可以借鑒一下返敬,如何理解似然函數(shù)?HiTao的回答

其中的核心觀點是:似然和概率兩個函數(shù)有著不同的名字晴裹,卻源于同一個函數(shù)。p(x|θ)是一個有著兩個變量的函數(shù)救赐。如果,你將θ設(shè)為常量只磷,則你會得到一個概率函數(shù)(關(guān)于x的函數(shù))经磅;如果,你將x設(shè)為常量你將得到似然函數(shù)(關(guān)于θ的函數(shù))钮追。

舉一個例子:
有一個硬幣预厌,它有θ的概率會正面向上,有θ的概率反面向上≡模現(xiàn)有正反序列:x=HHTTHTHHHH轧叽。無論θ的值是多少,這個序列的概率值為

θ?θ?(1-θ)?(1-θ)?θ?(1-θ)?θ?θ?θ?θ = θ? (1-θ)3

比如刊棕,如果θ=0炭晒,則得到這個序列的概率值為0。如果θ=1/2甥角,概率值為1/1024网严。
嘗試所有θ可取的值,畫出了下圖嗤无,即為似然函數(shù)的函數(shù)圖像:

似然函數(shù)圖像

可以看出θ=0.7時的似然值最大震束,即0.7是最可能是真值的參數(shù)值怜庸,這就是最大似然估計的思想了。

2.4 回到貝葉斯分類

現(xiàn)在應(yīng)該對似然有了一定的了解了垢村,我們回憶一下貝葉斯分類器說到哪了割疾,對:

h^*(x)=\argmax_{c\in Y} P(c|x)=\argmax_{c\in Y} \frac{P(x,c)}{P(x)}=\argmax_{c\in Y} \frac{P(c)*P(x|c)}{P(x)}

我們的目標是用最大似然估計計算得到P(x|c),得到聯(lián)合分布嘉栓,具體做法及MLE和MAP的區(qū)別下一篇再細說~



主要參考資料

《機器學(xué)習(xí)》周志華
如何理解似然函數(shù)?HiTao的回答

.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宏榕,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子胸懈,更是在濱河造成了極大的恐慌担扑,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,378評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件趣钱,死亡現(xiàn)場離奇詭異涌献,居然都是意外死亡,警方通過查閱死者的電腦和手機首有,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,970評論 3 399
  • 文/潘曉璐 我一進店門燕垃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人井联,你說我怎么就攤上這事卜壕。” “怎么了烙常?”我有些...
    開封第一講書人閱讀 168,983評論 0 362
  • 文/不壞的土叔 我叫張陵轴捎,是天一觀的道長。 經(jīng)常有香客問我蚕脏,道長侦副,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,938評論 1 299
  • 正文 為了忘掉前任驼鞭,我火速辦了婚禮秦驯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘挣棕。我一直安慰自己译隘,他們只是感情好,可當我...
    茶點故事閱讀 68,955評論 6 398
  • 文/花漫 我一把揭開白布洛心。 她就那樣靜靜地躺著固耘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪皂甘。 梳的紋絲不亂的頭發(fā)上玻驻,一...
    開封第一講書人閱讀 52,549評論 1 312
  • 那天,我揣著相機與錄音,去河邊找鬼璧瞬。 笑死户辫,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的嗤锉。 我是一名探鬼主播渔欢,決...
    沈念sama閱讀 41,063評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼瘟忱!你這毒婦竟也來了奥额?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,991評論 0 277
  • 序言:老撾萬榮一對情侶失蹤访诱,失蹤者是張志新(化名)和其女友劉穎垫挨,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體触菜,經(jīng)...
    沈念sama閱讀 46,522評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡九榔,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,604評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了涡相。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哲泊。...
    茶點故事閱讀 40,742評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖催蝗,靈堂內(nèi)的尸體忽然破棺而出切威,到底是詐尸還是另有隱情,我是刑警寧澤丙号,帶...
    沈念sama閱讀 36,413評論 5 351
  • 正文 年R本政府宣布先朦,位于F島的核電站,受9級特大地震影響犬缨,放射性物質(zhì)發(fā)生泄漏烙无。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,094評論 3 335
  • 文/蒙蒙 一遍尺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧涮拗,春花似錦乾戏、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,572評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至就漾,卻和暖如春呐能,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,671評論 1 274
  • 我被黑心中介騙來泰國打工摆出, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朗徊,地道東北人。 一個月前我還...
    沈念sama閱讀 49,159評論 3 378
  • 正文 我出身青樓偎漫,卻偏偏與公主長得像爷恳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子象踊,可洞房花燭夜當晚...
    茶點故事閱讀 45,747評論 2 361