貝葉斯分類器廊移,即是以貝葉斯決策理論為基礎(chǔ)的分類器画机,什么是貝葉斯決策理論呢步氏?
貝葉斯決策論
1 統(tǒng)計推斷中的貝葉斯學(xué)派和頻率學(xué)派
貝葉斯決策論是貝葉斯學(xué)派關(guān)于統(tǒng)計推斷(根據(jù)已有資料或者說數(shù)據(jù)荚醒,對未知問題作出判斷)的理論界阁,要理解貝葉斯理論泡躯,就不得不和他的 “老對手”——頻率學(xué)派(經(jīng)典學(xué)派)一起聊较剃。
首先我們看看統(tǒng)計推斷的問題是什么。statistical inference 是學(xué)統(tǒng)計的目的,即根據(jù)樣本數(shù)據(jù),對總體進行統(tǒng)計推斷(假設(shè)檢驗 或 預(yù)測).是指統(tǒng)計學(xué)中研究如何根據(jù)樣本數(shù)據(jù)去推斷總體數(shù)量特征的方法。統(tǒng)計推斷主要可以分為兩大類:一類是參數(shù)估計問題偿短;另一類是假設(shè)檢驗問題馋没。
關(guān)于這些問題纤子,從20世紀上半頁至今款票,頻率學(xué)派和貝葉斯學(xué)派兩大學(xué)派一直在辯論艾少,也一直互相不服缚够。貝葉斯學(xué)派的發(fā)展在二十世紀滯后于頻率學(xué)派谍椅,所以我們在學(xué)校教材上學(xué)到的統(tǒng)計推斷的方法基本上都是頻率學(xué)派的雏吭,比如最大似然估計杖们、卡方檢驗摘完、T檢驗孝治、矩估計等等谈飒。
兩個學(xué)派爭論的點是什么呢?
頻率學(xué)派 認為頻率即概率掺逼,我們所看到的樣本只是無數(shù)可能的試驗結(jié)果的一部分展現(xiàn)吕喘,樣本中未出現(xiàn)的結(jié)果不是不可能出現(xiàn)氯质,只是這次抽樣沒有出現(xiàn)而已闻察,綜合考慮我們看到的和沒看到的全部可能的結(jié)果辕漂,總體分布
是確定的钉嘹,因此其中參數(shù)
也是確定的跋涣,按我的理解陈辱,頻率學(xué)派是忽略我們觀察者沛贪,而從事件本身出發(fā)鹏浅,希望以純粹的客觀事實來描述事件隐砸。所以我們看像極大似然估計季希、區(qū)間估計等方法式塌,都是希望盡可能的找到那個未知的峰尝、確定的參數(shù)武学。
貝葉斯學(xué)派 認為概率是反映事件發(fā)生可能性的一個度量硼补,并且不認為樣本X是無數(shù)可能中的一部分已骇,既然樣本X出現(xiàn)了,那么就只能依靠事件X去做判斷卵渴,我們不知道是什么分布生成了這些樣本奖恰,所以什么分布都有可能,因此其中參數(shù)
是不確定的,只是不同的
的概率不同岩榆,而且應(yīng)該是服從一個分布
的勇边,
為“先驗分布”(指抽樣之前得到的分布)粒褒,這是貝葉斯學(xué)派引入的主觀概率的概念(主觀概率是根據(jù)對事件的周密觀察所得到的先驗知識诚镰,并不是唯心主義的)奕坟,這里的“驗”就是這些樣本X的作用,
經(jīng)過真實樣本的“驗”之后清笨,就得到了“后驗概率”
(后驗概率是條件概率的形式月杉,但不可以理解為這個形式的就是后驗概率,重點要看有沒有后驗概率的思想)抠艾。因此我們可以理解為貝葉斯學(xué)派沒有忽略觀察者的作用苛萎,在做判斷時需要不僅要考慮抽樣信息,也要考慮觀察者對事件的先驗知識腌歉,同時還引入了各種推斷結(jié)果所帶來的損失,顯然這與頻率學(xué)派的出發(fā)點是不同的谨敛,從拉普拉斯所說的Probability theory is nothing but common sense reduced to calculation也可窺一二究履。
現(xiàn)在應(yīng)該對貝葉斯學(xué)派的思想有了一點認識了。那我們看看在分類問題上貝葉斯分類器是怎么一回事呢脸狸?
2 貝葉斯分類器
2.1 貝葉斯分類器概述
貝葉斯分類器是一類分類算法的總稱最仑,貝葉斯定理是這類算法的核心藐俺,因此統(tǒng)稱為貝葉斯分類。
在分類問題中泥彤,我們可以根據(jù)樣本計算出在樣本中各個類別
出現(xiàn)的概率欲芹,即后驗概率
,根據(jù)之前對貝葉斯統(tǒng)計推斷的介紹吟吝,還需要引入各種推斷結(jié)果所帶來的損失菱父,我們定義
為將
誤分為
時所產(chǎn)生的損失,根據(jù)誤判出現(xiàn)的概率和導(dǎo)致的損失剑逃,可以計算出錯誤分類是產(chǎn)生的期望損失浙宜,稱之為“風(fēng)險”:
設(shè)想我們制定了一個判定準則來對
進行分類得到
,如果每個分類結(jié)果
都是風(fēng)險最小的結(jié)果蛹磺,那個總體的風(fēng)險
也是最小的粟瞬,這就是貝葉斯判定準則,稱
為貝葉斯最優(yōu)分類器萤捆。
貝葉斯最優(yōu)分類器為:
后驗概率最大化與風(fēng)險最小化:對于二分類問題裙品,λ要么等于0要么等于1
當,即正確分類時俗或,
市怎,所以可以計算此時所以條件風(fēng)險(該條件下的風(fēng)險)為
就是根據(jù)樣本
進行分類区匠,想想以前講過的KNN、LR等昆雀,所做的不就是這個工作嗎辱志,這種直接對
進行建模來預(yù)測
的方法,都叫做判別式模型(Discriminative Model)狞膘,判別式模型不考慮樣本的產(chǎn)生模型揩懒,直接研究預(yù)測模型。如果我們換一種思路挽封,先得到聯(lián)合分布
已球,再得到后驗概率
,這就是生成式模型(Generative Model)辅愿,顧名思義智亮,生成式模型會研究樣本的產(chǎn)生模型,判別式模型和生成式模型都是監(jiān)督學(xué)習(xí)中的概念点待。
顯然生成模型比判別模型包含更多的信息阔蛉,可以做到更多的事,實際上由生成模型可以得到判別模型癞埠,但由判別模型得不到生成模型状原,貝葉斯分類器就是從生成模型的角度來解決分類問題聋呢,怎么實現(xiàn)呢?
是類“先驗”(prior)概率颠区;
是樣本x相對于類標記c的類條件概率(class-conditional probability);
是用于歸一化的“證據(jù)”(evidence)因子削锰。
2.2 求解方法
類先驗概率表達了樣本空間中各類樣本所占的比例,根據(jù)大數(shù)定律毕莱,當訓(xùn)練集包含充足的獨立同分布樣本時器贩,
可通過各類樣本出現(xiàn)的頻率來進行估計.
看起來是樣本出現(xiàn)的概率,對給定樣本
朋截,從形式上也可以看出與樣本的類標記無關(guān)蛹稍,因此估計
的問題就轉(zhuǎn)化為如何基于訓(xùn)練數(shù)據(jù)D來估計先驗
和
的問題,所以問題的重點就是怎么求
质和,得到
就能得到聯(lián)合概率
稳摄,也能能得到一個貝葉斯分類器了。那么怎么完成呢饲宿?能直接通過樣本中的頻率來統(tǒng)計嗎?
對來說胆描,由于它涉及關(guān)于x 所有屬性的聯(lián)合概率瘫想,直接根據(jù)樣本出現(xiàn)的頻率來估計將會遇到嚴重的困難,例如昌讲,假設(shè)樣本的 d 個屬性都是二值的国夜,則樣本空間將有
種可能的取值,在現(xiàn)實應(yīng)用中短绸,這個值往往遠大于訓(xùn)練樣本數(shù)m车吹,也就是說,很多樣本取值在訓(xùn)練集中根本沒有出現(xiàn)醋闭,直接使用頻率來估計
顯然不可行窄驹,因為"未被觀測到"與"出現(xiàn)概率為零"通常是不同的。
那應(yīng)該怎么計算呢证逻?先說第一種方法:最大似然估計乐埠。
要求得類條件概率,如果我們什么信息都沒有肯定是不行的囚企,所以一般假設(shè)我們知道它的概率分布丈咐,然后用一定方法來求出分布的參數(shù)即可。對于求分布的參數(shù)龙宏,一般使用最大似然估計MLE棵逊,雖然MLE是頻率學(xué)派的估計方法,不過好用的東西大家一起用嘛银酗,貝葉斯學(xué)派有個差不多的估計方法:最大后驗估計MAP辆影,不過MAP比MLE多了個作為因子的先驗概率P(θ)徒像,更復(fù)雜一些,這些內(nèi)容咱們下回再講秸歧。
說回最大似然估計厨姚,說到最大似然估計就不得不問一句,什么是似然键菱?這里需要好好的說道說道谬墙,只有搞清楚似然的概念才能理解怎么計算它。
2.3 似然
2.3.1 似然经备、似然與概率的區(qū)別和聯(lián)系
極大似然是頻率學(xué)派的參數(shù)估計方法拭抬,似然即參數(shù)的似然,是由頻率學(xué)派建立的侵蒙、極大似然估計中的重要概念造虎。從前文可知,頻率學(xué)派認為參數(shù)是確定值纷闺,參數(shù)的似然就表達了給定樣本下某參數(shù)為這個確定值的可能性算凿。在計算上,參數(shù)的似然值等于在該參數(shù)下事件發(fā)生的概率
犁功。也就是說氓轰,似然值可以用概率來計算,但似然卻不是概率浸卦,因為頻率學(xué)派的體系下署鸡,參數(shù)不是隨機變量,故似然不是概率限嫌,概率是在確定參數(shù)的情況下花墩,觀測結(jié)果發(fā)生的可能性墨坚,概率的對象是概率空間中的事件,而似然的對象是參數(shù)。
因此县恕,似然函數(shù)定義為:似然函數(shù)是給定樣本x時冰啃,關(guān)于參數(shù)θ的函數(shù)枫攀,其在數(shù)值上等于給定參數(shù)θ后變量X的概率
- 如果
是離散型隨機變量時
是概率分布偎快,
;
- 如果
是連續(xù)型隨機變量時
是概率密度入录,此時在
(一個樣本點)處
(那給定這一個點的
的似然也是0蛤奥,是不是可以理解為根據(jù)這點信息判斷出
是否為真值的可能性太低),此時應(yīng)該給定一段
區(qū)間來積分得到似然值僚稿。
值得注意的是凡桥,因為不是隨機變量,所以各個
所對應(yīng)的似然值是不能做累加的蚀同,我們都知道:
缅刽,這也是概率的一個基本性質(zhì)啊掏,而似然是不滿足這一點的,
并不為1衰猛,比如兩個不均勻的硬幣迟蜜,正面的概率未知作為
,給定
為觀察到一次正面啡省,
時
娜睛,
時
,顯然加和大于1卦睹,其實甚至可以說這樣相加是沒有意義的畦戒,因為
只是似然函數(shù)的自變量,并不是概率空間里的取值结序。這也從一方面說明似然是不滿足概率定理(柯爾莫果洛夫公理)的三個條件的障斋,似然并不是概率。
2.3.2 一個例子
關(guān)于似然徐鹤,知乎上還有一個很形象的例子垃环,他山之石,可以借鑒一下返敬,如何理解似然函數(shù)?HiTao的回答
其中的核心觀點是:似然和概率兩個函數(shù)有著不同的名字晴裹,卻源于同一個函數(shù)。是一個有著兩個變量的函數(shù)救赐。如果,你將θ設(shè)為常量只磷,則你會得到一個概率函數(shù)(關(guān)于x的函數(shù))经磅;如果,你將x設(shè)為常量你將得到似然函數(shù)(關(guān)于θ的函數(shù))钮追。
舉一個例子:
有一個硬幣预厌,它有的概率會正面向上,有
的概率反面向上≡模現(xiàn)有正反序列:
轧叽。無論
的值是多少,這個序列的概率值為
比如刊棕,如果炭晒,則得到這個序列的概率值為0。如果
甥角,概率值為1/1024网严。
嘗試所有可取的值,畫出了下圖嗤无,即為似然函數(shù)的函數(shù)圖像:
可以看出時的似然值最大震束,即0.7是最可能是真值的參數(shù)值怜庸,這就是最大似然估計的思想了。
2.4 回到貝葉斯分類
現(xiàn)在應(yīng)該對似然有了一定的了解了垢村,我們回憶一下貝葉斯分類器說到哪了割疾,對:
我們的目標是用最大似然估計計算得到,得到聯(lián)合分布嘉栓,具體做法及MLE和MAP的區(qū)別下一篇再細說~
主要參考資料
《機器學(xué)習(xí)》周志華
如何理解似然函數(shù)?HiTao的回答
.