1、貝葉斯決策論
貝葉斯決策論(Bayesian decision theory)是概率框架下實(shí)施決策的基本方法覆劈。其核心思想建立在貝葉斯定理之上保礼。
關(guān)于貝葉斯公式的理解有多種說法沛励,其中“執(zhí)果尋因”是我個(gè)人比較偏好的一種理解,也就是說把看作
的因炮障,把
看作
的果目派。當(dāng)我們觀察到
時(shí),希望知道是何種
導(dǎo)致了B的可能性最大胁赢,此時(shí)就可以使用貝葉斯公式求解企蹭。對(duì)于分類問題,我們也可以套用這樣的解釋智末,用
表示類別谅摄,
表示特征向量,那么
可以看作
的因系馆,因?yàn)轭悇e很大程度上決定了特征送漠,就好像基因決定表現(xiàn)型,后天成長環(huán)境的影響可以視為擾動(dòng)由蘑。這樣一來通過當(dāng)前特征向量來推測(cè)樣本屬于各類的概率就可以通過貝葉斯公式完成闽寡。下面我們看一下貝葉斯定理中的關(guān)鍵概念:
首先是先驗(yàn)概率(prior probability),所謂先驗(yàn)概率我的理解是“盲猜”概率尼酿,就是我們先不看樣本所對(duì)應(yīng)的特征向量爷狈,直接根據(jù)以往的經(jīng)驗(yàn)對(duì)其屬于各類的概率作為預(yù)測(cè)。比如說裳擎,按照以往的經(jīng)驗(yàn)涎永,經(jīng)濟(jì)系的男生女生人數(shù)差不多,那么在一次經(jīng)濟(jì)系的班會(huì)上句惯,有一位同學(xué)敲門土辩,在我們開門之前,就可以說抢野,這位同學(xué)是男生的概率約為50%拷淘。這個(gè)先驗(yàn)概率看似簡單,但它是貝葉斯學(xué)派相比頻率學(xué)派的一大優(yōu)勢(shì)指孤,因?yàn)轭l率學(xué)派只是基于當(dāng)前信息計(jì)算概率启涯,并沒有使用到先驗(yàn)概率,而先驗(yàn)概率對(duì)很多問題是很重要的恃轩。當(dāng)然先驗(yàn)概率是一把雙刃劍结洼,如果先驗(yàn)概率設(shè)定的不好,那么就適得其反叉跛。
如果我們僅使用先驗(yàn)信息做決策松忍,那么先驗(yàn)概率大的類別就是我們要將樣本劃入的類別。在沒有關(guān)于當(dāng)前樣本信息的情況下筷厘,這樣做是可以的鸣峭,但若有樣本特征宏所,我們就忽略了特征中隱藏的關(guān)于類別的信息。
另一個(gè)重要的概念是可能性(likelihood)摊溶,可能性是對(duì)于特定類別而言的爬骤,可以陳述為“若一個(gè)人是男生,他會(huì)抽煙的可能性為60%莫换,若一個(gè)人是女生霞玄,她會(huì)抽煙的可能性為20%”,可能性的概念蘊(yùn)含的信息其實(shí)是類別和特征的一種相關(guān)性拉岁,這對(duì)我們通過特征推斷類別是很有用的坷剧,還拿剛剛的例子來說,當(dāng)我們知道一個(gè)人抽煙以后膛薛,我們第一反應(yīng)就是這個(gè)人很可能是個(gè)男生听隐,因?yàn)槟猩?dāng)中抽煙的比例大,或者說男生抽煙的可能性大哄啄。這也是我們平時(shí)習(xí)慣的思維模式雅任,但這樣的推斷同樣是不嚴(yán)謹(jǐn)?shù)闹づ颍驗(yàn)槲覀兒雎粤讼闰?yàn)信息国拇,即當(dāng)我們不知道一個(gè)人吸不吸煙的時(shí)候?qū)ζ浞诸惖母怕剩@可以由性別比例計(jì)算出來怒见。若按男女比例是1:3呢锌半,我們?cè)撊绾畏诸惸厍莩担苊黠@,這時(shí)男女樣本中煙民的數(shù)量一樣刊殉,因此我們應(yīng)該說這個(gè)人有50%的可能是男生殉摔。
從上面這個(gè)簡單的例子我們可以看出,利用先驗(yàn)概率和可能性這兩類信息记焊,我們就可以根據(jù)樣本的特征對(duì)類別概率做出推測(cè)了逸月,除此之外不再需要其它的信息。
后驗(yàn)概率(Posterior Probability)就是把先驗(yàn)概率和可能性兩種信息綜合起來了遍膜,其實(shí)根據(jù)先驗(yàn)概率和可能性乘積的大小我們就可以求出分類結(jié)果了碗硬,這里后驗(yàn)概率在此基礎(chǔ)上除了一個(gè)分母可以看作是正則項(xiàng),只是為了滿足概率的正則性瓢颅。
根據(jù)后驗(yàn)概率做出分類決策的規(guī)則稱為最優(yōu)貝葉斯決策規(guī)則恩尾,這個(gè)最優(yōu)不難理解,就是這樣做出的分類決策損失永遠(yuǎn)是最小的挽懦,證明如下:
當(dāng)然這是建立在錯(cuò)誤分類的代價(jià)都相同的假設(shè)之上翰意,如果錯(cuò)誤分類代價(jià)不同,我們可以引出貝葉斯風(fēng)險(xiǎn)(Bayesian Risk)的概念:
可以看到,若我們的分類器可以對(duì)每個(gè)樣本
都最小化風(fēng)險(xiǎn)
猎物,那么總體風(fēng)險(xiǎn)
也將是最小的虎囚,毫無疑問,這樣的分類器
是最優(yōu)的蔫磨,被稱為貝葉斯最優(yōu)分類器(Bayes optimal classifier),
反映了分類器所能達(dá)到的最好性能圃伶,也是通過機(jī)器學(xué)習(xí)能產(chǎn)生的模型精度的理論上限堤如。
既然貝葉斯最優(yōu)分類器這么好,我們就找到后驗(yàn)概率然后用貝葉斯規(guī)則最小化決策風(fēng)險(xiǎn)不就ok了嗎窒朋?關(guān)鍵問題是搀罢,后驗(yàn)概率并不容易獲得。
事實(shí)上侥猩,我們手上只有部分?jǐn)?shù)據(jù)榔至,無法獲得準(zhǔn)確的整個(gè)樣本集的后驗(yàn)概率。因此接下來我們需要解決的問題是欺劳,如何基于有限的訓(xùn)練樣本集盡可能準(zhǔn)確地估計(jì)出后驗(yàn)概率唧取。
2、極大似然估計(jì)(MLE)
為了對(duì)后驗(yàn)概率進(jìn)行估計(jì)划提,我們可以先假定Likelihood的分布(我們假定訓(xùn)練樣本的分布與總體的分布相同)且其分布由一系列參數(shù)決定枫弟,從而我們的任務(wù)就轉(zhuǎn)化成利用訓(xùn)練集估計(jì)參數(shù),從而得到Likelihood的分布鹏往,再結(jié)合對(duì)先驗(yàn)概率的估計(jì)(可通過訓(xùn)練樣本中各類樣本出現(xiàn)的概率來進(jìn)行估計(jì))即可得到對(duì)后驗(yàn)概率的估計(jì)淡诗。
極大似然估計(jì)是一種頻率學(xué)派的參數(shù)估計(jì)方法,頻率學(xué)派認(rèn)為參數(shù)未知但客觀存在固定值伊履,因此可通過優(yōu)化似然函數(shù)等準(zhǔn)則來確定函數(shù)值韩容。
極大似然估計(jì)的思想很簡單,就是計(jì)算出特定參數(shù)下產(chǎn)生當(dāng)前訓(xùn)練樣本的可能性(用似然函數(shù)表示)唐瀑,最大化這個(gè)可能性群凶,對(duì)應(yīng)的參數(shù)值就是我們求得的解。通俗來說介褥,就是使得當(dāng)前訓(xùn)練樣本集出現(xiàn)可能性最大的參數(shù)值座掘。
這種方法的優(yōu)點(diǎn)如下:
不足在于:
3、樸素貝葉斯分類器
樸素貝葉斯的思路樸素柔滔,就是假設(shè)所有屬性相互獨(dú)立溢陪,然后避開聯(lián)合概率【龋可以看到形真,在此假設(shè)下,我們可以直接基于訓(xùn)練集計(jì)算出后驗(yàn)概率的估計(jì)。但這里還有一個(gè)問題咆霜,就是當(dāng)特征維度很多的時(shí)候會(huì)出現(xiàn)某個(gè)樣本中某種特征組合從未出現(xiàn)過的局面邓馒,這很可能對(duì)最后模型的結(jié)果產(chǎn)生不好的影響。為了解決這個(gè)問題我們可以使用拉普拉斯平滑:
西瓜書上還介紹了半樸素貝葉斯分類器蛾坯,其放寬了樸素貝葉斯分類器的假設(shè)光酣,適當(dāng)考慮部分屬性間的相互依賴信息,書上描述了多種尋找這種依賴關(guān)系的算法脉课,在此就不一一贅述了救军。
其實(shí)現(xiàn)實(shí)的情況中,各個(gè)屬性之間的關(guān)系是很復(fù)雜的倘零。我記得以前學(xué)習(xí)線性回歸的時(shí)候唱遭,有一個(gè)很大的問題就是解決各屬性之間的相關(guān)性,比如說屬性中有“身高”“體重”兩項(xiàng)呈驶,那么這兩個(gè)屬性就會(huì)表現(xiàn)出很強(qiáng)的正相關(guān)性拷泽,因此這樣的特征選取冗余性就比較大,最后回歸系數(shù)的意義就不太大袖瞻。這里尋找屬性之間依賴關(guān)系我覺得本質(zhì)上也是在去除這種冗余性司致,從而使得分類效果更好。比如說虏辫,如果我們發(fā)現(xiàn)色澤屬性依賴于敲聲蚌吸,敲聲清脆則色澤青綠,敲聲濁響則色澤非青綠砌庄,而敲聲清脆和色澤青綠對(duì)應(yīng)的是好瓜羹唠,那么現(xiàn)在有一個(gè)敲聲清脆而色澤非青綠的瓜,應(yīng)該如何分類呢娄昆?這時(shí)候依賴關(guān)系就發(fā)揮作用了佩微,我們可以認(rèn)為敲聲清脆優(yōu)先級(jí)更高而判斷該樣本是一個(gè)好瓜。
4萌焰、貝葉斯網(wǎng)
(略)
5哺眯、EM算法
EM算法西瓜書上的算法描述部分很清晰: