PRML第一章《貝葉斯定理、高斯分布镣隶、概率論极谊、模型選擇和維度災(zāi)難》

PRML第一章《緒論》
本章一共七個小章節(jié)
1.1從一個例子多項式曲線擬合
1.2講解了概率論基礎(chǔ),分為6個小章節(jié)安岂,包括概率密度轻猖、期望與協(xié)方差、貝葉斯概率嗜闻、高斯分布蜕依、重新考察曲線擬合問題以及貝葉斯曲線擬合
1.3模型選擇
1.4維度災(zāi)難
1.5決策論,分為5個小章節(jié)琉雳,包括最小化錯誤分類率样眠、最小化期望損失、拒絕選項翠肘、推斷與決策以及回歸問題的損失函數(shù)
1.6信息論檐束,論述了相對熵與互信息
1.7練習

1.1從歷史的角度

尋找數(shù)據(jù)中的模式的問題一直是分析和掌握規(guī)律的關(guān)鍵,比如行星運動規(guī)律和原子光譜規(guī)律束倍,因此我們要研究的問題是利用計算機算法自動發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律被丧,并應(yīng)用這些規(guī)律將數(shù)據(jù)進行分類盟戏。

例子:手寫體識別,一張手寫體識別圖像甥桂,是由一定數(shù)量的像素構(gòu)成的柿究,我們怎么根據(jù)像素構(gòu)成區(qū)分出0~9呢?

目標:構(gòu)建一個機器黄选,能夠以向量x(28 \times 28像素的圖像蝇摸,即由784個實數(shù)組成的向量)作為輸入,以數(shù)字0~9作為輸出办陷。

分析:可以通過人工編寫規(guī)則貌夕,或者依據(jù)筆畫的形狀區(qū)分數(shù)字,但是實際中使用這種方法將帶來規(guī)則數(shù)量的激增以及不符合規(guī)則的例外民镜,并且效果不好啡专。

解決方法:引入機器學(xué)習!

術(shù)語

  • 訓(xùn)練集:一個由N個數(shù)字{x_1, ..., x_N}組成的龐大的數(shù)據(jù)集合被稱為制圈,用來調(diào)節(jié)模型的參數(shù)们童。
  • 目標向量:t表示數(shù)字的類別,它代表對應(yīng)數(shù)字的標簽离唐,類別是已知的病附,通常是被獨立考察、人工標注的亥鬓。

注意:對于每個數(shù)字圖像x只有一個目標向量t完沪。

  • 學(xué)習:運行機器學(xué)習算法可以將數(shù)字的圖像x作為輸入,通過函數(shù)y(x)嵌戈,產(chǎn)生向量y覆积,它與目標向量的形式相同,這個階段稱為學(xué)習階段熟呛。
  • 測試集:一旦模型被訓(xùn)練出來宽档,它就能確定新的數(shù)字的圖像集合中的圖像標簽,這些新的數(shù)字圖像就被成為測試集庵朝。
  • 泛化:正確分類與訓(xùn)練集不同的新樣本的能力吗冤。
  • 預(yù)處理:對于大部分實際應(yīng)用,原始輸入向量通常被預(yù)處理九府,變換到新的變量空間椎瘟,人們期待在新的變量空間中,模式識別問題可以被更容易的解決侄旬。
  • 特征抽确挝怠:例如:數(shù)字識別中,將數(shù)字的圖像進行轉(zhuǎn)化縮放儡羔,這樣極大地減少了每個數(shù)字類別的變化性宣羊,這個預(yù)處理階段有時也被叫做璧诵。
  • 降維:有時候為了加快計算速度也會進行預(yù)處理,比如人臉識別中仇冯,人臉像素太多之宿,我們可以快速找到有用的特征,這些特征可以保存有用的判別信息使得人臉和非人臉可以正確區(qū)分開赞枕。由于這樣的特征數(shù)量遠遠小于像素數(shù)量澈缺,因此這種預(yù)處理代表了一種形式的維數(shù)降低。
  • 有監(jiān)督學(xué)習:訓(xùn)練數(shù)據(jù)的樣本包含輸入向量以及對應(yīng)的目標向量的應(yīng)用炕婶。
  • 分類:每個輸入向量分配到有限數(shù)量離散標簽中的一個
  • 回歸:要求的輸出由一個或者多個連續(xù)變量組成(化學(xué)藥品制造過程產(chǎn)量的預(yù)測,在這個問題中莱预,輸入由反應(yīng)物柠掂、溫度和壓力組成)
  • 聚類:訓(xùn)練數(shù)據(jù)由一組輸入向量x組成,沒有任何的目標值依沮,在這樣的無監(jiān)督學(xué)習問題中涯贞,目標可能是發(fā)現(xiàn)數(shù)據(jù)中相似樣本的分組。
  • 密度估計:訓(xùn)練數(shù)據(jù)由一組輸入向量x組成危喉,沒有任何的目標值宋渔,在這樣的無監(jiān)督學(xué)習問題中,發(fā)現(xiàn)輸入空間中的數(shù)據(jù)分布辜限。
  • 數(shù)據(jù)可視化:把數(shù)據(jù)從高維空間投影到二維或者三維空間皇拣。
  • 反饋學(xué)習:在給定的條件下,找到合適的動作薄嫡,使獎勵達到最大值氧急。在這里,學(xué)習問題沒有給最優(yōu)輸出的用例毫深,這些用例必須在一系列的實驗和錯誤中被發(fā)現(xiàn)吩坝。(例如神經(jīng)網(wǎng)絡(luò)學(xué)習backgammon游戲,神經(jīng)網(wǎng)絡(luò)學(xué)習把一大組位置信息哑蔫、篩子投擲的結(jié)果作為輸入钉寝,產(chǎn)生一個好的移動作為輸出,神經(jīng)網(wǎng)絡(luò)和自己玩100萬局闸迷,并在游戲結(jié)束后給出獎勵嵌纲,獎勵被合理分配到所有引起勝利的移動步驟,這是信用分配的一個例子)稿黍。反饋學(xué)習的一個通用的特征是探索利用的折衷疹瘦。
  • 探索:系統(tǒng)嘗試新類型的動作。
  • 利用:使用已知能產(chǎn)生較高獎勵的動作巡球。

總上:

本章是以一種非正式的形式介紹最重要的概念言沐,并以例子的形式加以說明邓嘹;并會介紹本書中使用的三個重要概念:概率論、決策論和信息論险胰。

稍后在本書中汹押,這些思想將以更復(fù)雜的模型形式重新出現(xiàn),并可以用于真實世界中的模式識別應(yīng)用中起便。

1.1 例子

人工生成的例子棚贾,可以知道生成數(shù)據(jù)的精確過程以及能夠與我們學(xué)習到的模型進行比較。

例子的數(shù)據(jù)由sin(2 \pi x)產(chǎn)生榆综,目標變量帶有隨機的噪聲妙痹。

x = (x_1, ..., x_N)^T
t = (t_1, ..., t_N)^T

數(shù)據(jù):

x_n均勻分布在區(qū)間[0,1]之間,目標數(shù)據(jù)t的獲取方式是:首先計算sin(2 \pi x)的值鼻疮,然后給每個點加上一個小的符合高斯分布的隨機噪聲怯伊,從而得到對應(yīng)的t_n的值。


10個數(shù)據(jù)點組成的圖像判沟,藍色圓圈代表數(shù)據(jù)耿芹,綠色曲線代表生成數(shù)據(jù)的函數(shù),我們的目標是對于某些新的值挪哄,預(yù)測的值吧秕,而無需知道綠色曲線谆趾。

通過這種方式我們生成的數(shù)據(jù)具有了真實數(shù)據(jù)的特性:

它們擁有了一個內(nèi)在規(guī)律哨毁,這個規(guī)律是我們想學(xué)習的,但是獨自的觀察被隨機噪聲干擾顺囊,這和噪聲可能由一個本質(zhì)上隨機的過程產(chǎn)生疗涉,例如放射性衰變拿霉。

目標:

是利用這個訓(xùn)練集預(yù)測對于輸入變量的新值\hat x的目標變量的值\hat t

困難:

  • 從有限的數(shù)據(jù)尋找規(guī)律
  • 觀察到的數(shù)據(jù)被隨機噪聲干擾

概率論:

提供了一個框架咱扣,用來以精確的數(shù)學(xué)的形式描述以上這種不確定性绽淘。

多項式函數(shù)擬合數(shù)據(jù):

y(w,x) = w_0 + w_1x + w_2x^2 + ... + w_Mx^M = \sum_{j=0}^{M} w_jx^j

其中,M是多項式的階數(shù)闹伪,x^j表示xj次冪沪铭,多項式w_0, w_1,..., w_M整體記作向量w

求解

系數(shù)w的值可以通過調(diào)整多項式擬合訓(xùn)練數(shù)據(jù)的方式確定偏瓤,即最小化誤差函數(shù)方法杀怠。

引入平方誤差函數(shù)

E(w) = \frac{1}{2} \sum_{n = 1}^{N}{y(x_n, w) - t_n}^2

其中\frac{1}{2}是為了方便數(shù)學(xué)計算加入的!

平方誤差函數(shù)的性質(zhì)

  • 非負性
  • 當且僅當函數(shù)y(x, w)對所有的訓(xùn)練數(shù)據(jù)都正確預(yù)測時厅克,其值為0赔退。

求解過程

因為平常誤差函數(shù)是w的二次函數(shù),所以誤差函數(shù)的最小值有一個唯一解,記作w^*硕旗,可以用解析的方法求出窗骑。最終的多項式函數(shù)由函數(shù)y(x, w^*)給出。

多項式函數(shù)的階數(shù)選擇:模型對比與模型選擇

不同階數(shù)的多項式曲線(紅色)
  • 欠擬合(M = 0漆枚;1)
  • 過擬合(M = 9)

定量考查模型的泛化性與M的關(guān)系

考慮一個額外的測試集创译,這個測試集由100個數(shù)據(jù)點組成,生成方式與訓(xùn)練集的數(shù)據(jù)生成方式相同墙基,但是包含的隨機噪聲值不同软族,對于每個M的選擇,我們可以計算測試集的誤差E(w^*)残制,有時候使用均方根誤差更方便:
E_{RMS} = \sqrt{2E(w^*) / N}

其中立砸,除以N可以讓我們以相同的基礎(chǔ)對比不同大小的數(shù)據(jù)集,平方根確保了E_{RMS}與目標變量t使用相同的規(guī)模和單位進行度量初茶。

訓(xùn)練集和測試集對于不同的M對應(yīng)的均方根誤差

選擇:M=3~8

深刻思考

不同階數(shù)的多項式的系數(shù)的值仰禽,隨著多項式階數(shù)的增加,系數(shù)的大小劇烈增大

發(fā)生了什么:

有著更大的M值的更靈活的多項式被過分地調(diào)參纺蛆,使得多項式被調(diào)節(jié)成了與目標值的隨機噪聲相符。

當數(shù)據(jù)集規(guī)模變大了呢规揪?

對于M=9的多項式在不同數(shù)據(jù)點下的表現(xiàn)

對于一個給定的模型復(fù)雜度桥氏,當數(shù)據(jù)集的規(guī)模增加時,過擬合問題變得不那么嚴重猛铅。

啟發(fā):

  • 數(shù)據(jù)點的數(shù)量不應(yīng)該小于模型的可調(diào)節(jié)參數(shù)的數(shù)量的若干倍(比如5或者10)字支。
  • 不得不根據(jù)可得到的訓(xùn)練集的規(guī)模限制參數(shù)的數(shù)量。

伏筆

  • 尋找模型參數(shù)的最小平方法代表了最大似然
  • 過擬合問題可以被理解為最大似然的一個通用屬性
  • 通過貝葉斯方法奸忽,過擬合可以被避免
  • 從貝葉斯的角度看堕伪,對于模型參數(shù)的數(shù)量超過數(shù)據(jù)點數(shù)量的情形,沒有任何難解之處
  • 實際上一個貝葉斯模型中栗菜,參數(shù)的有效數(shù)量會自動依據(jù)數(shù)據(jù)集的規(guī)模調(diào)節(jié)欠雌?

貝葉斯HBB!

如何控制過擬合疙筹?

  • 正則化技術(shù):給誤差函數(shù)增加一個懲罰項富俄,使得系數(shù)不會達到很大的值,這種懲罰項最簡單的形式采用所有系數(shù)的平方和的形式:
    \hat E(w) = \frac{1}{2} \sum_{n=1}^{N} {y(x_n, w) - t_n}^2 + \frac{\lambda}{2} ||w|||^2

其中||w||^2 = w^Tw = w_0^2 + w_1^2 + ... + w_M^2而咆,系數(shù)\lambda控制了正則化項相對于平方和誤差項的重要性霍比。

求解

上式也可以通過解析的方法求出最小值

  • 這樣的技術(shù)在統(tǒng)計學(xué)上被稱為收縮方法,因為這種方法縮小了系數(shù)的值暴备。
  • 二次正則項的一個特殊情況被稱為嶺回歸悠瞬。
  • 在神經(jīng)網(wǎng)絡(luò)的情形中,這種方法叫作權(quán)值衰減。

選擇不同的\lambda下的結(jié)果對比:

采用不同lambda下的結(jié)果對比

分析:

對于ln\lambda = -18浅妆,過擬合現(xiàn)象被壓制望迎,我們可以得到關(guān)于本質(zhì)函數(shù)sin(2\pi x)的一個更好的模擬。但是如果我們把\lambda選擇的過大狂打,我們又得到了一個不好的結(jié)果擂煞,如圖1.7所示的ln\lambda= 0的情形。

對于M = 9的多項式趴乡,隨著lambda的增大对省,系數(shù)的大小逐漸變小

因此:

在效果上,\lambda控制了模型的復(fù)雜性晾捏,因此決定了過擬合的程度蒿涎。

總結(jié):

  • 我們通過使用最小化誤差函數(shù)的方法解決了一個實際問題,并嘗試使用了正則化的方法來確定模型復(fù)雜度的合適值惦辛,通過把給定的數(shù)據(jù)中的一部分從測試集中分離劳秋,來確定系數(shù)w,這個分離出來的驗證集胖齐,也被稱為拿出集玻淑,用來最優(yōu)化模型的復(fù)雜度(M或者\lambda),但是在許多情況下呀伙,這種方法太浪費數(shù)據(jù)了补履,我們需要尋找更高級的方法。

  • 目前解決問題依賴于直覺剿另,我們需要一個更加形式化的方法解決模式識別中的問題箫锤,即概率論!它可以讓我們更深刻的理解本章中我們通過多項式擬合的問題引出的重要概念雨女,并能讓我們把這些概念擴展到更復(fù)雜的情況谚攒。

1.2 概率論

還記得我們上一節(jié)中提出數(shù)據(jù)的不確定性問題, 它可能是由于測量的誤差引起的氛堕,也可能由于數(shù)據(jù)集的有限大小引起馏臭。

why

  • 概率論提供了一個合適的框架,可以讓我們對不確定性進行量化和計算岔擂。
  • 概率論還構(gòu)成了模式識別的一個中心基礎(chǔ)位喂。
  • 當與決策論結(jié)合,概率論可以讓我們依據(jù)目前信息作出最優(yōu)的預(yù)測乱灵,即使信息是不完全的或者是含糊的塑崖。

例子

兩個盒子, 蘋果與橘子

假設(shè)

我們在40%的時間中選擇了紅盒子痛倚,60%的時間中選擇了藍盒子规婆,并且我們選擇盒子中的水果時是等可能選擇的。

參數(shù)

  • B:選擇盒子的顏色,隨機變量抒蚜,包含兩個值(r:紅色掘鄙,b:藍色)
  • F:選擇水果的種類,隨機變量嗡髓,包含兩個值(a:蘋果操漠,o:橘子)

已知概率:

選擇紅盒子:\frac{4}{10},記作:p(B=r) =\frac{4}{10}
選擇藍盒子:\frac{6}{10}饿这,記作:p(B=b) =\frac{6}{10}

性質(zhì):

  • 位于區(qū)間[0浊伙, 1]內(nèi)
  • 相互獨立
  • 加和為1

問題來了:

選擇蘋果的整體概率是多少?
假設(shè)我們選擇了橘子长捧,我們選擇的是盒子是藍盒子的概率是多少嚣鄙?

兩大規(guī)則的推導(dǎo)

在這個例子中,涉及到兩個隨機變量XY串结,我們假設(shè)X可以取到任意的x_i哑子,其中i = 0, ..., M,并且y可以取任意的y_j肌割,其中j = 1, ..., L卧蜓,考慮N次實驗,其中我們對XY都取樣把敞,把X= x_iY=y_j的實驗的數(shù)量記作n_{ij}烦却。

考慮兩個隨機變量X和Y

術(shù)語

  • 聯(lián)合概率:X取值x_iY取值y_j的概率記作p(X= x_i, Y = y_j),稱為X= x_iY = y_j的聯(lián)合概率先巴,它的計算方法是落在單元格i,j中的點的數(shù)量與點的總數(shù)的比值:

p(X= x_i, Y = y_j) = \frac{n_{ij}}{N}
p(X = x_i) = \frac{c_i}{N}
p(Y = y_j) = \frac{r_j}{N}

c_i = \sum_{j = 1}^{L} n_{ij}

綜合上式:

  • 邊緣概率:通過把其他變量(本例中的Y)邊緣化或者加和得到

p(X= x_i) = \sum_{j = 1}^{L}p(X= x_i, Y = y_j)

這就是概率的加和規(guī)則!

  • 條件概率:如果我們只考慮那些X = x_i的實例冒冬,那么這些實例中Y =y_j的實例所占的比例就寫作p(Y = y_j|X = x_i)伸蚯,被稱為給定X = x_iY =y_j的條件概率,它的計算方式為:
    p(Y = y_j|X = x_i) = \frac{n_{ij}}{c_i}

綜上:
p(X = x_i, Y = y_j) = \frac{n_{ij}}{N} = \frac{n_{ij}}{c_i} · \frac{c_i}{N} = p(Y = y_j|X = x_i)p(X = x_i)

這成為概率的乘積規(guī)則简烤。

兩大規(guī)則:加和規(guī)則和乘積規(guī)則

sum rule

p(X) = \sum_{Y} p(X, Y)

prodcut rule

p(X,Y) = p(Y|X) · p(X)

理解:

p(X,Y)是聯(lián)合概率剂邮,可以表述為:XY的概率。
p(Y|X)是條件概率横侦,可以表述為:給定X的條件下Y的概率挥萌。
p(X)是邊緣概率,可以表述為:X的概率枉侧。

貝葉斯定理:

根據(jù)乘積規(guī)則引瀑,以及對稱性p(X,Y) = p(Y,X),立即得到:
p(Y|X) = \frac{p(X|Y) p(Y)}{p(X)}

如果使用加和規(guī)則榨馁,貝葉斯定理中的分母可以用出現(xiàn)在分子中的項表示:
p(X) = \sum_{Y}p(X|Y)p(Y)

我們可以把貝葉斯定理的分母看作歸一化常數(shù)憨栽,用來確保上式左側(cè)的條件概率對于所有的Y的取值之和為1。

兩個變量X和Y上的概率分布的一個例子

回到盒子水果問題,選擇蘋果的整體概率是多少屑柔?

p(B = r) = \frac{4}{10}
p(B = b) = \frac{6}{10}

p(B = r) + p(B = b) = 1

給定盒子顏色情況下水果種類的全部四個概率:
p(F = a|B = r) = \frac{1}{4}
p(F = o|B = r) = \frac{3}{4}
p(F = a|B = b) = \frac{3}{4}
p(F = o|B = b) = \frac{1}{4}


p(F = a|B = r) + p(F = o|B = r) = 1
p(F = a|B = b) + p(F = o|B = b) = 1

現(xiàn)在使用加和規(guī)則和乘積規(guī)則來計算選擇一個蘋果的概率:
p(F = a) = p(F = a|B = r)P(B=r) + p(F = a|B = b)p(B = b)

= \frac{11}{20}

利用加和規(guī)則:p(F = o) = \frac{9}{20}

假設(shè)我們選擇了橘子屡萤,我們選擇的是盒子是藍盒子的概率是多少?

貝葉斯定理:
p(B = r|F = o) = \frac{p(F = o|B = r)P(B = r)}{p(F = o)} = \frac{2}{3}

根據(jù)加和規(guī)則:
p(B = b|F = o) = \frac{1}{3}

換種方式表述貝葉斯定理:

  • 先驗概率:如果我們在知道某個水果被選中之前掸宛,盒子被選中的概率(46開)
  • 后驗概率:一旦我們知道被選中的水果是橘子死陆,我們就可以通過貝葉斯定理來計算概率p(B|F),它是我們觀察到F之后的概率唧瘾。

分析:

在先驗概率下措译,我們更有可能選擇藍盒子(6),但是一旦我們知道拿到的是橘子劈愚,發(fā)現(xiàn)更可能選擇紅盒子瞳遍,因為紅盒子中的橘子更多,提供給了我們更強的證據(jù)去選擇紅盒子菌羽。

事實上掠械,這個證據(jù)已經(jīng)相當強,已經(jīng)超過了先驗假設(shè)注祖,使得紅盒子被選中的概率大于藍盒子猾蒂。

最后

如果兩個變量的聯(lián)合分布可以分解為兩個邊緣概率分布的乘積,即p(X, Y) = p(X)p(Y)是晨,那么我們就說XY相互獨立肚菠。

那么p(Y|X) = p(Y),即對于給定X的條件下Y的條件分布實際上獨立于X的值罩缴。

1.2.1 概率密度PDF

我們已經(jīng)考慮了定義在離散數(shù)據(jù)點上的概率蚊逢,我們希望進一步考慮連續(xù)變量的概率。

概率密度函數(shù):

如果一個實值變量x的概率落在區(qū)間(x, x + \delta x)的概率由p(x)\delta x給出(\delta x \rightarrow 0)箫章,那么p(x)叫作x的概率密度烙荷。

x位于區(qū)間(a, b)的概率由下式給出:
p(x \in (a, b)) = \int_{a}^ p(x)dx

概率密度函數(shù)滿足的性質(zhì):

由于概率是非負的檬寂,并且x的值一定位于實數(shù)軸的某個位置终抽,因此:

p(x) \geqslant 0

\int_{-\infty}^{\infty} p(x)dx = 1

概率密度最大值的概念取決于變量的選擇

在變量以非線性的形式變化的情況下,概率密度函數(shù)通過Jacobian因子變換為與簡單的函數(shù)不同的形式。

Jacobian因子變換

因此:
p_y(y) = p_x(X)|\frac{dx}{dy}| = p_x(g(y))|g'(y)|

這里我的理解是:
對于概率密度函數(shù)而言,他取得是該變量某個點對應(yīng)的導(dǎo)數(shù)腾么,因此任意一個函數(shù)只要在某點與變量X的分布曲線斜率相同洽议,就可以取其為變量X的概率密度函數(shù)。

位于區(qū)間(-\infty, z)x的概率由累積分布函數(shù)(cumulative distribution function)給出。定義為:

p(z) = \int_{-\infty}^{z}p(x)dx

滿足:P'(x) = p(x)

概率密度可以表示為累計密度函數(shù)P(x)的導(dǎo)數(shù)。

補充一點概率論知識

  • 概率函數(shù),就是用函數(shù)的形式來表達概率描沟。

pi=P(X=ai)(i=1,2,3,4,5,6)
在這個函數(shù)里飒泻,自變量X是隨機變量的取值,因變量pi是取值的概率吏廉。
從公式上來看泞遗,概率函數(shù)一次只能表示一個取值的概率。比如P(X=1)=1/6,這代表用概率函數(shù)的形式來表示席覆,當隨機變量取值為1的概率為1/6史辙,一次只能代表一個隨機變量的取值。

  • 概率分布


  • 概率分布函數(shù)

發(fā)現(xiàn)概率分布函數(shù)的秘密了嗎佩伤?它其實根本不是個新事物聊倔,它就是概率函數(shù)取值的累加結(jié)果!所以它又叫累積概率函數(shù)生巡!

  • 概率密度函數(shù)

連續(xù)型隨機變量也有它的“概率函數(shù)”和“概率分布函數(shù)”耙蔑,但是連續(xù)型隨機變量的“概率函數(shù)”換了一個名字,叫做“概率密度函數(shù)”孤荣!



概率密度函數(shù)用數(shù)學(xué)公式表示就是一個定積分的函數(shù)甸陌,定積分在數(shù)學(xué)中是用來求面積的,而在這里盐股,你就把概率表示為面積即可钱豁!

多變量概率密度:

如果我們有幾個連續(xù)的變量x_1, ..., x_D,整體記作向量x疯汁,那么我們可以定義聯(lián)合概率密度p(x) = p(x_1, ..., x_D)牲尺,使得x落在包含x的無窮小的體積\delta x的概率由p(x)\delta x給出,且多變量概率密度必須滿足:

p(x) \geqslant 0

\int_{}^{}p(x)dx = 1

其中幌蚊,積分必須在整個x空間上進行谤碳。我們也可以考慮離散變量和連續(xù)變量相結(jié)合的聯(lián)合概率
分布。

概率質(zhì)量函數(shù)

注意:如果x是一個離散變量溢豆,那么p(x)有時也被稱為概率質(zhì)量函數(shù)估蹄。

最后

概率的加和規(guī)則和乘積規(guī)則以及貝葉斯規(guī)則,同樣可以應(yīng)用到概率密度函數(shù)的情形沫换,也可以應(yīng)用于離散變量和連續(xù)變量結(jié)合的情形:

p(x) = \int p(x, y)dy

p(x, y) = p(y|x)p(x)

證明略

1.2.2 期望和協(xié)方差

涉及到概率的一個重要操作是尋找函數(shù)的加權(quán)平均值,在概率分布p(x)下最铁,函數(shù)f(x)的平均值被稱為f(x)的期望讯赏,記作E[f]

對于一個離散變量:

它的定義為:
E[f] = \sum_x p(x)f(x)

在連續(xù)變量的情況下:

期望以對應(yīng)概率密度的積分的形式表示:
E[f] = \int p(x)f(x)dx

兩種情形下冷尉,如果我們給定有限數(shù)量的N個點漱挎,這些點滿足某個概率分布或者概率密度函數(shù),那么期望可以通過求和的形式給出:

E[f] = \frac{1}{N} \sum_{n = 1}^{N}f(x_n)
N \rightarrow \infty時雀哨,上式的估計就會變得精確磕谅。

多變量函數(shù)的期望:

使用下標來表明被平均的是哪個變量私爷,例如:
E_x[f(x, y)]表示函數(shù)f(x,y)關(guān)于x的分布的平均,注意膊夹,E_x[f(x, y)]是關(guān)于y的一個函數(shù)衬浑。

條件分布的期望:

E_x[f|y] = \sum_x p(x|y) f(x)

f(x)的方差,它度量了f(x)在均值E[f(x)]附近變化性的大蟹排佟:

var[f] = E[(f(x) - E[f(x)])^2]

方差的其他形式:

var[f] = E[f(x)^2] - E[f(x)]^2

var[x] = E[x^2] - E[x]^2

協(xié)方差(兩個隨機變量xy):

cov[x, y] = E_{x, y}[{x - E[x]} {y - E[y] } ] = E_{x, y}[xy] - E[x]E[y]
它表示多大程度上xy會共同變化工秩,如果xy相互獨立,那么它們的協(xié)方差為0进统。

協(xié)方差矩陣(兩個隨機向量xh和y

cov[x, y] = E_{x, y}[{x - E[x]} {y^T - E[y]^T } ] = E_{x, y}[xy^T] - E[x]E[y^t]

如果我么考慮向量x各個分量之間的協(xié)方差助币,那么我們可以將記號稍微簡化一些:
cov[x] = cov[x, x]

補充概率論知識:

協(xié)方差(Covariance)在[概率論]和[統(tǒng)計學(xué)]中用于衡量兩個變量的總體[誤差]。而[方差]是協(xié)方差的一種特殊情況螟碎,即當兩個變量是相同的情況。

協(xié)方差表示的是兩個變量的總體的[誤差]叉抡,這與只表示一個變量誤差的[方差]不同尔崔。** 如果兩個[變量]的變化趨勢一致季春,也就是說如果其中一個大于自身的期望值,另外一個也大于自身的期望值撵颊,那么兩個變量之間的協(xié)方差就是正值宇攻。 如果兩個變量的變化趨勢相反,即其中一個大于自身的期望值倡勇,另外一個卻小于自身的期望值逞刷,那么兩個變量之間的協(xié)方差就是負值。**

1.2.3 貝葉斯定概率——頻率提供了不確定性的一個定量化描述

我們希望定量地描述不確定性妻熊,并且根據(jù)少量新的證據(jù)對不起確定性進行精確地修改夸浅,對接下來的行動進行修改,或者對最終的決策進行修改扔役。

回憶一下帆喇,在水果盒子中,水果種類的觀察提供了相應(yīng)的信息亿胸,改變了選擇紅盒子的概率坯钦,在那個例子中预皇,貝葉斯定理通過將觀察到的數(shù)據(jù)融合,來把先驗概率轉(zhuǎn)化為后驗概率婉刀,因此在多項式擬合中吟温,我們隊參數(shù)w的數(shù)量進行推斷時,可以采用一個類似的方法路星,在觀察到數(shù)據(jù)前溯街,我們有一些關(guān)于參數(shù)w的假設(shè),這以先驗概率p(w)表示洋丐。觀測數(shù)據(jù)D ={t_1, ..., t_N}的效果可以通過條件概率p(D|w)表達呈昔,即貝葉斯定理的形式為:
p(w|D) = \frac{p(D|w)p(w)}{p(D)}
它能夠讓我們通過后驗概率p(w|D),在觀測到D之后估計w的不確定性友绝。

似然函數(shù):

貝葉斯定理右側(cè)的量p(D|w)由觀測數(shù)據(jù)集D來估計堤尾,可以看成參數(shù)向量w的函數(shù),被稱為似然函數(shù)迁客。他表達了在不同的參數(shù)向量w下郭宝,觀測數(shù)據(jù)出現(xiàn)的可能性的大小。注意掷漱,似然函數(shù)不是w的概率分布粘室,并且它關(guān)于w的積分并不(一定)等于1。

posterior \propto likelihood \times prior
其中所有的量都是關(guān)于w的函數(shù)卜范。


后驗概率(新信息出現(xiàn)后A發(fā)生的概率)=先驗概率(A發(fā)生的概率)x可能性函數(shù)(新信息帶出現(xiàn)來的調(diào)整)

  • 如果"可能性函數(shù)"P(B|A)/P(B)>1衔统,意味著"先驗概率"被增強,事件A的發(fā)生的可能性變大海雪;
  • 如果"可能性函數(shù)"=1锦爵,意味著B事件無助于判斷事件A的可能性;
  • 如果"可能性函數(shù)"<1奥裸,意味著"先驗概率"被削弱险掀,事件A的可能性變小。

貝葉斯定理的應(yīng)用:

全概率公式
這個公式的作用是計算貝葉斯定理中的P(B)湾宙。

假定樣本空間S樟氢,由兩個事件AA'組成的和。例如下圖中侠鳄,紅色部分是事件A埠啃,綠色部分是事件A',它們共同構(gòu)成了樣本空間S畦攘。


這時候來了個事件,如下圖:

全概率公式:

它的含義是十电,如果AA'構(gòu)成一個問題的全部(全部的樣本空間)知押,那么事件B的概率叹螟,就等于AA'的概率分別乘以B對這兩個事件的條件概率之和。

分母

p(D)是一個歸一化常數(shù)台盯,確保了左側(cè)的后驗概率分布是一個合理的概率密度罢绽,積分為1。

積分

p(D) = \int p(D|w)p(w)dw

對于給定的似然函數(shù)静盅,如果我們選擇加入?yún)?shù)的先驗信息良价,則必須使用允許上述積分可以進行計算。

分析

在貝葉斯觀點和頻率學(xué)家觀點中蒿叠,似然函數(shù)p(D|w)都起著重要的作用明垢,但是對其使用的方式有著本質(zhì)不同。

最大似然估計:

  • w被認為是一個固定的參數(shù)市咽,它的值由某種形式的“估計”來確定痊银,這個估計的誤差通過考察可能的數(shù)據(jù)集D的概率分布得到。
  • w的值是使似然函數(shù)p(D|w)達到最大值的w值施绎,似然函數(shù)的負對數(shù)叫作誤差函數(shù)溯革。

貝葉斯估計:

  • 只有一個數(shù)據(jù)集D,參數(shù)的不確定性通過w的概率分布來表達谷醉。

1.2.4 高斯分布

對于一元實值變量致稀,高斯分布的定義:

N(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}exp{-\frac{1}{2\sigma^2}(x - \mu)^2}

一元高斯分布的圖像

定義:

  • 均值:\mu
  • 方差:\sigma^2
  • 標準差:\sigma
  • 精度\beta = \frac{1}{\sigma^2}

高斯分布滿足:

  • N(x| \mu, \sigma^2) > 0

  • \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)xdx = 1

  • E[x] = \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)xdx = \mu(x的均值)

  • E[x^2] = \int_{-\infty}^{\infty}N(x|\mu, \sigma^2)x^2dx = \mu^2 + \sigma^2(二階距)

  • var[x] = E[x^2] - E[x]^2 = \sigma^2(x的方差)

  • 分布的最大值被叫做眾數(shù)。對于高斯分布俱尼,眾數(shù)與均值恰好相等抖单。

D維向量x的高斯分布定義:

N(x|\mu, \sum) = \frac{1}{(2\pi)^{\frac{D}{2}}} \frac{1}{|\sum|^{\frac{1}{2}}}exp \left\{ \frac{1}{2}(x- \mu)^T\sum^{-1}(x - \mu) \right\}

-量\mu

  • 協(xié)方差:D \times D的矩陣\sum
  • |\sum|表示\sum的行列式

對于獨立同分布的從高斯分布中抽取的數(shù)據(jù)集的概率:

p(x|\mu, \sigma^2) = \prod_{n = 1}^{N}N(x_n|\mu, \sigma^2)

高斯分布的似然函數(shù),紅色曲線表示

通過最大化似然函數(shù)來確定高斯分布中未知的參數(shù)\mu\sigma^2

取對數(shù)為了計算方便号显,將連乘轉(zhuǎn)化為連加:
lnp(x|\mu, \sigma^2) = \frac{1}{2\sigma^2} \sum_{n=1}^{N}(x_n - \mu)^2 - \frac{N}{2}ln\sigma^2 - \frac{N}{2}ln(2\pi)

推導(dǎo)過程

樣本均值:
\mu_{ML} = \frac{1}{N}\sum_{n=1}^{N}x_n

方差:
\sigma_{ML}^2 = \frac{1}{N}\sum_{n=1}^{N}(x_n - \mu_{ML})^2

易證:
E[\mu_{ML}] = \mu

E[\sigma_{ML}^2] = (\frac{N-1}{N})\sigma^2

結(jié)論:

最大似然估計的平均值將會得到正確的均值臭猜,但是會低估方差,因子為\frac{N-1}{N}押蚤。

這背后的直覺:


因為它是相對樣本均值進行測量的蔑歌,而不是相對真實的均值進行測量

無偏估計

\hat \sigma^2 = \frac{N}{N-1} \sigma_{ML}^2 = \frac{1}{N-1} \sum_{n=1}^{N}(x_n - \mu_{ML})^2

  • 在實際應(yīng)用中,只要N的值不太小揽碘,那么偏移的現(xiàn)象不是個大問題次屠。
  • 實際上,我們會看到雳刺,最大似然的偏移問題是我們在多項式曲線擬合問題中遇到的過擬合問題的核心劫灶。

1.2.5 重新考察曲線擬合問題

讓我們回到曲線擬合的問題,這一次掖桦,我不用誤差最小化本昏,這一次我要從概率的角度,更加深刻的認識誤差函數(shù)和正則化枪汪,并且從貝葉斯的角度看下這個問題:

用概率分布來表達關(guān)于目標變量的不確定性:

  • 假定:給定x的值涌穆,對應(yīng)的t服從高斯分布怔昨,分布的均值為y(x,w)

p(t|x, w, \beta) = N(t|y(x, w, \beta^{-1})),其中宿稀,\beta是精度參數(shù)趁舀,它對應(yīng)于分布方差的倒數(shù)

給定x條件下,t的高斯分布條件概率分布祝沸,其中均值是y(x,w)矮烹,精度由參數(shù)\beta給出,它是方差的倒數(shù)

用訓(xùn)練數(shù)據(jù){x,t}罩锐,通過最大似然方法奉狈,來決定未知參數(shù)w\beta的值

首先寫出似然函數(shù):
p(t|x,w,\beta) = \prod_{n=1}^{N}N(t_n|y(x_n,w),\beta^{-1})

對數(shù)似然函數(shù):
lnp(t|x,w,\beta) = -\frac{\beta}{2} \sum_{n=1}{N} \left \{ y(x_n, w) - t_n \right \}^2 + \frac{N}{2}ln{\beta} - \frac{N}{2}ln{(2\pi)}

求解:

  • 省略最后兩項
  • \frac{1}{2}代替\frac{\beta}{2}
  • 將最大化似然函數(shù)轉(zhuǎn)換為最下化負對數(shù)似然函數(shù)

得到:
\frac{1}{\beta_{ML}} =\frac{1}{N}\sum_{n=1}^{N} \left \{ y(x_n, w_{ML}) - t_n\right\}^2

我們又一次首先確定控制均值的參數(shù)向量w_{ML},然后使用這個結(jié)果來尋找精度\beta_{ML}唯欣。這與簡單高斯分布時的情形相同嘹吨。

已經(jīng)確定了參數(shù)w\beta,我們可以對新的x進行預(yù)測境氢,由于我們現(xiàn)在已經(jīng)有了一個新的概率模型蟀拷,預(yù)測可以通過給出t的概率分布的預(yù)測分布來表示,預(yù)測分布通過將最大似然參數(shù)代入公式:
p(t|x, w_{ML}, \beta_{ML}) = N(t|y(x, w_{ML}, \beta_{ML}^{-1}))

朝著貝葉斯方法前進一步:

  • 引入高斯分布
  • 使用貝葉斯定理萍聊,w的后驗概率正比于先驗分布和似然函數(shù)的乘積
  • 最大后驗MAP

最大化后驗概率就是最小化下式:
\frac{\beta}{2} \sum_{n = 1}^{N} \left\{ y(x_n, w) - t_n\right\}^2 + \frac{\alpha}{2}w^Tw

bingo问芬!

我們看到最大化后驗概率就等價于最小化正則化的平方和誤差函數(shù),正則化參數(shù)\lambda = \frac{\alpha}{\beta}寿桨。

1.2.6 貝葉斯曲線擬合

  • 在一個純粹的貝葉斯方法中此衅,我們應(yīng)該自始至終地應(yīng)用概率的加和規(guī)則和乘積規(guī)則。我們稍后會看到亭螟,這需要對所有w值進行積分挡鞍。
  • 對于模式識別來說,這種積分是貝葉斯方法的核心预烙。

回到曲線擬合問題:

因此我們想估計預(yù)測分布p(t |x, x, t)墨微,這里我們要假設(shè)參數(shù)\alpha\beta是固定的,事先知道的扁掸。

使用概率的加和規(guī)則和乘積規(guī)則翘县。因此預(yù)測概率可以寫成下面的形式:
p(t|x, x, t) = \int p(t|x, w)p(w|x, t)dw

求解:

  • p(t|x, w)由公式p(t|x, w, \beta) = N(t|y(x, w, \beta^{-1}))給出

  • 我們省略了對\alpha\beta的依賴

  • p(w|x, t)是參數(shù)的后驗分布挠蛉,可以通過p(w|x, t, \alpha, \beta) \propto p(t|x, w, \beta) p(w| \alpha)歸一化得到

  • 類似的脉漏,積分也可以解析的求解

因此:

預(yù)測分布由高斯的形式給出:
p(t|x,x,t) = N(t|m(x), s^2(x))

其中均值和方差分別為:
m(x) = \beta \phi(x)^TS\sum_{n = 1}^{N} \phi(x_n)t_n
s^2(x) = \beta^{-1} + \phi(x)^TS\phi(x)

這里,矩陣S由下式給出:
S^{-1} = \alpha I + \beta\sum_{n=1}^{N} \phi(x_n) \phi(x_n)^T苍碟,其中牺蹄,I是單位矩陣忘伞,向量\phi_i(x) = x^i(i = 0, ..., M)

總結(jié):

  • 預(yù)測分布的均值和方差依賴于x

s^2(x) = \beta^{-1} + \phi(x)^TS\phi(x)

  • 第一項表示預(yù)測值t的不確定性氓奈,這種不確定性由目標變量上的噪聲造成匿刮。
  • 在最大似然的預(yù)測分布中,這種不確定性通過\beta_{ML}^{-1}表達
  • 第二項也對參數(shù)w的不確定性有影響探颈。這是貝葉斯方法的結(jié)果。

下圖說明了正弦曲線的回歸問題训措。


貝葉斯方法處理多項式擬合問題得到的預(yù)測分布的結(jié)果

1.3 模型選擇

  • 找到模型中復(fù)雜度參數(shù)的合適的值伪节。
  • 尋找一個可選的模型的范圍,以便能夠找到對于特定應(yīng)用的最好的模型绩鸣。
  • 保留一個第三方的測試集是很有必要的怀大。這個測試集用來最終評估選擇的模型的表現(xiàn)。
  • 但是在許多實際應(yīng)用中呀闻,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都是很有限的化借。

交叉驗證法:

參數(shù)為S的交叉驗證方法

交叉驗證法圖解

以能夠得到的數(shù)據(jù)為輸出,將其劃分為S組(最簡單的情況下捡多,等于數(shù)據(jù)的個數(shù))蓖康。然后,S-1組數(shù)據(jù)被用于訓(xùn)練一組模型垒手,然后在剩余的一組上進行評估蒜焊。然后對于所有S的可能選擇重復(fù)進行這一步驟,使用剩余的一組進行評估科贬,這里用紅色標記出來泳梆。之后,對S輪運行結(jié)果的表現(xiàn)得分求平均值榜掌。王哥优妙,噠噠噠噠噠噠,我想買加特林憎账!

留一法

這種方法能夠讓可得到數(shù)據(jù)的\frac{S-1}{S}用于訓(xùn)練套硼,同時使用所有的數(shù)據(jù)來評估表現(xiàn)。當數(shù)據(jù)相當稀疏的時候鼠哥,考慮S = N的情況很合適熟菲,其中N是數(shù)據(jù)點的總數(shù)。這種技術(shù)叫做“留一法”(leave-one-out)朴恳。

缺點:

  • 需要進行的訓(xùn)練的次數(shù)隨著S而增加抄罕,這對于訓(xùn)練本身很耗時的問題來說是個大問題。
  • 在最壞的情況下于颖,探索這些參數(shù)的組合所需的訓(xùn)練次數(shù)可能是參數(shù)個數(shù)的指數(shù)函數(shù)呆贿。

信息準則:

  • 需要找到一種模型表現(xiàn)的度量,它只依賴于訓(xùn)練數(shù)據(jù),并且不會由于過擬合產(chǎn)生偏移的問題做入。
  • 增加一個懲罰項來補償過于復(fù)雜的模型造成的過擬合
    例如:AIC

lnp(D|w_{ML}) - M

這里冒晰,p(D|w_{ML})是最合適的對數(shù)似然函數(shù),M是模型中可調(diào)節(jié)參數(shù)的數(shù)量竟块,這個量的一種變體壶运,被稱為貝葉斯信息準則(Bayesian information criterion),或者簡稱為BIC浪秘,后面會提到蒋情,但是,這種準則沒有考慮模型參數(shù)的不確定性耸携,在實際應(yīng)用中它們傾向于選擇過于簡單的模型棵癣。

1.4 維度災(zāi)難

例子:


缺點:

當需要處理的問題有很多輸出數(shù)據(jù),并且對應(yīng)于高維的輸出空間時夺衍,有一個問題就變得尤為突出狈谊。

單元格的數(shù)量會隨著空間的維數(shù)以指數(shù)的形式增大!

更深刻的討論一下高維空間中出現(xiàn)的問題:

如果我們有D個輸入變量沟沙,那么一個三階多項式就可以寫成:
y(x,w) = w_0 + \sum_{i = 1}^{D} w_ix_i + \sum_{i = 1}^{D} w_{ij}x_ix_j + \sum_{i = 1}^{D} \sum_{j = 1}^{D} \sum_{k = 1}^{D} w_{ijk}x_ix_jx_k

  • 隨著D的增加河劝,獨立的系數(shù)的數(shù)量(并非所有的系數(shù)都獨立,因為變量x之間的互換對稱性)的增長速度正比于D^3矛紫。
  • 對于一個M階多項式丧裁,系數(shù)數(shù)量的增長速度類似于D^M

結(jié)論

這種放法會迅速變得很笨重含衔,因此在實際應(yīng)用中很受限煎娇。

我們在三維空間的幾何直覺在高維空間將會失效!

例如贪染,考慮D維空間的一個半徑r = 1的球體缓呛,請問,位于半徑r = 1- ?和半徑r = 1之間的部分占球的總體積的百分比是多少杭隙?

對于不同的D哟绊,位于r =1-?和r=1之間的部分與球的體積比

結(jié)論:因此,在高維空間中痰憎,一個球體的大部分體積都聚集在表面附近的薄球殼上票髓!

對于大的D值,高斯分布的概率質(zhì)量集中在薄球殼處铣耘。

維度災(zāi)難固然存在洽沟,但是不能阻止我們尋找應(yīng)用到高維空間的有效技術(shù):

  • 真實的數(shù)據(jù)經(jīng)常被限制在有著較低的有效維度的空間區(qū)域中,特別地蜗细,在目標值會發(fā)生重要變化的方向上也會有這種限制
  • 真實數(shù)據(jù)通常比較光滑(至少局部上比較光滑)裆操,因此大多數(shù)情況下怒详,對于輸入變量的微小改變,目標值的改變也很小踪区,因此對于新的輸入變量昆烁,我們可以通過局部的類似于插值的技術(shù)來進行預(yù)測。

沒看懂缎岗,沒問題静尼,看個例子:考慮制造業(yè)中的一個應(yīng)用。

這個應(yīng)用中传泊,照相機拍攝了傳送帶上的相同的平面物體茅郎,目標是判斷它們的方向。每一張圖片都是三維空間中的一個點或渤。高維空間的維數(shù)由像素的數(shù)量決定。由于物體會出現(xiàn)在圖片的不同位置奕扣,并且方向不同薪鹦,因此圖像之間有3個自由度,并且一組圖片將會處在高維空間的一個三維流形中惯豆。由于物體的位置或方向與像素灰度值的關(guān)系很復(fù)雜池磁,因此流形一定是高度非線性的。如果目標是學(xué)習一個模型楷兽,這個模型能夠以圖片作為輸入地熄,然后輸出物體的方向,與位置無關(guān)芯杀,那么這個流形中就只有一個自由度了端考。這很有意義。

1.5 決策論

當決策論與概率論結(jié)合的時候揭厚,我們能夠在涉及到不確定性的情況下做出最優(yōu)的決策却特。這在模式識別中經(jīng)常遇到。

理解標簽筛圆,采取行動

但是在一個實際應(yīng)用中裂明,我們經(jīng)常必須對t的值做出具體的預(yù)測,或者更一般地太援,根據(jù)我們對于t的可能取值的理解闽晦,采取一個具體的動作。這一方面就是決策論的主題提岔。

形式化的考慮一下概率論如何在做決策時起作用:

p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

注意:出現(xiàn)在貝葉斯定理中的任意一個量都可以從聯(lián)合分布p(x, C_k)中得到仙蛉,要么積分,要么通過關(guān)于某個合適的變量求條件概率碱蒙。

我們現(xiàn)在把p(C_k)稱為類C_k的先驗概率捅儒,把p(C_k|x)稱為對應(yīng)的后驗概率,因此此p(C1)表示在我們拍X光之前,一個人患癌癥的概率巧还。p(C_1|x)表示使用X光中包含的信息通過貝葉斯定理修改之后的對應(yīng)的后驗概率鞭莽。

如果我們的目標是最小化把x分到錯誤類別中的可能性,那么根據(jù)直覺麸祷,我們要選擇有最大后驗概率的類別澎怒。我們現(xiàn)在要證明,這種直覺是正確的阶牍,并且我們還會討論進?決策的更加通用的標準喷面。

1.5.1 最小化錯誤分類率

  • 決策區(qū)域:我們需要一個規(guī)則將每個x的值分到一個合適的類別,這種規(guī)則將會把輸入空間的切分成不同的區(qū)域R_k走孽。
  • 決策邊界:每個類別都有一個決策區(qū)域惧辈,區(qū)域R_k中的所有點都被分到C_k類。決策區(qū)域
    間的邊界被叫做決策邊界或者決策面磕瓷。

錯誤分類率:
p(mistake) = p(x \in R_1, C_2) + p(x \in R_2, C_1) = \int_{R_1}{}p(x, C_2)dx + \int_{R_2}{}p(x, C_1)dx

分析

因此盒齿, 如果對于給定的x值,如果p(x, C_1) > p(x, C_2)困食,那么我們就把x分到類別C_1中边翁。根據(jù)概率的乘積規(guī)則,我們有p(x, C_k) = p(C_k | x)p(x)硕盹。由于因子p(x)對于兩項都相同符匾,因此我們可以這樣表述:

如果我們把每個x分配到后驗概率p(C_k|x)最大的類別中,那么我們分類錯誤的概率就會最小瘩例。

兩個類別的聯(lián)合概率分布p(x, C_k)與x的關(guān)系啊胶,以及決策邊界x =\hat x

對于更一般的K類的情形,最大化正確率會稍微簡單一些垛贤,即最大化下式:

p(correct) = \sum_{k=1}^{K} p(x \in R_k,C_k) = \sum_{k = 1}^{K}\int_{R_k}{}p(x, C_k)dx

當區(qū)域R_k的選擇使得每個x都被分到使p(x, C_k)最大的類別中時创淡,上式取得最大值。再一次使用乘積規(guī)則p(x, C_k) = p(C_k|x)p(x)南吮,并且注意到因子p(x)對于所有項都相同琳彩,我們可以看到每個x都應(yīng)該被分到有著最大后驗概率p(C_k | x)的類別中。

1.5.2 最小化期望損失

損失函數(shù)也被稱為代價函數(shù)(cost function)部凑,是對于所有可能的決策或者動作可能產(chǎn)生的損失的一種整體的度量露乏。我們的目標是最小化整體的損失。

我們將不同程度的損失涂邀,記作L_kj瘟仿,它可以看成損失矩陣(loss matrix)的第k, j個元素。

癌癥診斷問題的損失矩陣的例子

平均損失根據(jù)這個聯(lián)合概率分布計算比勉,定義為:

E[L] = \sum_{k}\sum{i} \int_{R_j} L_{kj}p(x, C_k)dx

1.5.3 拒絕選項

在有些區(qū)域中劳较,類別的歸屬相對不確定驹止。在某些應(yīng)用中,對于這種困難的情況观蜗,避免做出決策是更合適的選擇臊恋。這樣會使得模型的分類錯誤率降低。

拒絕選項的例子

注意墓捻,令\theta = 1會使所有的樣本都被拒絕抖仅,而如果有K個類別,那么令\theta < \frac{1}{K}將會確保沒有樣本被拒絕砖第。因此被拒絕的樣本比例由\theta的值控制撤卢。

1.5.4 推斷和決策

判別函數(shù):另一種可能的方法是,同時解決兩個問題梧兼,即簡單地學(xué)習一個函數(shù)放吩,將輸入x直接映射為決策。這樣的函數(shù)被稱為判別函數(shù)羽杰。

三種決策問題:
(a)首先對于每個類別C_k渡紫,獨立地確定類條件密度p(x|C_k)。這是一個推斷問題忽洛。然后,推
斷先驗類概率p(C_k)环肘。之后欲虚,使用貝葉斯定理 :

p(C_k|x) = \frac{p(x|C_k)p(C_k)}{p(x)}

求出后驗概率p(C_k|x),和往常一樣悔雹,貝葉斯定理的分母可以用分子中的項表示:

p(x) = \sum_{k}p(x|C_k)p(C_k)

等價地复哆,我們可以直接對聯(lián)合概率分布p(x, C_k)建模,然后歸一化腌零,得到后驗概率梯找。得到后驗概率之后,我們可以使用決策論來確定每個新的輸入x的類別益涧。

顯式地或者隱式地對輸入以及輸出進行建模的方法被稱為生成式模型(generative model)锈锤。

(b)首先解決確定后驗類密度p(C_k| x)這一推斷問題,接下來使用決策論來對新的輸入x進行分類闲询。這種直接對后驗概率建模的方法被稱為判別式模型(discriminative models)久免。

(c)找到一個函數(shù)f(x),被稱為判別函數(shù)扭弧。這個函數(shù)把每個輸入直接映射為類別標簽阎姥。例如,在二分類問題中鸽捻,f(·)可能是一個二元的數(shù)值呼巴,f = 0表示類別C_1泽腮,f =1表示類別C_2。這種情況下衣赶,概率不起作用诊赊。

對比:

方法(a)

缺點:
需要求解的東西最多,因為它涉及到尋找在xC_k上的聯(lián)合概率分布屑埋。對于許多應(yīng)用豪筝,x的維度很高,這會導(dǎo)致我們需要大量的訓(xùn)練數(shù)據(jù)才能在合理的精度下確定類條件概率密度摘能。

優(yōu)點:
它能夠通過公式求出數(shù)據(jù)的邊緣概率密度p(x),這對于檢測模型中具有低概率的新數(shù)據(jù)點很有用续崖。

然而,如果我們只是想進行決策团搞,那么這種方法會浪費計算資源严望。并且,實際上我們只是想求出后驗概率p(C_k|x)逻恐。但是為了求出它湾蔓,這種方法需要大量的數(shù)據(jù)來尋找聯(lián)合概率p(x, C_k)掌实。事實上,類條件密度可能包含很多對于后驗概率幾乎沒有影響的結(jié)構(gòu),如下圖所示奇适。

具有一元輸入變量x的兩個類別的類條件概率密度(左圖)以及對應(yīng)的后驗概率密度(右圖)

方法(c):
我們不在能夠接觸到后驗概率p(C_k|x)。有很多強烈的理由需要計算后驗概率志膀,即使我們接下來要使用后驗概率來進行決策人灼。

  • 最小化風險:不然損失矩陣的任何改變都需要我們返回訓(xùn)練數(shù)據(jù),重新解決分類問題亏栈。
  • 拒絕選項:后驗概率讓我們能夠確定最小化誤分類率的拒絕標準
  • 補償類先驗概率:人造的平衡數(shù)據(jù)中得到的后驗概率除以數(shù)據(jù)集里的類比例台腥,再乘以我們想要應(yīng)用模型的目標人群中類別的比例即可。最后绒北,我們需要歸一化來保證新的后驗概率之和等于1黎侈。
  • 組合模型,同時給出X光片和血液數(shù)據(jù)闷游。p(x_I, x_B|C_k) = p(x_I|C_k)p(x_B|C_k)

1.5.5 回歸問題的損失函數(shù)

期望損失:

E[L] = \int \int L(t, y(x))p(x, t)dxdt

平方損失:

E[L] = \int \int \left\{ y(x) - t \right\}^2p(x, t)dxdt

求解(推導(dǎo)略):

y(x) = E_t[t|x]

最小化了期望平方損失的回歸函數(shù)y(x)由條件概率分布p(t|x)的均值給出

最優(yōu)解是條件均值y(x) = E_t[t|x]

稍微不同的方式推導(dǎo)結(jié)果

繼而損失函數(shù):
E[L] = \int \left\{ y(x) - E[t|x]\right\}^2p(x)dx + \int var[t|x]p(x)dx

我們尋找的函數(shù)y(x)只出現(xiàn)在第一項中峻汉。當y(x)等于E[t|x]時第一項取得最小值,這時第一項會被消去脐往。這正是我們之前推導(dǎo)的結(jié)果俱济,表明最優(yōu)的最小平芳預(yù)測由條件均值給出。第二項是t的分布的方差钙勃,在x上進行了平均蛛碌。它表示目標數(shù)據(jù)內(nèi)在的變化性,可以被看成噪聲辖源。由于它與y(x)無關(guān)蔚携,因此它表示損失函數(shù)的不可減小的最小值希太。

與分類問題相同,我們可以確定合適的概率然后使用這些概率做出最優(yōu)的決策酝蜒,或者我們可
以建立直接決策的模型誊辉。

(a) 首先解決確定聯(lián)合概率密度p(x, t)的推斷問題。之后亡脑,計算條件概率密度p(t|x)堕澄。最
后,使用公式y(x) = E_t[t|x]積分霉咨,求出條件均值蛙紫。
(b) 首先解決確定條件概率密度p(t|x)的推斷問題。之后使用y(x) = E_t[t|x]計算條件均值途戒。
(c) 直接從訓(xùn)練數(shù)據(jù)中尋找一個回歸函數(shù)y(x)坑傅。

平方損失的一種推廣:閔可夫斯基損失函數(shù)

q = 2時,這個函數(shù)就變成了平方損失函數(shù)的期望喷斋。上圖給出了不同q值下唁毒,函數(shù)|y-t|^q關(guān)于y-t的圖像。當q = 2時星爪,E[L_q]的最小值是條件均值浆西。當q = 1時,E[L_q]的最小值是條件中位數(shù)顽腾。當q \rightarrow 0時近零,E[L_q]的最小值是條件眾數(shù)。

1.6 信息論

信息量可以被看成在學(xué)習x的值的時候的“驚訝程度”崔泵。

h(·)的形式可以這樣尋找:如果我們有兩個不相關(guān)的事件xy秒赤,那么我們觀察到兩個事件同時發(fā)生時獲得的信息應(yīng)該等于觀察到事件各自發(fā)生時獲得的信息之和猪瞬,即h(x,y) = h(x) +h(y)憎瘸。兩個不相關(guān)事件是統(tǒng)計獨立的,因此p(x, y) = p(x)p(y)陈瘦。根據(jù)這兩個關(guān)系幌甘,很容易看出h(x)一定與p(x)的對數(shù)有關(guān)。因此痊项,我們有:

h(x) = -log_2p(x),其中锅风,負號確保了信息一定是正數(shù)或者是零。

現(xiàn)在假設(shè)一個發(fā)送者想傳輸一個隨機變量的值給接收者鞍泉。這個過程中皱埠,他們傳輸?shù)钠骄畔⒘浚?/p>

H[x] = - \sum_{x}p(x)log_2p(x)

這個重要的量被叫做隨機變量x的熵(entropy)。注意咖驮,lim_{p\rightarrow 0} p log_2 p = 0边器,因此只要我們遇到一個x使得p(x) = 0训枢,那么我們就應(yīng)該令p(x) log_2 p(x) = 0

非均勻分布比均勻分布的熵要小

我們可以這樣理解熵的這種含義:考慮一個集合忘巧,包含N個完全相同的物體恒界,這些物體要被分到若干個箱子中,使得第i個箱子中n_i個物體砚嘴∈ǎ考慮把物體分配到箱子中的不同方案的數(shù)量。

N種方式選擇第一個物體际长,有(N-1)種方式選擇第二個物體耸采,以此類推。因此總共N!種方式把N個物體分配到箱子中也颤,其中N!表示乘積N \times (N - 1) \times...\times2\times1洋幻。然而,我們不想?yún)^(qū)分每個箱子內(nèi)部物體的重新排列翅娶。在第i個箱子中文留,有ni!種方式對物體重新排序,因此把N個物體分配到箱子中的總方案數(shù)量為:

這被稱為乘數(shù)(multiplicity)竭沫。熵被定義為通過適當?shù)膮?shù)放縮后的對數(shù)乘數(shù)燥翅,即:

我們現(xiàn)在考慮極限N \rightarrow \infty,并且保持比值\frac{n_i}{N}固定蜕提,使用Stirling的估計:


可以得到:

推導(dǎo)時我們使用了\sum{}_in_i = N森书。這里,pi = lim_{N\rightarrow \infty}(\frac{n_i}{N})是一個物體被分配到第i個箱子的概率谎势。使用物理學(xué)的術(shù)語凛膏,箱子中物體的具體分配方案被稱為微觀狀態(tài)(microstate),整體的占領(lǐng)數(shù)的分布脏榆,表示為比值\frac{n_i}{N}猖毫,被稱為宏觀狀態(tài)(macrostate)。乘數(shù)W也被稱為宏觀狀態(tài)的權(quán)重(weight)须喂。

我們可以把箱子表述成離散隨機變量X的狀態(tài)x_i吁断,其中p(X = xi) = pi。這樣坞生,隨機變
量X的熵就是:


由于0 \leq pi \leq 1仔役,因此熵是非負的。當pi = 1且所有其他的p_{j \not\equiv i} = 0時是己,熵取得最小值0又兵。在概率歸一化的限制下,使用拉格朗日乘數(shù)法可以找到熵的最大值卒废。因此沛厨,我們要最大化:

....一系列計算求解過程

條件熵滿足下面的關(guān)系:


其中乘盼,是的微分熵,是邊緣分布的微分熵俄烁。

因此

描述xy所需的信息是描述x自己所需的信息绸栅,加上給定x的情況下具體化y所需的額外信息。

1.6.1 相對熵和互信息

本節(jié)目前為止页屠,我們已經(jīng)介紹了信息論的許多概念粹胯,包括熵的關(guān)鍵思想。我們現(xiàn)在開始把這些思想關(guān)聯(lián)到模式識別的問題中辰企。

考慮某個未知的分布p(x)风纠,假定我們已經(jīng)使用一個近似的分布q(x)對它進行了建模。如果我們使用q(x)來建立一個編碼體系牢贸,用來把x的值傳給接收者竹观,那么,由于我們使用了q(x)而不是真實分布p(x)潜索,因此在具體化x的值(假定我們選擇了一個高效的編碼系統(tǒng))時臭增,我們需要一些附加的信息。

我們需要的平均的附加信息量(單位是nat)為:

這被稱為分布p(x)和分布q(x)之間的相對熵或者KL散度竹习。

如果一個函數(shù)具有如下性質(zhì):每條弦都位于函數(shù)圖像或其上方(如圖1.31所示)誊抛,那么我們說這個函數(shù)是凸函數(shù)。位于x = ax = b之間的任何一個x值都可以寫成\lambda + (1 - \lambda )b的形式整陌,其中0\leq \lambda \leq1拗窃。弦上的對應(yīng)點可以寫成\lambda f(a)+ (1 - \lambda)f(b),函數(shù)的對應(yīng)值為f(\lambda a +(1 - \lambda)b)泌辫。這樣随夸,凸函數(shù)的性質(zhì)就可以表示為:

這等價于要求函數(shù)的一階導(dǎo)數(shù)處處為正。

如果等號只在\lambda = 0\lambda= 1處取得震放,我們就說這個函數(shù)是嚴格凸函數(shù)(strictly convex function)宾毒。如果一個函數(shù)具有相反的性質(zhì),即每條弦都位于函數(shù)圖像或其下方澜搅,那么這個函數(shù)被稱為凹函數(shù)(concave function)伍俘。對應(yīng)地邪锌,也有嚴格凹函數(shù)(strictly concave function)的定義勉躺。如果f(x)是凸函數(shù),那么-f(x)就是凹函數(shù)觅丰。

凸函數(shù)f(x)滿足:

其中饵溅,對于任意點集{x_i},都有\lambda_i \geq 0\sum {}_i \lambda_i = 1妇萄。

上式被稱為Jensen不等式(Jensen's inequality)蜕企。

如果我們把\lambda_i看成取值為{x_i}的離散變量x的概率分布咬荷,那么上式就可以寫成:

其中,E[·]表示期望轻掩。對于連續(xù)變量幸乒,Jensen不等式的形式為:

將KL散度和Jensen不等式結(jié)合:

這被稱為變量x和變量y之間的互信息(mutual information)。

使用概率的加和規(guī)則和乘積規(guī)則唇牧,我們看到互信息和條件熵之間的關(guān)系為:


因此我們可以把**互信息看成由于知道y值而造成的x的不確定性的減泻痹(反之亦然)。從貝葉斯的觀點來看丐重,我們可以把p(x)看成x的先驗概率分布腔召,把p(x|y)看成我們觀察到新數(shù)據(jù)y之后的后驗概率分布。因此互信息表示一個新的觀測y造成的x的不確定性的減小扮惦。

呼臀蛛,概率論,我的心好痛崖蜜!第一章就這吧浊仆!
1.1多項式擬合引出誤差函數(shù),并對比了不同模型復(fù)雜度下的表現(xiàn)
1.2講解了PDF豫领,期望氧卧,協(xié)方差,通過邊緣概率密度和聯(lián)合概率密度分布氏堤,引出了貝葉斯定理沙绝,提出了高斯分布,并從貝葉斯的角度推導(dǎo)了如何得到誤差函數(shù)鼠锈,以及正則化的原因
1.3講解了模型選擇的方法闪檬,包括交叉驗證法等數(shù)據(jù)處理手段
1.4通過高維球體體積分析引出了高維存在缺陷,但是由于低維數(shù)據(jù)相比于高維更復(fù)雜购笆,還是有必要研究高維下的數(shù)據(jù)轉(zhuǎn)化
1.5決策論粗悯,即計算了后驗概率后如何行動,講解了三種方法同欠,并講解了回歸問題的損失函數(shù)與分類問題的區(qū)別
1.6提出了熵样傍,并進行了熵值最大化
1.7將熵和信息進行綜述,提出了相對熵和互信息

loading...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末铺遂,一起剝皮案震驚了整個濱河市衫哥,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌襟锐,老刑警劉巖撤逢,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡蚊荣,警方通過查閱死者的電腦和手機初狰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來互例,“玉大人奢入,你說我怎么就攤上這事∠边叮” “怎么了俊马?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長肩杈。 經(jīng)常有香客問我柴我,道長,這世上最難降的妖魔是什么扩然? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任艘儒,我火速辦了婚禮,結(jié)果婚禮上夫偶,老公的妹妹穿的比我還像新娘界睁。我一直安慰自己,他們只是感情好兵拢,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布翻斟。 她就那樣靜靜地躺著,像睡著了一般说铃。 火紅的嫁衣襯著肌膚如雪访惜。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天腻扇,我揣著相機與錄音债热,去河邊找鬼。 笑死幼苛,一個胖子當著我的面吹牛窒篱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播舶沿,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼墙杯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了括荡?” 一聲冷哼從身側(cè)響起高镐,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎一汽,沒想到半個月后避消,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡召夹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年岩喷,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片监憎。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡纱意,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出鲸阔,到底是詐尸還是另有隱情偷霉,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布褐筛,位于F島的核電站类少,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏渔扎。R本人自食惡果不足惜硫狞,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望晃痴。 院中可真熱鬧残吩,春花似錦、人聲如沸倘核。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽紧唱。三九已至活尊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間漏益,已是汗流浹背酬凳。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工梁丘, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留不皆,地道東北人。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓锤悄,卻偏偏與公主長得像峦睡,于是被迫代替她去往敵國和親翎苫。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容