二元變量
伯努利分布
似然函數(shù)為
對數(shù)似然函數(shù)為
如果我們令關(guān)于u的導數(shù)等于零,我們就得到了最大似然的估計值
現(xiàn)在假設(shè)我們?nèi)右粋€硬幣3次踢星,碰巧3次都是正面朝上。那么N=m= 3成洗,且uML= 1桌粉。這種情況下庆揪,最大似然的結(jié)果會預測所有未來的觀測值都是正面向上。常識告訴我們這個是不合理的箭跳。事實上笋轨,這是最大似然中過擬合現(xiàn)象的一個極端例子家浇。
二項分布
Beta分布
如果我們選擇一個正比于u和(1-u)的冪指數(shù)的先驗概率分布钢悲,那么后驗概率分布(正比于先驗和似然函數(shù)的乘積)就會有著與先驗分布相同的函數(shù)形式青团。
其中前面的系數(shù)用于保證Beta分布是歸一化的
u的后驗概率
后驗概率是一個Beta分布咖楣,對于x= 1和x= 0的觀測總數(shù)(先驗的和實際的)由參數(shù)a和b給出。觀測到一個x= 1僅僅對應于把a的值增加1娃肿,而觀測到x= 0會使b增加1珠十。圖2.3說明了這個過程中的一個步驟。
預測可以表示為
在數(shù)據(jù)集無限大的極限情況下晒杈,此時公式(2.20)的結(jié)果變成了最大似然的結(jié)果(2.8)
多項式變量
那么分布可以表示為
似然函數(shù)
拉格朗日求解帶約束的最大似然函數(shù)
多項式分布
狄利克雷分布
后驗概率
高斯分布
一維形式
高維形式
我們考慮高斯分布的幾何形式
首先拯钻,我們注意到協(xié)方差矩陣可以取為對稱矩陣粪般,而不失一般性污桦。這是因為任何非對稱項都會從指數(shù)中消失。現(xiàn)在考慮協(xié)方差矩陣的特征向量方程
特征值可以選為正交的
協(xié)方差矩陣可以表示成特征向量的展開的形式(特征值分解)
把公式(2.49)代入公式(2.44)小作,二次型就變成了
這個坐標變換也可以表示為
現(xiàn)在考慮在由yi定義的新坐標系下高斯分布的形式。
其行列式為
協(xié)方差矩陣的行列式可以寫成特征值的乘積
所以y坐標下的高斯分布可以表示為
這是D個獨立一元高斯分布的乘積致份。特征向量因此定義了一個新的旋轉(zhuǎn)础拨、平移的坐標系氮块,在這個坐標系中聯(lián)合概率分布可以分解成獨立分布的乘積滔蝉。
一階矩
二階矩
可以化簡得到
條件高斯分布
多元高斯分布的一個重要性質(zhì)是塔沃,如果兩組變量是聯(lián)合高斯分布,那么以一組變量為條件螃概,另一組變量同樣是高斯分布。類似地吊洼,任何一個變量的邊緣分布也是高斯分布制肮。
我們把x劃分成兩個不相交的子集xa和xb
首先,我們來尋找條件概率分布p(xa|xb)的表達式综液。根據(jù)概率的乘積規(guī)則,我們看到谬莹,條件分布可以根據(jù)聯(lián)合分布p(x) =p(xa;xb)很容易地計算出來桩了。我們只需把xb固定為觀測值,然后對得到的表達式進行歸一化圣猎,得到xa的一個合法的概率分布。我們不顯示地進行歸一化慢显,相反爪模,我們可以用一種更有效率的方式求解屋灌。我們首先考慮由公式(2.44)給出的高斯分布指數(shù)項中出現(xiàn)的二次型应狱,然后在計算的最后階段重新考慮歸一化系數(shù)。
可以表示為
因此可以得到
由于
所以可以得到
邊緣高斯分布
首先考慮涉及到xb的項除嘹,然后配出平方項岸蜗,使得積分能夠更方便地計算。選出涉及到xb的項璃岳,我們有
唯一剩余的與xa相關(guān)的項就是公式(2.84)的右側(cè)的最后一項,其中m由公式(2.85)給出单芜。把這一項與公式(2.70)中余下的與xa相關(guān)的項結(jié)合犁柜,我們有
高斯變量的貝葉斯定理
我們令邊緣概率分布和條件概率分布的形式如下
考慮一個聯(lián)合分布z
為了找到這個高斯分布的精度,我們考慮公式(2.102)的第二項坛怪,它可以寫成
找到(2.102)中的線性項股囊,采用前面類似的方法可以得到
同時利用前文邊緣分布更啄、條件分布的結(jié)論
小結(jié)
高斯分布的最大似然估計
順序估計
考慮公式(2.121)給出的均值的最大似然估計結(jié)果uML祭务。當它依賴于第N次觀察時,將被記作u(N)ML义锥。如果我們想分析最后一個數(shù)據(jù)點xN的貢獻,我們有
Robbins-Monro算法
考慮一對隨機變量Θ和z赂鲤,它們由一個聯(lián)合概率分布p(z;Θ)所控制噪径。已知Θ的條件下找爱,z的條件期望定義了一個確定的函數(shù)f(Θ),形式如下
我們的目標是尋找Θ*使得f(Θ*) = 0车摄。
我們假定z的條件方差是有窮的仑鸥,因此
高斯分布的貝葉斯推斷
假設(shè)方差是已知的
令u服從先驗分布
花一點時間來研究后驗概率分布的均值和方差是很有意義的眼俊。首先,我們注意到由公式(2.141)給出的后驗分布的均值是先驗均值u0和最大似然解uML的折中泵琳。如果觀測數(shù)據(jù)點的數(shù)量N= 0,那么與我們想的一樣获列,公式(2.141)就變成了先驗均值。
如果從一個順序的觀點來看迫悠,那么貝葉斯方法就變得非常自然了。為了在高斯分布均值推斷的問題中說明這一點创泄,我們把后驗分布中最后一個數(shù)據(jù)點xN的貢獻單獨寫出來,即
現(xiàn)在假設(shè)均值是已知的鞠抑,我們要推斷方差
對應的共軛先驗因此應該正比于λ的冪指數(shù)忌警,也正比于λ的線性函數(shù)的指數(shù)。這對應于Gamma分布法绵,定義為
所以我們得到后驗分布
現(xiàn)在假設(shè)均值和精度都是未知的。為了找到共軛先驗
我們現(xiàn)在想找到一個先驗分布盐茎,它對于u和精度的依賴與似然函數(shù)有著相同的函數(shù)形式
這就是高斯-Gamma分布
在多維的情況下有些不一樣
學生t分布
對高斯-Gamma分布積分
這就是student-t分布徙赢,參數(shù)lamda有時被稱為t分布的精度(precision)滑进,即使它通常不等于方差的倒數(shù)募谎。參數(shù)v被稱為自由度(degrees of freedom),當自由度無窮的時候student-t分布變?yōu)楦咚狗植肌?/p>
整理一下student-t的表示形式
周期變量
高斯分布不適合對周期變量建模节槐,例如:我們可以測量許多天的風向值拐纱,然后希望使用一個參數(shù)分布來總結(jié)風向的規(guī)律。選擇一個方向作為原點秸架,然后應用傳統(tǒng)的概率分布(例如高斯分布)。但是东抹,這種方法的結(jié)果將會強烈依賴于原點的選擇。
所以我們考慮下面的方法
我們現(xiàn)在考慮高斯分布對于周期變量的一個推廣:von Mises分布
設(shè)一個二維的高斯分布
根據(jù)前面的方法有
代入二維高斯分布中
混合高斯模型
我們考慮K個高斯概率密度的疊加食茎,形式為
對數(shù)似然函數(shù)
我們立刻看到現(xiàn)在的情形比一元高斯分布復雜得多馏谨,因為對數(shù)中存在一個求和式。這就導致參數(shù)的最大似然解不再有一個封閉形式的解析解惧互。一種最大化這個似然函數(shù)的方法是使用迭代數(shù)值優(yōu)化方法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop andNabney, 2008)。另一種方法是使用一個被稱為期望最大化(expectation maximization)的強大的框架喊儡,這將在第9章詳細討論。
指數(shù)族分布
伯努利分布轉(zhuǎn)換為指數(shù)族分布形式
多項式分布轉(zhuǎn)換為指數(shù)分布族形式
整理后可表示為
一元高斯分布轉(zhuǎn)換為指數(shù)分布族形式
最大似然與充分統(tǒng)計量
讓我們考慮用最大似然法估計公式(2.194)給出的一般形式的指數(shù)族分布的參數(shù)向量u的問題截珍。
對公式(2.195)的兩側(cè)取梯度
共軛先驗
我們已經(jīng)多次遇到共軛先驗的概念。例如在伯努利分布中秋度,共軛先驗是Beta分布炸庞。在高斯分布中埠居,均值的共軛先驗是高斯分布查牌,精度的共軛先驗是Wishart分布纸颜。一般情況下绎橘,對于一個給定的概率分布p(x|u),我們能夠?qū)ふ乙粋€先驗p(η)使其與似然函數(shù)共軛称鳞,從而后驗分布的函數(shù)形式與先驗分布相同。對于指數(shù)族分布(2.194)的任何成員冈止,都存在一個共軛先驗,可以寫成下面的形式
無信息先驗
我們可以尋找一種形式的先驗分布熙暴,被稱為無信息先驗(noninformativeprior)。這種先驗分布的目的是盡量對后驗分布產(chǎn)生盡可能小的影響(Jeffreys, 1946; Box andTiao, 1973; Bernardo and Smith, 1994)周霉。這有時被稱為“讓數(shù)據(jù)自己說話”。
并且由于這必須對于任意的A和B的選擇都成立诗眨,因此我們有
可以看出p(u)是常數(shù)匠楚,并且u的共軛先驗分布是一個高斯分布与斤。
根據(jù)公式(2.141)和公式(2.142),并且在標準差取無窮的情況下抵皱,在u的后驗分布中悼院,先驗的貢獻消失了剑鞍。
非參數(shù)化方法
本章中,我們已經(jīng)關(guān)注過的概率分布都有具體的函數(shù)形式哪痰,并且由少量的參數(shù)控制肋演。這些參數(shù)的值可以由數(shù)據(jù)集確定奸绷。這被稱為概率密度建模的參數(shù)化(parametric)方法。這種方法的一個重要局限性是選擇的概率密度可能對于生成數(shù)據(jù)來說该酗,是一個很差的模型,從而會導致相當差的預測表現(xiàn)爵嗅。例如睹晒,如果生成數(shù)據(jù)的過程是多峰的括细,那么這種分布不可能被高斯分布描述,因為它是單峰的锉试。
首先讓我們討論密度估計的直方圖方法贷笛。
在實際應用中,直方圖方法對于快速地將一維或者二維的數(shù)據(jù)可視化很有用奖磁,但是并不適用于大多數(shù)概率密度估計的應用。一個明顯的問題是估計的概率密度具有不連續(xù)性繁疤,這種不連續(xù)性是因為箱子的邊緣造成的,而不是因為生成數(shù)據(jù)的概率分布本身的性質(zhì)造成稠腊。
核密度估計
讓我們假設(shè)觀測服從D維空間的某個未知的概率密度分布p(x)。我們把這個D維空間選擇成歐幾里得空間架忌,并且我們想估計p(x)的值。區(qū)域R的概率質(zhì)量為
在我們假設(shè)我們收集了服從p(x)分布的N次觀測。由于每個數(shù)據(jù)點都有一個落在區(qū)域R中的概率P饰恕,因此位于區(qū)域R內(nèi)部的數(shù)據(jù)點的總數(shù)K將服從二項分布
但是,如果我們也假定區(qū)域R足夠小埋嵌,使得在這個區(qū)域內(nèi)的概率密度p(x)大致為常數(shù),那么我們有
其中V是區(qū)域R的體積范舀。把公式(2.244)和公式(2.245)結(jié)合,我們得到概率密度的估計了罪,形式為
注意,公式(2.246)的成立依賴于兩個相互矛盾的假設(shè)辅辩,即區(qū)域R要足夠小,使得這個區(qū)域內(nèi)的概率密度近似為常數(shù)汽久,但是也要足夠大,使得落在這個區(qū)域內(nèi)的數(shù)據(jù)點的數(shù)量K能夠足夠讓二項分布達到尖峰景醇。
我們有兩種方式利用(2.246)的結(jié)果。我們可以固定K然后從數(shù)據(jù)中確定V的值吝岭,這就是K近鄰方法。我們還可以固定V然后從數(shù)據(jù)中確定K窜管,這就是核方法。
這表示一個以原點為中心的單位立方體获搏。函數(shù)k(u)是核函數(shù)(kernel function)的一個例子,在這個問題中也被稱為Parzen窗(Parzen window)失乾。根據(jù)公式(2.247),如果數(shù)據(jù)點xn位于以x為中心的邊長為h的立方體中碱茁,那么量k(x - xn/h)的值等于1,否則它的值為0纽竣。
于是茧泪,位于這個立方體內(nèi)的數(shù)據(jù)點的總數(shù)為
把這個表達式代入公式(2.246)聋袋,可以得到點x處的概率密度估計
核密度估計(2.249)有一個問題,這個問題也是直方圖方法具有的問題中的一個舱馅。這個問題就是人為帶來的非連續(xù)性刀荒。在之前所述的核密度估計方法中就是立方體的邊界代嗤。如果我們選擇一個平滑的核函數(shù)干毅,那么我們就可以得到一個更加光滑的模型。
其中h表示高斯分布的標準差硝逢。
近鄰方法
核方法進行概率密度估計的一個困難之處是控制核寬度的參數(shù)h對于所有的核都是固定的。在高數(shù)據(jù)密度的區(qū)域渠鸽,大的h值可能會造成過度平滑,并且破壞了本應從數(shù)據(jù)中提取出的結(jié)構(gòu)徽缚。但是,減小h的值可能導致數(shù)據(jù)空間中低密度區(qū)域估計的噪聲革屠。因此,h的最優(yōu)選擇可能依賴于數(shù)據(jù)空間的位置似芝。這個問題可以通過概率密度的近鄰方法解決。
因此我們回到局部概率密度估計的一般結(jié)果(2.246)党瓮。與之前固定V然后從數(shù)據(jù)中確定K的值不同,我們考慮固定K的值然后使用數(shù)據(jù)來確定合適的V值寞奸。為了完成這一點,我們考慮一個以x為中心的小球體蝇闭,然后我們想估計概率密度p(x)。并且呻引,我們允許球體的半徑可以自由增長,直到它精確地包含K個數(shù)據(jù)點。這樣元践,概率密度p(x)的估計就由公式(2.246)給出,其中V等于最終球體的體積单旁。這種方法被稱為K近鄰方法。
如果應用于分類問題