《模式識別與機器學習》:概率分布

二元變量

伯努利分布

似然函數(shù)為

對數(shù)似然函數(shù)為

如果我們令關(guān)于u的導數(shù)等于零,我們就得到了最大似然的估計值

現(xiàn)在假設(shè)我們?nèi)右粋€硬幣3次踢星,碰巧3次都是正面朝上。那么N=m= 3成洗,且uML= 1桌粉。這種情況下庆揪,最大似然的結(jié)果會預測所有未來的觀測值都是正面向上。常識告訴我們這個是不合理的箭跳。事實上笋轨,這是最大似然中過擬合現(xiàn)象的一個極端例子家浇。

二項分布

Beta分布

如果我們選擇一個正比于u和(1-u)的冪指數(shù)的先驗概率分布钢悲,那么后驗概率分布(正比于先驗和似然函數(shù)的乘積)就會有著與先驗分布相同的函數(shù)形式青团。

其中前面的系數(shù)用于保證Beta分布是歸一化的

u的后驗概率

后驗概率是一個Beta分布咖楣,對于x= 1和x= 0的觀測總數(shù)(先驗的和實際的)由參數(shù)a和b給出。觀測到一個x= 1僅僅對應于把a的值增加1娃肿,而觀測到x= 0會使b增加1珠十。圖2.3說明了這個過程中的一個步驟。

預測可以表示為

在數(shù)據(jù)集無限大的極限情況下晒杈,此時公式(2.20)的結(jié)果變成了最大似然的結(jié)果(2.8)

多項式變量

那么分布可以表示為

似然函數(shù)

拉格朗日求解帶約束的最大似然函數(shù)

多項式分布

狄利克雷分布

后驗概率

高斯分布

一維形式

高維形式

我們考慮高斯分布的幾何形式

首先拯钻,我們注意到協(xié)方差矩陣可以取為對稱矩陣粪般,而不失一般性污桦。這是因為任何非對稱項都會從指數(shù)中消失。現(xiàn)在考慮協(xié)方差矩陣的特征向量方程

特征值可以選為正交的

協(xié)方差矩陣可以表示成特征向量的展開的形式(特征值分解)

把公式(2.49)代入公式(2.44)小作,二次型就變成了

這個坐標變換也可以表示為

現(xiàn)在考慮在由yi定義的新坐標系下高斯分布的形式。

其行列式為

協(xié)方差矩陣的行列式可以寫成特征值的乘積

所以y坐標下的高斯分布可以表示為

這是D個獨立一元高斯分布的乘積致份。特征向量因此定義了一個新的旋轉(zhuǎn)础拨、平移的坐標系氮块,在這個坐標系中聯(lián)合概率分布可以分解成獨立分布的乘積滔蝉。

一階矩

二階矩

可以化簡得到

條件高斯分布

多元高斯分布的一個重要性質(zhì)是塔沃,如果兩組變量是聯(lián)合高斯分布,那么以一組變量為條件螃概,另一組變量同樣是高斯分布。類似地吊洼,任何一個變量的邊緣分布也是高斯分布制肮。

我們把x劃分成兩個不相交的子集xa和xb

首先,我們來尋找條件概率分布p(xa|xb)的表達式综液。根據(jù)概率的乘積規(guī)則,我們看到谬莹,條件分布可以根據(jù)聯(lián)合分布p(x) =p(xa;xb)很容易地計算出來桩了。我們只需把xb固定為觀測值,然后對得到的表達式進行歸一化圣猎,得到xa的一個合法的概率分布。我們不顯示地進行歸一化慢显,相反爪模,我們可以用一種更有效率的方式求解屋灌。我們首先考慮由公式(2.44)給出的高斯分布指數(shù)項中出現(xiàn)的二次型应狱,然后在計算的最后階段重新考慮歸一化系數(shù)。

可以表示為

因此可以得到

由于

所以可以得到

邊緣高斯分布

首先考慮涉及到xb的項除嘹,然后配出平方項岸蜗,使得積分能夠更方便地計算。選出涉及到xb的項璃岳,我們有

唯一剩余的與xa相關(guān)的項就是公式(2.84)的右側(cè)的最后一項,其中m由公式(2.85)給出单芜。把這一項與公式(2.70)中余下的與xa相關(guān)的項結(jié)合犁柜,我們有

高斯變量的貝葉斯定理

我們令邊緣概率分布和條件概率分布的形式如下

考慮一個聯(lián)合分布z

為了找到這個高斯分布的精度,我們考慮公式(2.102)的第二項坛怪,它可以寫成

找到(2.102)中的線性項股囊,采用前面類似的方法可以得到

同時利用前文邊緣分布更啄、條件分布的結(jié)論

小結(jié)

高斯分布的最大似然估計

順序估計

考慮公式(2.121)給出的均值的最大似然估計結(jié)果uML祭务。當它依賴于第N次觀察時,將被記作u(N)ML义锥。如果我們想分析最后一個數(shù)據(jù)點xN的貢獻,我們有

Robbins-Monro算法

考慮一對隨機變量Θ和z赂鲤,它們由一個聯(lián)合概率分布p(z;Θ)所控制噪径。已知Θ的條件下找爱,z的條件期望定義了一個確定的函數(shù)f(Θ),形式如下

我們的目標是尋找Θ*使得f(Θ*) = 0车摄。

我們假定z的條件方差是有窮的仑鸥,因此

高斯分布的貝葉斯推斷

假設(shè)方差是已知的

令u服從先驗分布

花一點時間來研究后驗概率分布的均值和方差是很有意義的眼俊。首先,我們注意到由公式(2.141)給出的后驗分布的均值是先驗均值u0和最大似然解uML的折中泵琳。如果觀測數(shù)據(jù)點的數(shù)量N= 0,那么與我們想的一樣获列,公式(2.141)就變成了先驗均值。

如果從一個順序的觀點來看迫悠,那么貝葉斯方法就變得非常自然了。為了在高斯分布均值推斷的問題中說明這一點创泄,我們把后驗分布中最后一個數(shù)據(jù)點xN的貢獻單獨寫出來,即

現(xiàn)在假設(shè)均值是已知的鞠抑,我們要推斷方差

對應的共軛先驗因此應該正比于λ的冪指數(shù)忌警,也正比于λ的線性函數(shù)的指數(shù)。這對應于Gamma分布法绵,定義為

所以我們得到后驗分布

現(xiàn)在假設(shè)均值和精度都是未知的。為了找到共軛先驗

我們現(xiàn)在想找到一個先驗分布盐茎,它對于u和精度的依賴與似然函數(shù)有著相同的函數(shù)形式

這就是高斯-Gamma分布

在多維的情況下有些不一樣

學生t分布

對高斯-Gamma分布積分

這就是student-t分布徙赢,參數(shù)lamda有時被稱為t分布的精度(precision)滑进,即使它通常不等于方差的倒數(shù)募谎。參數(shù)v被稱為自由度(degrees of freedom),當自由度無窮的時候student-t分布變?yōu)楦咚狗植肌?/p>

整理一下student-t的表示形式

周期變量

高斯分布不適合對周期變量建模节槐,例如:我們可以測量許多天的風向值拐纱,然后希望使用一個參數(shù)分布來總結(jié)風向的規(guī)律。選擇一個方向作為原點秸架,然后應用傳統(tǒng)的概率分布(例如高斯分布)。但是东抹,這種方法的結(jié)果將會強烈依賴于原點的選擇。

所以我們考慮下面的方法

我們現(xiàn)在考慮高斯分布對于周期變量的一個推廣:von Mises分布

設(shè)一個二維的高斯分布

根據(jù)前面的方法有

代入二維高斯分布中

混合高斯模型

我們考慮K個高斯概率密度的疊加食茎,形式為

對數(shù)似然函數(shù)

我們立刻看到現(xiàn)在的情形比一元高斯分布復雜得多馏谨,因為對數(shù)中存在一個求和式。這就導致參數(shù)的最大似然解不再有一個封閉形式的解析解惧互。一種最大化這個似然函數(shù)的方法是使用迭代數(shù)值優(yōu)化方法(Fletcher, 1987; Nocedal and Wright, 1999; Bishop andNabney, 2008)。另一種方法是使用一個被稱為期望最大化(expectation maximization)的強大的框架喊儡,這將在第9章詳細討論。

指數(shù)族分布

伯努利分布轉(zhuǎn)換為指數(shù)族分布形式

多項式分布轉(zhuǎn)換為指數(shù)分布族形式

整理后可表示為

一元高斯分布轉(zhuǎn)換為指數(shù)分布族形式

最大似然與充分統(tǒng)計量

讓我們考慮用最大似然法估計公式(2.194)給出的一般形式的指數(shù)族分布的參數(shù)向量u的問題截珍。

對公式(2.195)的兩側(cè)取梯度

共軛先驗

我們已經(jīng)多次遇到共軛先驗的概念。例如在伯努利分布中秋度,共軛先驗是Beta分布炸庞。在高斯分布中埠居,均值的共軛先驗是高斯分布查牌,精度的共軛先驗是Wishart分布纸颜。一般情況下绎橘,對于一個給定的概率分布p(x|u),我們能夠?qū)ふ乙粋€先驗p(η)使其與似然函數(shù)共軛称鳞,從而后驗分布的函數(shù)形式與先驗分布相同。對于指數(shù)族分布(2.194)的任何成員冈止,都存在一個共軛先驗,可以寫成下面的形式

無信息先驗

我們可以尋找一種形式的先驗分布熙暴,被稱為無信息先驗(noninformativeprior)。這種先驗分布的目的是盡量對后驗分布產(chǎn)生盡可能小的影響(Jeffreys, 1946; Box andTiao, 1973; Bernardo and Smith, 1994)周霉。這有時被稱為“讓數(shù)據(jù)自己說話”。

并且由于這必須對于任意的A和B的選擇都成立诗眨,因此我們有

可以看出p(u)是常數(shù)匠楚,并且u的共軛先驗分布是一個高斯分布与斤。
根據(jù)公式(2.141)和公式(2.142),并且在標準差取無窮的情況下抵皱,在u的后驗分布中悼院,先驗的貢獻消失了剑鞍。

非參數(shù)化方法
本章中,我們已經(jīng)關(guān)注過的概率分布都有具體的函數(shù)形式哪痰,并且由少量的參數(shù)控制肋演。這些參數(shù)的值可以由數(shù)據(jù)集確定奸绷。這被稱為概率密度建模的參數(shù)化(parametric)方法。這種方法的一個重要局限性是選擇的概率密度可能對于生成數(shù)據(jù)來說该酗,是一個很差的模型,從而會導致相當差的預測表現(xiàn)爵嗅。例如睹晒,如果生成數(shù)據(jù)的過程是多峰的括细,那么這種分布不可能被高斯分布描述,因為它是單峰的锉试。

首先讓我們討論密度估計的直方圖方法贷笛。

在實際應用中,直方圖方法對于快速地將一維或者二維的數(shù)據(jù)可視化很有用奖磁,但是并不適用于大多數(shù)概率密度估計的應用。一個明顯的問題是估計的概率密度具有不連續(xù)性繁疤,這種不連續(xù)性是因為箱子的邊緣造成的,而不是因為生成數(shù)據(jù)的概率分布本身的性質(zhì)造成稠腊。

核密度估計

讓我們假設(shè)觀測服從D維空間的某個未知的概率密度分布p(x)。我們把這個D維空間選擇成歐幾里得空間架忌,并且我們想估計p(x)的值。區(qū)域R的概率質(zhì)量為

在我們假設(shè)我們收集了服從p(x)分布的N次觀測。由于每個數(shù)據(jù)點都有一個落在區(qū)域R中的概率P饰恕,因此位于區(qū)域R內(nèi)部的數(shù)據(jù)點的總數(shù)K將服從二項分布

但是,如果我們也假定區(qū)域R足夠小埋嵌,使得在這個區(qū)域內(nèi)的概率密度p(x)大致為常數(shù),那么我們有

其中V是區(qū)域R的體積范舀。把公式(2.244)和公式(2.245)結(jié)合,我們得到概率密度的估計了罪,形式為

注意,公式(2.246)的成立依賴于兩個相互矛盾的假設(shè)辅辩,即區(qū)域R要足夠小,使得這個區(qū)域內(nèi)的概率密度近似為常數(shù)汽久,但是也要足夠大,使得落在這個區(qū)域內(nèi)的數(shù)據(jù)點的數(shù)量K能夠足夠讓二項分布達到尖峰景醇。

我們有兩種方式利用(2.246)的結(jié)果。我們可以固定K然后從數(shù)據(jù)中確定V的值吝岭,這就是K近鄰方法。我們還可以固定V然后從數(shù)據(jù)中確定K窜管,這就是核方法。

這表示一個以原點為中心的單位立方體获搏。函數(shù)k(u)是核函數(shù)(kernel function)的一個例子,在這個問題中也被稱為Parzen窗(Parzen window)失乾。根據(jù)公式(2.247),如果數(shù)據(jù)點xn位于以x為中心的邊長為h的立方體中碱茁,那么量k(x - xn/h)的值等于1,否則它的值為0纽竣。

于是茧泪,位于這個立方體內(nèi)的數(shù)據(jù)點的總數(shù)為

把這個表達式代入公式(2.246)聋袋,可以得到點x處的概率密度估計

核密度估計(2.249)有一個問題,這個問題也是直方圖方法具有的問題中的一個舱馅。這個問題就是人為帶來的非連續(xù)性刀荒。在之前所述的核密度估計方法中就是立方體的邊界代嗤。如果我們選擇一個平滑的核函數(shù)干毅,那么我們就可以得到一個更加光滑的模型。

其中h表示高斯分布的標準差硝逢。

近鄰方法

核方法進行概率密度估計的一個困難之處是控制核寬度的參數(shù)h對于所有的核都是固定的。在高數(shù)據(jù)密度的區(qū)域渠鸽,大的h值可能會造成過度平滑,并且破壞了本應從數(shù)據(jù)中提取出的結(jié)構(gòu)徽缚。但是,減小h的值可能導致數(shù)據(jù)空間中低密度區(qū)域估計的噪聲革屠。因此,h的最優(yōu)選擇可能依賴于數(shù)據(jù)空間的位置似芝。這個問題可以通過概率密度的近鄰方法解決。

因此我們回到局部概率密度估計的一般結(jié)果(2.246)党瓮。與之前固定V然后從數(shù)據(jù)中確定K的值不同,我們考慮固定K的值然后使用數(shù)據(jù)來確定合適的V值寞奸。為了完成這一點,我們考慮一個以x為中心的小球體蝇闭,然后我們想估計概率密度p(x)。并且呻引,我們允許球體的半徑可以自由增長,直到它精確地包含K個數(shù)據(jù)點。這樣元践,概率密度p(x)的估計就由公式(2.246)給出,其中V等于最終球體的體積单旁。這種方法被稱為K近鄰方法。

如果應用于分類問題

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蔫饰,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子篓吁,更是在濱河造成了極大的恐慌,老刑警劉巖蚪拦,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異驰贷,居然都是意外死亡,警方通過查閱死者的電腦和手機括袒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來箱熬,“玉大人,你說我怎么就攤上這事城须。” “怎么了糕伐?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長良瞧。 經(jīng)常有香客問我,道長褥蚯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任赞庶,我火速辦了婚禮澳骤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘为肮。我一直安慰自己,他們只是感情好颊艳,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著棋枕,像睡著了一般。 火紅的嫁衣襯著肌膚如雪戒悠。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天,我揣著相機與錄音卤恳,去河邊找鬼。 笑死突琳,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的拆融。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼镜豹,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了趟脂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤昔期,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后硼一,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡般贼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年惑申,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片圈驼。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖绩脆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情靴迫,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布玉锌,位于F島的核電站,受9級特大地震影響主守,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜榄融,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望涎才。 院中可真熱鬧,春花似錦力九、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽舒萎。三九已至,卻和暖如春臂寝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咆贬。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留掏缎,地道東北人煤杀。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像沈自,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子枯途,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容