一讳推、正態(tài)分布
在了解高斯混合模型之前艾船,我們先來看看什么是高斯分布葵腹,高斯分布大家應(yīng)該都比較熟悉了,就是我們平時所說的正態(tài)分布屿岂,也叫高斯分布践宴。正態(tài)分布是一個在數(shù)學、物理及工程等領(lǐng)域都非常重要的概率分布爷怀,在統(tǒng)計學的許多方面有著重大的影響力阻肩。
正態(tài)分布的特點
集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置运授。
對稱性:正態(tài)曲線以均數(shù)為中心烤惊,左右對稱,曲線兩端永遠不與橫軸相交吁朦。
均勻變動性:正態(tài)曲線由均數(shù)所在處開始柒室,分別向左右兩側(cè)逐漸均勻下降。
若隨機變量服從一個數(shù)學期望為
逗宜、方差為
的正態(tài)分布雄右,記為
空骚。其中期望值
決定了其位置,標準差
決定了分布的幅度不脯。當
= 0府怯,
= 1時,正態(tài)分布是標準正態(tài)分布防楷。
正態(tài)分布有極其廣泛的實際背景牺丙,生產(chǎn)與科學實驗中很多隨機變量的概率分布都可以近似地用正態(tài)分布來描述。例如复局,在生產(chǎn)條件不變的情況下冲簿,產(chǎn)品的強力、抗壓強度亿昏、口徑峦剔、長度等指標;同一種生物體的身長角钩、體重等指標吝沫;同一種種子的重量;測量同一物體的誤差递礼;彈著點沿某一方向的偏差惨险;某個地區(qū)的年降水量;以及理想氣體分子的速度分量脊髓,等等辫愉。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結(jié)果将硝,那么就可以認為這個量具有正態(tài)分布(見中心極限定理)恭朗。從理論上看,正態(tài)分布具有很多良好的性質(zhì) 依疼,許多概率分布可以用它來近似痰腮;還有一些常用的概率分布是由它直接導出的,例如對數(shù)正態(tài)分布涛贯、t分布诽嘉、F分布等。
二弟翘、高斯模型
高斯模型有單高斯模型(SGM)和混合高斯模型(GMM)兩種虫腋。
1、單高斯模型(SGM)
概率密度函數(shù)服從上面的正態(tài)分布的模型叫做單高斯模型稀余,具體形式如下:
當樣本數(shù)據(jù) 是一維數(shù)據(jù)(Univariate)時悦冀,高斯模型的概率密度函數(shù)為:
其中:為數(shù)據(jù)的均值,
為數(shù)據(jù)的標準差睛琳。
當樣本數(shù)據(jù) 是多維數(shù)據(jù)(Univariate)時盒蟆,高斯模型的概率密度函數(shù)為:
其中:為數(shù)據(jù)的均值踏烙,
為協(xié)方差,d為數(shù)據(jù)維度历等。
2讨惩、高斯混合模型(GMM)
高斯混合模型(GMM)是單高斯概率密度函數(shù)的延伸,就是用多個高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化變量分布寒屯,是將變量分布分解為若干基于高斯概率密度函數(shù)(正態(tài)分布曲線)分布的統(tǒng)計模型荐捻。
用通俗一點的語言解釋就是,個單高斯模型混合在一起寡夹,生成的模型处面,就是高斯混合模型。這
個子模型是混合模型的隱變量(Hidden variable)菩掏。一般來說魂角,一個混合模型可以使用任何概率分布,這里使用高斯混合模型是因為高斯分布具備很好的數(shù)學性質(zhì)以及良好的計算性能智绸。
GMM是工業(yè)界使用最多的一種聚類算法野揪。它本身是一種概率式的聚類方法,假定所有的樣本數(shù)據(jù)X由K個混合多元高斯分布組合成的混合分布生成瞧栗。
高斯混合模型的概率密度函數(shù)可以表示為:
其中:
是觀察數(shù)據(jù)屬于第
個子模型的概率囱挑,
沼溜;
是第
個的單高斯子模型的概率密度函數(shù),
或
游添,具體函數(shù)見上方單高斯模型的概率密度函數(shù)系草。
三、參數(shù)估計
參數(shù)估計有多種方法唆涝,有矩估計找都、極大似然法、一致最小方差無偏估計廊酣、最小風險估計能耻、同變估計、最小二乘法亡驰、貝葉斯估計晓猛、極大驗后法、最小風險法和極小化極大熵法等凡辱。最基本的方法是最小二乘法和極大似然法戒职。
極大似然估計的思想是:隨機試驗有多個可能的結(jié)果,但在一次試驗中透乾,有且只有一個結(jié)果會出現(xiàn)洪燥,如果在某次試驗中磕秤,結(jié)果w出現(xiàn)了,則認為該結(jié)果發(fā)生的概率最大捧韵。
極大似然估計求解參數(shù)步驟:
1)寫出似然函數(shù):
假設(shè)單個樣本的概率函數(shù)為,對每個樣本的概率函數(shù)連乘市咆,就可以得到樣本的似然函數(shù)
2)對似然函數(shù)取對數(shù):
目的是為了讓乘積變成加法,方便后續(xù)運算
3)求導數(shù)再来,令導數(shù)為0蒙兰,得到似然方程:
和
在同一點取到最大值,所以可以通過對
求導其弊,令導數(shù)為零癞己,實現(xiàn)同個目的
4)解似然方程,得到的參數(shù)即為所求
1梭伐、單高斯模型的參數(shù)估計
對于單高斯模型痹雅,可以使用極大似然估計(MLE)來求解出參數(shù)的值。
單高斯模型的對數(shù)似然函數(shù)為:
上式分別對和
求偏導數(shù)糊识,然后令其等于0绩社,可以得到對應(yīng)的參數(shù)估計值:
2、高斯混合模型的參數(shù)估計
如果依然按照上面的極大似然估計方法求參數(shù)
GMM的對數(shù)似然函數(shù)為:
對上式求各個參數(shù)的偏導數(shù)赂苗,然后令其等于0愉耙,并且還需要附件一個條件:拌滋。
我們會發(fā)現(xiàn)朴沿,直接求導無法計算出參數(shù)。所以我們需要用其它方式去解決參數(shù)估計問題败砂,一般情況下我們使用的是迭代的方法赌渣,用期望最大算法(Expectation Maximization,EM)進行估計昌犹。
EM算法的具體原理以及示例見我的另外一篇文章坚芜。