單高斯模型SGM & 高斯混合模型GMM

一讳推、正態(tài)分布

在了解高斯混合模型之前艾船,我們先來看看什么是高斯分布葵腹,高斯分布大家應(yīng)該都比較熟悉了,就是我們平時所說的正態(tài)分布屿岂,也叫高斯分布践宴。正態(tài)分布是一個在數(shù)學、物理及工程等領(lǐng)域都非常重要的概率分布爷怀,在統(tǒng)計學的許多方面有著重大的影響力阻肩。

正態(tài)分布的特點
集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置运授。
對稱性:正態(tài)曲線以均數(shù)為中心烤惊,左右對稱,曲線兩端永遠不與橫軸相交吁朦。
均勻變動性:正態(tài)曲線由均數(shù)所在處開始柒室,分別向左右兩側(cè)逐漸均勻下降。

若隨機變量X服從一個數(shù)學期望為μ逗宜、方差為σ^{2}的正態(tài)分布雄右,記為X \sim N(μ,σ^{2})空骚。其中期望值μ決定了其位置,標準差σ決定了分布的幅度不脯。當μ = 0府怯,σ = 1時,正態(tài)分布是標準正態(tài)分布防楷。

正態(tài)分布四個不同參數(shù)集的概率密度函數(shù)(紅色線代表標準正態(tài)分布)

正態(tài)分布有極其廣泛的實際背景牺丙,生產(chǎn)與科學實驗中很多隨機變量的概率分布都可以近似地用正態(tài)分布來描述。例如复局,在生產(chǎn)條件不變的情況下冲簿,產(chǎn)品的強力、抗壓強度亿昏、口徑峦剔、長度等指標;同一種生物體的身長角钩、體重等指標吝沫;同一種種子的重量;測量同一物體的誤差递礼;彈著點沿某一方向的偏差惨险;某個地區(qū)的年降水量;以及理想氣體分子的速度分量脊髓,等等辫愉。一般來說,如果一個量是由許多微小的獨立隨機因素影響的結(jié)果将硝,那么就可以認為這個量具有正態(tài)分布(見中心極限定理)恭朗。從理論上看,正態(tài)分布具有很多良好的性質(zhì) 依疼,許多概率分布可以用它來近似痰腮;還有一些常用的概率分布是由它直接導出的,例如對數(shù)正態(tài)分布涛贯、t分布诽嘉、F分布等。

二弟翘、高斯模型

高斯模型有單高斯模型(SGM)和混合高斯模型(GMM)兩種虫腋。

1、單高斯模型(SGM)

概率密度函數(shù)服從上面的正態(tài)分布的模型叫做單高斯模型稀余,具體形式如下:

當樣本數(shù)據(jù) x 是一維數(shù)據(jù)(Univariate)時悦冀,高斯模型的概率密度函數(shù)為:

p(x;\mu ,\sigma )=\frac{1}{ \sqrt{2 \pi} \sigma } \exp( - \frac{(x-\mu)^{2}}{{2\sigma ^{2}}} )
其中:μ為數(shù)據(jù)的均值,\sigma為數(shù)據(jù)的標準差睛琳。

當樣本數(shù)據(jù) \mathbf{x} 是多維數(shù)據(jù)(Univariate)時盒蟆,高斯模型的概率密度函數(shù)為:
p( \mathbf{x} ; \boldsymbol{ \mu} , \Sigma )=\frac{1}{(2 \pi)^{\frackwl5lgb{2}}\mid \Sigma \mid ^{\frac{1}{2}}} \exp \left ( - \frac{( \mathbf{x} - \boldsymbol{ \mu} )^{T}\Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} )}{{2}} \right )
其中:\boldsymbol{\mu}為數(shù)據(jù)的均值踏烙,\Sigma為協(xié)方差,d為數(shù)據(jù)維度历等。

2讨惩、高斯混合模型(GMM)

高斯混合模型(GMM)是單高斯概率密度函數(shù)的延伸,就是用多個高斯概率密度函數(shù)(正態(tài)分布曲線)精確地量化變量分布寒屯,是將變量分布分解為若干基于高斯概率密度函數(shù)(正態(tài)分布曲線)分布的統(tǒng)計模型荐捻。

用通俗一點的語言解釋就是,K個單高斯模型混合在一起寡夹,生成的模型处面,就是高斯混合模型。這 K 個子模型是混合模型的隱變量(Hidden variable)菩掏。一般來說魂角,一個混合模型可以使用任何概率分布,這里使用高斯混合模型是因為高斯分布具備很好的數(shù)學性質(zhì)以及良好的計算性能智绸。

GMM是工業(yè)界使用最多的一種聚類算法野揪。它本身是一種概率式的聚類方法,假定所有的樣本數(shù)據(jù)X由K個混合多元高斯分布組合成的混合分布生成瞧栗。

高斯混合模型的概率密度函數(shù)可以表示為:
p(x|\theta)=\sum_{k=1}^{K}\alpha _{k}\phi (x|\theta _{k})
其中:
\alpha_{k}是觀察數(shù)據(jù)屬于第k個子模型的概率囱挑,\alpha_{k}\geq 0 ,\sum_{k=1}^{K}\alpha_{k}=1沼溜;
\phi (x|\theta _{k})是第k個的單高斯子模型的概率密度函數(shù),\theta _{k}=(\mu_{k},\sigma _{k})
\theta _{k}=(\boldsymbol{\mu}_{k},\Sigma _{k})游添,具體函數(shù)見上方單高斯模型的概率密度函數(shù)系草。

三、參數(shù)估計

參數(shù)估計有多種方法唆涝,有矩估計找都、極大似然法、一致最小方差無偏估計廊酣、最小風險估計能耻、同變估計、最小二乘法亡驰、貝葉斯估計晓猛、極大驗后法、最小風險法和極小化極大熵法等凡辱。最基本的方法是最小二乘法和極大似然法戒职。

極大似然估計的思想是:隨機試驗有多個可能的結(jié)果,但在一次試驗中透乾,有且只有一個結(jié)果會出現(xiàn)洪燥,如果在某次試驗中磕秤,結(jié)果w出現(xiàn)了,則認為該結(jié)果發(fā)生的概率最大捧韵。

極大似然估計求解參數(shù)步驟:

1)寫出似然函數(shù):
假設(shè)單個樣本的概率函數(shù)為p(x;θ),對每個樣本的概率函數(shù)連乘市咆,就可以得到樣本的似然函數(shù)
L(θ)=\prod_{i=1}^{n}p(x_{i};θ)

2)對似然函數(shù)取對數(shù):
lnL(θ)=\sum_{i=1}^{n}lnp(x_{i};θ)
目的是為了讓乘積變成加法,方便后續(xù)運算

3)求導數(shù)再来,令導數(shù)為0蒙兰,得到似然方程:
L(θ)lnL(θ)在同一點取到最大值,所以可以通過對lnL(θ)求導其弊,令導數(shù)為零癞己,實現(xiàn)同個目的

4)解似然方程,得到的參數(shù)即為所求

1梭伐、單高斯模型的參數(shù)估計

對于單高斯模型痹雅,可以使用極大似然估計(MLE)來求解出參數(shù)的值。

單高斯模型的對數(shù)似然函數(shù)為:

J(\boldsymbol{ \mu},\Sigma) = ln \left [ \prod_{i=1}^{n} p( \mathbf{x}_{i} ; \boldsymbol{ \mu} , \Sigma ) \right ]
= \sum_{i=1}^{n} lnp( \mathbf{x}_{i} ; \boldsymbol{ \mu} , \Sigma )
= \sum_{i=1}^{n} ln \left [ \frac{1}{(2 \pi)^{\fracj0kr5q5{2}} \mid \Sigma \mid ^{\frac{1}{2}}} \exp \left ( - \frac{( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} )}{{2}} \right ) \right ]
= \sum_{i=1}^{n} \left [ -\fracjg2c0f4{2} ln(2 \pi) - \frac{1}{2} ln \mid \Sigma \mid - \frac{1}{2} ( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1} ( \mathbf{x} - \boldsymbol{ \mu} ) \right ]
= -\frac{nd}{2} ln(2 \pi) - \frac{n}{2} ln \mid \Sigma \mid - \frac{1}{2} \sum_{i=1}^{n} \left [( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} ) \right ]

上式分別對\boldsymbol{ \mu}\Sigma求偏導數(shù)糊识,然后令其等于0绩社,可以得到對應(yīng)的參數(shù)估計值:
\hat{\mu } =\frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_{i}
\hat{\Sigma }=\frac{1}{n-1}\sum_{i=1}^{n}(\mathbf{x}_{i}-\hat{\mu })(\mathbf{x}_{i}-\hat{\mu })^{T}

2、高斯混合模型的參數(shù)估計

如果依然按照上面的極大似然估計方法求參數(shù)

GMM的對數(shù)似然函數(shù)為:
J(\boldsymbol{ \mu},\Sigma) = \sum_{i=1}^{n} ln (\sum_{k=1}^{K}\alpha _{k}\phi (x|\theta _{k}))

對上式求各個參數(shù)的偏導數(shù)赂苗,然后令其等于0愉耙,并且還需要附件一個條件:\alpha_{k}\geq 0 ,\sum_{k=1}^{K}\alpha_{k}=1拌滋。
我們會發(fā)現(xiàn)朴沿,直接求導無法計算出參數(shù)。所以我們需要用其它方式去解決參數(shù)估計問題败砂,一般情況下我們使用的是迭代的方法赌渣,用期望最大算法(Expectation Maximization,EM)進行估計昌犹。

EM算法的具體原理以及示例見我的另外一篇文章坚芜。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市斜姥,隨后出現(xiàn)的幾起案子鸿竖,更是在濱河造成了極大的恐慌,老刑警劉巖铸敏,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缚忧,死亡現(xiàn)場離奇詭異,居然都是意外死亡搞坝,警方通過查閱死者的電腦和手機搔谴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來桩撮,“玉大人敦第,你說我怎么就攤上這事峰弹。” “怎么了芜果?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵鞠呈,是天一觀的道長。 經(jīng)常有香客問我右钾,道長蚁吝,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任舀射,我火速辦了婚禮窘茁,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘脆烟。我一直安慰自己山林,他們只是感情好,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布邢羔。 她就那樣靜靜地躺著驼抹,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拜鹤。 梳的紋絲不亂的頭發(fā)上框冀,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天,我揣著相機與錄音敏簿,去河邊找鬼明也。 笑死,一個胖子當著我的面吹牛惯裕,可吹牛的內(nèi)容都是我干的诡右。 我是一名探鬼主播,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼轻猖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了域那?” 一聲冷哼從身側(cè)響起咙边,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎次员,沒想到半個月后败许,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡淑蔚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年市殷,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片刹衫。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡醋寝,死狀恐怖搞挣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情音羞,我是刑警寧澤囱桨,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站嗅绰,受9級特大地震影響舍肠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜窘面,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一翠语、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧财边,春花似錦肌括、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鲸鹦,卻和暖如春慧库,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背馋嗜。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工齐板, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人葛菇。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓甘磨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親眯停。 傳聞我的和親對象是個殘疾皇子济舆,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容