05 EM算法 - 高斯混合模型 - GMM

04 EM算法 - EM算法收斂證明

GMM(Gaussian Mixture Model, 高斯混合模型)是指該算法由多個(gè)高斯模型線性疊加混合而成震糖。每個(gè)高斯模型稱之為component洞慎。

多個(gè)帶有權(quán)重的高斯模型線性的疊加

GMM算法描述的是數(shù)據(jù)的本身存在的一種分布,即樣本特征屬性的分布,和預(yù)測(cè)值Y無關(guān)。顯然GMM算法是無監(jiān)督的算法,常用于聚類應(yīng)用中溶诞,component的個(gè)數(shù)就可以認(rèn)為是類別的數(shù)量。


回到昨天說的例子:隨機(jī)選擇1000名用戶决侈,測(cè)量用戶的身高螺垢;若樣本中存在男性和女性,身高分別服從高斯分布N(μ1,σ1)和N(μ2,σ2)的分布赖歌,試估計(jì)參數(shù):μ1,σ1,μ2,σ2枉圃;

1、如果明確的知道樣本的情況(即男性和女性數(shù)據(jù)是分開的)庐冯,那么我們使用極大似然估計(jì)來估計(jì)這個(gè)參數(shù)值孽亲。

2、如果樣本是混合而成的展父,不能明確的區(qū)分開返劲,那么就沒法直接使用極大似然估計(jì)來進(jìn)行參數(shù)的估計(jì)。

我們可以認(rèn)為當(dāng)前的1000條數(shù)據(jù)組成的集X栖茉,是由兩個(gè)高斯分布疊加而成的(男性的分布和女性的分布)篮绿。

男性和女性的高斯分布的疊加
在每個(gè)分布前乘以一個(gè)權(quán)重π

如果能找到一種辦法把每一個(gè)高斯分布對(duì)應(yīng)的參數(shù)π、 μ吕漂、σ求出來亲配,那么對(duì)應(yīng)的模型就求解出來了。

如果模型求解出來后惶凝,如何對(duì)數(shù)據(jù)進(jìn)行聚類吼虎?

這個(gè)公式求出來的分別是男性和女性身高分布的概率密度,如果把π梨睁、 μ鲸睛、σ都求出來,以后我們可以構(gòu)建出一個(gè)能夠根據(jù)樣本特征計(jì)算出樣本屬于男性或女性的可能性坡贺。

實(shí)際做樣本分類的時(shí)候,我們把樣本X的特征x1~xn分別代入兩個(gè)公式中箱舞,求出來的兩個(gè)結(jié)果分別是:樣本X的性別是男遍坟、是女的可能性。如果是男的可能性大于是女的可能性晴股,我們就把樣本X歸入男性的分類愿伴。


假定GMM由k個(gè)Gaussian分布線性疊加而成,那么概率密度函數(shù)如下:

概率密度函數(shù)

分析第1個(gè)等式:
p(x): 概率密度函數(shù)电湘,k個(gè)Gaussian分布線性疊加而成的概率密度函數(shù)隔节。
∑p(k)p(x|k): k個(gè)某種模型疊加的概率密度函數(shù)鹅经。
p(k): 每個(gè)模型占的權(quán)重,即上面提到的π怎诫。
p(x|k): 給定類別k后瘾晃,對(duì)應(yīng)的x的概率密度函數(shù)。

分析第2個(gè)等式:目標(biāo) - 將公式寫成高斯分布的樣子幻妓。
πk即p(k)
p(x;μk,∑k):多元高斯(正態(tài))分布蹦误。有了觀測(cè)數(shù)據(jù)x后,在給定了條件下的高斯分布肉津。這個(gè)條件1强胰、第k個(gè)分類的均值μk; 2、第k個(gè)分類的方差∑k;

深入分析p(x;μk,∑k)的參數(shù):
如果樣本有n個(gè)特征妹沙,所有的特征x1~xn一起服從一個(gè)多元的高斯分布(正態(tài)分布)偶洋,所有特征的均值應(yīng)該是一個(gè)向量 (μ1n);
μk 第k個(gè)分類的情況下(第k個(gè)高斯分布的情況下對(duì)應(yīng)的每一列的均值)距糖;μk = (μk1kn)

k 協(xié)方差矩陣(對(duì)稱陣)∥姓妫現(xiàn)在有n個(gè)特征,協(xié)方差矩陣是一個(gè)n×n的矩陣∩隹穑現(xiàn)在我們要算的是:

cov(x1,x1)哆料,cov(x1,x2),...吗铐,cov(x1,xn)

cov(x2,x1)东亦,cov(x2,x2),...唬渗,cov(x2,xn)
....
cov(xn,x1)典阵,cov(x1,x2),...镊逝,cov(xn,xn)

其中壮啊,對(duì)角線 cov(x1,x1)、cov(x2,x2)撑蒜, ... 歹啼,cov(xn,xn)中,x1和x1的協(xié)方差 = x1的方差座菠;即cov(x1,x1) = var(x1)狸眼;所以對(duì)角線上兩個(gè)特征的協(xié)方差 = 對(duì)應(yīng)的特征的方差。

協(xié)方差 - 知識(shí)補(bǔ)充

協(xié)方差(Covariance)在概率論統(tǒng)計(jì)學(xué)中用于衡量?jī)蓚€(gè)變量的總體誤差浴滴。而方差是協(xié)方差的一種特殊情況拓萌,即當(dāng)兩個(gè)變量是相同的情況。

協(xié)方差表示的是兩個(gè)變量的總體的誤差升略,這與只表示一個(gè)變量誤差的方差不同微王。 如果兩個(gè)變量的變化趨勢(shì)一致屡限,也就是說如果其中一個(gè)大于自身的期望值,另外一個(gè)也大于自身的期望值炕倘,那么兩個(gè)變量之間的協(xié)方差就是正值钧大。 如果兩個(gè)變量的變化趨勢(shì)相反,即其中一個(gè)大于自身的期望值激才,另外一個(gè)卻小于自身的期望值拓型,那么兩個(gè)變量之間的協(xié)方差就是負(fù)值。

總結(jié) - 公式

理解了公式后瘸恼,再來看看公式在圖像上是如何體現(xiàn)的:

藍(lán)1 + 藍(lán)2 = 紅

如果樣本X只有一個(gè)特征x1劣挫,在二維的坐標(biāo)系上的表示出來。特征x1是由n個(gè)單變量樣本的高斯分布疊加而成的东帅。向量x1k = ∑k (x1(1),x1(2),~,x1(n))压固,如k=(男、女)靠闭,累加男性分類下的特征高斯分布和女性分類下的高斯分布帐我;

圖中紅色曲線表示原有數(shù)據(jù)的分布情況,我認(rèn)為這個(gè)原有數(shù)據(jù)是由多個(gè)比較的高斯分布疊加而成的愧膀,藍(lán)色曲線 表示單個(gè)單個(gè)高斯分布的分布情況拦键。向量x1 = (x1(1),x1(2),~,x1(n));

PS: 藍(lán)1+藍(lán)2=紅 體現(xiàn)的就是公式 p(x) = ∑πp(x;μ,∑k)檩淋;


在得知數(shù)據(jù)的特征 x=(x1~xn) 后芬为,如果我們想把數(shù)據(jù)合理得聚類到一個(gè)分類中,我們?cè)撊绾稳ビ?jì)算呢蟀悦?

既然我已經(jīng)得到了k個(gè)高斯分布對(duì)應(yīng)的概率密度函數(shù)(現(xiàn)在設(shè)k=3媚朦,共3個(gè)分類),將當(dāng)前特征的x=(x1~xn)代入我們的概率密度函數(shù): p(x) = ∑πp(x;μ,∑k)日戈;

p(藍(lán)1)+p(藍(lán)2)+p(藍(lán)3) = 紅

我們分別計(jì)算p(藍(lán)1)询张、p(藍(lán)2)、p(藍(lán)3)浙炼,藍(lán)色三條線各對(duì)應(yīng)k分類中的一個(gè)份氧,哪個(gè)數(shù)大,我認(rèn)為當(dāng)前的樣本該分到哪一類鼓拧。


GMM算法的兩個(gè)前提:
1半火、數(shù)據(jù)服從高斯分布;
2季俩、我們?nèi)藶槎x了分類個(gè)數(shù)k。

基于這兩個(gè)前提梅掠,問題遞進(jìn):

問:我們?nèi)藶榧俣烁咚狗植嫉姆诸悅€(gè)數(shù)k酌住,就類似于我們聚簇時(shí)分的聚簇中心個(gè)數(shù)一樣店归。參數(shù)π、μ酪我、σ該如何求出來?

答:和K-Means算法一樣消痛,我們可以用EM算法來求解這個(gè)問題。 GMM也滿足EM算法的聚類思想都哭,首先人為得定義了聚類的個(gè)數(shù)k秩伞,從數(shù)據(jù)特征X中發(fā)掘潛在關(guān)系的一種模型。而且我還默認(rèn)數(shù)據(jù)是服從多個(gè)高斯分布的欺矫。

GMM算法中的隱含條件是:第k個(gè)模型占的權(quán)重 - \color{red}{π}纱新、 第k個(gè)高斯分布的情況下對(duì)應(yīng)的每一列的均值 - \color{red}{μ}、協(xié)方差矩陣 cov(xi,xj) - \color{red}{∑k}穆趴;因?yàn)楸举|(zhì)上我們是知道數(shù)據(jù)原有的分類狀況的脸爱,只是無法觀測(cè)到隱含在數(shù)據(jù)中的這些特性,使用EM的思想可以迭代得求解出這些隱含變量未妹。

對(duì)聯(lián)合概率密度函數(shù)求對(duì)數(shù)似然函數(shù):

對(duì)聯(lián)合概率密度函數(shù)求對(duì)數(shù)后簿废,原本連乘的最大似然估計(jì)變成了連加的函數(shù)狀態(tài)。

EM算法求解 - E步:

E步 - 公式

套用公式后络它,我們可以假定隱含變量z的分布:Q(z(i) = j)族檬;
我們認(rèn)為分布wj(i) = 第i個(gè)觀測(cè)值對(duì)應(yīng)的隱含分類第z(i)類; = 以(看不見的參數(shù)π化戳、μ单料、∑)為參數(shù)的情況下,輸入第i觀測(cè)值的特征x后得到的分類z(i)類迂烁;

EM算法求解 - M步:
M步第1行就是上一章通過化簡(jiǎn)找到下界的那個(gè)函數(shù):

M步 - 第1行就是通過化簡(jiǎn)找到下界的那個(gè)函數(shù)
M步 - 第1行就是昨天我們推導(dǎo)這些公式
M步 - 公式
一維正態(tài)分布 - 知識(shí)補(bǔ)充看尼,背出來
多維正態(tài)分布 - 對(duì)比一維單變量時(shí)的正態(tài)分布公式,有多少個(gè)特征n就等于多少盟步。k是指屬于第幾類高斯分布藏斩。

如果要分別求解三個(gè)未知變量, 則需要對(duì)每一個(gè)未知變量求偏導(dǎo)却盘。

在公式中需要求的未知量有三個(gè)

1狰域、對(duì)均值求偏導(dǎo):

求解第l個(gè)分類下均值的向量
對(duì)均值求偏導(dǎo)

2、對(duì)方差求偏導(dǎo):

對(duì)方差求偏導(dǎo)

3黄橘、對(duì)概率使用拉格朗日乘子法求解:

對(duì)概率使用拉格朗日乘子法求解

\color{red}{本章最重要的是記住下面的內(nèi)容:}

記住這三個(gè)公式
一維正態(tài)分布 - 知識(shí)補(bǔ)充兆览,背出來
多維正態(tài)分布 - 對(duì)比一維單變量時(shí)的正態(tài)分布公式,有多少個(gè)特征n就等于多少塞关。k是指屬于第幾類高斯分布抬探。

06 EM算法 - 案例一 - EM分類初識(shí)及GMM算法實(shí)現(xiàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子小压,更是在濱河造成了極大的恐慌线梗,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怠益,死亡現(xiàn)場(chǎng)離奇詭異仪搔,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蜻牢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門烤咧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人抢呆,你說我怎么就攤上這事煮嫌。” “怎么了镀娶?”我有些...
    開封第一講書人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵立膛,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我梯码,道長(zhǎng)宝泵,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任轩娶,我火速辦了婚禮儿奶,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鳄抒。我一直安慰自己闯捎,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開白布许溅。 她就那樣靜靜地躺著瓤鼻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪贤重。 梳的紋絲不亂的頭發(fā)上茬祷,一...
    開封第一講書人閱讀 51,482評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音并蝗,去河邊找鬼祭犯。 笑死,一個(gè)胖子當(dāng)著我的面吹牛滚停,可吹牛的內(nèi)容都是我干的沃粗。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼键畴,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼最盅!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤檩禾,失蹤者是張志新(化名)和其女友劉穎挂签,沒想到半個(gè)月后疤祭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體盼产,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年勺馆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了戏售。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡草穆,死狀恐怖灌灾,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情悲柱,我是刑警寧澤锋喜,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站豌鸡,受9級(jí)特大地震影響嘿般,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜涯冠,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一炉奴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蛇更,春花似錦瞻赶、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至掌逛,卻和暖如春师逸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背颤诀。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工字旭, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人崖叫。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓遗淳,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親心傀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屈暗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 本文翻譯自https://jakevdp.github.io/PythonDataScienceHandbook/...
    phusFuNs閱讀 17,520評(píng)論 0 9
  • 文章主要分為:一、深度學(xué)習(xí)概念;二养叛、國(guó)內(nèi)外研究現(xiàn)狀种呐;三、深度學(xué)習(xí)模型結(jié)構(gòu)弃甥;四爽室、深度學(xué)習(xí)訓(xùn)練算法;五淆攻、深度學(xué)習(xí)的優(yōu)點(diǎn)...
    艾剪疏閱讀 21,834評(píng)論 0 58
  • 前言:介紹一下EM算法的簡(jiǎn)單應(yīng)用 算法流程 先從一個(gè)簡(jiǎn)單的例子開始:隨機(jī)選擇1000名用戶阔墩,測(cè)量用戶的身高;若樣本...
    飄涯閱讀 21,742評(píng)論 4 20
  • 麥浪(外四章) 從春天的行吟中走來瓶珊,在生命的撥節(jié)后沉醉啸箫,隨翻滾的熱浪中醒來。站在季節(jié)的門檻伞芹,你以飽滿的身段忘苛,向陽光...
    重慶風(fēng)鈴閱讀 220評(píng)論 0 0
  • 懷孕期間除了需要重視胎教之外扎唾,在飲食上媽媽們也要格外注意。有些食物還會(huì)影響胎兒大腦的發(fā)育绊汹。 1稽屏、孕媽媽能喝冷飲嗎?...
    a03a4697383a閱讀 514評(píng)論 0 0