1. 前提推導(dǎo)
2. EM算法
EM算法就是含有隱變量的概率模型參數(shù)的極大似然估計法。
延森不等式(Jensen's inequality)以丹麥數(shù)學(xué)家約翰·延森(Johan Jensen)命名蛔趴。它給出積分的凸函數(shù)值和凸函數(shù)的積分值間的關(guān)係孝情。延森不等式有以下推論:過一個凸函數(shù)上任意兩點所作割線一定在這兩點間的函數(shù)圖象的上方
無監(jiān)督分類:聚類咧叭,EM菲茬。
問題:已知10000個人的身高婉弹,h1,h2,h3...h1000镀赌,樣本中存在男性女性商佛。假設(shè)身高分別服從兩個高斯分布(男N(μ1,σ1)良姆;女N(μ2,σ2))玛追。試著估計μ1, σ1, μ2, σ2痊剖。
K相當(dāng)于K-means里面的K找颓;π1π2...πK叮贩,類似于先驗概率妇汗。如:已經(jīng)在某院校杨箭,男80%互婿,女20%慈参。
N(xi|μk,∑k)計算過程如:P(s = 男 | xi = 1.98, μ1 =1.70, ∑1 = 10, ?μ2 =1.64, ∑1 =8) = 0.3也就是給定xi這個樣本娘扩,根據(jù)其他參數(shù)計算得出琐旁,身高1.98的該樣本是男人的概率灰殴;πK = 0.8牺陶; i: 第i個樣本掰伸;k: 第k個高斯分布碱工;γ(i, k): 第i個樣本來自第k個組份的概率怕篷。
如:已知先驗概率廊谓,男被選中概率為80%,女被選中概率20%麻削。對于某一樣本蒸痹,P(s = 男 | 1.98) = 0.3, 0.8 * 0.3 = 0.24。P(s = 女 | 1.98) = 0.01呛哟,0.2*0.01 = 0.002叠荠。0.24/0.24+0.002 = ??(歸一化)=>γ(男,198) = 0.99扫责,γ(女榛鼎,198) = 0.01鳖孤。
π1者娱,π2,μ1苏揣,μ2黄鳍,∑1,∑2均為未知平匈,隨機選擇相應(yīng)數(shù)據(jù)框沟,進(jìn)行計算
1.98*0.9,1.62*0.3增炭,1.57*....算的是純爺們的個數(shù)街望,由于男性樣本服從高斯分布,所以原則上說(x12+x22+...+xN2)/N = μ1弟跑,此處N = 0.9+0.3+...
這些值總是可以算的灾前,同理可以算N女,μ女....
把算出來的π1孟辑,π2哎甲,μ1蔫敲,μ2,∑1炭玫,∑2帶回到第一步重新計算奈嘿,再得出新的π1,π2吞加,μ1裙犹,μ2,∑1衔憨,∑2叶圃,循環(huán)往復(fù),直至收斂践图。(無法達(dá)到全局最優(yōu)解掺冠,且初始值不能隨便取)