1. 前提推導(dǎo)
2. EM算法
EM算法就是含有隱變量的概率模型參數(shù)的極大似然估計法。
延森不等式(Jensen's inequality)以丹麥數(shù)學(xué)家約翰·延森(Johan Jensen)命名蛔趴。它給出積分的凸函數(shù)值和凸函數(shù)的積分值間的關(guān)係孝情。延森不等式有以下推論:過一個凸函數(shù)上任意兩點所作割線一定在這兩點間的函數(shù)圖象的上方
無監(jiān)督分類:聚類咧叭,EM菲茬。
問題:已知10000個人的身高婉弹,h1,h2,h3...h1000镀赌,樣本中存在男性女性商佛。假設(shè)身高分別服從兩個高斯分布(男N(μ1,σ1)良姆;女N(μ2,σ2))玛追。試著估計μ1, σ1, μ2, σ2痊剖。
如:已知先驗概率廊谓,男被選中概率為80%,女被選中概率20%麻削。對于某一樣本蒸痹,P(s = 男 | 1.98) = 0.3, 0.8 * 0.3 = 0.24。P(s = 女 | 1.98) = 0.01呛哟,0.2*0.01 = 0.002叠荠。0.24/0.24+0.002 = ??(歸一化)=>γ(男,198) = 0.99扫责,γ(女榛鼎,198) = 0.01鳖孤。
把算出來的π1孟辑,π2哎甲,μ1蔫敲,μ2,∑1炭玫,∑2帶回到第一步重新計算奈嘿,再得出新的π1,π2吞加,μ1裙犹,μ2,∑1衔憨,∑2叶圃,循環(huán)往復(fù),直至收斂践图。(無法達(dá)到全局最優(yōu)解掺冠,且初始值不能隨便取)