1. EM介紹
EM(Expectation Maximization Algorithm, EM)是Dempster等人于1977年提出的一種迭代算法晕城,用于含有隱變量的概率模型參數(shù)的極大似然估計(jì)(MLE)催植,或極大后驗(yàn)概率估計(jì)(MAP)叠纷。
2. EM算法描述
-
輸入
:觀測變量數(shù)據(jù)
:隱變量數(shù)據(jù)
:聯(lián)合分布
:條件分布刻帚,后驗(yàn)概率
-
輸出
:模型參數(shù)
-
迭代過程
初始化參數(shù)
步:記
是第
次迭代參數(shù)
的估計(jì)值,則第
次迭代的
步:求對(duì)數(shù)聯(lián)合概率在后驗(yàn)上的期望:
步:求
步的參數(shù)估計(jì)值
:
重復(fù)
步和
步涩嚣,直到收斂:
3. EM公式導(dǎo)出之ELBO+KL Divergence
MLE的做法是最大化似然函數(shù):
上面的式子中有隱變量并且是
形式崇众,不好直接計(jì)算。
EM的做法是求出似然函數(shù)的下界航厚,不斷迭代顷歌,使得下界不斷逼近.
等式兩邊同時(shí)對(duì)求期望:
所以:
上式中,是一個(gè)下界阶淘,所以
衙吩,當(dāng)
散度為0時(shí),等式成立溪窒。
也就是說坤塞,不斷最大化等價(jià)于最大化似然函數(shù)。在EM迭代過程中的第
步澈蚌,假設(shè)
摹芙,然后最大化
4. EM公式導(dǎo)出之ELBO+Jensen Inequality
4.1 Jensen Inequality
4.2 EM公式推導(dǎo)
對(duì)log-likelihood做如下變換:
只有當(dāng)時(shí),等號(hào)才成立宛瞄。
5. EM收斂性證明
如果能證明
則說明EM是收斂的浮禾,因?yàn)?img class="math-inline" src="https://math.jianshu.com/math?formula=P(X%7C%5Ctheta)" alt="P(X|\theta)" mathimg="1">肯定有界,單調(diào)有界函數(shù)必收斂份汗!
由于使得
達(dá)到極大盈电,所以:
因此,得到: