EM算法是含有隱變量的概率模型參數(shù)的極大似然估計(jì)法。
一爹橱、三硬幣模型
??假設(shè)有3枚硬幣,分別記作窄做。這些硬幣正面出現(xiàn)的概率分別是愧驱。進(jìn)行如下拋硬幣試驗(yàn):
??先擲硬幣,根據(jù)其結(jié)果選出硬幣或硬幣浸策,正面選硬幣冯键,反面選硬幣;然后擲選出的硬幣庸汗,擲硬幣的結(jié)果惫确,出現(xiàn)正面記作1,出現(xiàn)反面記作0;獨(dú)立地重復(fù)次試驗(yàn)(這里改化,=10),觀測(cè)結(jié)果如下:
1,1,0,1,0,0,1,0,1,1
??假設(shè)只能觀測(cè)到擲硬幣的結(jié)果掩蛤,不能觀測(cè)到擲硬幣的過(guò)程,問(wèn)如何估計(jì)三硬幣正面出現(xiàn)的概率陈肛,即三硬幣模型的參數(shù)揍鸟。
設(shè)是觀測(cè)變量,表示觀測(cè)結(jié)果或句旱;是隱變量阳藻,表示未觀測(cè)到的擲硬幣的結(jié)果;是模型參數(shù)谈撒。
y為可觀測(cè)變量腥泥,取值為{0,1},觀測(cè)結(jié)果取決于Z的取值啃匿,y,Z均服從0-1分布蛔外。
三硬幣模型可以寫(xiě)作:
因此:
等價(jià)于
將觀測(cè)數(shù)據(jù)表示為,未觀測(cè)數(shù)據(jù)表示為溯乒,則觀測(cè)數(shù)據(jù)的似然函數(shù)為:
求參數(shù)=的極大似然估計(jì):
=
二夹厌、EM算法
E步:基于推斷隱變量Z的期望,記為
M步:基于已觀測(cè)變量和對(duì)參數(shù)做極大似然估計(jì)裆悄,記為
對(duì)于一個(gè)含有隱變量的概率模型矛纹,目標(biāo)是極大化觀測(cè)數(shù)據(jù)關(guān)于參數(shù)的極大似然函數(shù):
===
EM算法通過(guò)逐步迭代近似極大化,假設(shè)第次迭代后的估計(jì)值是灯帮,則有崖技。
由Jensen不等式:
因此:
=
=
=
EM算法是不斷求解下界的極大化逼近求解對(duì)數(shù)似然函數(shù)極大化。
因此:
函數(shù):
=
EM算法:
- 選取參數(shù)初值:
- E步:計(jì)算
- M步:求使 極大化的钟哥,確定第次參數(shù)迭代的估計(jì)值:
重復(fù)E步和M步直到收斂迎献。停止條件:
或
三、EM求解三硬幣模型
E步:
代入
M步:
對(duì)Q求偏導(dǎo)得到的估計(jì)為:
參考:
李航《統(tǒng)計(jì)學(xué)習(xí)方法》
https://blog.csdn.net/wendaomudong_l2d4/article/details/79005461