統(tǒng)計學習方法9—EM算法

??EM算法是一種迭代算法炫隶,是一種用于計算包含隱變量概率模型的最大似然估計方法淋叶,或極大后驗概率。EM即expectation maximization伪阶,期望最大化算法煞檩。

1. 極大似然估計

??在概率模型中,若已知事件服從的分布或者其他概率模型的參數(shù)栅贴,那么我們可以通過計算得到某事件發(fā)生的概率斟湃。而在估計中,這些變成了方向過程:已知一組數(shù)據(jù)發(fā)生的結(jié)果檐薯,相當于獲得了經(jīng)驗概率凝赛,通過這組數(shù)據(jù)假設模型服從什么分布注暗,再通過經(jīng)驗概率求解模型參數(shù)。
??比如統(tǒng)計學校學生身高服從的概率分布墓猎,抽樣1000人得到他們的身高數(shù)據(jù)捆昏,再假設身高服從正態(tài)分布,于是只需要求解u,\sigma即可毙沾。剩下的問題就是如何確定這兩個參數(shù)骗卜,極大似然估計的思想就是求解在這兩個參數(shù)下,得到的這組樣本發(fā)生的概率最大的情況便是這兩個參數(shù)最有可能的取值左胞。而抽取每個樣本都是獨立的膨俐,于是可用每個段身高的樣本數(shù)量/總樣本數(shù)量作為單個發(fā)生的概率p,讓每個p最大化就是讓其乘積最大化罩句,于是得到最大似然函數(shù)
L(\theta) = \prod _xp(x | \theta)??再求解其關(guān)于\theta的極大化問題便能得到一個對\theta的估計
\widehat \theta = argmaxL(\theta)

2.EM算法

??上面是模型變量都是可觀測的情況,這種情況可以直接根據(jù)觀測到的樣本數(shù)據(jù)敛摘,使用極大似然估計對模型參數(shù)進行估計门烂。但若模型中含有隱變量的時候,就不能簡單的使用極大似然估計進行計算兄淫。EM算法就是針對含有隱變量的概率模型參數(shù)的極大似然估計方法屯远。
例子:
??假設三枚硬幣,記為A捕虽、B慨丐、C,它們正面向上的概率分別為n泄私、p房揭、q。實驗如下:先拋A晌端,根據(jù)A的結(jié)果選擇B或者C再次拋捅暴,將這次正面向上的結(jié)果記為1,反面記為0咧纠,其中A正面向上則選擇B蓬痒,反面則選擇C。經(jīng)過n次實驗后得到n個觀測值漆羔,根據(jù)這n個觀測值估計n梧奢、p、q的參數(shù)值演痒。實驗過程中只能觀測到最后結(jié)果亲轨,并不能觀察實驗過程,也就是A的結(jié)果是未知的鸟顺。該模型可以表示如下
P(y|\theta) = \sum_zP(y,z|\theta) = \sum_zP(z|\theta)P(y|z,\theta)??其中y表示隨機變量Y的觀測值瓶埋,表示該次結(jié)果是1或0。z代表隱變量,表示模型中未能觀測到的A的結(jié)果养筒,\theta=(n,p,q)是模型參數(shù)曾撤。其中Y是不完全數(shù)據(jù),Y+Z是完全數(shù)據(jù)晕粪。
??若是沒有隱變量Z挤悉,那么可直接使用對數(shù)極大似然函數(shù)估計
\widehat \theta=arg\underset \theta {max}L(\theta)=arg\underset \theta {max}\sum_y logP(y|\theta)??加入隱變量后,對數(shù)極大似然函數(shù)變?yōu)?br> L(\theta,z)=\sum_ylog\sum_zP(y,z|\theta)??求解
\widehat \theta,z=arg\underset {\theta,z} {max}L(\theta,z)??按照極大似然估計中的方法巫湘,似乎應該對\theta,z求導然后令其為0解方程組装悲,然后注意此時的L(\theta,z)函數(shù),log內(nèi)含有求和運算尚氛,若是直接求導計算十分困難诀诊,因此退而求其次,既然要極大化L(\theta,z)阅嘶,就先找到一個它的下界属瓣,再想辦法提高這個下界,同樣能達到極大化L的效果讯柔。使用Jense不等式對似然函數(shù)進行放縮抡蛙。

  • Jense不等式(琴生不等式)

??凸函數(shù):是定義在實數(shù)域上的函數(shù),如果對于任意的實數(shù)魂迄,都有:
f''\geqslant 0
?? 則該函數(shù)是凸函數(shù)粗截。
??當函數(shù)是凸函數(shù)的時候,Jense不等式的含義是函數(shù)的期望大于等于期望的函數(shù)(凹函數(shù)相反)捣炬。圖下圖所示

jense不等式

??二維情況下可用凸函數(shù)定義來解釋熊昌,當一個函數(shù)是凸函數(shù)的時候,它滿足
??左邊其實相當于其變量x先求期望后帶入函數(shù)湿酸,右邊是先求函數(shù)值再計算函數(shù)值的期望浴捆,也就是
??再回到中來,目的是為了將對數(shù)函數(shù)中的和項去掉稿械,便可利用jense不等式的性質(zhì)选泻,將期望的函數(shù)變?yōu)楹瘮?shù)的期望。先進行放縮
??其中最后一步用到了Jense不等式美莫,因為對數(shù)函數(shù)是凹函數(shù)页眯,所以不等號反了過來,,此處??并且所添加的滿足??這是根據(jù)第三類Jense不等式的條件設定的厢呵,不同系數(shù)的加權(quán)求和期望只要滿足系數(shù)之和為1就能使用Jense不等式窝撵。
??所以得到結(jié)論,的加權(quán)平均就是的一個下界襟铭。這便是EM算法中E(期望)的來由碌奉。
??目前還是未知的短曾,需要根據(jù)一些條件來選擇一個合適的函數(shù),再次強調(diào)最終目的是極大化似然函數(shù)赐劣,現(xiàn)在我們得到了似然函數(shù)的一個下界嫉拐,一個想法就是讓這個下界去更好的逼近似然函數(shù)的真實值,下界是根據(jù)不等式放縮后得到的魁兼,那么當不等式取等號的時候便是最接近原函數(shù)的時候婉徘。回憶Jense不等式咐汞,顯然當為常數(shù)的時候不等式成立盖呼。即
??既然要確定的是,不妨設為常數(shù)化撕,由上式得

??將c帶入x

??第二步用到邊緣概率几晤,第三步條件概率。至此植阴,我們得出了Q(z)的表達式蟹瘾,Q(z)是已知樣本觀測和模型參數(shù)下的隱變量的分布。那么已經(jīng)完成了E步墙贱,對對數(shù)似然函數(shù)下界的期望的表示
??接下來需要做的便是極大化這個似然函數(shù),也就是M步贱傀。這一步中將視為常數(shù)惨撇,對進行極大化,去掉常數(shù)項后

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末府寒,一起剝皮案震驚了整個濱河市魁衙,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌株搔,老刑警劉巖剖淀,帶你破解...
    沈念sama閱讀 211,817評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異纤房,居然都是意外死亡纵隔,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,329評論 3 385
  • 文/潘曉璐 我一進店門炮姨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捌刮,“玉大人,你說我怎么就攤上這事舒岸∩鹱鳎” “怎么了?”我有些...
    開封第一講書人閱讀 157,354評論 0 348
  • 文/不壞的土叔 我叫張陵蛾派,是天一觀的道長俄认。 經(jīng)常有香客問我个少,道長,這世上最難降的妖魔是什么眯杏? 我笑而不...
    開封第一講書人閱讀 56,498評論 1 284
  • 正文 為了忘掉前任夜焦,我火速辦了婚禮,結(jié)果婚禮上役拴,老公的妹妹穿的比我還像新娘糊探。我一直安慰自己,他們只是感情好河闰,可當我...
    茶點故事閱讀 65,600評論 6 386
  • 文/花漫 我一把揭開白布科平。 她就那樣靜靜地躺著,像睡著了一般姜性。 火紅的嫁衣襯著肌膚如雪瞪慧。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,829評論 1 290
  • 那天部念,我揣著相機與錄音弃酌,去河邊找鬼。 笑死儡炼,一個胖子當著我的面吹牛妓湘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播乌询,決...
    沈念sama閱讀 38,979評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼榜贴,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了妹田?” 一聲冷哼從身側(cè)響起唬党,我...
    開封第一講書人閱讀 37,722評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鬼佣,沒想到半個月后驶拱,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,189評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡晶衷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,519評論 2 327
  • 正文 我和宋清朗相戀三年蓝纲,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晌纫。...
    茶點故事閱讀 38,654評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡驻龟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出缸匪,到底是詐尸還是另有隱情翁狐,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布凌蔬,位于F島的核電站露懒,受9級特大地震影響闯冷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜懈词,卻給世界環(huán)境...
    茶點故事閱讀 39,940評論 3 313
  • 文/蒙蒙 一蛇耀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧坎弯,春花似錦纺涤、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,762評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至崎脉,卻和暖如春拧咳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背囚灼。 一陣腳步聲響...
    開封第一講書人閱讀 31,993評論 1 266
  • 我被黑心中介騙來泰國打工骆膝, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人灶体。 一個月前我還...
    沈念sama閱讀 46,382評論 2 360
  • 正文 我出身青樓阅签,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蝎抽。 傳聞我的和親對象是個殘疾皇子政钟,可洞房花燭夜當晚...
    茶點故事閱讀 43,543評論 2 349