混合高斯模型在半監(jiān)督學(xué)習(xí)中的應(yīng)用

半監(jiān)督學(xué)習(xí)綜述

引言

傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)一般都是只利用有標(biāo)簽樣本集或者只利用無(wú)標(biāo)簽樣本集合匹厘，只利用有標(biāo)簽樣本的算法我們稱為“有監(jiān)督學(xué)習(xí)”现拒，比如邏輯回歸媳纬、樸素貝葉斯剧辐、支持向量機(jī)道媚、隨機(jī)森林憔狞、梯度提升樹以及梯度提升樹的增強(qiáng)版本Xgboost等送淆；只利用無(wú)標(biāo)簽樣本的算法我們稱為“無(wú)監(jiān)督學(xué)習(xí)”嫌蚤，比如聚類就是一種典型的無(wú)監(jiān)督學(xué)習(xí)挠蛉。而在實(shí)際問題中一般是有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)共存祭示，但是標(biāo)簽數(shù)據(jù)集過少，無(wú)標(biāo)簽數(shù)據(jù)集大量存在谴古，為了更好的利用無(wú)標(biāo)簽數(shù)據(jù)集以提升模型性能质涛，從而帶來(lái)了另外一種著名的學(xué)習(xí)：半監(jiān)督學(xué)習(xí)。

半監(jiān)督學(xué)習(xí)分類

無(wú)圖無(wú)真相掰担，先爆圖汇陆，下面這張圖能夠很清晰的說明學(xué)習(xí)半監(jiān)督的意義何在。

Paste_Image.png

在不考慮無(wú)標(biāo)簽數(shù)據(jù)時(shí)带饱，只有1和2兩個(gè)有標(biāo)簽數(shù)據(jù)毡代，此時(shí)的決策邊界是圖中的虛線阅羹，當(dāng)我們將無(wú)標(biāo)簽數(shù)據(jù)考慮以后，兩類樣本所服從的分布發(fā)生改變教寂，從而導(dǎo)致決策邊界向右偏移捏鱼，變成黑色實(shí)線。上述過程的直觀理解就是隨著我們能夠拿到的樣本集的增多酪耕，我們對(duì)于正負(fù)兩類樣本的信息掌握更加充分导梆，從而使我們做出更好的決策。

傳統(tǒng)意義上的半監(jiān)督學(xué)習(xí)一般可以分為以下四類（想看詳細(xì)材料的小伙伴請(qǐng)戳這里半監(jiān)督學(xué)習(xí)綜述）：

semi_supervised_learning.png

其中迂烁，生成式模型主要是將生成式模型如GMM和HMM等引入到半監(jiān)督學(xué)習(xí)中看尼；低密度劃分算法就是要盡量讓分類邊界通過密度較低區(qū)域，是在傳統(tǒng)支持向量機(jī)基礎(chǔ)上了很多改進(jìn)以更好利用無(wú)標(biāo)簽來(lái)提升模型性能盟步，比如常見的半監(jiān)督支持向量機(jī)S3VM藏斩、S4VM等等；不一致性算法是指在整個(gè)訓(xùn)練過程中建立兩個(gè)或兩個(gè)以上的分類器并讓他們協(xié)同工作的范式址芯；圖正則化這類算法基于流型假設(shè)灾茁，假設(shè)所有的樣本點(diǎn)（包括已標(biāo)記與未標(biāo)記）以及之間的關(guān)系可以表示為一個(gè)無(wú)向圖的形式 g =<V,E >，其中圖的結(jié)點(diǎn)為數(shù)據(jù)樣本點(diǎn)谷炸，而邊則體現(xiàn)了兩個(gè)樣本點(diǎn)之間的相似度關(guān)系北专，基于圖的半監(jiān)督算法的優(yōu)化目標(biāo)就是要保證在已標(biāo)記點(diǎn)上的結(jié)果盡量符合而且要滿足流型假設(shè)。

本文主要跟大家分享交流的是生成式模型中GMM和EM算法在半監(jiān)督學(xué)習(xí)中的應(yīng)用旬陡，其余模塊后續(xù)和大家交流分享拓颓。主要從期望最大化算法、混合高斯模型以及混合高斯模型在半監(jiān)督學(xué)習(xí)中的應(yīng)用三個(gè)部分進(jìn)行展開描孟。

期望最大化EM算法

EM算法

EM算法本質(zhì)是一種迭代算法驶睦，用于求解含有隱變量的概率模型參數(shù)的極大似然估計(jì)，概率模型有時(shí)既含有觀測(cè)變量匿醒，同時(shí)含有隱含變量或者潛在變量场航，如果概率模型的變量都是觀測(cè)變量，那么對(duì)于給定的數(shù)據(jù)廉羔，直接使用極大似然估計(jì)就可以求解得到對(duì)應(yīng)的參數(shù)（可以在本文的混合高斯模型在有監(jiān)督二分類學(xué)習(xí)中的應(yīng)用 章節(jié)看到）溉痢，但是當(dāng)概率模型含有隱變量時(shí)，就沒有辦法直接使用極大似然估計(jì)方法憋他，從而提出能夠求解隱變量的EM算法（可以在本文的混合高斯模型在半監(jiān)督二分類學(xué)習(xí)中的應(yīng)用 章節(jié)看到）孩饼。

該部分參考資料主要來(lái)源于七月在線的機(jī)器學(xué)習(xí)班課程，詳情請(qǐng)戳這里七月在線

具體來(lái)說竹挡，EM算法包含E步和M步镀娶，E步首先在隨機(jī)給出參數(shù)θ的前提下，求得關(guān)于隱變量的后驗(yàn)概率揪罕；M步是在已知后驗(yàn)概率的前提下梯码，通過已知觀測(cè)樣本的參與求得使得期望最大化時(shí)的參數(shù)宝泵，從而使得參數(shù)得以更新，然后重復(fù)E步和M步直至算法收斂忍些。

em.png

里面涉及到的兩步：

E步中為什么是關(guān)于隱變量的后驗(yàn)概率鲁猩？
M步中所謂期望最大化由何處來(lái)？

為了說明上述兩個(gè)問題罢坝，我們首先引入目標(biāo)函數(shù)（對(duì)數(shù)似然函數(shù)）廓握，并且為了方便求解隱含變量z，讓其在目標(biāo)函數(shù)中顯性的表示出來(lái)：

Paste_Image.png

z是隱隨機(jī)變量嘁酿，不方便直接找到參數(shù)估計(jì)隙券，所以我們的策略是利用Jensen不等式計(jì)算l(θ)下界，然后求該下界的最大值闹司；重復(fù)該過程娱仔，直到收斂到局部最大值。具體地游桩，令Qi是隱含變量z的某一個(gè)分布牲迫，Qi≥0，有

Paste_Image.png

為了使Jensen不等式對(duì)于任何樣本點(diǎn)而言都能取得等號(hào)借卧，必須有

Paste_Image.png

從而有下式存在盹憎，也證明了剛才提到的兩個(gè)問題。

Paste_Image.png

EM算法與熟悉的K-means是什么關(guān)系

兩者都可以看做迭代算法铐刘，對(duì)于K-means來(lái)說就是我們一開始不知道每個(gè)樣例對(duì)應(yīng)的隱含變量也就是最佳類別c(i)陪每，最開始可以隨便指定一個(gè)類別c(i)給樣例，然后為了讓目標(biāo)函數(shù)J最小化镰吵，我們求出在給定c(i)情況下檩禾，J最小時(shí)的質(zhì)心參數(shù)u(j)（EM算法中第一步時(shí)需要初始化的未知參數(shù)），得到新質(zhì)心參數(shù)u(j)以后發(fā)現(xiàn)可以有更好的類別c(i)指定給樣例使得目標(biāo)函數(shù)J 更小疤祭，那么c(i)得到重新調(diào)整盼产，上述過程就開始重復(fù)了，直到?jīng)]有更好的c(i)指定勺馆。這樣從K-means里我們可以看出它其實(shí)就是EM的體現(xiàn)辆飘，E步是確定隱含類別變量，M步更新其他參數(shù)來(lái)使J最小化谓传。這里的隱含類別變量指定方法比較特殊，屬于硬指定芹关，從k個(gè)類別中硬選出一個(gè)給樣例续挟，而不是對(duì)每個(gè)類別賦予不同的概率〗某模總體思想還是一個(gè)迭代優(yōu)化過程诗祸，有目標(biāo)函數(shù)跑芳，也有參數(shù)變量，只是多了個(gè)隱含變量直颅，確定其他參數(shù)估計(jì)隱含變量博个，再確定隱含變量估計(jì)其他參數(shù)，直至目標(biāo)函數(shù)最優(yōu)功偿。

該部分的參考資料來(lái)源于JerryLead同學(xué)的博客盆佣，在此表示感謝！

注：K-means中的目標(biāo)函數(shù)稱為畸變函數(shù)（distortion function）（如下式所示）械荷，J目標(biāo)函數(shù)表示每個(gè)樣本點(diǎn)到其質(zhì)心的距離平方和共耍，所以K-means的目標(biāo)是要將J函數(shù)調(diào)整到最小。

目標(biāo)函數(shù)J.png

混合高斯模型

問題背景

首先來(lái)個(gè)簡(jiǎn)單小栗子讓大家找點(diǎn)感覺吨瞎，比如說：
我們對(duì)1000名學(xué)生進(jìn)行身高數(shù)據(jù)測(cè)量（PS：如老師所說痹兜，反正像我肯定是不會(huì)讓你測(cè)試的，O(∩_∩)O哈哈~）颤诀，假設(shè)樣本中存在男性和女性（第三種性別不考慮在內(nèi)）字旭，身高數(shù)據(jù)分別服從正態(tài)分布N(μ1,σ1)和和N(μ2,σ2)，如何利用已觀測(cè)到的身高數(shù)據(jù)估計(jì)對(duì)應(yīng)參數(shù)μ1,σ1,μ2,σ2崖叫。
將上述例子抽象為數(shù)學(xué)表示：
觀測(cè)到得隨機(jī)變量X（對(duì)應(yīng)于例子中的身高）是有K（對(duì)應(yīng)于例子中的男性和女性遗淳，值為2）個(gè)高斯分布混合而成，取各個(gè)高斯分布的概率為φ1φ2... φK归露，第i個(gè)高斯分布的均值為μi洲脂，方差為Σi。若觀測(cè)到隨機(jī)變量X的一系列樣本x1,x2,...,xn（對(duì)應(yīng)于例子中已觀測(cè)到的身高數(shù)據(jù)）剧包，試估計(jì)參數(shù)π恐锦，μ，Σ疆液。

EM求解過程

對(duì)于所有的數(shù)據(jù)點(diǎn)一铅，可以看作組份k生成了這些點(diǎn)。組份k是一個(gè)標(biāo)準(zhǔn)的高斯分布堕油，具體的算法步驟會(huì)在本文最后講解混合高斯模型在半監(jiān)督分類中的應(yīng)用 時(shí)給出潘飘，本質(zhì)還是嚴(yán)格遵守了EM算法的兩步來(lái)進(jìn)行。

混合高斯模型在半監(jiān)督中的應(yīng)用

該部分的參考資料來(lái)源于Xiaojin Zhu and Andrew B. Goldberg的書籍：Introduction to Semi-Supervised Learning

一般的掉缺，對(duì)于二分類問題而言卜录，混合高斯模型中高斯模型的個(gè)數(shù)此時(shí)就是確定的2，即正樣本和負(fù)樣本兩類樣本各自所服從的密度函數(shù)眶明；對(duì)于一個(gè)示例（instance）艰毒，我們想知道它可能的預(yù)測(cè)標(biāo)簽y是什么，我們通常會(huì)使用如下概率公式來(lái)計(jì)算哪一類對(duì)應(yīng)的概率最大搜囱。

Paste_Image.png

上述式子中丑瞧，分母相當(dāng)于歸一化因子柑土，重點(diǎn)在于如何求解分子的乘積項(xiàng)，其中绊汹，p(x|y)稱為類的條件概率稽屏，其實(shí)就是正類和負(fù)類樣本各自所服從的概率密度函數(shù)；p(y)是每一類的先驗(yàn)概率西乖，如果全部是有標(biāo)簽的時(shí)候狐榔，p(y)直接通過計(jì)數(shù)求頻率即可得到。

混合高斯模型在有監(jiān)督二分類學(xué)習(xí)中的應(yīng)用

有監(jiān)督學(xué)習(xí)中浴栽，所有數(shù)據(jù)都是已知標(biāo)簽的荒叼，此時(shí)可以直接使用最大似然估計(jì)求解三組參數(shù)

Paste_Image.png

然后對(duì)上式引入拉格朗日乘子beta，轉(zhuǎn)化為如下式子：

拉格朗日函數(shù).png

直接對(duì)上式分別求偏導(dǎo)典鸡，就能得到每一類的先驗(yàn)概率被廓、高斯分布的均值以及高斯分布的方差。

混合高斯模型在半監(jiān)督分類中的應(yīng)用

在半監(jiān)督學(xué)習(xí)中萝玷，數(shù)據(jù)包含有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)兩部分嫁乘，對(duì)數(shù)似然函數(shù)變?yōu)?/p>

半監(jiān)督中的似然函數(shù).png

該似然函數(shù)和前面有監(jiān)督學(xué)習(xí)中似然函數(shù)相比，最大的不同點(diǎn)就在于針對(duì)無(wú)標(biāo)簽數(shù)據(jù)多出的第二項(xiàng)式子球碉，我們通常稱p(x|θ)為邊緣概率蜓斧，

Paste_Image.png

邊緣概率表示對(duì)于無(wú)標(biāo)簽數(shù)據(jù)我們已知其樣本和特征信息，但是不知道每個(gè)樣本歸屬的類別y是什么睁冬，無(wú)標(biāo)簽樣本所對(duì)應(yīng)的類別此時(shí)相當(dāng)于隱含變量挎春，該隱變量的存在會(huì)使得上述似然函數(shù)非凸和難求解，為此我們將剛才提到的期望最大化算法EM引入進(jìn)來(lái)豆拨，來(lái)求解θ的局部最優(yōu)值直奋。

Paste_Image.png

上面的算法步驟里面，首先初始化參數(shù)θ(0)施禾，θ(0)就是利用MLE在有標(biāo)簽數(shù)據(jù)上所求得值（注：在半監(jiān)督算法里面脚线，很多地方都會(huì)出現(xiàn)類似的身影，就是參數(shù)的初值都是現(xiàn)在有標(biāo)簽數(shù)據(jù)上求得弥搞，然后逐步將無(wú)標(biāo)簽數(shù)據(jù)引入進(jìn)來(lái)邮绿，之后跟大家分享一篇利用牛頓法求解S3VM的算法，初值選取的手法類似）攀例，第E步就是得到關(guān)于隱變量（無(wú)標(biāo)簽數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽）的后驗(yàn)概率（所以γij取值為0和1船逮，當(dāng)?shù)趇個(gè)樣本屬于第j類時(shí)，γij=1粤铭，否則為0傻唾，這兒稍微和前面提到的混合高斯模型有所區(qū)別，前面提到的混合高斯模型中，γij可以理解為第j個(gè)成分對(duì)于觀測(cè)到的第i個(gè)樣本的貢獻(xiàn)程度冠骄，是一個(gè)真正意義上的0-1之間的概率值，而此時(shí)的γij取值只能是0和1）加袋，得到隱變量的后驗(yàn)概率以后凛辣，求得期望最大化時(shí)對(duì)應(yīng)的參數(shù)θ，然后將新的θ會(huì)帶到E步中职烧，求得新的γij扁誓，不斷重復(fù)直至收斂。

好啦~上述就是今天要跟大家分享的所有內(nèi)容蚀之，第一次以博客的形式跟大家交流蝗敢，難免會(huì)有疏漏，有任何建議和意見隨時(shí)都?xì)g迎大家給我留言（本人QQ：1104409598）足删！

最后編輯于：2017.12.04 23:19:09

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末寿谴，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子失受，更是在濱河造成了極大的恐慌讶泰，老刑警劉巖，帶你破解...
沈念sama閱讀 221,548評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件拂到，死亡現(xiàn)場(chǎng)離奇詭異痪署，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)兄旬，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門狼犯，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人领铐，你說我怎么就攤上這事悯森。” “怎么了罐孝？”我有些...
開封第一講書人閱讀 167,990評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵呐馆，是天一觀的道長(zhǎng)。經(jīng)常有香客問我莲兢，道長(zhǎng)汹来，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,618評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任改艇，我火速辦了婚禮收班，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘谒兄。我一直安慰自己摔桦，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著邻耕，像睡著了一般鸥咖。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上兄世，一...
開封第一講書人閱讀 52,246評(píng)論 1贊 308
城市分裂傳說
那天啼辣，我揣著相機(jī)與錄音，去河邊找鬼御滩。笑死鸥拧，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的削解。我是一名探鬼主播富弦，決...
沈念sama閱讀 40,819評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼氛驮！你這毒婦竟也來(lái)了腕柜？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,725評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤柳爽，失蹤者是張志新（化名）和其女友劉穎媳握，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體磷脯，經(jīng)...
沈念sama閱讀 46,268評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蛾找，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了赵誓。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片打毛。...
茶點(diǎn)故事閱讀 40,488評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖俩功，靈堂內(nèi)的尸體忽然破棺而出幻枉，到底是詐尸還是另有隱情，我是刑警寧澤诡蜓，帶...
沈念sama閱讀 36,181評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布熬甫，位于F島的核電站，受9級(jí)特大地震影響蔓罚，放射性物質(zhì)發(fā)生泄漏椿肩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評(píng)論 3贊 333
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一豺谈、第九天我趴在偏房一處隱蔽的房頂上張望郑象。院中可真熱鬧，春花似錦茬末、人聲如沸厂榛。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)击奶。三九已至辈双，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間柜砾，已是汗流浹背辐马。一陣腳步聲響...
開封第一講書人閱讀 33,445評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留局义，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,897評(píng)論 3贊 376
代替公主和親
正文我出身青樓冗疮，卻偏偏與公主長(zhǎng)得像萄唇，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子术幔，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評(píng)論 2贊 359

混合高斯模型在半監(jiān)督學(xué)習(xí)中的應(yīng)用

半監(jiān)督學(xué)習(xí)綜述

引言

半監(jiān)督學(xué)習(xí)分類

期望最大化EM算法

EM算法

EM算法與熟悉的K-means是什么關(guān)系

混合高斯模型

問題背景

EM求解過程

混合高斯模型在半監(jiān)督中的應(yīng)用

混合高斯模型在有監(jiān)督二分類學(xué)習(xí)中的應(yīng)用

混合高斯模型在半監(jiān)督分類中的應(yīng)用

推薦閱讀更多精彩內(nèi)容