自從接觸深度學(xué)習(xí)后援制,每每遇到相關(guān)數(shù)學(xué)公式都頭疼。其中變分推斷出現(xiàn)的頻率之多芍瑞,讓我一見它到便跳過直接看與其相關(guān)的結(jié)果晨仑。所以,經(jīng)常處于模模糊糊半懂不懂的狀態(tài)拆檬,讓我十分痛苦洪己。于是,這幾天我便想結(jié)束這種痛苦竟贯,故仔細(xì)的看了相關(guān)資料答捕,并作如下小結(jié)。
變分推斷簡單來說便是需要根據(jù)已有數(shù)據(jù)推斷需要的分布屑那;當(dāng)不容易表達(dá)拱镐,不能直接求解時(shí),可以嘗試用變分推斷的方法持际。即沃琅,尋找容易表達(dá)和求解的分布,當(dāng)和的差距很小的時(shí)候蜘欲,就可以作為的近似分布代替益眉。
數(shù)學(xué)推導(dǎo)
學(xué)過概率論的人一般都會(huì)知道貝葉斯公式:同理,其中被稱作后驗(yàn)概率,被稱為似然度郭脂,則是先驗(yàn)概率空繁。經(jīng)過簡單的交換可得:
對(1.3)式左右兩側(cè)取底為的對數(shù),并且右式同除:
對于式(1.4)兩邊取期望:
計(jì)算到此,我們要思考一個(gè)問題:何時(shí)ELOB達(dá)到最大值朱庆?這個(gè)問題其實(shí)很簡單盛泡,由于KL散度本身大于等于0,所以便是ELOB的上界。
我們不是討論變分推斷嗎娱颊,為什么討論起了呢傲诵?其實(shí)上面我們提到了用去逼近,所以式(1.4)從而引進(jìn)了箱硕。而衡量兩個(gè)分布的相似程度的一種標(biāo)準(zhǔn)便是散度拴竹,的值越小表示兩種分布越相似。什么時(shí)候最小呢剧罩?只要便是最小栓拜,這個(gè)條件看似說明了一切,但是我們只知道不知道的分布啊惠昔,沒法確定兩者是否為0幕与,所以便成了一個(gè)雞肋的條件,食之無味镇防,棄之可惜啊啦鸣。這時(shí)候救世主出現(xiàn)了,她的光輝照耀世界~(中二ing来氧,笑)诫给。
式(1.5)分為兩部分,既然我們沒法確定散度啦扬,我們只好利用(可以看做是的函數(shù)——即函數(shù)的函數(shù)(泛函中狂,本學(xué)渣只聽說過沒有正式學(xué)習(xí)過))。既然要得到最小扑毡,那么就要設(shè)法使到達(dá)最大胃榕。
是時(shí)候展示真正的技術(shù)了——
下面證明的上界:
以上我們知道了通過使得最大化的這種間接的方式從而使得散度盡可能的小,那么接下來便是介紹如何使得盡可能的趨近其上界僚楞。
假設(shè)={},現(xiàn)實(shí)生活中大多數(shù),但是我們選擇時(shí)可以選我們知道到的泉褐,簡單的赐写,獨(dú)立同分布的概率分布(選非獨(dú)立同分布的我也不攔著)。選好了,好戲也要開場了膜赃。
下面證明變量為兩個(gè)時(shí),可得:
推至N個(gè)時(shí),得證端铛。當(dāng)泣矛,即只對某個(gè)感興趣時(shí),可簡寫為:
再令:可得:
推導(dǎo)到這,豁然開朗禾蚕。原來最后也要化為一個(gè)散度您朽,故最大值為0當(dāng)且僅當(dāng)。最后换淆,簡單說明如何獲得穩(wěn)定的迭代過程:
經(jīng)過多次算法迭代哗总,收斂于固定值,從而得到最大倍试,進(jìn)而確定所需散度與分布讯屈。
綜述
變分推斷是利用已知分布通過調(diào)整使其符合我們需要卻難以用公式表達(dá)的分布。由和散度的關(guān)系县习,通過得到的上界間接獲得散度涮母。對于的上界,又可以通過轉(zhuǎn)化為相關(guān)的散度求解躁愿。
用一張圖來表示分布的變化叛本。
文中配圖來源于《徐亦達(dá)機(jī)器學(xué)習(xí)》