系列12 變分推斷4-SGVI

在上一小節(jié)中躁劣,我們分析了Mean Field Theory Variational Inference迫吐,通過(guò)平均假設(shè)來(lái)得到變分推斷的理論,是一種classical VI账忘,我們可以將其看成Coordinate Ascend志膀。而另一種方法是Stochastic Gradient Variational Inference (SGVI)熙宇。 對(duì)于隱變量參數(shù)$z$和數(shù)據(jù)集$x$。$z \longrightarrow x$是Generative Model溉浙,也就是$p(x|z)$和$p(x,z)$烫止,這個(gè)過(guò)程也被我們稱(chēng)為Decoder。$x \longrightarrow z$是Inference Model戳稽,這個(gè)過(guò)程被我們稱(chēng)為Encoder馆蠕,表達(dá)關(guān)系也就是$p(z|x)$。 # SGVI參數(shù)規(guī)范 我們這節(jié)的主題就是Stochastic Gradient Variational Inference (SGVI)惊奇,參數(shù)的更新方法為: $$ \begin{equation} \theta^{(t+1)} = \theta^{(t)} + \lambda^{(t)}\nabla \mathcal{L}(q) \end{equation} $$ 其中互躬,$q(z|x)$被我們簡(jiǎn)化表示為$q(z)$,我們令$q(z)$是一個(gè)固定形式的概率分布颂郎,$\phi$為這個(gè)分布的參數(shù)吼渡,那么我們將把這個(gè)概率寫(xiě)成$q_{\phi}(z)$。 那么乓序,我們需要對(duì)原等式中的表達(dá)形式進(jìn)行更新寺酪, $$ \begin{equation} ELBO = \mathbf{E}_{q_{\phi}(z)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z) \right] = \mathcal{L}(\phi) \end{equation} $$ 而, $$ \begin{equation} \log p_{\theta}(x^{(i)}) = ELBO + KL(q||p) \geq \mathcal{L}(\phi) \end{equation} $$ 而求解目標(biāo)也轉(zhuǎn)換成了: $$ \begin{equation} \hat{p} = argmax_{\phi} \mathcal{L}(\phi) \end{equation} $$ # SGVI的梯度推導(dǎo) $$ \begin{equation} \begin{split} \nabla_{\phi} \mathcal{L}(\phi) = & \nabla_{\phi} \mathbf{E}_{q_{\phi}}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \nabla_{\phi} \int q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz + \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ \end{split} \end{equation} $$ 我們把這個(gè)等式拆成兩個(gè)部分竭缝,其中: $\int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz$為第一個(gè)部分房维; $ \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz$為第二個(gè)部分。 ## 關(guān)于第二部分的求解 第二部分比較好求抬纸,所以我們才首先求第二部分的咙俩,哈哈哈!因?yàn)?\log p_{\theta}(x^{(i)},z)$與$\phi$無(wú)關(guān)湿故。 $$ \begin{equation} \begin{split} 2 = & \int q_{\phi}\nabla_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & -\int q_{\phi}\nabla_{\phi}\log q_{\phi} dz \\ = & -\int q_{\phi} \frac{1}{q_{\phi}}\nabla_{\phi} q_{\phi} dz \\ = & -\int \nabla_{\phi} q_{\phi} dz \\ = & - \nabla_{\phi} \int q_{\phi} dz \\ = & - \nabla_{\phi} 1 \\ = & 0 \end{split} \end{equation} $$ ## 關(guān)于第一部分的求解 在這里我們用到了一個(gè)小trick阿趁,這個(gè)trick在公式(6)的推導(dǎo)中,我們使用過(guò)的坛猪。那就是$\nabla_{\phi} q_{\phi} = q_{\phi}\nabla_{\phi}\log q_{\phi} $脖阵。所以,我們代入到第一項(xiàng)中可以得到: $$ \begin{equation} \begin{split} 1 = & \int \nabla_{\phi} q_{\phi}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \int q_{\phi}\nabla_{\phi}\log q_{\phi} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]dz \\ = & \mathbf{E}_{q_{\phi}} \left[ \nabla_{\phi}\log q_{\phi} \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \end{split} \end{equation} $$ 那么墅茉,我們可以得到: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) = \mathbf{E}_{q_{\phi}} \left[ \nabla_{\phi}\log q_{\phi} \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \end{equation} $$ 那么如何求這個(gè)期望呢命黔?我們采用的是蒙特卡羅采樣法,假設(shè)$z^l \sim q_{\phi} (z)\ l = 1, 2, \cdots, L$就斤,那么有: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{l=1}^L \nabla_{\phi}\log q_{\phi}(z^{(l)})\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z^{(l)})\right] \end{equation} $$ 由于第二部分的結(jié)果為0悍募,所以第一部分的解就是最終的解。但是洋机,這樣的求法有什么樣的問(wèn)題呢坠宴?因?yàn)槲覀冊(cè)诓蓸拥倪^(guò)程中,很有可能采到$q_{\phi}(z) \longrightarrow 0$的點(diǎn)绷旗,對(duì)于log函數(shù)來(lái)說(shuō)喜鼓,$\lim_{x\longrightarrow 0}log x = \infty$副砍,那么梯度的變化會(huì)非常的劇烈,非常的不穩(wěn)定庄岖。對(duì)于這樣的High Variance的問(wèn)題豁翎,根本沒(méi)有辦法求解。實(shí)際上顿锰,我們可以通過(guò)計(jì)算得到這個(gè)方差的解析解谨垃,它確實(shí)是一個(gè)很大的值。事實(shí)上硼控,這里的梯度的方差這么的大,而$\hat{\phi} \longrightarrow q(z)$也有誤差胳赌,誤差疊加牢撼,直接爆炸,根本沒(méi)有辦法用疑苫。也就是不會(huì)work熏版,那么我們?nèi)绾谓鉀Q這個(gè)問(wèn)題? # Variance Reduction 這里采用了一種比較常見(jiàn)的方差縮減方法捍掺,稱(chēng)為Reparameterization Trick撼短,也就是對(duì)$q_{\phi}$做一些簡(jiǎn)化。 我們?cè)趺纯梢暂^好的解決這個(gè)問(wèn)題挺勿?如果我們可以得到一個(gè)確定的解$p(\epsilon)$曲横,就會(huì)變得比較簡(jiǎn)單。因?yàn)?z$來(lái)自于$q_{\phi}(z|x)$不瓶,我們就想辦法將z中的隨機(jī)變量給解放出來(lái)禾嫉。也就是使用一個(gè)轉(zhuǎn)換$z = g_{\phi}(\epsilon, x^{(i)})$,其中$\epsilon \sim p(\epsilon)$蚊丐。那么這樣做熙参,有什么好處呢?原來(lái)的 $\nabla_{\phi} \mathbf{E}_{q_{\phi}}[\cdot]$ 將轉(zhuǎn)換為 $\mathbf{E}_{p(\epsilon)}[\nabla_{\phi}(\cdot)]$ 麦备,那么不在是連續(xù)的關(guān)于 $\phi$ 的采樣孽椰,這樣可以有效的降低方差。并且凛篙,$z$ 是一個(gè)關(guān)于 $\epsilon$ 的函數(shù)黍匾,我們將隨機(jī)性轉(zhuǎn)移到了 $\epsilon$ ,那么問(wèn)題就可以簡(jiǎn)化為: $$ \begin{equation} z \sim q_{\phi}(z|x^{(i)}) \longrightarrow \epsilon \sim p(\epsilon) \end{equation} $$ 而且鞋诗,這里還需要引入一個(gè)等式膀捷,那就是: $$ \begin{equation} |q_{\phi}(z|x^{(i)})dz| = |p(\epsilon)d\epsilon| \end{equation} $$ 為什么呢?我們直觀性的理解一下削彬,$\int q_{\phi}(z|x^{(i)})dz = \int p(\epsilon)d\epsilon = 1$全庸,并且$q_{\phi}(z|x^{(i)})$和$p(\epsilon)$之間存在一個(gè)變換關(guān)系秀仲。 那么,我們將改寫(xiě)$\nabla_{\phi} \mathcal{L}(\phi)$: $$ \begin{equation} \begin{split} \nabla_{\phi} \mathcal{L}(\phi) = & \nabla_{\phi} \mathbf{E}_{q_{\phi}}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]q_{\phi} dz \\ = & \nabla_{\phi} \int \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right]p(\epsilon) d\epsilon \\ = & \nabla_{\phi} \mathbf{E}_{p(\epsilon)}\left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi} \right] \\ = & \mathbf{E}_{p(\epsilon)} \nabla_{\phi} \left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}) \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}z \right] \\ = & \mathbf{E}_{p(\epsilon)}\nabla_{z}\left[( \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{split} \end{equation} $$ 那么我們的問(wèn)題就這樣愉快的解決了壶笼,$p(\epsilon)$的采樣與$\phi$無(wú)關(guān)神僵,然后對(duì)先求關(guān)于$z$的梯度,然后再求關(guān)于$\phi$的梯度覆劈,那么這三者之間就互相隔離開(kāi)了保礼。最后,我們?cè)賹?duì)結(jié)果進(jìn)行采樣责语,$\epsilon^{(l)} \sim p(\epsilon), \quad l = 1, 2, \cdots, L$: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{i=1}^L \nabla_{z} \left[ (\log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{equation} $$ 其中$z \longleftarrow g_{\phi}(\epsilon^{(i)},x^{(i)})$炮障。而SGVI為: $$ \begin{equation} \phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla_{\phi} \mathcal{L}(\phi) \end{equation} $$ # 小結(jié) 那么SGVI,可以簡(jiǎn)要的表述為:我們定義分布為$q_{\phi}(Z|X)$坤候,$\phi$為參數(shù)胁赢,參數(shù)的更新方法為: $$ \begin{equation} \phi^{(t+1)} \longrightarrow \phi^{(t)} + \lambda^{(t)}\nabla_{\phi} \mathcal{L}(\phi) \end{equation} $$ $\nabla_{\phi} \mathcal{L}(\phi)$為: $$ \begin{equation} \nabla_{\phi} \mathcal{L}(\phi) \approx \frac{1}{L} \sum_{i=1}^L \nabla_{z} \left[ \log p_{\theta}(x^{(i)},z) - \log q_{\phi}(z|x^{(i)}))\nabla_{\phi}g_{\phi}(\epsilon, x^{(i)}) \right] \end{equation} $$ 本文由[mdnice](https://mdnice.com/?platform=6)多平臺(tái)發(fā)布
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市白筹,隨后出現(xiàn)的幾起案子智末,更是在濱河造成了極大的恐慌,老刑警劉巖徒河,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件系馆,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡顽照,警方通過(guò)查閱死者的電腦和手機(jī)由蘑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)棒厘,“玉大人纵穿,你說(shuō)我怎么就攤上這事∩萑耍” “怎么了谓媒?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)何乎。 經(jīng)常有香客問(wèn)我句惯,道長(zhǎng),這世上最難降的妖魔是什么支救? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任抢野,我火速辦了婚禮,結(jié)果婚禮上各墨,老公的妹妹穿的比我還像新娘指孤。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布恃轩。 她就那樣靜靜地躺著结洼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪叉跛。 梳的紋絲不亂的頭發(fā)上松忍,一...
    開(kāi)封第一講書(shū)人閱讀 51,578評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音筷厘,去河邊找鬼鸣峭。 笑死,一個(gè)胖子當(dāng)著我的面吹牛酥艳,可吹牛的內(nèi)容都是我干的摊溶。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼充石,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼更扁!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起赫冬,我...
    開(kāi)封第一講書(shū)人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體藕畔,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡琼富,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了娜搂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖风范,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情沪么,我是刑警寧澤硼婿,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站禽车,受9級(jí)特大地震影響寇漫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜殉摔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一州胳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逸月,春花似錦栓撞、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)瓢颅。三九已至,卻和暖如春岭粤,著一層夾襖步出監(jiān)牢的瞬間惜索,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工剃浇, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留巾兆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓虎囚,卻偏偏與公主長(zhǎng)得像角塑,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子淘讥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容