當(dāng)變分貝葉斯遇到多分類問題

我們在處理多分類問題時,神經(jīng)網(wǎng)絡(luò)最后一層是全連接層(假設(shè)不帶偏置項(xiàng))败砂,跟著softmax層赌渣,即
\mathbf{h} = SomeNeuralNet(\mathbf{x})
\mathbf{p} = \mathbf{W}^T\mathbf{h}
softmax(\mathbf{p} ) = \frac{e^\mathbf{p}}{\sum e^\mathbf{p}}=(\frac{e^{p_1}}{\sum_{k=1}^{K} e^{p_k}}, \frac{e^{p_2}}{\sum_{k=1}^{K} e^{p_k}}, ..., \frac{e^{p_K}}{\sum_{k=1}^{K} e^{p_k}})
=(\frac{e^{W_1^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}}, \frac{e^{W_2^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}}, ..., \frac{e^{W_K^T\mathbf{h}}}{\sum_{k=1}^{K} e^{p_k}})
使其預(yù)測標(biāo)簽:
\mathbf{y} =(y_1, y_2, ..., y_n) \in \{1,...,K \}^n
其中\mathbf{x}=(x_1,...,x_n) \in \mathbb{R}^{d_x\times n}\mathbf{h}=(h_1,...,h_n) \in \mathbb{R}^{d_h\times n}昌犹,\mathbf{p}=(p_1,...,p_n) \in \mathbb{R}^{d_p\times n}坚芜,\mathbf{W}=(W_1,...,W_K) \in \mathbb{R}^{d_h\times K}
于是對于某樣本x_i斜姥,其預(yù)測結(jié)果為:
P(y_i=k|x_i;\mathbf{W})=\frac{e^{W_k^Th_i}}{\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}
取對數(shù)后:
\log P(y_i=k|h_i;\mathbf{W})=W_k^Th_i-\log {\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}
取對數(shù)和求和不能調(diào)換鸿竖。
變分推斷(Variational Inference)為求解最后一層的權(quán)重項(xiàng)W,即后驗(yàn)概率P(W|h,y)铸敏。為了擬合這一項(xiàng)缚忧,我們將最小化KL[Q(W)||P(W|h,y)],等價于使用“ELBO(證據(jù)下界)”為優(yōu)化目標(biāo)杈笔,ELBO \equiv \mathbb{E}_{q_\phi(W)}[\log p_\theta(h,y,W) - \log q_\phi(W|h,y)]闪水,其中q_\phi(\cdot) \sim Q為變分函數(shù)的概率分布。
\log P(y|h,W) \geq ELBO = \mathbb{E}_Q[\log P(y|h,W)] - KL[Q(W)||P(W)]
=\sum_{k=1}^{K}\sum_{i=1}^n\mathbb{E}_Q[W_k^Th_i]-\sum^{n}_{i=1}\mathbb{E}_Q[\log {\sum_{k'=1}^{K} e^{W_{k'}^Th_i}}]
求導(dǎo)計算過程將遭遇計算 log-sum的梯度蒙具,而該項(xiàng)沒有解析解球榆。
本文完朽肥。

“等等,我還可以搶救一下……”
你可以了解幾個logsum的上界芜果。

幾種logsum的上界

x_k \in \mathbb{R}^d鞠呈,其概率密度為q:\mathbb{R}^d \rightarrow \mathbb{R}
1. Sigmoid的積
\log\sum_{k=1}^{K}e^{x_k} \leq \alpha + \sum_{k=1}^{K} \log(1+e^{x_k-\alpha})\quad \forall \alpha \in \mathbb{R}
這個界由\prod_{k=1}^{K}\left(1+e^{x_{k}-\alpha}\right) \leq \sum_{k=1}^{K} e^{x_{k}-\alpha}=e^{-\alpha} \sum_{k=1}^{K} e^{x_{k}}得到。
2. 線性界(根據(jù)對數(shù)的凸性)
\log\sum_{k=1}^{K}e^{x_k} \leq \phi\sum_{k=1}^{K} e^{x_k}-\log \phi -1\quad \forall \phi \in \mathbb{R}
只有\phi=\left(\sum_{k=1}^{K} e^{x_{k}}\right)^{-1}取等號右钾。
3. 對數(shù)-求和 二次方界
\log \sum_{k=1}^{K}e^{x_k} \leq \sum_{k=1}^{K} (x_k-\xi_k)^2-\frac{1}{K}[\sum_{k=1}^{K} (x_k-\xi_k)]^2+\sum_{k=1}^{K}\frac{(x_k-\xi_k)e^{\xi_k}}{\sum_{j=1}^K e^{\xi_j}}+\log \sum_{k=1}^K e^{\xi_k}\quad \forall \xi_k \in \mathbb{R}^d
4. 對數(shù)-線性 二次方界
\begin{array}{ll}{\log \left(1+e^{x}\right)} & {\leqslant \frac{1}{2 \xi}\left(\frac{1}{1+e^{-\xi}}-\frac{1}{2}\right)\left(x^{2}-\xi^{2}\right)+\frac{x-\xi}{2}+\log \left(1+e^{\xi}\right) \quad \forall \xi \in \mathbb{R}} \\ {\log \left(1+e^{x}\right)} & {\geqslant \frac{\xi-x}{2}-\frac{\tanh \left(\frac{\xi}{2}\right)}{4 \xi}\left(\xi^{2}-x^{2}\right)+\log \left(1+e^{\xi}\right)}\end{array}
5. 期望界
\begin{array} {l} {\mathbb{E}_{q}\left[\log \sum_{k} x_{k}\right] \leqslant \log \sum_{k} \mathbb{E}_{q}\left[x_{k}\right]} \\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^K x_{k}\right] \leqslant \log w+\frac{\sum_{k}\left[\mathbb{E}_{q}\left[x_{k}\right]-w\right.}{w}} & \forall w >0\\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^{K} x_{k}\right] \geqslant \log \sum_{k} e^{\mathbb{E}_62mqeyu\left|x_{k}\right|}} \\ {\mathbb{E}_{q}\left[\log \sum_{k=1}^{K} x_{k}\right] \geqslant \sum_{k} p_{k} \mathbb{E}_{q}\left[\log x_{k}\right]-\sum_{k} p_{k} \log p_{k}} & \forall p_{k}>0 \wedge \sum_{k} p_{k}=1\\ {\mathbb{E}_{q}\left[\log \left(1+e^{x_{k}}\right)\right] \leqslant \xi_{k} \mathbb{E}_{q}\left[X_{k}\right]+\log \mathbb{E}_{q}\left[e^{-\xi x_{k}}+e^{\left(1-\xi_{k}\right) z_k}\right]} & {\forall \xi_{k}>0} \end{array}

取二次方界的ELBO

如果我們將二次方界整理成\log \sum_{k=1}^{K} e^{x_{k}} \leq \boldsymbol{x}^{T} A \boldsymbol{x}+\boldsymbol{x}^{T} b+c 的形式蚁吝,則我們有:

A b c
{I_oum2yuy-\frac{1}{K} \mathbf{1 1}^{T}} \left(\frac{e^{\xi_{k}}}{\sum_{j=1}^{K}e^{\xi_j}}+2 \frac{\xi^T\mathbf{1}}{K}-\xi_{k}\right)_{k=1}^{K} \log \sum_{k=1}^{K} e^{\xi_{k}}-\frac{\left(\xi^{T} \mathbf{1}\right)^2}{K}+\sum_{k=1}^{K} \xi_{k}^{2}-\frac{\xi_{k} e^{\xi_k}}{\sum_{j=1}^{K} e^{\xi_j}}
{\operatorname{diag}\left(\lambda\left(\xi_{k}\right)_{k=1}^{K}\right)} \frac{1}{2}- 2\left(\alpha \lambda\left(\xi_{k}\right)\right)_{k=1}^{K} \alpha- \sum_{k=1}^{K} \frac{\xi_{k}+\alpha}{2}+\lambda\left(\xi_{k}\right)\left(\alpha^{2}-\xi_{k}^{2}\right)+\log \left(1+e^{\xi_{k}}\right)

以上為兩種不同的選擇。
\begin{aligned} \mathcal{F}(\boldsymbol{\xi})&=-\frac{1}{2} \sum_{k=1}^{K} \operatorname{tr}\left(A_{k} \mathbb{E}_{Q}\left[W_{k} W_{k}^{T}\right]\right)+\sum_{k=1}^{K} b_{k}^{T} \mathbb{E}_{Q}\left[W_{k}\right]-K L(Q(W) \| P(W))-c\\ where\\ A_{k}&=2 \sum_{i} \lambda\left(\xi_{i k}\right) x_{i} x_{i}^{T}\\ b_{k} &=\sum_{i}\left(y_{i k}-\frac{1}{2}+2 \alpha_{i} \lambda\left(\xi_{i k}\right)\right) x_{i} \\ c &=\sum_{i, k} \alpha_{i}\left(\frac{K}{2}-1\right)+\frac{\xi_{i k}}{2}-\lambda\left(\xi_{i k}\right)\left(\alpha_{i}^{2}-\xi_{i k}^{2}\right)-\log \left(1+e^{\xi_{i k}}\right) \end{aligned}
Abc的取值采取表格的第二行舀射。

取高斯先驗(yàn)P(W_k)\sim \mathcal{N}(\bar{\mu_k}, \bar{\Sigma_k})窘茁,Q(W_k)\sim\mathcal{N}(\mu_k, \Sigma_k)
\mathbb{E}_Q[W_k^Th]=\mu_{k}^{T} x+\frac{1}{2} x^{T} \Sigma_{k} x
\begin{equation} KL(Q(\boldsymbol{W}) || P(\boldsymbol{W}))= \frac{1}{2} \sum_{k=1}^{K}\left(\log \frac{\left|\bar{\Sigma}_{k}\right|}{\left|\Sigma_{k}\right|}+\operatorname{tr}\left(\Sigma_{k} \bar{\Sigma}_{k}^{-1}\right)+\left(\mu_{k}-\bar{\mu}_{k}\right)^{T} \bar{\Sigma}_{k}^{-1}\left(\mu_{k}-\bar{\mu}_{k}\right)-K d\right) \end{equation}
代入上面的式子:
\begin{aligned} \mathcal{F}(\boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\xi}, \boldsymbol{\alpha})=& \frac{n K d}{2}+\left(\frac{K}{2}-1\right) \sum_{i} \alpha_{i}+\sum_{i, k} \mu_{k}^{T} x_{i}\left(y_{i k}-\frac{1}{2}+2 \alpha_{i} \lambda\left(\xi_{i k}\right)\right) \\ &-\lambda\left(\xi_{i k}\right)\left(x_{i}^{T} \Sigma_{k} x_{i}+\left(\mu_{k}^{T} x_{i}\right)^{2}\right)+\frac{\xi_{i k}}{2}-\lambda\left(\xi_{i k}\right)\left(\alpha_{i}^{2}-\xi_{i k}^{2}\right)-\log \left(1+e^{\xi_{i k}}\right) \\ &+\frac{1}{2} \sum_{k} \log \frac{\left|\Sigma_{k}\right|}{| \bar{ \Sigma} _{k}|}-\operatorname{tr}\left(\Sigma_{k} \bar{\Sigma}_{k}^{-1}\right)-\left(\mu_{k}-\bar{\mu}_{k}\right)^{T} \bar{\Sigma}_{k}^{-1}\left(\mu_{k}-\bar{\mu}_{k}\right) \end{aligned}
其最優(yōu)解為
\begin{aligned} \hat{\Sigma}_k &=(A_k+{\bar{\Sigma}_k}^{-1})^{-1}, \\ \hat{\mu}_k &=\hat{\Sigma}_{k}(b+{\bar{\Sigma_k}}^{-1} \bar{\mu}_k). \end{aligned}
其更新規(guī)則為:
\begin{aligned} \hat{\Sigma}^{-1}&= \bar{\Sigma}^{-1} + 2 \sum_{i} \lambda \left( \xi_{i} \right) x_{i} x_{i}^{T} \\ \hat{\mu} &= \hat{\Sigma} \left[\bar{\Sigma}^{-1} \bar{\mu}+\sum_{i}\left( y_{i}-\frac{1}{2} \right) x_{i} \right] \end{aligned}

\mathcal{F}(\boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\phi})=-\sum_{k=1}^{K} \mu_{k}^{T} s_{k}+\sum_{i=1}^{n} \phi_{i} \sum_{k=1}^{K} e^{\mu_{k}^{T} x_{i}+\frac{1}{2} x_{i}^{T} \Sigma_{k} x_{i}}-\log \left(\phi_{i}\right)-n-K L(Q(\beta) \| P(\beta))
其中s_{k}=\sum_{i=1}^n\sum_{y_{i}=k}^K x_{i}
參考:
https://danilorezende.com/2015/12/12/useful-inequalities-for-variational-inference/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脆烟,一起剝皮案震驚了整個濱河市山林,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌邢羔,老刑警劉巖驼抹,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異拜鹤,居然都是意外死亡框冀,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門敏簿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來明也,“玉大人,你說我怎么就攤上這事惯裕∥率” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵蜻势,是天一觀的道長撑刺。 經(jīng)常有香客問我,道長咙边,這世上最難降的妖魔是什么猜煮? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮败许,結(jié)果婚禮上王带,老公的妹妹穿的比我還像新娘。我一直安慰自己市殷,他們只是感情好愕撰,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般搞挣。 火紅的嫁衣襯著肌膚如雪带迟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天囱桨,我揣著相機(jī)與錄音仓犬,去河邊找鬼。 笑死舍肠,一個胖子當(dāng)著我的面吹牛搀继,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播翠语,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼叽躯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了肌括?” 一聲冷哼從身側(cè)響起点骑,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎谍夭,沒想到半個月后黑滴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡紧索,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年高诺,在試婚紗的時候發(fā)現(xiàn)自己被綠了劲适。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澈魄。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡惧笛,死狀恐怖葛菇,靈堂內(nèi)的尸體忽然破棺而出甘磨,到底是詐尸還是另有隱情,我是刑警寧澤眯停,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布济舆,位于F島的核電站,受9級特大地震影響莺债,放射性物質(zhì)發(fā)生泄漏滋觉。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一齐邦、第九天 我趴在偏房一處隱蔽的房頂上張望椎侠。 院中可真熱鬧,春花似錦措拇、人聲如沸我纪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽浅悉。三九已至趟据,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間术健,已是汗流浹背汹碱。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留荞估,地道東北人咳促。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像泼舱,于是被迫代替她去往敵國和親等缀。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容