我們在處理多分類問題時,神經(jīng)網(wǎng)絡(luò)最后一層是全連接層(假設(shè)不帶偏置項(xiàng))败砂,跟著softmax層赌渣,即
使其預(yù)測標(biāo)簽:
其中,昌犹,坚芜,。
于是對于某樣本斜姥,其預(yù)測結(jié)果為:
取對數(shù)后:
取對數(shù)和求和不能調(diào)換鸿竖。
變分推斷(Variational Inference)為求解最后一層的權(quán)重項(xiàng),即后驗(yàn)概率铸敏。為了擬合這一項(xiàng)缚忧,我們將最小化,等價于使用“ELBO(證據(jù)下界)”為優(yōu)化目標(biāo)杈笔,闪水,其中為變分函數(shù)的概率分布。
求導(dǎo)計算過程將遭遇計算 log-sum的梯度蒙具,而該項(xiàng)沒有解析解球榆。
本文完朽肥。
“等等,我還可以搶救一下……”
你可以了解幾個logsum的上界芜果。
幾種logsum的上界
令鞠呈,其概率密度為
1. Sigmoid的積
這個界由得到。
2. 線性界(根據(jù)對數(shù)的凸性)
只有取等號右钾。
3. 對數(shù)-求和 二次方界
4. 對數(shù)-線性 二次方界
5. 期望界
取二次方界的ELBO
如果我們將二次方界整理成 的形式蚁吝,則我們有:
以上為兩種不同的選擇。
Abc的取值采取表格的第二行舀射。
取高斯先驗(yàn)窘茁,
則。
代入上面的式子:
其最優(yōu)解為
其更新規(guī)則為:
其中
參考:
https://danilorezende.com/2015/12/12/useful-inequalities-for-variational-inference/