鏡像梯度下降可以說是梯度下降的一種更廣義的形式漆枚,對比著梯度下降來總結(jié)一下在線鏡像下降算法。
1 Bregman Divergences
定義:對于在凸集上的函數(shù)
是可微的且嚴(yán)格凸的鼓蜒,Bregman 散度定義為
:
給出常用函數(shù)的Bregman散度:
2-范數(shù)
當(dāng)時(shí)蝗茁,
負(fù)熵函數(shù)
當(dāng)時(shí)娜汁,
如果對于集合增加限制條件,即斧抱,可以理解為
概率單純形或概率測度:滿足
時(shí)常拓,負(fù)熵函數(shù)的Bregman Divergences為
。
2 Projected Gradient Descent
對于優(yōu)化問題
投影梯度下降的基本思想是:先沿著下降方向走一步辉浦,然后在判斷是否在可行域內(nèi)
? ?(下降)
? ?(投影)
投影保證了每次產(chǎn)生的在可行域內(nèi)弄抬,且向凸集
的投影是唯一的。
投影梯度下降算法的迭代格式如下:
等價(jià)于?
3 Online Mirror Descent
定義:上的凸函數(shù)宪郊,
滿足
掂恕,初始化
,則對于給定的
弛槐,
將投影梯度下降算法迭代公式中的后面Proximity項(xiàng)換成Bregman Divergences就得到鏡像下降算法:
等價(jià)于
特殊的懊亡,對于線性函數(shù),通過Follow-the-Rgularization-Leader預(yù)測下一步:
令
于是對于線性函數(shù)的在線鏡像下降算法為:
(1)當(dāng)正則項(xiàng)時(shí)乎串,
(2)當(dāng)正則項(xiàng)店枣,
(3)當(dāng)正則項(xiàng)時(shí),
下面給出正則項(xiàng)為負(fù)熵函數(shù)的推導(dǎo),其余類似:
參考文獻(xiàn):
[1] Shalev-Shwartz S. Online learning and online convex optimization[J]. Foundations and trends in Machine Learning, 2011, 4(2): 107-194.
[2]?ELE 522: Large-Scale Optimization for Data Science
[3] CSE 599S:Entropy Optimality Lecture3: Online mirror descent and Density Approximation