Adam優(yōu)化算法簡介

背景介紹

在機器學(xué)習(xí)中,對每一個數(shù)據(jù)點(\mathbf{x}_k,y_k)拾稳,我們通過最小化經(jīng)驗風(fēng)險\mathcal{l}(\theta;\mathbf{x}_k,y_k)來從數(shù)據(jù)中學(xué)習(xí),其中\theta\in \mathbb{R}^d是模型的參數(shù)腊脱。對整個訓(xùn)練集\{(\mathbf{x}_k, y_k),\ k=1,2,\cdots,K\}访得,目標(biāo)函數(shù)即為
\mathcal{L}(\theta)=\dfrac{1}{K} \sum\limits_{k=1}^K \mathcal{l}(\theta;\mathbf{x}_k,y_k)
對應(yīng)的梯度為
\nabla \mathcal{L}(\theta)=\dfrac{1}{K} \sum\limits_{k=1}^K \nabla \mathcal{l}(\theta;\mathbf{x}_k,y_k)
然而,當(dāng)K很大的時候陕凹,計算K個經(jīng)驗風(fēng)險函數(shù)的梯度將會變得特別低效悍抑。因此,一般的我們會采用批次訓(xùn)練方法杜耙,每次獨立均勻采樣\mathcal{B}\subset\{1,\cdots,K\}|\mathcal{B}|\ll M)搜骡,并且計算近似隨機梯度
g(\theta)=\dfrac{1}{|\mathcal{B}|}\sum\limits_{k\in\mathcal{B}}\nabla \mathcal{l}(\theta,\mathbf{x}_k,y_k)
我們有\mathbb{E}[g(\theta)]=\nabla\mathcal{L}(\theta)

Adam(Adaptive Moment Estimation)算法

Adam算法

初始化m_0=v_0=\mathbf{0}_{|\mathcal{B}|\times 1}佑女。對t\geq1记靡,梯度、梯度平方的指數(shù)移動平均\tilde{m}_t团驱、\tilde{v}_t\in \mathbb{R}^{|\mathcal{B}|}摸吠,以及它們的偏差修正m_tv_t\in \mathbb{R}^{|\mathcal{B}|}由以下遞推式給出:
\begin{align*} \tilde{m}_t&=\beta_1 \tilde{m}_{t-1}+(1-\beta)g_t\\ m_t&=\dfrac{\tilde{m}_t}{1-\beta_1^{t+1}}\\ \tilde{v}_t&=\beta_1 \tilde{v}_{t-1}+(1-\beta)g_t\odot g_t\\ v_t&=\dfrac{\tilde{v}_t}{1-\beta_2^{t+1}}\\ \end{align*}
其中\odot代表逐元素乘積嚎花,下標(biāo)t代表第t輪迭代寸痢,\beta_1,\beta\in[0,1)(如無特殊說明,本文涉及的向量運算均為逐元素運算)紊选。模型參數(shù)\theta_t按以下公式進行更新:
\theta_t=\theta_{t-1}-\alpha \dfrac{m_t}{\sqrt{v_t}+\epsilon}
其中\alpha為步長啼止,\epsilon>0是用來保證分母大于0。

Adam算法的優(yōu)勢:

  • 速度快兵罢;
  • 可用于非平穩(wěn)的目標(biāo)函數(shù)/數(shù)據(jù)献烦,即梯度的均值、協(xié)方差變化大趣些;
  • 可用于有噪聲并且/或者稀疏的梯度仿荆;

Adam更新規(guī)則

我們先忽略\epsilon,假設(shè)\epsilon=0。在時間t拢操,有效步長是\triangle_t = \alpha \dfrac{m_t}{\sqrt{v_t}}锦亦,其有兩個上界:當(dāng)1-\beta_1>\sqrt{1-\beta_2}時,|\triangle_t|\leq \alpha\dfrac{1-\beta_1}{\sqrt{1-\beta_2}}令境;否則|\triangle_t|\leq\alpha杠园。前者對應(yīng)梯度稀疏的情況。\triangle_t是不受梯度量級影響的舔庶。當(dāng)更新方向\dfrac{m_t}{\sqrt{v_t}}的模長變小時抛蚁,有效步長\triangle_t也變小。

假設(shè)m_t的每一個元素|m_{t,i}|>0i=1,2,\cdots,|\mathcal{B}|)惕橙,我們可以重寫更新方向:
\dfrac{m_t}{\sqrt{v_t}}= \dfrac{\text{sign}(m_t)}{\sqrt{\frac{v_t}{m_t^2}}}=\sqrt{\dfrac{1}{1+\frac{v_t-m_t^2}{m_t^2}}}\odot \text{sign}(m_t)
其中\dfrac{v_t-m_t^2}{m_t^2}\approx \dfrac{\sigma_t^2}{\nabla\mathcal{L}_t^2}是相對方差的估計瞧甩。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市弥鹦,隨后出現(xiàn)的幾起案子肚逸,更是在濱河造成了極大的恐慌,老刑警劉巖彬坏,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件朦促,死亡現(xiàn)場離奇詭異,居然都是意外死亡栓始,警方通過查閱死者的電腦和手機务冕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來幻赚,“玉大人禀忆,你說我怎么就攤上這事∨饔欤” “怎么了油湖?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長领跛。 經(jīng)常有香客問我乏德,道長,這世上最難降的妖魔是什么吠昭? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任喊括,我火速辦了婚禮,結(jié)果婚禮上矢棚,老公的妹妹穿的比我還像新娘郑什。我一直安慰自己,他們只是感情好蒲肋,可當(dāng)我...
    茶點故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布蘑拯。 她就那樣靜靜地躺著钝满,像睡著了一般。 火紅的嫁衣襯著肌膚如雪申窘。 梳的紋絲不亂的頭發(fā)上弯蚜,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天,我揣著相機與錄音剃法,去河邊找鬼碎捺。 笑死,一個胖子當(dāng)著我的面吹牛贷洲,可吹牛的內(nèi)容都是我干的收厨。 我是一名探鬼主播,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼优构,長吁一口氣:“原來是場噩夢啊……” “哼诵叁!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起俩块,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤黎休,失蹤者是張志新(化名)和其女友劉穎浓领,沒想到半個月后玉凯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡联贩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年漫仆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片泪幌。...
    茶點故事閱讀 39,795評論 1 347
  • 序言:一個原本活蹦亂跳的男人離奇死亡盲厌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出祸泪,到底是詐尸還是另有隱情吗浩,我是刑警寧澤,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布没隘,位于F島的核電站懂扼,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏右蒲。R本人自食惡果不足惜阀湿,卻給世界環(huán)境...
    茶點故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瑰妄。 院中可真熱鬧陷嘴,春花似錦、人聲如沸间坐。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至劳澄,卻和暖如春瓜饥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背浴骂。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工乓土, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人溯警。 一個月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓趣苏,卻偏偏與公主長得像,于是被迫代替她去往敵國和親梯轻。 傳聞我的和親對象是個殘疾皇子食磕,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 你是更注重良好表現(xiàn)而體現(xiàn)能力(表現(xiàn)型)還是更注重進步彬伦,成長以及精通某種手藝與學(xué)問?(進步型) 當(dāng)你犯錯的時候伊诵,你是...
    天行健1101閱讀 165評論 0 0
  • 用節(jié)氣簡單地劃分季節(jié)似乎并不準(zhǔn)確单绑,尤其是南方,初冬的時節(jié)曹宴,更符合秋色的含義搂橙。 今早還有些陰霾,到了下午已徹底放晴笛坦。...
    蘋果樂園閱讀 300評論 0 0
  • git config -list 查看git配置区转,是否已經(jīng)設(shè)置user.name,user.email,已經(jīng)配置的...
    丁小胖fly閱讀 2,693評論 0 0