Diederik P. Kingma
Jimmy Lei Ba
論文結(jié)構(gòu):
- 介紹+提出adam算法結(jié)構(gòu)
- 針對(duì)的問題:高維參數(shù)空間的隨機(jī)目標(biāo)的優(yōu)化問題校坑。在這種情況下,高階優(yōu)化方法是不合適的玖雁,adam局限于一階優(yōu)化方法瓮下。
- 為什么觅丰?
需要一個(gè)基于梯度優(yōu)化的有效隨機(jī)//優(yōu)化算法 - 優(yōu)點(diǎn):
實(shí)現(xiàn)簡(jiǎn)單
高效的計(jì)算
所需內(nèi)存少
梯度對(duì)角縮放的不變性(第二部分將給予證明)
適合解決含大規(guī)模數(shù)據(jù)和參數(shù)的優(yōu)化問題
適用于非平穩(wěn)(non-stationary)目標(biāo)/非凸優(yōu)化
適用于解決包含很高噪聲或稀疏梯度的問題
超參數(shù)可以很直觀地解釋饵溅,并且基本上只需極少量的調(diào)參 -
算法結(jié)構(gòu)
image.png
- 算法詳解+更新規(guī)則
- 詳細(xì)解釋:
-
學(xué)習(xí)率衰減:
image.png -
ADAM’S UPDATE RULE
Adam 算法更新規(guī)則會(huì)很謹(jǐn)慎地選擇步長(zhǎng)的大小。假定ε=0妇萄,則每次時(shí)間步t有效下降步長(zhǎng)為
image.png
有界性:
image.png
image.png
可以令其相對(duì)簡(jiǎn)單地提前知道α正確的范圍蜕企,因此其要優(yōu)于沒有提供足夠信息的當(dāng)前梯度估計(jì)。
信噪比(signal-to-noise ratio/SNR):
image.png
其大小決定了符合真實(shí)梯度方向的不確定性嚣伐。例如糖赔,SNR 值在最優(yōu)解附近趨向于 0,因此也會(huì)在參數(shù)空間有更小的有效步長(zhǎng):即一種自動(dòng)退火(automatic annealing)的形式轩端。
梯度對(duì)角縮放的不變性:有效步長(zhǎng)?t 對(duì)于梯度縮放來說仍然是不變量放典。
image.png
-
偏差修正
基于指數(shù)加權(quán)平均數(shù)的梯度更新:
image.png
展開式:
image.png
指數(shù)加權(quán)平均數(shù)和真實(shí)量之間的偏差修正,我們對(duì)式(1)的左邊和右邊去期望:
image.png
-
adam收斂性
利用 Zinkevich 2003 年提出的在線學(xué)習(xí)框架分析了 Adam 算法的收斂性。
image.png
image.png
- 其它相關(guān)優(yōu)化算法
-
RMSprop
image.png
區(qū)別:帶動(dòng)量算時(shí)重新計(jì)算梯度上的動(dòng)量而不是指數(shù)加權(quán)平均數(shù)的算法奋构。沒有偏差修正壳影。
-
adagrad
image.png
區(qū)別:beta取值,有偏差修正弥臼。
- 模型性能測(cè)試
評(píng)估方法:(使用大規(guī)模數(shù)據(jù)集和模型宴咧,相同的參數(shù)初始化,顯示結(jié)果為最好的超參數(shù))
-
Logistic 回歸
1.minist數(shù)據(jù)集径缅,網(wǎng)絡(luò)為28*28=784掺栅,minibatch=128。
2.IMDB電影評(píng)論數(shù)據(jù)集纳猪,稀疏特征問題氧卧。
image.png -
多層全連接神經(jīng)網(wǎng)絡(luò)
MINIST訓(xùn)練集,兩層完全連接的隱含層,每層隱含單元1000,ReLU激活的神經(jīng)網(wǎng)絡(luò)模型, minibatch size=128.
image.png -
卷積神經(jīng)網(wǎng)絡(luò)
image.png -
偏差校正
image.png
開源代碼:https://github.com/michaelshiyu/kerNET
-
adamax
L^2---> L^p
令 p → ∞氏堤,得出一個(gè)極其穩(wěn)定和簡(jiǎn)單的算法adamax
image.png
結(jié)構(gòu):
image.png
其中:
image.png
變?yōu)榈剑?br>image.png
其中沙绝,不需要修正beta2的初始化偏差。同樣 AdaMax 參數(shù)更新的量級(jí)要比 Adam 更簡(jiǎn)單鼠锈,即|?t| ≤ α闪檬。
下一步方向:
adam超參數(shù)設(shè)置:調(diào)參經(jīng)驗(yàn)
缺點(diǎn)改進(jìn):adam雖然收斂的很快,也很穩(wěn)定购笆,但是收斂的效果差(即收斂到的最優(yōu)解的準(zhǔn)確率偏低)粗悯。
更好的優(yōu)化算法:
比如AMSGrad和AdaBound。后者是目前來說比較有希望頂替Adam的:前期和Adam一樣快由桌,后期有和SGD一樣的精度为黎。