深度學習幾種優(yōu)化算法的筆記-一句話理解各種優(yōu)化算法

深度學習最全優(yōu)化方法總結比較
這篇文章已經(jīng)比較清楚了索赏，這篇筆記主要幫助理解和記憶各種算法忿檩，無數(shù)學公式秩冈。

以前經(jīng)常覺得，優(yōu)化算法名字好難記沃测，所以順便把自己理解的名字的組合也寫進來缭黔。

：）我承認標題黨了，今天正好又要看一遍優(yōu)化算法蒂破，所以干脆沉下心來馏谨，盡可能記住這幾種優(yōu)化算法，最好的方式就是用一句話來表達出這些優(yōu)化算法附迷。

沒什么好說的

如其名惧互，動量，把歷史改變作為動量累加到當前梯度上喇伯。
動量+梯度

也是動量喊儡，先動量，根據(jù)動量后的值計算梯度更新艘刚。
先動量管宵，求跳躍后的梯度

用所有梯度平方和后開根號除當前梯度，來反向調節(jié)更新

我猜是為了防止更新率過大的時候攀甚，防止震蕩箩朴；更新率過小的時候，讓梯度加速秋度，當然也看的出來很多問題炸庞，至少不該使用所有的以前的梯度，這樣荚斯，越訓練到后面埠居，越慢，到最后事期，受到以前梯度平方的影響滥壕，更新就非常慢了

adapt + gradient descent
適合處理稀疏梯度

以前的梯度平方衰減后累加開根號后來除現(xiàn)在的梯度

證明了我對adagrad的理解，無衰減累加梯度**2會過多的影響現(xiàn)在的取值兽泣，加上衰減后绎橘，以前的梯度的影響會漸漸消失，越近的梯度對現(xiàn)在的影響越大唠倦。

Adagrad delta版本
現(xiàn)在的默認參數(shù)称鳞，估計針對是歸一化數(shù)據(jù)的涮较，所以也證明了，對數(shù)據(jù)歸一化非常重要冈止，不然咋個以前的梯度都較大的話狂票，現(xiàn)在還是訓練越來越慢。

Adadelta的變體

其實沒咋個看懂變體后公式中E的含義怨咪，猜測主要簡化了計算屋剑，并且只計算最近一次的梯度變化么？

RMS均方根的意思

帶有動量項的RMSprop

Ada + Momentum

帶有學習率上限的Adam

帶有Nesterov動量項的Adam

記錄下《[深度學習最全優(yōu)化方法總結比較]https://zhuanlan.zhihu.com/p/22252270)
》一文中作者的經(jīng)驗：

最后編輯于：2018.01.31 22:09:05

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者