優(yōu)化問題可選解:
optimizer優(yōu)化算法總結(jié) - CSDN博客
深度學(xué)習(xí)最全優(yōu)化方法總結(jié)比較(SGD昙衅,Adagrad愁憔,Adadelta抹锄,Adam焰手,Adamax糟描,Nadam)
從 SGD 到 Adam —— 深度學(xué)習(xí)優(yōu)化算法概覽(一)
Adam那么棒,為什么還對(duì)SGD念念不忘 (1) —— 一個(gè)框架看懂優(yōu)化算法
An overview of gradient descent optimization algorithms
這其中有部分重復(fù)书妻,實(shí)際上1蚓挤,2,3三篇文章都可以看作最后一篇的改寫加工驻子。
其中關(guān)于Adadelta和其后與之相關(guān)的算法公式有誤,正確結(jié)果參見https://arxiv.org/pdf/1212.5701.pdf原文估灿。
Adam算法解釋不清崇呵,原始文獻(xiàn)https://arxiv.org/pdf/1412.6980v8.pdf