SGD:
每一輪迭代的方向只和當(dāng)前Batch的梯度方向有關(guān)品洛,學(xué)習(xí)率不能自適應(yīng)。動量momentum(利用數(shù)學(xué)中的移動平均概念)
為梯度的方向增加慣性
梯度的方向如果發(fā)生變化玻蝌,更新速度會變慢万俗。
-
RMSProp:Root Mean Square Prop
自適應(yīng)學(xué)習(xí)率的作用
梯度較大的方向?qū)W習(xí)率會被收縮
- Adam(Adaptive momentum estimator),結(jié)合momentum和RMSProp的優(yōu)勢漓骚,增加了fixed bias的步驟
【參考資料】
- Ng deep learning課程
- 一文搞懂RMSProp優(yōu)化算法