優(yōu)化的問題:梯度消失杈笔、局部最優(yōu)
梯度消失闪水、梯度爆炸
局部最優(yōu):
梯度下降
梯度下降的優(yōu)化影響
大小選擇
指數(shù)加權(quán)平均(梯度下降算法本身的優(yōu)化)
權(quán)重越大,曲線越平滑蒙具,權(quán)重越小球榆,曲線越曲折
動量梯度下降法
這樣的梯度下降有什么變化:
RMSProp算法
Adam算法
tensorflow Adam算法API
學習率衰減
標準化輸入
代碼練習
動量梯度下降
公式中的s在代碼中定義成了v