隨機梯度下降
在深度學習里科汗,目標函數通常是訓練數據集中有關各個樣本的損失函數的平均捎迫。設是有關索引為
的訓練數據樣本的損失函數,
是訓練數據樣本數故源,
是模型的參數向量,那么目標函數定義為
目標函數在處的梯度計算為
如果使用梯度下降汞贸,每次自變量迭代的計算開銷為绳军,隨著
線性增長印机。因此,當訓練數據樣本數很大時门驾,梯度下降每次迭代的計算開銷很高∩淙現在可以通過隨機梯度下降來解決這個問題。
隨機梯度下降(stochastic gradient descent奶是,SGD)減少了每次迭代的計算開銷楣责。在隨機梯度下降的每次迭代中,我們隨機均勻采樣的一個樣本索引聂沙,并計算梯度
來迭代
:
這里同樣是學習率秆麸。可以看到每次迭代的計算開銷從梯度下降的
降到了常數
及汉。值得強調的是蛔屹,隨機梯度
是對梯度
的無偏估計:
好處就是將 variance(方差) 降低一下,
這意味著豁生,平均來說兔毒,隨機梯度是對梯度的一個良好的估計。
下面我們通過在梯度中添加均值為0的隨機噪聲來模擬隨機梯度下降甸箱,以此來比較它與梯度下降的區(qū)別育叁。