- 本文首發(fā)自公眾號:RAIS,點擊直接關(guān)注篙梢。
前言
本系列文章為 《Deep Learning》 讀書筆記光羞,可以參看原書一起閱讀,效果更佳穴豫。
梯度下降算法
在機器學習或深度學習中凡简,模型的訓練在一般都會被轉(zhuǎn)換為求使得目標函數(shù)函數(shù)值最小的參數(shù)組合的優(yōu)化問題,簡而言之就是優(yōu)化參數(shù)精肃,梯度下降法是優(yōu)化參數(shù)的一種方法秤涩。梯度是數(shù)學上面的概念,梯度的方向是某一點方向?qū)?shù)最大值的的方向司抱,其向其反方向(負梯度)移動筐眷,就可以趨近于極小值。梯度下降算法用梯度乘以學習率(learning rate)來確定下一個點的位置习柠,學習率是一個 超參數(shù)匀谣,學習率太小,每次移動太小則收斂太慢訓練時間過長津畸,學習率太大可能會導致下一個點在曲線底部隨意彈跳找不到極小值振定。
梯度下降法
隨機梯度下降算法
梯度下降算法的一個問題是需要處理所有的樣本,效率太低肉拓,因此考慮采用計算其中一部分小得多的數(shù)據(jù)集去進行計算后频,且由于這部分數(shù)據(jù)是隨機的,所以站在期望的角度來說暖途,隨機梯度和真實梯度期望一致卑惜。極限一點,每次只取一個點驻售,只要迭代次數(shù)夠多露久,也是可以達到目的的,當然欺栗,實際中更多的是一種折中的方法毫痕,采用一個 小批量(10-1000) 的樣本。
實際的經(jīng)驗表明迟几,隨機梯度下降算法和梯度下降算法都能很好的收斂消请,且隨機梯度下降算法甚至還能在一些情況下,可以在多個極值點的情況下找到更好的那一個类腮。
總結(jié)
本文介紹了隨機梯度下降算法臊泰。
- 本文首發(fā)自公眾號:RAIS,點擊直接關(guān)注蚜枢。由于各平臺 Markdown 解析差異缸逃,有些公式顯示效果不好针饥,請到我 個人維護網(wǎng)站 查看。