深度學習中的優(yōu)化器

  • 深度學習的優(yōu)化器有許多種類,同損失函數(shù)一樣壮池,我們只有清楚了它們的原理才能更好地選擇粥庄。鑒于優(yōu)化器的重要性以及難度狮杨,本文將不定時更新最新理解思路亦或最新優(yōu)化器……

Batch Gradient Descent (BGD) 批梯度下降

  • 梯度更新規(guī)則:每次更新參數(shù)時使用全部訓練樣本半沽。
  • 優(yōu)點:理想狀態(tài)下經(jīng)過足夠多的迭代后可以達到全局最優(yōu)。( 對于凸函數(shù)可以收斂到全局極小值吴菠,對于非凸函數(shù)可以收斂到局部極小值者填。)
  • 缺點:一次更新中,需要對整個數(shù)據(jù)集計算梯度做葵,所以計算起來非常慢占哟,遇到很大量的數(shù)據(jù)集也會非常棘手。

Stochastic Gradient Descent (SGD) 隨機梯度下降

  • 優(yōu)化方式:每次更新參數(shù)時隨機選用一個樣本酿矢。
  • 優(yōu)點:相比于 BGD 訓練速度更快榨乎,更快收斂。
  • 缺點:隨機梯度下降會帶來一定的問題棠涮,因為計算得到的并不是準確的一個梯度谬哀,SGD 的噪音較 BGD 要多,使得 SGD 并不是每次迭代都向著整體最優(yōu)化方向严肪。 但是大的整體的方向是向全局最優(yōu)解的史煎,最終的結(jié)果往往是在全局最優(yōu)解附近。SGD 因為更新比較頻繁驳糯,會造成 cost function 有嚴重的震蕩篇梭。BGD 可以收斂到局部極小值,當然 SGD 的震蕩可能會跳到更好的局部極小值處酝枢。當我們稍微減小 learning rate恬偷,SGD 和 BGD 的收斂性是一樣的。

Mini-batch Gradient Descent (MBGD) 小批次梯度下降

  • 優(yōu)化方式:每次更新參數(shù)時利用一小批樣本帘睦。
  • 優(yōu)點:相比于 BGD 訓練速度更快袍患,相比于 SGD 更加穩(wěn)定。
  • 缺點:當我們采用小的學習率的時候竣付,會導致網(wǎng)絡在訓練的時候收斂太慢诡延;當我們采用大的學習率的時候,會導致在訓練過程中優(yōu)化的幅度跳過函數(shù)的范圍古胆,也就是可能跳過最優(yōu)點肆良。對于非凸函數(shù),還要避免陷于局部極小值處逸绎,或者鞍點處惹恃。

通過前面的 SGD 算法我們知道,我們的學習速率太大棺牧、太小都會影響到我們模型的迭代巫糙,所以我們期望可以有更加科學的方法幫助我們自動的改變 learning rate 的大小。

Momentum

  • 優(yōu)化方式:計算在梯度下降的方向上颊乘,計算一個指數(shù)加權(quán)平均曲秉,利用這個來代替權(quán)重更新的方法采蚀。通俗一點的理解就是“如果梯度下降顯示,我們在一直朝著某一個方向在下降的話承二,我讓這個方向的的學習速率快一點榆鼠,如果梯度下降在某一個方向上一直是擺來擺去的,那么就讓這個方向的學習速率慢一點”亥鸠。
  • 優(yōu)點:加速了橫軸下降的速度妆够,并減緩了縱軸的擺動的頻率,在最終的訓練過程中负蚊,步伐邁的更大神妹,同時更加更準確。


    image.png

AdaGrad

  • 優(yōu)化方式:它根據(jù)自變量在每個維度的梯度值的大小來調(diào)整各個維度上的學習率家妆,從而避免統(tǒng)一的學習率難以適應所有維度的問題 鸵荠。在梯度下降的方向上,我們會有一個變量 grad_squared 存儲在該方向上的變化的平方的累積伤极。單個維度更新方式如下:


    image.png

    image.png

其實這里有個問題可以探討:我們從上面更新公式可以發(fā)現(xiàn)蛹找,當前微分值越大,參數(shù)變化值越大哨坪。當前微分值越大庸疾,分母項越大,參數(shù)變化值越小当编。如何解釋矛盾分母項的意義或者這樣做的目的届慈?
解釋:首先,我們要知道忿偷,最優(yōu)的步長不僅和當前函數(shù)的一次微分值成正比金顿,而且還和當前函數(shù)的二次微分值成反比。由于計算二次微分代價較高鲤桥,我們這里其實就是想用分母項來預估我們當前函數(shù)的二次微分值串绩。


image.png

image.png
  • 優(yōu)點:每個維度有各自的 learning rate , 避免統(tǒng)一的學習率難以適應所有維度的問題。
  • 缺點:grad_squared 是一個一直累積的過程芜壁,那么積少成多,哪怕是在一些方向上高氮,它的波動一直很小慧妄,但是由于是不停的迭代增加, grad_squared 最終也會變得很大剪芍,導致在訓練的后期塞淹,任意一個方向上,梯度下降就走不下去了罪裹。

RMSProp

  • 優(yōu)化方式:RMSProp 基于 AdaGrad饱普,進行了一些小小的改動运挫,也解決了我們上面提出來的,在隨著訓練時間增長套耕,AdaGrad 的步伐會變得很小的問題谁帕。RMSProp 在計算 grad_squared 的時候,加上了一個 decay (衰減率)的東西冯袍,這樣造成的效果即是匈挖,既保留了 AdaGrad 的特性,又不會一直過分增加 grad_squared 導致最后阻力過大康愤。

Adam

  • 優(yōu)化方式:我們看到儡循,Momentum 在 SGD 基礎(chǔ)上增加了一階動量,RMSProp 在 SGD 基礎(chǔ)上增加了二階動量征冷。把一階動量和二階動量都用起來择膝,就是Adam了——Adaptive + Momentum。當然 Adam 在兩者的基礎(chǔ)之上還對 mean 和 variance 做了修正检激。具體算法細節(jié)肴捉,后補……

總結(jié)

自適應學習率方法中,RMSprop 是 AdaGrad 的延伸呵扛,它解決了其學習速度急劇下降的問題每庆,Adam 最后為 RMSprop 增加了偏差修正和動力。就此而言今穿,RMSprop 和 Adam 是非常相似的算法缤灵,在相似的情況下,偏差修正有助于 Adam 在優(yōu)化結(jié)束時略微優(yōu)于 RMSprop 蓝晒,因為梯度變得更加稀疏腮出。就目前而言,Adam 可能是最好的整體選擇芝薇。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末胚嘲,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子洛二,更是在濱河造成了極大的恐慌馋劈,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晾嘶,死亡現(xiàn)場離奇詭異妓雾,居然都是意外死亡,警方通過查閱死者的電腦和手機垒迂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門械姻,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人机断,你說我怎么就攤上這事楷拳⌒宥幔” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵欢揖,是天一觀的道長陶耍。 經(jīng)常有香客問我,道長浸颓,這世上最難降的妖魔是什么物臂? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮产上,結(jié)果婚禮上棵磷,老公的妹妹穿的比我還像新娘。我一直安慰自己晋涣,他們只是感情好仪媒,可當我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谢鹊,像睡著了一般算吩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上佃扼,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天偎巢,我揣著相機與錄音,去河邊找鬼兼耀。 笑死压昼,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的瘤运。 我是一名探鬼主播窍霞,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼拯坟!你這毒婦竟也來了但金?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤郁季,失蹤者是張志新(化名)和其女友劉穎冷溃,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梦裂,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡似枕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了塞琼。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡禁舷,死狀恐怖彪杉,靈堂內(nèi)的尸體忽然破棺而出毅往,到底是詐尸還是另有隱情,我是刑警寧澤派近,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布攀唯,位于F島的核電站,受9級特大地震影響渴丸,放射性物質(zhì)發(fā)生泄漏侯嘀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一谱轨、第九天 我趴在偏房一處隱蔽的房頂上張望戒幔。 院中可真熱鬧,春花似錦土童、人聲如沸诗茎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽敢订。三九已至,卻和暖如春罢吃,著一層夾襖步出監(jiān)牢的瞬間楚午,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工尿招, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留矾柜,地道東北人。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓泊业,卻偏偏與公主長得像把沼,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子吁伺,可洞房花燭夜當晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容