深度學習中的優(yōu)化器

深度學習的優(yōu)化器有許多種類，同損失函數(shù)一樣壮池，我們只有清楚了它們的原理才能更好地選擇粥庄。鑒于優(yōu)化器的重要性以及難度狮杨，本文將不定時更新最新理解思路亦或最新優(yōu)化器……

Batch Gradient Descent （BGD）批梯度下降

梯度更新規(guī)則：每次更新參數(shù)時使用全部訓練樣本半沽。
優(yōu)點：理想狀態(tài)下經(jīng)過足夠多的迭代后可以達到全局最優(yōu)。( 對于凸函數(shù)可以收斂到全局極小值吴菠，對于非凸函數(shù)可以收斂到局部極小值者填。)
缺點：一次更新中，需要對整個數(shù)據(jù)集計算梯度做葵，所以計算起來非常慢占哟，遇到很大量的數(shù)據(jù)集也會非常棘手。

Stochastic Gradient Descent (SGD) 隨機梯度下降

優(yōu)化方式：每次更新參數(shù)時隨機選用一個樣本酿矢。
優(yōu)點：相比于 BGD 訓練速度更快榨乎，更快收斂。
缺點：隨機梯度下降會帶來一定的問題棠涮，因為計算得到的并不是準確的一個梯度谬哀，SGD 的噪音較 BGD 要多，使得 SGD 并不是每次迭代都向著整體最優(yōu)化方向严肪。但是大的整體的方向是向全局最優(yōu)解的史煎，最終的結(jié)果往往是在全局最優(yōu)解附近。SGD 因為更新比較頻繁驳糯，會造成 cost function 有嚴重的震蕩篇梭。BGD 可以收斂到局部極小值，當然 SGD 的震蕩可能會跳到更好的局部極小值處酝枢。當我們稍微減小 learning rate恬偷，SGD 和 BGD 的收斂性是一樣的。

Mini-batch Gradient Descent (MBGD) 小批次梯度下降

優(yōu)化方式：每次更新參數(shù)時利用一小批樣本帘睦。
優(yōu)點：相比于 BGD 訓練速度更快袍患，相比于 SGD 更加穩(wěn)定。
缺點：當我們采用小的學習率的時候竣付，會導致網(wǎng)絡在訓練的時候收斂太慢诡延；當我們采用大的學習率的時候，會導致在訓練過程中優(yōu)化的幅度跳過函數(shù)的范圍古胆，也就是可能跳過最優(yōu)點肆良。對于非凸函數(shù)，還要避免陷于局部極小值處逸绎，或者鞍點處惹恃。

通過前面的 SGD 算法我們知道，我們的學習速率太大棺牧、太小都會影響到我們模型的迭代巫糙，所以我們期望可以有更加科學的方法幫助我們自動的改變 learning rate 的大小。

Momentum

優(yōu)化方式：計算在梯度下降的方向上颊乘，計算一個指數(shù)加權(quán)平均曲秉，利用這個來代替權(quán)重更新的方法采蚀。通俗一點的理解就是“如果梯度下降顯示，我們在一直朝著某一個方向在下降的話承二，我讓這個方向的的學習速率快一點榆鼠，如果梯度下降在某一個方向上一直是擺來擺去的，那么就讓這個方向的學習速率慢一點”亥鸠。
優(yōu)點：加速了橫軸下降的速度妆够，并減緩了縱軸的擺動的頻率，在最終的訓練過程中负蚊，步伐邁的更大神妹，同時更加更準確。

image.png

AdaGrad

優(yōu)化方式：它根據(jù)自變量在每個維度的梯度值的大小來調(diào)整各個維度上的學習率家妆，從而避免統(tǒng)一的學習率難以適應所有維度的問題鸵荠。在梯度下降的方向上，我們會有一個變量 grad_squared 存儲在該方向上的變化的平方的累積伤极。單個維度更新方式如下:

image.png

image.png

其實這里有個問題可以探討：我們從上面更新公式可以發(fā)現(xiàn)蛹找，當前微分值越大，參數(shù)變化值越大哨坪。當前微分值越大庸疾，分母項越大，參數(shù)變化值越小当编。如何解釋矛盾分母項的意義或者這樣做的目的届慈？
解釋：首先，我們要知道忿偷，最優(yōu)的步長不僅和當前函數(shù)的一次微分值成正比金顿，而且還和當前函數(shù)的二次微分值成反比。由于計算二次微分代價較高鲤桥，我們這里其實就是想用分母項來預估我們當前函數(shù)的二次微分值串绩。

image.png

優(yōu)點：每個維度有各自的 learning rate , 避免統(tǒng)一的學習率難以適應所有維度的問題。
缺點：grad_squared 是一個一直累積的過程芜壁，那么積少成多，哪怕是在一些方向上高氮，它的波動一直很小慧妄，但是由于是不停的迭代增加， grad_squared 最終也會變得很大剪芍，導致在訓練的后期塞淹，任意一個方向上，梯度下降就走不下去了罪裹。

RMSProp

優(yōu)化方式：RMSProp 基于 AdaGrad饱普，進行了一些小小的改動运挫，也解決了我們上面提出來的，在隨著訓練時間增長套耕，AdaGrad 的步伐會變得很小的問題谁帕。RMSProp 在計算 grad_squared 的時候，加上了一個 decay （衰減率）的東西冯袍，這樣造成的效果即是匈挖，既保留了 AdaGrad 的特性，又不會一直過分增加 grad_squared 導致最后阻力過大康愤。

Adam

優(yōu)化方式：我們看到儡循，Momentum 在 SGD 基礎(chǔ)上增加了一階動量，RMSProp 在 SGD 基礎(chǔ)上增加了二階動量征冷。把一階動量和二階動量都用起來择膝，就是Adam了——Adaptive + Momentum。當然 Adam 在兩者的基礎(chǔ)之上還對 mean 和 variance 做了修正检激。具體算法細節(jié)肴捉，后補……

總結(jié)

自適應學習率方法中，RMSprop 是 AdaGrad 的延伸呵扛，它解決了其學習速度急劇下降的問題每庆，Adam 最后為 RMSprop 增加了偏差修正和動力。就此而言今穿，RMSprop 和 Adam 是非常相似的算法缤灵，在相似的情況下，偏差修正有助于 Adam 在優(yōu)化結(jié)束時略微優(yōu)于 RMSprop 蓝晒，因為梯度變得更加稀疏腮出。就目前而言，Adam 可能是最好的整體選擇芝薇。

最后編輯于：2019.12.23 19:16:53

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末胚嘲，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子洛二，更是在濱河造成了極大的恐慌馋劈，老刑警劉巖，帶你破解...
沈念sama閱讀 218,204評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件晾嘶，死亡現(xiàn)場離奇詭異妓雾，居然都是意外死亡，警方通過查閱死者的電腦和手機垒迂，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,091評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門械姻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人机断，你說我怎么就攤上這事楷拳⌒宥幔” “怎么了？”我有些...
開封第一講書人閱讀 164,548評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵欢揖，是天一觀的道長陶耍。經(jīng)常有香客問我，道長浸颓，這世上最難降的妖魔是什么物臂？我笑而不...
開封第一講書人閱讀 58,657評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮产上，結(jié)果婚禮上棵磷，老公的妹妹穿的比我還像新娘。我一直安慰自己晋涣，他們只是感情好仪媒，可當我...
茶點故事閱讀 67,689評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著谢鹊，像睡著了一般算吩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上佃扼，一...
開封第一講書人閱讀 51,554評論 1贊 305
城市分裂傳說
那天偎巢，我揣著相機與錄音，去河邊找鬼兼耀。笑死压昼，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的瘤运。我是一名探鬼主播窍霞，決...
沈念sama閱讀 40,302評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼拯坟！你這毒婦竟也來了但金？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,216評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤郁季，失蹤者是張志新（化名）和其女友劉穎冷溃，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體梦裂，經(jīng)...
沈念sama閱讀 45,661評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡似枕，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,851評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了塞琼。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,977評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡禁舷，死狀恐怖彪杉，靈堂內(nèi)的尸體忽然破棺而出毅往，到底是詐尸還是另有隱情，我是刑警寧澤派近，帶...
沈念sama閱讀 35,697評論 5贊 347
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布攀唯，位于F島的核電站，受9級特大地震影響渴丸，放射性物質(zhì)發(fā)生泄漏侯嘀。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,306評論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一谱轨、第九天我趴在偏房一處隱蔽的房頂上張望戒幔。院中可真熱鬧，春花似錦土童、人聲如沸诗茎。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,898評論 0贊 22
一樁弒父案献汗，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽敢订。三九已至，卻和暖如春罢吃，著一層夾襖步出監(jiān)牢的瞬間楚午，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,019評論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工尿招，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留矾柜，地道東北人。一個月前我還...
沈念sama閱讀 48,138評論 3贊 370
代替公主和親
正文我出身青樓泊业，卻偏偏與公主長得像把沼，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子吁伺，可洞房花燭夜當晚...
茶點故事閱讀 44,927評論 2贊 355