關(guān)于深度學(xué)習(xí)優(yōu)化器 optimizer 的選擇

在很多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的應(yīng)用中席纽，我們發(fā)現(xiàn)用的最多的優(yōu)化器是 Adam纽疟，為什么呢瞎嬉？

下面是 TensorFlow 中的優(yōu)化器：

詳情參見：https://www.tensorflow.org/api_guides/python/train

在 keras 中也有 SGD蜕琴，RMSprop挣轨，Adagrad串前，Adadelta瘫里，Adam 等，詳情：

https://keras.io/optimizers/

我們可以發(fā)現(xiàn)除了常見的梯度下降荡碾，還有 Adadelta谨读，Adagrad，RMSProp 等幾種優(yōu)化器坛吁，都是什么呢漆腌，又該怎么選擇呢？

一阶冈、優(yōu)化器算法簡述

首先來看一下梯度下降最常見的三種變形 BGD闷尿，SGD，MBGD女坑，

這三種形式的區(qū)別就是取決于我們用多少數(shù)據(jù)來計(jì)算目標(biāo)函數(shù)的梯度填具，

這樣的話自然就涉及到一個(gè) trade－off，即參數(shù)更新的準(zhǔn)確率和運(yùn)行時(shí)間。

1. Batch gradient descent

梯度更新規(guī)則:

BGD 采用整個(gè)訓(xùn)練集的數(shù)據(jù)來計(jì)算 cost function 對(duì)參數(shù)的梯度：

缺點(diǎn):

由于這種方法是在一次更新中劳景，就對(duì)整個(gè)數(shù)據(jù)集計(jì)算梯度誉简，所以計(jì)算起來非常慢，遇到很大量的數(shù)據(jù)集也會(huì)非常棘手盟广，而且不能投入新數(shù)據(jù)實(shí)時(shí)更新模型

for i in range(nb_epochs):

params_grad = evaluate_gradient(loss_function, data, params)

params = params - learning_rate * params_grad

我們會(huì)事先定義一個(gè)迭代次數(shù) epoch闷串，首先計(jì)算梯度向量 params_grad，然后沿著梯度的方向更新參數(shù) params筋量，learning rate 決定了我們每一步邁多大烹吵。

Batch gradient descent 對(duì)于凸函數(shù)可以收斂到全局極小值，對(duì)于非凸函數(shù)可以收斂到局部極小值桨武。

2. Stochastic gradient descent

梯度更新規(guī)則:

和 BGD 的一次用所有數(shù)據(jù)計(jì)算梯度相比肋拔，SGD 每次更新時(shí)對(duì)每個(gè)樣本進(jìn)行梯度更新，

對(duì)于很大的數(shù)據(jù)集來說呀酸，可能會(huì)有相似的樣本凉蜂，這樣 BGD 在計(jì)算梯度時(shí)會(huì)出現(xiàn)冗余，

而 SGD 一次只進(jìn)行一次更新性誉，就沒有冗余窿吩，而且比較快，并且可以新增樣本错览。

for i in range(nb_epochs):

np.random.shuffle(data)

for example in data:

params_grad = evaluate_gradient(loss_function, example, params)

params = params - learning_rate * params_grad

看代碼纫雁，可以看到區(qū)別，就是整體數(shù)據(jù)集是個(gè)循環(huán)蝗砾，其中對(duì)每個(gè)樣本進(jìn)行一次參數(shù)更新先较。

缺點(diǎn):

但是 SGD 因?yàn)楦卤容^頻繁，會(huì)造成 cost function 有嚴(yán)重的震蕩悼粮。

BGD 可以收斂到局部極小值闲勺，當(dāng)然 SGD 的震蕩可能會(huì)跳到更好的局部極小值處。

當(dāng)我們稍微減小 learning rate扣猫，SGD 和 BGD 的收斂性是一樣的菜循。

3. Mini-batch gradient descent

梯度更新規(guī)則:

MBGD 每一次利用一小批樣本，即 n 個(gè)樣本進(jìn)行計(jì)算申尤，

這樣它可以降低參數(shù)更新時(shí)的方差癌幕，收斂更穩(wěn)定，

另一方面可以充分地利用深度學(xué)習(xí)庫中高度優(yōu)化的矩陣操作來進(jìn)行更有效的梯度計(jì)算昧穿。

和 SGD 的區(qū)別是每一次循環(huán)不是作用于每個(gè)樣本勺远，而是具有 n 個(gè)樣本的批次

for i in range(nb_epochs):

np.random.shuffle(data)

for batch in get_batches(data, batch_size=50):

params_grad = evaluate_gradient(loss_function, batch, params)

params = params - learning_rate * params_grad

超參數(shù)設(shè)定值:

n 一般取值在 50～256

缺點(diǎn):

不過 Mini-batch gradient descent 不能保證很好的收斂性：

learning rate 如果選擇的太小，收斂速度會(huì)很慢时鸵，如果太大胶逢，loss function 就會(huì)在極小值處不停地震蕩甚至偏離厅瞎。?

（有一種措施是先設(shè)定大一點(diǎn)的學(xué)習(xí)率，當(dāng)兩次迭代之間的變化低于某個(gè)閾值后初坠，就減小 learning rate和簸，不過這個(gè)閾值的設(shè)定需要提前寫好，這樣的話就不能夠適應(yīng)數(shù)據(jù)集的特點(diǎn)）

此外碟刺，這種方法是對(duì)所有參數(shù)更新時(shí)應(yīng)用同樣的 learning rate锁保，如果我們的數(shù)據(jù)是稀疏的，我們更希望對(duì)出現(xiàn)頻率低的特征進(jìn)行大一點(diǎn)的更新半沽。

另外爽柒，對(duì)于非凸函數(shù)，還要避免陷于局部極小值處抄囚，或者鞍點(diǎn)處霉赡，因?yàn)榘包c(diǎn)周圍的error 是一樣的橄务，所有維度的梯度都接近于0幔托，SGD 很容易被困在這里。?

鞍點(diǎn)就是：一個(gè)光滑函數(shù)的鞍點(diǎn)鄰域的曲線蜂挪，曲面重挑，或超曲面，都位于這點(diǎn)的切線的不同邊棠涮。

例如下圖這個(gè)二維圖形谬哀，像個(gè)馬鞍：在x-軸方向往上曲，在y-軸方向往下曲严肪，鞍點(diǎn)就是（0史煎，0）

為了應(yīng)對(duì)上述這三點(diǎn)挑戰(zhàn)，于是就有了下面這些算法驳糯。

4. Momentum

SGD 在 ravines 的情況下容易被困住篇梭， ravines 就是曲面的一個(gè)方向比另一個(gè)方向更陡，這時(shí) SGD 會(huì)發(fā)生震蕩而遲遲不能接近極小值：

梯度更新規(guī)則:

Momentum 通過加入 γv_t?1 酝枢，可以加速 SGD恬偷，并且抑制震蕩

當(dāng)我們將一個(gè)小球從山上滾下來時(shí)，沒有阻力的話帘睦，它的動(dòng)量會(huì)越來越大袍患，但是如果遇到了阻力，速度就會(huì)變小竣付。

加入的這一項(xiàng)诡延，可以使得梯度方向不變的維度上速度變快，梯度方向有所改變的維度上的更新速度變慢古胆，這樣就可以加快收斂并減小震蕩肆良。

超參數(shù)設(shè)定值:

一般 γ 取值 0.9 左右。

缺點(diǎn):

這種情況相當(dāng)于小球從山上滾下來時(shí)是在盲目地沿著坡滾，如果它能具備一些先知妖滔，例如快要上坡時(shí)隧哮，就知道需要減速了的話，適應(yīng)性會(huì)更好座舍。

5. Nesterov accelerated gradient

梯度更新規(guī)則:

用 θ?γv_t?1 來近似當(dāng)做參數(shù)下一步會(huì)變成的值沮翔，則在計(jì)算梯度時(shí)，不是在當(dāng)前位置曲秉，而是未來的位置上

超參數(shù)設(shè)定值:

γ 仍然取值 0.9 左右采蚀。

效果比較:

藍(lán)色是 Momentum 的過程，會(huì)先計(jì)算當(dāng)前的梯度承二，然后在更新后的累積梯度后會(huì)有一個(gè)大的跳躍榆鼠。

而 NAG 會(huì)先在前一步的累積梯度上(brown vector)有一個(gè)大的跳躍，然后衡量一下梯度做一下修正(red vector)亥鸠，這種預(yù)期的更新可以避免我們走的太快妆够。

NAG 可以使 RNN 在很多任務(wù)上有更好的表現(xiàn)。

目前為止负蚊，我們可以做到神妹，在更新梯度時(shí)順應(yīng) loss function 的梯度來調(diào)整速度，并且對(duì) SGD 進(jìn)行加速家妆。

我們還希望可以根據(jù)參數(shù)的重要性而對(duì)不同的參數(shù)進(jìn)行不同程度的更新鸵荠。

6. Adagrad

這個(gè)算法就可以對(duì)低頻的參數(shù)做較大的更新，對(duì)高頻的做較小的更新伤极，也因此蛹找，對(duì)于稀疏的數(shù)據(jù)它的表現(xiàn)很好，很好地提高了 SGD 的魯棒性哨坪，例如識(shí)別 Youtube 視頻里面的貓庸疾，訓(xùn)練 GloVe word embeddings，因?yàn)樗鼈兌际切枰诘皖l的特征上有更大的更新齿税。

梯度更新規(guī)則:

其中 g 為：t 時(shí)刻參數(shù) θ_i 的梯度

如果是普通的 SGD彼硫，那么 θ_i 在每一時(shí)刻的梯度更新公式為：

但這里的 learning rate η 也隨 t 和 i 而變：

其中 G_t 是個(gè)對(duì)角矩陣， (i,i) 元素就是 t 時(shí)刻參數(shù) θ_i 的梯度平方和凌箕。

Adagrad 的優(yōu)點(diǎn)是減少了學(xué)習(xí)率的手動(dòng)調(diào)節(jié)

超參數(shù)設(shè)定值:

一般 η 就取 0.01拧篮。

缺點(diǎn):

它的缺點(diǎn)是分母會(huì)不斷積累，這樣學(xué)習(xí)率就會(huì)收縮并最終會(huì)變得非常小牵舱。

7. Adadelta

這個(gè)算法是對(duì) Adagrad 的改進(jìn)串绩，和 Adagrad 相比，就是分母的 G 換成了過去的梯度平方的衰減平均值：

這個(gè)分母相當(dāng)于梯度的均方根 root mean squared (RMS) 芜壁，所以可以用 RMS 簡寫：

其中 E 的計(jì)算公式如下礁凡，t 時(shí)刻的依賴于前一時(shí)刻的平均和當(dāng)前的梯度：

梯度更新規(guī)則:

此外高氮，還將學(xué)習(xí)率 η 換成了 RMS[Δθ]，這樣的話顷牌，我們甚至都不需要提前設(shè)定學(xué)習(xí)率了：

超參數(shù)設(shè)定值:

γ 一般設(shè)定為 0.9剪芍。

8. RMSprop

RMSprop 是 Geoff Hinton 提出的一種自適應(yīng)學(xué)習(xí)率方法。

RMSprop 和 Adadelta 都是為了解決 Adagrad 學(xué)習(xí)率急劇下降問題的窟蓝，

梯度更新規(guī)則:

RMSprop 與 Adadelta 的第一種形式相同：

超參數(shù)設(shè)定值:

Hinton 建議設(shè)定 γ 為 0.9, 學(xué)習(xí)率 η 為 0.001罪裹。

9. Adam

這個(gè)算法是另一種計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率的方法。

除了像 Adadelta 和 RMSprop 一樣存儲(chǔ)了過去梯度的平方 vt 的指數(shù)衰減平均值运挫，也像 momentum 一樣保持了過去梯度 mt 的指數(shù)衰減平均值：

如果 mt 和 vt 被初始化為 0 向量状共，那它們就會(huì)向 0 偏置，所以做了偏差校正谁帕，

通過計(jì)算偏差校正后的 mt 和 vt 來抵消這些偏差：

梯度更新規(guī)則:

超參數(shù)設(shè)定值:

建議 β1 ＝ 0.9峡继，β2 ＝ 0.999，? ＝ 10e?8

實(shí)踐表明匈挖，Adam 比其他適應(yīng)性學(xué)習(xí)方法效果要好碾牌。

10.效果比較?

下面看一下幾種算法在鞍點(diǎn)和等高線上的表現(xiàn)：

上面兩種情況都可以看出，Adagrad, Adadelta, RMSprop 幾乎很快就找到了正確的方向并前進(jìn)关划，收斂速度也相當(dāng)快小染，而其它方法要么很慢翘瓮，要么走了很多彎路才找到贮折。

由圖可知自適應(yīng)學(xué)習(xí)率方法即 Adagrad, Adadelta, RMSprop, Adam 在這種情景下會(huì)更合適而且收斂性更好。

如何選擇

1资盅、如果數(shù)據(jù)是稀疏的调榄，就用自適用方法，即 Adagrad, Adadelta, RMSprop, Adam呵扛。

2每庆、 RMSprop, Adadelta, Adam 在很多情況下的效果是相似的。

3今穿、Adam 就是在 RMSprop 的基礎(chǔ)上加了 bias-correction 和 momentum缤灵，

4、隨著梯度變的稀疏蓝晒，Adam 比 RMSprop 效果會(huì)好腮出。

5、整體來講芝薇，Adam 是最好的選擇胚嘲。

6、很多論文里都會(huì)用 SGD洛二，沒有 momentum 等馋劈。SGD 雖然能達(dá)到極小值攻锰，但是比其它算法用的時(shí)間長，而且可能會(huì)被困在鞍點(diǎn)妓雾。

7娶吞、如果需要更快的收斂，或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)械姻，需要用一種自適應(yīng)的算法寝志。

![關(guān)注我的技術(shù)公眾號(hào)《漫談人工智能》，每天推送優(yōu)質(zhì)文章](https://upload-images.jianshu.io/upload_images/10019820-3f339ee96f43e84f.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

最后編輯于：2019.10.01 23:06:33

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末策添，一起剝皮案震驚了整個(gè)濱河市材部，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌唯竹，老刑警劉巖乐导，帶你破解...
沈念sama閱讀 206,482評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異浸颓，居然都是意外死亡物臂，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門产上，熙熙樓的掌柜王于貴愁眉苦臉地迎上來棵磷，“玉大人，你說我怎么就攤上這事晋涣∫敲剑” “怎么了？”我有些...
開封第一講書人閱讀 152,762評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵谢鹊，是天一觀的道長算吩。經(jīng)常有香客問我，道長佃扼，這世上最難降的妖魔是什么偎巢？我笑而不...
開封第一講書人閱讀 55,273評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮兼耀，結(jié)果婚禮上压昼，老公的妹妹穿的比我還像新娘。我一直安慰自己瘤运，他們只是感情好窍霞，可當(dāng)我...
茶點(diǎn)故事閱讀 64,289評(píng)論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著尽超，像睡著了一般官撼。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上似谁，一...
開封第一講書人閱讀 49,046評(píng)論 1贊 285
城市分裂傳說
那天傲绣，我揣著相機(jī)與錄音掠哥，去河邊找鬼。笑死秃诵，一個(gè)胖子當(dāng)著我的面吹牛续搀，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播菠净，決...
沈念sama閱讀 38,351評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼禁舷，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了毅往？” 一聲冷哼從身側(cè)響起牵咙，我...
開封第一講書人閱讀 36,988評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎攀唯，沒想到半個(gè)月后洁桌，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,476評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡侯嘀，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,948評(píng)論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年另凌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片戒幔。...
茶點(diǎn)故事閱讀 38,064評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡吠谢，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出诗茎，到底是詐尸還是另有隱情工坊，我是刑警寧澤，帶...
沈念sama閱讀 33,712評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布错沃，位于F島的核電站栅组，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏枢析。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,261評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一刃麸、第九天我趴在偏房一處隱蔽的房頂上張望醒叁。院中可真熱鬧，春花似錦泊业、人聲如沸把沼。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評(píng)論 0贊 19
一樁弒父案吁伺，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽饮睬。三九已至，卻和暖如春篮奄，著一層夾襖步出監(jiān)牢的瞬間捆愁，已是汗流浹背割去。一陣腳步聲響...
開封第一講書人閱讀 31,486評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留昼丑，地道東北人呻逆。一個(gè)月前我還...
沈念sama閱讀 45,511評(píng)論 2贊 354
代替公主和親
正文我出身青樓，卻偏偏與公主長得像菩帝，于是被迫代替她去往敵國和親咖城。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,802評(píng)論 2贊 345

關(guān)于深度學(xué)習(xí)優(yōu)化器 optimizer 的選擇

推薦閱讀更多精彩內(nèi)容