深度學(xué)習(xí)優(yōu)化器算法Optimizer詳解

在tensorflow中我們通過(guò)梯度下降算法來(lái)優(yōu)化我們的模型，同時(shí)這個(gè)優(yōu)化算法會(huì)在每一步的訓(xùn)練中來(lái)跟新，迭代模型的參數(shù)。
參考論文https://arxiv.org/pdf/1609.04747.pdf
參考文章[https://www.cnblogs.com/guoyaohua/p/8542554.html]

優(yōu)化算法（優(yōu)化器的重要性）

優(yōu)化算法對(duì)于深度學(xué)習(xí)是至關(guān)重要的一步，因?yàn)閷?shí)際訓(xùn)練一個(gè)模型所需的時(shí)間非常久，如果選錯(cuò)了優(yōu)化器膀斋，對(duì)于模型的結(jié)果有很大的影響，而且會(huì)影響學(xué)習(xí)效率痹雅，從而使得模型訓(xùn)練進(jìn)行反工仰担。

優(yōu)化器與機(jī)器學(xué)習(xí)

從上文可以得知，深入理解各種優(yōu)化算法的本質(zhì)绩社，這也利于我們更有針對(duì)性的調(diào)參摔蓝，從而使模型表現(xiàn)更好。
對(duì)于一個(gè)機(jī)器學(xué)習(xí)問(wèn)題铃将，在tensorflow中项鬼，需要先定義一個(gè)損失函數(shù)，然后優(yōu)化器做的使就是最小化這個(gè)損失函數(shù)劲阎。（最大化的問(wèn)題加個(gè)負(fù)號(hào)就可以绘盟，一樣的原理）

幾種優(yōu)化器算法的簡(jiǎn)述

首先來(lái)看一下梯度下降最常見(jiàn)的三種變形 BGD，SGD悯仙，MBGD龄毡，這三種形式的區(qū)別就是取決于我們用多少數(shù)據(jù)來(lái)計(jì)算目標(biāo)函數(shù)的梯度，這樣的話(huà)自然就涉及到一個(gè) trade－off锡垄，即參數(shù)更新的準(zhǔn)確率和運(yùn)行時(shí)間沦零。

1.Batch Gradient Descent （BGD）

梯度更新規(guī)則:

BGD 采用整個(gè)訓(xùn)練集的數(shù)據(jù)來(lái)計(jì)算 cost function 對(duì)參數(shù)的梯度：

image

缺點(diǎn)：

由于這種方法是在一次更新中，就對(duì)整個(gè)數(shù)據(jù)集計(jì)算梯度货岭，所以計(jì)算起來(lái)非常慢路操，遇到很大量的數(shù)據(jù)集也會(huì)非常棘手疾渴，而且不能投入新數(shù)據(jù)實(shí)時(shí)更新模型。

<pre style="margin: 0px; padding: 0px; white-space: pre-wrap; overflow-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">for i in range(nb_epochs):
params_grad = evaluate_gradient(loss_function, data, params)
params = params - learning_rate * params_grad</pre>

我們會(huì)事先定義一個(gè)迭代次數(shù) epoch屯仗，首先計(jì)算梯度向量 params_grad搞坝，然后沿著梯度的方向更新參數(shù) params，learning rate 決定了我們每一步邁多大魁袜。

Batch gradient descent 對(duì)于凸函數(shù)可以收斂到全局極小值桩撮，對(duì)于非凸函數(shù)可以收斂到局部極小值。

2.Stochastic Gradient Descent (SGD)

梯度更新規(guī)則:

和 BGD 的一次用所有數(shù)據(jù)計(jì)算梯度相比峰弹，SGD 每次更新時(shí)對(duì)每個(gè)樣本進(jìn)行梯度更新店量，對(duì)于很大的數(shù)據(jù)集來(lái)說(shuō)，可能會(huì)有相似的樣本鞠呈，這樣 BGD 在計(jì)算梯度時(shí)會(huì)出現(xiàn)冗余融师，而** SGD 一次只進(jìn)行一次更新，就沒(méi)有冗余蚁吝，而且比較快诬滩，并且可以新增樣本。**

image

<pre style="margin: 0px; padding: 0px; white-space: pre-wrap; overflow-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">for i in range(nb_epochs):
np.random.shuffle(data) for example in data:
params_grad = evaluate_gradient(loss_function, example, params)
params = params - learning_rate * params_grad</pre>

看代碼灭将，可以看到區(qū)別，就是整體數(shù)據(jù)集是個(gè)循環(huán)后控，其中對(duì)每個(gè)樣本進(jìn)行一次參數(shù)更新庙曙。

image

隨機(jī)梯度下降是通過(guò)每個(gè)樣本來(lái)迭代更新一次，如果樣本量很大的情況浩淘，那么可能只用其中部分的樣本捌朴，就已經(jīng)將theta迭代到最優(yōu)解了，對(duì)比上面的批量梯度下降张抄，迭代一次需要用到十幾萬(wàn)訓(xùn)練樣本砂蔽，一次迭代不可能最優(yōu)，如果迭代10次的話(huà)就需要遍歷訓(xùn)練樣本10次署惯。缺點(diǎn)是SGD的噪音較BGD要多左驾，使得SGD并不是每次迭代都向著整體最優(yōu)化方向。所以雖然訓(xùn)練速度快极谊，但是準(zhǔn)確度下降诡右，并不是全局最優(yōu)。雖然包含一定的隨機(jī)性轻猖，但是從期望上來(lái)看帆吻，它是等于正確的導(dǎo)數(shù)的。

缺點(diǎn)：

SGD 因?yàn)楦卤容^頻繁咙边，會(huì)造成 cost function 有嚴(yán)重的震蕩猜煮。

BGD 可以收斂到局部極小值次员，當(dāng)然 SGD 的震蕩可能會(huì)跳到更好的局部極小值處。

當(dāng)我們稍微減小 learning rate王带，SGD 和 BGD 的收斂性是一樣的淑蔚。

3.Mini-Batch Gradient Descent （MBGD）

梯度更新規(guī)則：

MBGD 每一次利用一小批樣本，即 n 個(gè)樣本進(jìn)行計(jì)算辫秧，這樣它可以降低參數(shù)更新時(shí)的方差束倍，收斂更穩(wěn)定，另一方面可以充分地利用深度學(xué)習(xí)庫(kù)中高度優(yōu)化的矩陣操作來(lái)進(jìn)行更有效的梯度計(jì)算盟戏。

image

和 SGD 的區(qū)別是每一次循環(huán)不是作用于每個(gè)樣本绪妹，而是具有 n 個(gè)樣本的批次。

<pre style="margin: 0px; padding: 0px; white-space: pre-wrap; overflow-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;">for i in range(nb_epochs):
np.random.shuffle(data) for batch in get_batches(data, batch_size=50):
params_grad = evaluate_gradient(loss_function, batch, params)
params = params - learning_rate * params_grad</pre>

** 超參數(shù)設(shè)定值: n 一般取值在 50～256**

缺點(diǎn)：（兩大缺點(diǎn)）

不過(guò) Mini-batch gradient descent 不能保證很好的收斂性柿究，****learning rate 如果選擇的太小邮旷，收斂速度會(huì)很慢，如果太大蝇摸，loss function 就會(huì)在極小值處不停地震蕩甚至偏離婶肩。（有一種措施是先設(shè)定大一點(diǎn)的學(xué)習(xí)率，當(dāng)兩次迭代之間的變化低于某個(gè)閾值后貌夕，就減小 learning rate律歼，不過(guò)這個(gè)閾值的設(shè)定需要提前寫(xiě)好，這樣的話(huà)就不能夠適應(yīng)數(shù)據(jù)集的特點(diǎn)啡专。）對(duì)于非凸函數(shù)险毁，還要避免陷于局部極小值處，或者鞍點(diǎn)處们童，因?yàn)榘包c(diǎn)周?chē)膃rror是一樣的畔况，所有維度的梯度都接近于0，SGD 很容易被困在這里慧库。（會(huì)在鞍點(diǎn)或者局部最小點(diǎn)震蕩跳動(dòng)跷跪，因?yàn)樵诖它c(diǎn)處，如果是訓(xùn)練集全集帶入即BGD齐板，則優(yōu)化會(huì)停止不動(dòng)吵瞻，如果是mini-batch或者SGD，每次找到的梯度都是不同的甘磨，就會(huì)發(fā)生震蕩听皿，來(lái)回跳動(dòng)。）
SGD對(duì)所有參數(shù)更新時(shí)應(yīng)用同樣的 learning rate宽档，如果我們的數(shù)據(jù)是稀疏的尉姨，我們更希望對(duì)出現(xiàn)頻率低的特征進(jìn)行大一點(diǎn)的更新。LR會(huì)隨著更新的次數(shù)逐漸變小吗冤。

鞍點(diǎn)就是：一個(gè)光滑函數(shù)的鞍點(diǎn)鄰域的曲線(xiàn)又厉，曲面九府，或超曲面，都位于這點(diǎn)的切線(xiàn)的不同邊覆致。例如這個(gè)二維圖形侄旬，像個(gè)馬鞍：在x-軸方向往上曲，在y-軸方向往下曲煌妈，鞍點(diǎn)就是（0儡羔，0）。

image

為了應(yīng)對(duì)上面的兩點(diǎn)挑戰(zhàn)就有了下面這些算法璧诵。

** 前期知識(shí)：指數(shù)加權(quán)平均汰蜘，請(qǐng)參看博文《什么是指數(shù)加權(quán)平均、偏差修正之宿？》**

［應(yīng)對(duì)挑戰(zhàn) 1］

4.Momentum

SGD 在 ravines 的情況下容易被困住族操， ravines 就是曲面的一個(gè)方向比另一個(gè)方向更陡，這時(shí) SGD 會(huì)發(fā)生震蕩而遲遲不能接近極小值：

image

梯度更新規(guī)則:

Momentum 通過(guò)加入 γv_t?1 比被，可以加速 SGD色难，并且抑制震蕩

image

當(dāng)我們將一個(gè)小球從山上滾下來(lái)時(shí)，沒(méi)有阻力的話(huà)等缀，它的動(dòng)量會(huì)越來(lái)越大枷莉，但是如果遇到了阻力，速度就會(huì)變小尺迂。
加入的這一項(xiàng)依沮，可以使得梯度方向不變的維度上速度變快，梯度方向有所改變的維度上的更新速度變慢枪狂，這樣就可以加快收斂并減小震蕩。

超參數(shù)設(shè)定值: 一般 γ 取值 0.9 左右宋渔。

缺點(diǎn)：

這種情況相當(dāng)于小球從山上滾下來(lái)時(shí)是在盲目地沿著坡滾州疾，如果它能具備一些先知，例如快要上坡時(shí)皇拣，就知道需要減速了的話(huà)严蓖，適應(yīng)性會(huì)更好。

5.Nesterov Accelerated Gradient

梯度更新規(guī)則:

用 θ?γv_t?1 來(lái)近似當(dāng)做參數(shù)下一步會(huì)變成的值氧急，則在計(jì)算梯度時(shí)颗胡，不是在當(dāng)前位置，而是未來(lái)的位置上

image

超參數(shù)設(shè)定值: 一般 γ 仍取值 0.9 左右吩坝。

****效果比較：****

****

image

****

藍(lán)色是 Momentum 的過(guò)程，會(huì)先計(jì)算當(dāng)前的梯度钉寝，然后在更新后的累積梯度后會(huì)有一個(gè)大的跳躍弧呐。
而 NAG 會(huì)先在前一步的累積梯度上(brown vector)有一個(gè)大的跳躍闸迷，然后衡量一下梯度做一下修正(red vector)，這種預(yù)期的更新可以避免我們走的太快俘枫。

NAG 可以使 RNN 在很多任務(wù)上有更好的表現(xiàn)腥沽。

目前為止，我們可以做到鸠蚪，在更新梯度時(shí)順應(yīng) loss function 的梯度來(lái)調(diào)整速度今阳，并且對(duì) SGD 進(jìn)行加速。

我們還希望可以根據(jù)參數(shù)的重要性而對(duì)不同的參數(shù)進(jìn)行不同程度的更新茅信。

［應(yīng)對(duì)挑戰(zhàn) 2］

6.Adagrad （Adaptive gradient algorithm）

這個(gè)算法就可以對(duì)低頻的參數(shù)做較大的更新盾舌，對(duì)高頻的做較小的更新，也因此汹押，對(duì)于稀疏的數(shù)據(jù)它的表現(xiàn)很好矿筝，很好地提高了 SGD 的魯棒性，例如識(shí)別 Youtube 視頻里面的貓棚贾，訓(xùn)練 GloVe word embeddings窖维，因?yàn)樗鼈兌际切枰诘皖l的特征上有更大的更新。

** 梯度更新規(guī)則:**

image

其中 g 為：t 時(shí)刻參數(shù) θ_i 的梯度

image

如果是普通的 SGD妙痹，那么 θ_i 在每一時(shí)刻的梯度更新公式為：

image

但這里的 learning rate η 也隨 t 和 i 而變：

image

其中 G_t 是個(gè)對(duì)角矩陣铸史， (i,i) 元素就是 t 時(shí)刻參數(shù) θ_i 的梯度平方和。

Adagrad 的優(yōu)點(diǎn)是減少了學(xué)習(xí)率的手動(dòng)調(diào)節(jié)

超參數(shù)設(shè)定值：一般η選取0.01

缺點(diǎn)：

它的缺點(diǎn)是分母會(huì)不斷積累怯伊，這樣學(xué)習(xí)率就會(huì)收縮并最終會(huì)變得非常小琳轿。

7.Adadelta

這個(gè)算法是對(duì) Adagrad 的改進(jìn)，

和 Adagrad 相比耿芹，就是分母的 G 換成了過(guò)去的梯度平方的衰減平均值崭篡，指數(shù)衰減平均值

image

這個(gè)分母相當(dāng)于梯度的均方根 root mean squared (RMS)，在數(shù)據(jù)統(tǒng)計(jì)分析中吧秕，將所有值平方求和琉闪，求其均值，再開(kāi)平方砸彬，就得到均方根值颠毙，所以可以用 RMS 簡(jiǎn)寫(xiě)：

image

其中 E 的計(jì)算公式如下，t 時(shí)刻的依賴(lài)于前一時(shí)刻的平均和當(dāng)前的梯度：

image

梯度更新規(guī)則:

此外砂碉，還將學(xué)習(xí)率 η 換成了 RMS[Δθ]蛀蜜，這樣的話(huà)，我們甚至都不需要提前設(shè)定學(xué)習(xí)率了：

image

超參數(shù)設(shè)定值: γ 一般設(shè)定為 0.9

7.RMSprop

RMSprop 是 Geoff Hinton 提出的一種自適應(yīng)學(xué)習(xí)率方法增蹭。

RMSprop 和 Adadelta 都是為了解決 Adagrad 學(xué)習(xí)率急劇下降問(wèn)題的滴某，

梯度更新規(guī)則:

RMSprop 與 Adadelta 的第一種形式相同：（使用的是指數(shù)加權(quán)平均，旨在消除梯度下降中的擺動(dòng)，與Momentum的效果一樣壮池，某一維度的導(dǎo)數(shù)比較大偏瓤，則指數(shù)加權(quán)平均就大，某一維度的導(dǎo)數(shù)比較小椰憋，則其指數(shù)加權(quán)平均就小厅克，這樣就保證了各維度導(dǎo)數(shù)都在一個(gè)量級(jí)，進(jìn)而減少了擺動(dòng)橙依。允許使用一個(gè)更大的學(xué)習(xí)率η）

image

超參數(shù)設(shè)定值:

Hinton 建議設(shè)定 γ 為 0.9, 學(xué)習(xí)率 η 為 0.001证舟。

8.Adam：Adaptive Moment Estimation

這個(gè)算法是另一種計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率的方法。相當(dāng)于 RMSprop + Momentum

除了像 Adadelta 和 RMSprop 一樣存儲(chǔ)了過(guò)去梯度的平方 vt 的指數(shù)衰減平均值窗骑，也像 momentum 一樣保持了過(guò)去梯度 mt 的指數(shù)衰減平均值：

image

如果 mt 和 vt 被初始化為 0 向量女责，那它們就會(huì)向 0 偏置，所以做了偏差校正创译，通過(guò)計(jì)算偏差校正后的 mt 和 vt 來(lái)抵消這些偏差：

image

梯度更新規(guī)則:

image

超參數(shù)設(shè)定值:
建議 β1 ＝ 0.9抵知，β2 ＝ 0.999，? ＝ 10e?8

實(shí)踐表明软族，Adam 比其他適應(yīng)性學(xué)習(xí)方法效果要好刷喜。

二.效果比較

下面看一下幾種算法在鞍點(diǎn)和等高線(xiàn)上的表現(xiàn)：

SGD optimization on saddle point

image

SGD optimization on loss surface contours

上面兩種情況都可以看出，Adagrad, Adadelta, RMSprop 幾乎很快就找到了正確的方向并前進(jìn)立砸，收斂速度也相當(dāng)快掖疮，而其它方法要么很慢，要么走了很多彎路才找到颗祝。

由圖可知自適應(yīng)學(xué)習(xí)率方法即 Adagrad, Adadelta, RMSprop, Adam 在這種情景下會(huì)更合適而且收斂性更好浊闪。

三.如何選擇優(yōu)化算法

如果數(shù)據(jù)是稀疏的，就用自適用方法螺戳，即 Adagrad, Adadelta, RMSprop, Adam搁宾。

RMSprop, Adadelta, Adam 在很多情況下的效果是相似的猿妈。

Adam 就是在 RMSprop 的基礎(chǔ)上加了 bias-correction 和 momentum培愁，

隨著梯度變的稀疏，Adam 比 RMSprop 效果會(huì)好雷厂。

整體來(lái)講凤藏，Adam 是最好的選擇。

很多論文里都會(huì)用 SGD堕伪，沒(méi)有 momentum 等揖庄。SGD 雖然能達(dá)到極小值，但是比其它算法用的時(shí)間長(zhǎng)欠雌，而且可能會(huì)被困在鞍點(diǎn)蹄梢。

如果需要更快的收斂，或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)，需要用一種自適應(yīng)的算法禁炒。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末而咆，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子幕袱，更是在濱河造成了極大的恐慌暴备，老刑警劉巖，帶你破解...
沈念sama閱讀 222,946評(píng)論 6贊 518
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件们豌，死亡現(xiàn)場(chǎng)離奇詭異涯捻，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)望迎，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,336評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)障癌，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人辩尊，你說(shuō)我怎么就攤上這事涛浙。” “怎么了摄欲？”我有些...
開(kāi)封第一講書(shū)人閱讀 169,716評(píng)論 0贊 364
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵轿亮，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我蒿涎，道長(zhǎng)哀托，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 60,222評(píng)論 1贊 300
?港島之戀（遺憾婚禮）
正文為了忘掉前任劳秋，我火速辦了婚禮仓手，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘玻淑。我一直安慰自己嗽冒，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 69,223評(píng)論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布补履。她就那樣靜靜地躺著添坊，像睡著了一般。火紅的嫁衣襯著肌膚如雪箫锤。梳的紋絲不亂的頭發(fā)上贬蛙，一...
開(kāi)封第一講書(shū)人閱讀 52,807評(píng)論 1贊 314
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音谚攒，去河邊找鬼阳准。笑死，一個(gè)胖子當(dāng)著我的面吹牛馏臭，可吹牛的內(nèi)容都是我干的野蝇。我是一名探鬼主播，決...
沈念sama閱讀 41,235評(píng)論 3贊 424
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼绕沈！你這毒婦竟也來(lái)了锐想？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 40,189評(píng)論 0贊 277
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤乍狐，失蹤者是張志新（化名）和其女友劉穎赠摇，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體澜躺，經(jīng)...
沈念sama閱讀 46,712評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蝉稳，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,775評(píng)論 3贊 343
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了掘鄙。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片耘戚。...
茶點(diǎn)故事閱讀 40,926評(píng)論 1贊 353
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖操漠，靈堂內(nèi)的尸體忽然破棺而出收津，到底是詐尸還是另有隱情，我是刑警寧澤浊伙，帶...
沈念sama閱讀 36,580評(píng)論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布撞秋，位于F島的核電站，受9級(jí)特大地震影響嚣鄙，放射性物質(zhì)發(fā)生泄漏吻贿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 42,259評(píng)論 3贊 336
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一哑子、第九天我趴在偏房一處隱蔽的房頂上張望舅列。院中可真熱鬧，春花似錦卧蜓、人聲如沸帐要。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,750評(píng)論 0贊 25
一樁弒父案弥奸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)榨惠。三九已至，卻和暖如春盛霎，著一層夾襖步出監(jiān)牢的瞬間赠橙，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,867評(píng)論 1贊 274
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工愤炸，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留期揪，地道東北人。一個(gè)月前我還...
沈念sama閱讀 49,368評(píng)論 3贊 379
代替公主和親
正文我出身青樓摇幻，卻偏偏與公主長(zhǎng)得像横侦，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子绰姻，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,930評(píng)論 2贊 361

深度學(xué)習(xí)優(yōu)化器算法Optimizer詳解

優(yōu)化算法（優(yōu)化器的重要性）

優(yōu)化器與機(jī)器學(xué)習(xí)

幾種優(yōu)化器算法的簡(jiǎn)述

1.Batch Gradient Descent （BGD）

2.Stochastic Gradient Descent (SGD)

3.Mini-Batch Gradient Descent （MBGD）

［應(yīng)對(duì)挑戰(zhàn) 1］

4.Momentum

5.Nesterov Accelerated Gradient

［應(yīng)對(duì)挑戰(zhàn) 2］

6.Adagrad （Adaptive gradient algorithm）

7.Adadelta

7.RMSprop

8.Adam：Adaptive Moment Estimation

** 二.效果比較**

推薦閱讀更多精彩內(nèi)容

二.效果比較