一、總體概況分為以下五種
(1)批次梯度下降Batch Gradient Descent:
在批量梯度下降中黄虱,相對(duì)于整個(gè)訓(xùn)練數(shù)據(jù)集的權(quán)重計(jì)算損失函數(shù)的梯度旷坦,并且在每次迭代之后更新權(quán)重。這提供了對(duì)漸變的更準(zhǔn)確的估計(jì)搀崭,但對(duì)于大數(shù)據(jù)集叨粘,它的計(jì)算代價(jià)可能很高猾编。
(2)隨機(jī)梯度下降Stochastic Gradient Descent:
在SGD中,相對(duì)于單個(gè)訓(xùn)練樣本計(jì)算損失函數(shù)的梯度升敲,并且在每個(gè)樣本之后更新權(quán)重答倡。與批處理梯度下降算法相比,SGD算法每次迭代的計(jì)算量較小驴党,但穩(wěn)定性較差瘪撇,可能不會(huì)收斂到最優(yōu)解。
隨機(jī)”一詞指的是與隨機(jī)概率相聯(lián)系的系統(tǒng)或過程港庄。因此倔既,在隨機(jī)梯度下降中,每次迭代都隨機(jī)選擇幾個(gè)樣本鹏氧,而不是整個(gè)數(shù)據(jù)集叉存。在梯度下降中,有一個(gè)術(shù)語稱為“批次”度帮,它表示用于計(jì)算每次迭代的梯度的數(shù)據(jù)集的樣本總數(shù)歼捏。在典型的梯度下降優(yōu)化中,像批次梯度下降一樣笨篷,將批次視為整個(gè)數(shù)據(jù)集瞳秽。雖然使用整個(gè)數(shù)據(jù)集對(duì)于以較少的噪音和較少的隨機(jī)方式到達(dá)最小值非常有用,但當(dāng)我們的數(shù)據(jù)集變大時(shí)率翅,問題就會(huì)出現(xiàn)练俐。假設(shè)您的數(shù)據(jù)集中有一百萬個(gè)樣本,所以如果您使用典型的漸變下降優(yōu)化技術(shù)冕臭,在執(zhí)行梯度下降時(shí)腺晾,您將不得不使用所有一百萬個(gè)樣本來完成一次迭代,并且必須在每次迭代中都這樣做辜贵,直到達(dá)到最小值悯蝉。因此,它在計(jì)算上變得非常昂貴托慨。這個(gè)問題通過隨機(jī)梯度下降來解決鼻由。在SGD中,它只使用單個(gè)樣本厚棵,即批大小為1的樣本來執(zhí)行每次迭代蕉世。樣本被隨機(jī)洗牌并被選擇用于執(zhí)行迭代。
(3)小批量梯度下降Mini-Batch Gradient Descent:
小批量梯度下降法是一種介于批量梯度下降和SGD之間的折衷算法婆硬。相對(duì)于隨機(jī)選擇的訓(xùn)練樣本子集(稱為小批次)計(jì)算損失函數(shù)的梯度狠轻,并且在每個(gè)小批次之后更新權(quán)重。小批量梯度下降算法在批量梯度下降的穩(wěn)定性和SGD算法的計(jì)算效率之間取得了平衡彬犯。
(4)動(dòng)量下降Momentum Gradient Descent:
動(dòng)量是梯度下降的一種變體向楼,它結(jié)合了來自先前權(quán)重更新的信息查吊,以幫助算法更快地收斂到最優(yōu)解。動(dòng)量向權(quán)重更新添加一個(gè)項(xiàng)蜜自,該項(xiàng)與過去梯度的運(yùn)行平均值成比例菩貌,從而允許算法更快地朝著最優(yōu)解的方向移動(dòng)卢佣。
(5)自適應(yīng)梯度下降算法Adaptive Gradient Descent:
自適應(yīng)梯度下降算法是一種基于梯度信息的自適應(yīng)優(yōu)化算法重荠,它通過調(diào)整學(xué)習(xí)率來適應(yīng)不同的梯度情況,從而加速收斂虚茶。自適應(yīng)梯度下降算法的優(yōu)點(diǎn)是可以自動(dòng)調(diào)節(jié)學(xué)習(xí)率戈鲁,適應(yīng)不同的梯度情況,但缺點(diǎn)是可能會(huì)導(dǎo)致過度調(diào)整嘹叫,使模型參數(shù)跳過最優(yōu)點(diǎn)婆殿。