BGD(批量梯度下降法)
批梯度下降每次更新使用了所有的訓(xùn)練數(shù)據(jù),最小化損失函數(shù)寿羞,如果只有一個(gè)極小值嘹狞,那么批梯度下降是考慮了訓(xùn)練集所有數(shù)據(jù),是朝著最小值迭代運(yùn)動(dòng)的磺樱,但是缺點(diǎn)是如果樣本值很大的話芥丧,更新速度會(huì)很慢。
SGD(隨機(jī)梯度下降法)
隨機(jī)梯度下降在每次更新的時(shí)候坊罢,只考慮了一個(gè)樣本點(diǎn),這樣會(huì)大大加快訓(xùn)練數(shù)據(jù)擅耽,也恰好是批梯度下降的缺點(diǎn)活孩,但是有可能由于訓(xùn)練數(shù)據(jù)的噪聲點(diǎn)較多,那么每一次利用噪聲點(diǎn)進(jìn)行更新的過程中乖仇,就不一定是朝著極小值方向更新憾儒,但是由于更新多輪,整體方向還是大致朝著極小值方向更新乃沙,又提高了速度起趾。
MBGD(min-batch 小批量梯度下降法)
小批量梯度下降法是為了解決批梯度下降法的訓(xùn)練速度慢,以及隨機(jī)梯度下降法的準(zhǔn)確性綜合而來警儒,但是這里注意训裆,不同問題的batch是不一樣的。