沼瘫。如果通過指數(shù)加權(quán)平均使得梯度計(jì)算的時(shí)候更加平滑抬纸,但是整體趨勢(shì)還是往函數(shù)收斂的方向走。運(yùn)行效率就會(huì)增加耿戚。同時(shí)指數(shù)加權(quán)并不會(huì)占用很大的內(nèi)存和計(jì)算量湿故。
超參數(shù)beta的值阿趁,可以預(yù)估平均了多少個(gè)數(shù)。1/(1-beta)坛猪。當(dāng)beta=0.9,值等于10,就表示平均了10個(gè)數(shù)脖阵。當(dāng) beta越大,平均的數(shù)量就越大墅茉。命黔。使得函數(shù)在初期的預(yù)估值不是很準(zhǔn),但是越往后越準(zhǔn)躁锁。纷铣。這里再配合mini-batch時(shí)候卵史,每個(gè)批次數(shù)量和beta就存在一些關(guān)系战转。當(dāng)batch-size=128的時(shí)候,beta=0.98以躯,這個(gè)時(shí)候平均50個(gè)數(shù)據(jù)量槐秧,使得這個(gè)批次的梯度計(jì)算時(shí)候,收集了50個(gè)樣本后才開始接近真實(shí)的梯度忧设,就顯得浪費(fèi)了50個(gè)樣本刁标。。(個(gè)人理解)
http://www.reibang.com/p/41218cb5e099?utm_source=oschina-app