11.6 Momentum
在?Section 11.4?中蕴茴,我們提到迅诬,目標(biāo)函數(shù)有關(guān)自變量的梯度代表了目標(biāo)函數(shù)在自變量當(dāng)前位置下降最快的方向箭养。因此奥喻,梯度下降也叫作最陡下降(steepest descent)偶宫。在每次迭代中,梯度下降根據(jù)自變量當(dāng)前位置环鲤,沿著當(dāng)前位置的梯度更新自變量纯趋。然而,如果自變量的迭代方向僅僅取決于自變量當(dāng)前位置冷离,這可能會(huì)帶來一些問題吵冒。對(duì)于noisy gradient,我們需要謹(jǐn)慎的選取學(xué)習(xí)率和batch size, 來控制梯度方差和收斂的結(jié)果。
Supp: Preconditioning
在二階優(yōu)化中西剥,我們使用Hessian matrix的逆矩陣(或者pseudo inverse)來左乘梯度向量?i.e.Δx=H?1g痹栖,這樣的做法稱為precondition,相當(dāng)于將?H?映射為一個(gè)單位矩陣瞭空,擁有分布均勻的Spectrum揪阿,也即我們?nèi)?yōu)化的等價(jià)標(biāo)函數(shù)的Hessian matrix為良好的identity matrix。
與Section 11.4一節(jié)中不同咆畏,這里將x12系數(shù)從1減小到了0.1南捂。下面實(shí)現(xiàn)基于這個(gè)目標(biāo)函數(shù)的梯度下降,并演示使用學(xué)習(xí)率為0.4時(shí)自變量的迭代軌跡旧找。
Implement
相對(duì)于小批量隨機(jī)梯度下降溺健,動(dòng)量法需要對(duì)每一個(gè)自變量維護(hù)一個(gè)同它一樣形狀的速度變量,且超參數(shù)里多了動(dòng)量超參數(shù)钦讳。實(shí)現(xiàn)中矿瘦,我們將速度變量用更廣義的狀態(tài)變量states表示。
學(xué)習(xí)鏈接:優(yōu)化算法進(jìn)階