這里主要討論梯度下降法和牛頓法的原理
1.梯度下降法
形式:五芝,其中
為損失函數(shù),
為模型參數(shù)
下面將推導(dǎo)這一形式的由來.
首先辕万,需要用到多元函數(shù)的一級泰勒展開式:
如果忽略高階無窮小枢步,即是
的
領(lǐng)域沉删,那么等號就會變?yōu)榻葡嗟龋矗?img class="math-inline" src="https://math.jianshu.com/math?formula=L(%5Ctheta%20)%20-L(%5Ctheta_0)%20%5Capprox%20%20%20%20%5B%5Cbigtriangledown%20L(%5Ctheta_0)%20%5D%5ET%20(%5Ctheta%20-%20%5Ctheta_0)%20" alt="L(\theta ) -L(\theta_0) \approx [\bigtriangledown L(\theta_0) ]^T (\theta - \theta_0) " mathimg="1">
要使得損失函數(shù)下降更快醉途,只需要等式右邊得到最小值矾瑰。
由可知,當(dāng)
與
的夾角余弦
時等式右邊可取得最小值隘擎。
由于對應(yīng)的方向單位向量可表示為:
當(dāng)與
的方向相反(夾角余弦
)時有:
殴穴,其中
為正數(shù)。由于分母為標(biāo)量货葬,因此可以合并到
中采幌,化簡為:
需要注意的是,和
要離的充分近震桶,也就是在它的
鄰域里面休傍,才能忽略掉泰勒展開里面的一次以上的項,否則就不能忽略它了尼夺,它就不是高階無窮小了尊残,約等于的條件就不成立了,所以
步長不能夠太大淤堵,由此我們就得到了梯度下降法的公式。
2.牛頓法
? ??形式:?顷扩, 其中為Hessian矩陣
下面將推導(dǎo)這一形式的由來拐邪。
首先,需要用到多元函數(shù)的二級泰勒展開式:
如果忽略高階無窮小隘截,即是
的
鄰域扎阶,那么等號就會變?yōu)榻葡嗟龋矗?img class="math-inline" src="https://math.jianshu.com/math?formula=L(%5Ctheta%20)%20%5Capprox%20%20L(%5Ctheta_0)%20%20%2B%20%5B%5Cbigtriangledown%20L(%5Ctheta_0)%5D%5ET(%5Ctheta%20-%5Ctheta_0)%2B%5Cfrac%7B1%7D%7B2%7D%20(%5Ctheta%20-%5Ctheta_0)%5ET%20H(%5Ctheta%20-%5Ctheta_0)" alt="L(\theta ) \approx L(\theta_0) + [\bigtriangledown L(\theta_0)]^T(\theta -\theta_0)+\frac{1}{2} (\theta -\theta_0)^T H(\theta -\theta_0)" mathimg="1">
如果是二次函數(shù)的話婶芭,我們找它梯度等于0的點是非常好找的东臀,基于約等于的式子,兩邊同時求導(dǎo)犀农。
因為
且H是對稱矩陣惰赋,所以:
下面可以求解一次方程,如果hessian 矩陣可逆呵哨,就可以兩邊乘上 H 的逆矩陣赁濒,令,則
兩邊同時乘H 的逆矩陣孟害,有
注意一下H和都是
點處取得的拒炎,稍作調(diào)整為:
有同學(xué)肯定會說,那我們?nèi)デ蠼夥匠探M挨务,那不是一次就可以求得梯度等于 0 的點 了嘛击你, 但是因為我們忽略了后面的高階無窮小玉组,所以我們只是近似的找到了梯度等于 0 的點,但 是它并沒有真正找到丁侄,所以我們下次要繼續(xù)去用這個公式去迭代球切。
迭代優(yōu)化時會加上步長:
如果我們的是二次函數(shù)的話,牛頓法一步就可以收斂绒障,前提是步長不做設(shè)置吨凑,等于 1 的 時候就可以了,這是因為如果原函數(shù)
是二次函數(shù)的話户辱,泰勒展開里面就不是約等于鸵钝,而是直接等于。
梯度下降法和牛頓法的關(guān)系
梯度下降法只用到了一階導(dǎo)數(shù)的信息庐镐,牛頓法既用到了一階導(dǎo)數(shù)的信息恩商,也用到了二階導(dǎo)數(shù)的信息。
梯度下降法是用線性函數(shù)來代替目標(biāo)函數(shù)必逆,牛頓法是用二次函數(shù)來代替目標(biāo)函數(shù)怠堪, 所以說牛頓法的收斂速度是更快的。
但是牛頓法也有它的局限名眉,hessian 矩陣不一定可逆粟矿,第二個即使存在,我們來解一個線性 方程組损拢,當(dāng) hessian 矩陣規(guī)模很大陌粹,解線性方程組是非常耗時的,因此出現(xiàn)了一種改進的算 法叫擬牛頓法