梯度下降算法可以將代價(jià)函數(shù)J最小化。
為了說明問題怕膛,只使用θ0熟嫩,θ1。
如圖所示褐捻,梯度下降會(huì)因?yàn)槌跏蓟牟煌@得不同的局部最優(yōu)解掸茅。
α被稱為學(xué)習(xí)速率椅邓,它在梯度下降算法中代表了我們下山時(shí)邁多大的步子。
正確的做法是同步更新θ0和θ1昧狮。不正確是因?yàn)橄扔?jì)算了θ0而θ0更新會(huì)影響到θ1的計(jì)算景馁。
微分項(xiàng)求導(dǎo)或偏導(dǎo),其實(shí)相當(dāng)于給θ一個(gè)增加或者減少的方向逗鸣;而α決定了增加和減少的值合住,即步長大小。
α的大小不同撒璧,代表下降步子的大小不同透葛,太大和太小都不好。
如果初始化已經(jīng)在局部最優(yōu)點(diǎn)卿樱,那么θ不再變化僚害,因?yàn)槲⒎猪?xiàng)已經(jīng)為0。
當(dāng)我們接近局部最低點(diǎn)時(shí)殿如,微分項(xiàng)會(huì)變小贡珊,所以梯度下降會(huì)自動(dòng)的采用較小的幅度。
梯度下降算法涉馁,可以用來最小化任何代價(jià)函數(shù)门岔。