梯度下降的場景假設(shè)
??一個人被困在山上湃番,需要從山上下到山谷夭织。但此時山上的霧很大,導(dǎo)致可視度很低吠撮。因此尊惰,下山的路徑就無法確定,他必須利用自己周圍的信息去找到下山的路徑。這個時候弄屡,他就可以利用梯度下降算法來幫助自己下山题禀。以他當(dāng)前的所處的位置為基準(zhǔn),尋找這個位置最陡峭的地方膀捷,然后朝著山的高度下降的地方走迈嘹,如果我們的目標(biāo)是上山,也就是爬到山頂全庸,那么此時應(yīng)該是朝著最陡峭的方向往上走秀仲。然后每走一段距離,都反復(fù)采用同一個方法壶笼,最后就能成功的抵達(dá)山谷神僵。
梯度下降簡介
??梯度下降是迭代法的一種,可以用于求解最小二乘問題(線性和非線性都可以)。在求解機(jī)器學(xué)習(xí)算法的模型參數(shù)覆劈,即無約束優(yōu)化問題時保礼,梯度下降(Gradient Descent)是最常采用的方法之一,另一種常用的方法是最小二乘法责语。在求解損失函數(shù)的最小值時氓英,可以通過梯度下降法來一步步的迭代求解,得到最小化的損失函數(shù)和模型參數(shù)值鹦筹。反過來铝阐,如果我們需要求解損失函數(shù)的最大值,這時就需要用梯度上升法來迭代了铐拐。
求解過程
??梯度下降法的計算過程就是沿梯度下降的方向求解極小值(也可以沿梯度上升方向求解極大值)徘键。
??梯度方向我們可以通過對函數(shù)求導(dǎo)得到,步長的確定比較麻煩遍蟋,太大了的話可能會發(fā)散吹害,太小收斂速度又太慢。一般確定步長的方法是由線性搜索算法來確定虚青。
??梯度向量為0的話說明是到了一個極值點它呀,此時梯度的幅值也為0.而采用梯度下降算法進(jìn)行最優(yōu)化求解時,算法迭代的終止條件是梯度向量的幅值接近0即可棒厘,可以設(shè)置個非常小的常數(shù)閾值纵穿。
代碼實現(xiàn)梯度下降算法
造測試數(shù)據(jù)代碼如下:
import numpy as np
import matplotlib.pyplot as plt
plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1
plt.plot(plot_x, plot_y)
plt.show()
可視化測試數(shù)據(jù):
梯度下降算法求解這個測試數(shù)據(jù)的極值點,算法迭代的終止條件是梯度向量的幅值接近0即可奢人,可以設(shè)置個非常小的常數(shù)閾值谓媒。
import numpy as np
import matplotlib.pyplot as plt
plot_x = np.linspace(-1, 6 , 200)
plot_y = (plot_x - 2.5) ** 2 - 1
#設(shè)置個非常小的常數(shù)閾值
epsilon = 1e-8
#設(shè)置步長
eta = 0.2
# 損失函數(shù)
def J(theta):
return (theta-2.5)**2 - 1.
# 求導(dǎo)確認(rèn)行進(jìn)方向
def dJ(theta):
return 2*(theta-2.5)
theta = 0.0
theta_history = [theta]
while True:
gradient = dJ(theta)
last_theta = theta
# 向?qū)?shù)的負(fù)方向移一步
theta = theta - eta * gradient
theta_history.append(theta)
# 終止條件是梯度向量的幅值接近0,我們設(shè)置的是小于epsilon 即可
if(abs(J(theta) - J(last_theta)) < epsilon):
break
plt.plot(plot_x, J(plot_x))
plt.plot(np.array(theta_history), J(np.array(theta_history)), color="r", marker='*')
plt.show()
梯度下降效果如下:
注意
(1) eta即learning rate何乎,決定的下降步伐句惯,如果太小土辩,則找到函數(shù)最小值的速度就很慢,如果太大抢野,則可能會出現(xiàn)overshoot the minimum的現(xiàn)象拷淘;簡單的說就是你跨步子的大小,跨得太小就會花很長的時間來收斂指孤。
(2) 初始點不同启涯,獲得的最小值也不同,因此梯度下降求得的只是局部最小值邓厕;
(3) 越接近最小值時逝嚎,下降速度越慢扁瓢;
梯度下降的算法調(diào)優(yōu)
(1) 步長選擇,選擇一個合適的步長需要多次運行后才能得到一個較為優(yōu)的值详恼。
(2) 參數(shù)的初始值選擇。 初始值不同引几,獲得的最小值也有可能不同昧互,因此梯度下降求得的只是局部最小值;當(dāng)然如果損失函數(shù)是凸函數(shù)則一定是最優(yōu)解伟桅。由于有局部最優(yōu)解的風(fēng)險敞掘,需要多次用不同初始值運行算法,關(guān)鍵損失函數(shù)的最小值楣铁,選擇損失函數(shù)最小化的初值玖雁。
(3) 歸一化。由于樣本不同特征的取值范圍不一樣盖腕,可能導(dǎo)致迭代很慢赫冬,為了減少特征取值的影響,可以對特征數(shù)據(jù)歸一化