介紹單變量的線性回歸以及用梯度下降法求解參數(shù)。
2.1 模型表示
機(jī)器學(xué)習(xí)的目標(biāo)就是卒密,給定一個訓(xùn)練集缀台,去學(xué)習(xí)一個假設(shè),它能很好地預(yù)測出輸入對應(yīng)的輸出值哮奇。
-
描述問題的標(biāo)記:
2.2 代價函數(shù)
單變量線性回歸的一種可能的表示如下:
-
參數(shù) theta 的選擇決定了模型預(yù)測值與實際值之間的差距膛腐。下圖中藍(lán)色垂線代表建模誤差。
-
我們的目標(biāo)選擇出可以使建模誤差的平方和最小的模型參數(shù)鼎俘。即哲身,使得下列代價函數(shù)最小:
平方誤差是解決回歸問題最常用的手段贸伐。
2.3 梯度下降
在前面一小節(jié)已經(jīng)說到勘天,我們要找到使得代價函數(shù)最小的那組theta值,因此這里引入梯度下降法。
-
目標(biāo):
-
梯度下降算法:
更新theta的值脯丝,使得代價函數(shù)按梯度下降最快的方向進(jìn)行商膊,一直迭代下去,最終得到局部最小值宠进。
-
學(xué)習(xí)率 α 決定了沿著能讓代價函數(shù)下降程度最大的方向晕拆,向下邁出的步子有多大。
學(xué)習(xí)率太大材蹬,梯度下降法可能會越過最低點实幕,甚至導(dǎo)致無法發(fā)散。
學(xué)習(xí)率過小堤器,梯度下降會非常慢昆庇,因為每次迭代只能走一小步。
假設(shè)θ開始被放在局部最低點會怎樣闸溃?
局部最低點導(dǎo)數(shù)為0凰锡,θ將不被更新。這也解釋了為什么即使學(xué)習(xí)率不變圈暗,梯度下降也能收斂到局部最低點掂为。其實在梯度下降過程中,向局部最小值方向移動時员串,切線斜率會越來越小勇哗,實際上每次更新的幅度也在減小,所以沒必要再另外減小α寸齐。
2.4 梯度下降的線性回歸
介紹到這里欲诺,我們就可以拿梯度下降法來求解線性回歸的最優(yōu)解了∶祓校回顧下線性回歸模型和代價函數(shù)扰法,我們要做得是對代價函數(shù)求關(guān)于θ的偏導(dǎo)數(shù),從而不斷更新θ毅厚,使得到達(dá)局部最低點塞颁。實際上對于線性回歸,其代價函數(shù)是凸函數(shù)吸耿,所以局部最低點也是全局最低點祠锣。
以下是求導(dǎo)過程,省略了某些細(xì)節(jié)咽安。
所以伴网,在算法中,只需要按照上式更新妆棒。