下面的式子就是一個線性回歸,其目標值是輸入變量的線性組合追迟,預(yù)測值可以表示為:
1.1.2 普通的最小二乘法
線性回歸的思路是:用線性系數(shù)w來模擬模型溶其,通過調(diào)整系數(shù)的值,使得預(yù)測值和準確值之間的均方誤差最小敦间。數(shù)學(xué)上可表示為:
下面為線性擬合的代碼及解釋:
#從sklearn中導(dǎo)入linear_model模塊包
>>> from sklearn import linear_model
#線性回歸類瓶逃,并且實例化
>>> clf = linear_model.LinearRegression()
#調(diào)用fit方法進行擬合
#原型:clf.fit(X, y, sample_weight=None)束铭,其中X=[[0, 0], [1, 1], [2, 2]],y=[0,1,2]
>>> clf.fit ([[0, 0], [1, 1], [2, 2]],[0,1,2])
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
#得到w權(quán)值
>>> clf.coef_
array([ 0.5, 0.5])
然而厢绝,普通二乘法的系數(shù)估計依賴于模型各項的獨立性(這樣求解線性方程組才會有確切的解)契沫。當矩陣的列之間是近似線性關(guān)系的時候,矩陣就是奇異的昔汉,導(dǎo)致在用最小二乘估計的時候就會產(chǎn)生隨機錯誤懈万,產(chǎn)生較大的方差。這個地方是在選取特征的時候尤其應(yīng)該注意的靶病。
線性回歸舉例
為了得到回歸的二維圖会通,這個例子只用了糖尿病數(shù)據(jù)集的第一個特征。如圖所示娄周,線性回歸嘗試畫一條直線涕侈,這條直線能夠使均方誤差最小。在下面也計算了系數(shù)煤辨、均方誤差裳涛、還有方差。