線性回歸算法
我的微信公眾號: s406205391; 歡迎大家一起學習,一起進步I吮0砝А!
? 線性回歸是利用數(shù)理統(tǒng)計中回歸分析适刀,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法考抄,運用十分廣泛。
? 我們看下面一組數(shù)據(jù)蔗彤,這組數(shù)據(jù)通過工資和年齡兩個特征來預測銀行貸款的額度。
那么疯兼,工資和年齡對銀行貸款給我們的額度的影響會有多大呢然遏?這也就是我們所需要求的參數(shù)。
工資 | 年齡 | 額度 |
---|---|---|
4000 | 25 | 20000 |
8000 | 30 | 70000 |
5000 | 28 | 35000 |
7500 | 33 | 5000 |
12000 | 40 | 85000 |
? 通俗的講:我們通過圖片來展示我們的數(shù)據(jù)吧彪,圖中X1和X2就是我們的兩個特征(年齡待侵,工資),Y是銀行最終會借給我們多少錢姨裸。我們現(xiàn)在就需要找到最合適的一條線(想象一個高維)來最好的擬合我們的數(shù)據(jù)點秧倾。這時怨酝,我們假設θ1是年齡的參數(shù),θ2是工資的參數(shù)那先。我們便可得到一個擬合平面:
? (θ0是偏置項)
? 將上述公式用矩陣表達农猬,即得:
?
? 該式展開其實為:,相較于上式,多引入一個特征x0售淡,這是為了后期方便矩陣的計算斤葱。所以我們可以把特征x0統(tǒng)一賦值為1。
? 因為揖闸,真實值和預測值之間肯定是要存在誤差的揍堕。我們引入ε來表示誤差。所以對于每一個樣本汤纸,即方程即為:
誤差滿足高斯分布
? 誤差具有如下特點:
誤差是獨立并且具有相同的分布衩茸,并且服從均值為0,方差為θ2的高斯分布贮泞。
獨立:誤差在樣本之間是相互獨立的楞慈。
-
同分布。
既然隙畜,誤差是服從高斯分布的抖部,那么我們就可以用高斯分布的方程來表示:
求解目標函數(shù)
? 我們首先將高斯函數(shù),帶入我們的方程议惰,即可得:
? 預測值與誤差: (1)
? 由于誤差服從高斯分布: (2)
? 將(1)式帶入(2)式可得:
? 上式我們可以用最大函數(shù)求解慎颗。
? 似然函數(shù):
? 為了方便求解,我們將上式取對數(shù):
? 對數(shù)似然,并化簡:
?
?
?
? 目標:去除常數(shù)項之后言询,讓目標函數(shù)越大越好
? ; 即讓該式越小越好俯萎,可以用最小二乘解
? 應用最小二乘法求解上式:
?
? 對該式求偏導即得:
?
常用的評估方法,得到最佳目標函數(shù)的參數(shù)
? 上述我們將目標函數(shù)直接求出了結果运杭,但是在某些情況下夫啊,我們并不能直接求得結果,因為上述我們對X求其逆矩陣辆憔,但是逆矩陣并不是一定能求的撇眯。
? 那么,我們如何評估目標函數(shù)擬合的效果呢虱咧?我們一般會用到R2項熊榛。R2的取值越接近于1,我們認為模型擬合的越好腕巡。
最常用的評估項R2: