以一元線性回歸為例赊琳,函數(shù)為:
其中街夭,表示y隨x的變化而線性變化的部分,
是待求解的參數(shù)躏筏;
是隨機誤差板丽,是其他一切不確定因素的綜合,其值不可觀測趁尼,通常假定
~
埃碱。
誤差項分析:極大似然估計
因為誤差服從正態(tài)分布
,兼通過目標函數(shù)移項酥泞,得到其概率密度:
希望誤差能盡量為0砚殿,因此誤差發(fā)生的概率應(yīng)盡可能地大(根據(jù)正態(tài)分布,越靠近均值芝囤,發(fā)生的概率越大似炎?)。使用似然函數(shù)來估計參數(shù)悯姊,并加以對數(shù)變換使表達式從連乘變?yōu)檫B加羡藐,更好算:
展開化簡,得到:
繼續(xù)化簡挠轴,忽略常數(shù)項传睹,得到估計參數(shù)的目標函數(shù)耳幢,此為最小二乘法的推導(dǎo)過程岸晦。
損失函數(shù)求解:最小二乘法
通過極大似然估計分析誤差項(即最小二乘法),得到損失函數(shù):
待求損失函數(shù)最小時的參數(shù)值睛藻,即轉(zhuǎn)換為:當損失函數(shù)關(guān)于
的一階偏導(dǎo)數(shù)都等于0時启上,求解關(guān)于
的二元二次方程問題。求得:
,?
損失函數(shù)求解:梯度下降法
原理
假設(shè)有m個參數(shù)店印,目標損失函數(shù)如下:
這是一個關(guān)于的多元函數(shù)冈在,
相當于系數(shù)。所以按摘,有幾個
待求解包券,就相當于目標函數(shù)有幾維。除以n是為了對損失值取平均值(因為樣本量增加炫贤,累積的損失值也會增加)溅固。
梯度下降法的思路是:
1. 先確定步長,包括方向和步子大小
步長是學(xué)習(xí)率和方向相乘的矢量兰珍。令學(xué)習(xí)率為侍郭,代表步子的大小,相當于步長的模長。方向是梯度的負方向亮元,在這個方向上函數(shù)值下降的最快猛计,對每一個參數(shù)求偏導(dǎo)可得:
2.?對于每一個,設(shè)定初始值爆捞,按照確定好的步長奉瘤,代入
值,不斷迭代:
此處是對
求導(dǎo)后得出的系數(shù)
3. 直到兩次迭代結(jié)果相差小于預(yù)設(shè)要求即可
批量梯度下降
每次跌代都代入所有樣本煮甥,容易得到最優(yōu)解毛好,但是速度很慢。
隨機梯度下降
每次迭代隨便找一個樣本苛秕,速度很快肌访,但不是每次都朝著對的收斂方向,此時m=1艇劫。
小批量梯度下降
每次迭代都新取一部分樣本吼驶,兼顧速度和精度,此時m=某個比m小很多的數(shù)店煞。
評估指標
:真實觀測值蟹演,
:真實觀測值的平均值,
:擬合值(預(yù)測值)
殘差平方和(SSE):擬合數(shù)據(jù)和原始數(shù)據(jù)之差的平方和
總離差平方和(SST):原始數(shù)據(jù)和均值之差的平方和
回歸平方和(SSR):擬合數(shù)據(jù)和原始數(shù)據(jù)均值之差的平方和
確定系數(shù)(R-square):SSR/SST = 1- SSE/SST顷蟀,如下