在統(tǒng)計學(xué)中,普通最小二乘法(Ordinary Least Squares,OLS)是一種用于在線性回歸
模型中估計未知參數(shù)的線性最小二乘法檀夹。 OLS通過最小二乘法原則選擇一組解釋變量的線性函數(shù)的參數(shù):最小化給定數(shù)據(jù)集中觀察到的因變量(被預(yù)測變量的值)與預(yù)測變量之間殘差的平方和。
一元線性回歸求解過程
我們先以一元線性模型為例來說明。
假設(shè)有一組數(shù)據(jù)前痘,我們希望求出對應(yīng)的一元線性模型來擬合這一組數(shù)據(jù):
既然要擬合,總要有一個擬合程度高低的判斷標(biāo)準(zhǔn)担忧,上文說到芹缔,最小二乘法中使用的就是誤差平方和方法,所以瓶盛,這時候損失函數(shù)最欠,或者說我們的目標(biāo)函數(shù)就是:
有了這個目標(biāo)函數(shù)示罗,我們要做的就是求出和
使得
最小,在這里就是極小值芝硬。
求極值的一個很好的方法就是求導(dǎo)蚜点,在這里因為有多個參數(shù),所以吵取,我們要分別對和
求偏導(dǎo):
因為,
, 所以禽额,上面第二個,也就是對
的偏導(dǎo)可以轉(zhuǎn)化為:
我們知道皮官,目標(biāo)函數(shù)取得極值時脯倒,偏導(dǎo)一定是等于0的,所以捺氢,我們令等于0藻丢,于是有:
接著,我們繼續(xù)回到上面第一個偏導(dǎo)摄乒,也就是對的偏導(dǎo)
悠反,令
,并將
代入馍佑,得:
根據(jù)求和性質(zhì)
可得:
求和性質(zhì):
求和性質(zhì)斋否,具體可以參考Introductory Econometrics A Modern Approach (Fourth Edition) 一書(計量經(jīng)濟學(xué)導(dǎo)論,第4版拭荤,杰弗里·M·伍德里奇 著)的附錄A茵臭。
分子得證
分母得證
有了上述推導(dǎo)證明,普通最小二乘法一般形式可以寫成(字母蓋小帽表示估計值舅世,具體參考應(yīng)用概率統(tǒng)計):
的普通最小二乘解為:
多元線性回歸求解過程
對于多元的情況旦委,需要使用矩陣運算來求解,先用矩陣表示:
其中雏亚,
目標(biāo)函數(shù):
如果要使上述目標(biāo)函數(shù)最小缨硝,顯然其結(jié)果為0,即:
也就是說:
最終獲得解:
可以看出罢低,對于一般的最小二乘法多元求解查辩,使用矩陣運算即可,都不需要迭代 网持。
此處不做證明宜肉,具體可參考《應(yīng)用概率統(tǒng)計》 張國權(quán)著 第九章 回歸分析
最小二乘法 VS 梯度下降法
通過上面推導(dǎo)可知,最小二乘法可以矩陣運算求解翎碑,這種方法十分方便快捷谬返,但這種方法不是萬能的,因為線性最小二乘的解是closed-form即 日杈,而非線性最小二乘沒有closed-form(即
沒有可逆矩陣)遣铝,這時候矩陣運算求解就行不通佑刷,這時候就可以通過迭代法(梯度下降法)求最優(yōu)解。
來具體說說這兩種方法的區(qū)別:
最小二乘法 | 梯度下降法 |
---|---|
不需要設(shè)置學(xué)習(xí)率 | 需要設(shè)置學(xué)習(xí)率 |
一次運算得出最優(yōu)解 | 需要多次迭代求解最優(yōu)解 |
矩陣求逆得復(fù)雜度時 |
維度較大時也適用 |
只適用于線性模型 | 適用性高,各種模型都可以使用 |
迭代法填硕,即在每一步update未知量逐漸逼近解麦萤,可以用于各種各樣的問題(包括最小二乘),比如求的不是誤差的最小平方和而是最小立方和扁眯。
梯度下降是迭代法的一種壮莹,可以用于求解最小二乘問題(線性和非線性都可以)。高斯-牛頓法是另一種經(jīng)常用于求解非線性最小二乘的迭代法(一定程度上可視為標(biāo)準(zhǔn)非線性最小二乘求解方法)姻檀。
還有一種叫做Levenberg-Marquardt的迭代法用于求解非線性最小二乘問題命满,就結(jié)合了梯度下降和高斯-牛頓法。
所以如果把最小二乘看做是優(yōu)化問題的話绣版,那么梯度下降是求解方法的一種胶台,是求解線性最小二乘的一種,高斯-牛頓法和Levenberg-Marquardt則能用于求解非線性最小二乘杂抽。
萊文貝格-馬夸特方法(Levenberg–Marquardt algorithm)能提供數(shù)非線性最小化(局部最姓┗!)的數(shù)值解。此算法能借由執(zhí)行時修改參數(shù)達(dá)到結(jié)合高斯-牛頓算法以及梯度下降法的優(yōu)點缩麸,并對兩者之不足作改善(比如高斯-牛頓算法之反矩陣不存在或是初始值離局部極小值太遠(yuǎn))
然后Levenberg-Marquardt方法的好處就是在于可以調(diào)節(jié):
如果下降太快铸磅,使用較小的λ,使之更接近高斯牛頓法
如果下降太慢匙睹,使用較大的λ,使之更接近梯度下降法