普通最小二乘法的推導(dǎo)證明

在統(tǒng)計學(xué)中,普通最小二乘法(Ordinary Least Squares,OLS)是一種用于在線性回歸模型中估計未知參數(shù)的線性最小二乘法檀夹。 OLS通過最小二乘法原則選擇一組解釋變量的線性函數(shù)的參數(shù):最小化給定數(shù)據(jù)集中觀察到的因變量(被預(yù)測變量的值)與預(yù)測變量之間殘差的平方和。

一元線性回歸求解過程

我們先以一元線性模型為例來說明。

假設(shè)有一組數(shù)據(jù)X=\{({{x}_{1}},{{y}_{1}},\cdots ,({{x}_{m}},{{y}_{m}})\}前痘,我們希望求出對應(yīng)的一元線性模型來擬合這一組數(shù)據(jù):

y={{\beta }_{0}}+{{\beta }_{1}}x
既然要擬合,總要有一個擬合程度高低的判斷標(biāo)準(zhǔn)担忧,上文說到芹缔,最小二乘法中使用的就是誤差平方和方法,所以瓶盛,這時候損失函數(shù)最欠,或者說我們的目標(biāo)函數(shù)就是:

J(\beta )=\sum\limits_{i=0}^{m}{{{({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})}^{2}}}
有了這個目標(biāo)函數(shù)示罗,我們要做的就是求出{{\beta }_{0}}{{\beta }_{1}}使得J(\beta )最小,在這里就是極小值芝硬。

求極值的一個很好的方法就是求導(dǎo)蚜点,在這里因為有多個參數(shù),所以吵取,我們要分別對{{\beta }_{0}}{{\beta }_{1}}求偏導(dǎo):
\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-{{x}_{i}})}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+{{\beta }_{0}}{{x}_{i}}-{{x}_{i}}{{y}_{i}})}

\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-1)}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}{{x}_{i}}+{{\beta }_{0}}-{{y}_{i}})(-1)}=2(m{{\beta }_{1}}\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m}+m{{\beta }_{0}}-m\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m})

因為\bar{x}=\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m},\bar{y}=\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m}, 所以禽额,上面第二個,也就是對{{\beta }_{0}}的偏導(dǎo)可以轉(zhuǎn)化為:
\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})

我們知道皮官,目標(biāo)函數(shù)取得極值時脯倒,偏導(dǎo)一定是等于0的,所以捺氢,我們令\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}等于0藻丢,于是有:
2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})=0

{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}

接著,我們繼續(xù)回到上面第一個偏導(dǎo)摄乒,也就是對{{\beta }_{1}}的偏導(dǎo)\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}悠反,令\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=0,并將{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}代入馍佑,得:
2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+(\bar{y}-{{\beta }_{1}}\bar{x}){{x}_{i}}-{{x}_{i}}{{y}_{i}})}=0

{\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i}

根據(jù)求和性質(zhì)可得:
{\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i} = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}
求和性質(zhì):

求和性質(zhì)斋否,具體可以參考Introductory Econometrics A Modern Approach (Fourth Edition) 一書(計量經(jīng)濟學(xué)導(dǎo)論,第4版拭荤,杰弗里·M·伍德里奇 著)的附錄A茵臭。
\begin{aligned} &\sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)\\ &=\sum_{i=1}^{m}\left(x_{i} y_{i}-x_{i} \bar{y}-\bar{x} y_{i}+\bar{x} \bar{y}\right)\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\sum_{i=1}^{m} x_{i} \bar{y}-\sum_{i=1}^{m} \bar{x} y_{i}+\sum_{i=1}^{m} \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-m \bar{x} \bar{y}-m \bar{x} \bar{y}+m \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \end{aligned}

分子得證

\sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2}=\sum_{i=1}^{m}\left(x_{i}^{2}-2 x_{i} \bar{x}+\bar{x}^{2}\right) \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 \bar{x} \sum_{i=1}^{m} x_{i}+\sum_{i=1}^{m} \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 m \bar{x}^{2}+m \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-m \bar{x}^{2}=\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}

分母得證

有了上述推導(dǎo)證明,普通最小二乘法一般形式可以寫成(字母蓋小帽表示估計值舅世,具體參考應(yīng)用概率統(tǒng)計):

y = \beta_1 x + \beta_0 的普通最小二乘解為:
{\beta}_1 = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}

{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}

多元線性回歸求解過程

對于多元的情況旦委,需要使用矩陣運算來求解,先用矩陣表示:
X\beta =y

其中雏亚,
X=\left[ \begin{matrix} 1 & {{x}_{12}} & \cdots & {{x}_{1n}} \\ 1 & {{x}_{22}} & \cdots & {{x}_{2n}} \\ \cdots & \cdots & \cdots & \cdots \\ 1 & {{x}_{m2}} & \cdots & {{x}_{mn}} \\ \end{matrix} \right],\beta =\left[ \begin{matrix} {{\beta }_{0}} \\ {{\beta }_{1}} \\ \cdots \\ {{\beta }_{n}} \\ \end{matrix} \right],y=\left[ \begin{matrix} {{y}_{1}} \\ \cdots \\ {{y}_{m}} \\ \end{matrix} \right]
目標(biāo)函數(shù):
J(\beta )={{\sum\limits_{i=1}^{m}{\left| {{y}_{i}}-\sum\limits_{j=1}^{n}{{{x}_{ij}}{{\beta }_{j}}} \right|}}^{2}}={{\left\| y-X{{\beta }^{T}} \right\|}^{2}}
如果要使上述目標(biāo)函數(shù)最小缨硝,顯然其結(jié)果為0,即:
y- {X} {\beta}^T = 0
也就是說:
{X}\beta^T = y \\ {X}^T {X} \beta^T = {X}^Ty \\ ( {X}^T {X})^{-1} {X}^T{X} \beta^T = ( {X}^T {X})^{-1} {X}^T y \\ {\beta}^T = ( {X}^T {X})^{-1} {X}^Ty

最終獲得解:
{{\beta }^{T}}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}y
可以看出罢低,對于一般的最小二乘法多元求解查辩,使用矩陣運算即可,都不需要迭代 网持。

此處不做證明宜肉,具體可參考《應(yīng)用概率統(tǒng)計》 張國權(quán)著 第九章 回歸分析

最小二乘法 VS 梯度下降法

通過上面推導(dǎo)可知,最小二乘法可以矩陣運算求解翎碑,這種方法十分方便快捷谬返,但這種方法不是萬能的,因為線性最小二乘的解是closed-form即 x=(A^TA)^{-1}A^Tb日杈,而非線性最小二乘沒有closed-form(即 (A^TA)沒有可逆矩陣)遣铝,這時候矩陣運算求解就行不通佑刷,這時候就可以通過迭代法(梯度下降法)求最優(yōu)解。

來具體說說這兩種方法的區(qū)別:

最小二乘法 梯度下降法
不需要設(shè)置學(xué)習(xí)率 需要設(shè)置學(xué)習(xí)率
一次運算得出最優(yōu)解 需要多次迭代求解最優(yōu)解
矩陣求逆得復(fù)雜度時O(n^3),所以數(shù)據(jù)維度越大酿炸,效率越低瘫絮,甚至不可接受 維度較大時也適用
只適用于線性模型 適用性高,各種模型都可以使用

迭代法填硕,即在每一步update未知量逐漸逼近解麦萤,可以用于各種各樣的問題(包括最小二乘),比如求的不是誤差的最小平方和而是最小立方和扁眯。

梯度下降是迭代法的一種壮莹,可以用于求解最小二乘問題(線性和非線性都可以)。高斯-牛頓法是另一種經(jīng)常用于求解非線性最小二乘的迭代法(一定程度上可視為標(biāo)準(zhǔn)非線性最小二乘求解方法)姻檀。

還有一種叫做Levenberg-Marquardt的迭代法用于求解非線性最小二乘問題命满,就結(jié)合了梯度下降和高斯-牛頓法。

所以如果把最小二乘看做是優(yōu)化問題的話绣版,那么梯度下降是求解方法的一種胶台,x=(A^TA)^{-1}A^Tb是求解線性最小二乘的一種,高斯-牛頓法和Levenberg-Marquardt則能用于求解非線性最小二乘杂抽。

萊文貝格-馬夸特方法(Levenberg–Marquardt algorithm)能提供數(shù)非線性最小化(局部最姓┗!)的數(shù)值解。此算法能借由執(zhí)行時修改參數(shù)達(dá)到結(jié)合高斯-牛頓算法以及梯度下降法的優(yōu)點缩麸,并對兩者之不足作改善(比如高斯-牛頓算法之反矩陣不存在或是初始值離局部極小值太遠(yuǎn))

然后Levenberg-Marquardt方法的好處就是在于可以調(diào)節(jié):

如果下降太快铸磅,使用較小的λ,使之更接近高斯牛頓法

如果下降太慢匙睹,使用較大的λ,使之更接近梯度下降法

歡迎關(guān)注微信公眾號
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末济竹,一起剝皮案震驚了整個濱河市痕檬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌送浊,老刑警劉巖梦谜,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異袭景,居然都是意外死亡唁桩,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門耸棒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荒澡,“玉大人,你說我怎么就攤上這事与殃〉ド剑” “怎么了碍现?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長米奸。 經(jīng)常有香客問我昼接,道長,這世上最難降的妖魔是什么悴晰? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任慢睡,我火速辦了婚禮,結(jié)果婚禮上铡溪,老公的妹妹穿的比我還像新娘漂辐。我一直安慰自己,他們只是感情好佃却,可當(dāng)我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布姜钳。 她就那樣靜靜地躺著,像睡著了一般是掰。 火紅的嫁衣襯著肌膚如雪丽啡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天灶泵,我揣著相機與錄音育八,去河邊找鬼。 笑死赦邻,一個胖子當(dāng)著我的面吹牛髓棋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播惶洲,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼按声,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了恬吕?” 一聲冷哼從身側(cè)響起签则,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎铐料,沒想到半個月后渐裂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡钠惩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年柒凉,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篓跛。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡膝捞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出愧沟,到底是詐尸還是另有隱情绑警,我是刑警寧澤求泰,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站计盒,受9級特大地震影響渴频,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜北启,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一卜朗、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧咕村,春花似錦场钉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至批钠,卻和暖如春宇植,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背埋心。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工指郁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人拷呆。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓闲坎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親茬斧。 傳聞我的和親對象是個殘疾皇子腰懂,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容