淺談最小二乘法

最小二乘法是回歸分析的一種標準方法忆绰,它通過最小化每個方程式結(jié)果中的殘差平方和來近似超定系統(tǒng)(方程組多于未知數(shù)的方程組)棘钞。

回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法稿湿。

最重要的應用是數(shù)據(jù)擬合。 最小二乘意義上的最佳擬合將殘差平方的總和最小化(殘差為:觀察值與模型提供的擬合值之間的差)。 當問題在自變量(x變量)中具有很大的不確定性時或粮,則簡單回歸和最小二乘法會出現(xiàn)問題幽歼。 在這種情況下朵锣,可以考慮擬合變量誤差模型所需的方法,而不是最小二乘法甸私。

最小二乘問題分為兩類:線性或普通最小二乘非線性最小二乘诚些,這取決于殘差在所有未知量中是否是線性的。線性最小二乘問題發(fā)生在統(tǒng)計回歸分析中皇型,它有解析解诬烹。非線性問題通常是通過迭代優(yōu)化來解決的,每次迭代系統(tǒng)都近似為線性系統(tǒng)犀被,因此兩種情況下的計算核心是相似的椅您。

多項式最小二乘法將因變量預測中的方差描述為自變量函數(shù)與擬合曲線的偏差。

當觀測值來自指數(shù)族且滿足溫和條件時寡键,最小二乘估計和最大似然估計是相同的掀泳。最小二乘法也可以由矩估計的方法導出。

下面的討論主要是以線性函數(shù)的形式提出的西轩,但是最小二乘法的使用對于更一般的函數(shù)族是有效和實用的员舵。同時,通過迭代地應用局部二次逼近似然(通過Fisher 信息)藕畔,最小二乘法可用于擬合廣義線性模型马僻。

最小二乘法通常歸功于卡爾·弗里德里希·高斯(Carl Friedrich Gauss注服,1795)韭邓,但它首先由阿德里安·瑪麗·勒讓德(Adrien Marie Legendre,1805)發(fā)表溶弟。

問題陳述

目標包括調(diào)整模型函數(shù)的參數(shù)以最適合數(shù)據(jù)集女淑。 一個簡單的數(shù)據(jù)集由n個點(數(shù)據(jù)對)(x_i,y_i),i=1,...,n組成,其中x_i是自變量辜御,y_i是由觀測值獲得的因變量鸭你。模型函數(shù)具有f(x,\beta),在向量\beta中保持m個可調(diào)參數(shù)。目的是為“最佳”擬合數(shù)據(jù)的模型找到參數(shù)值袱巨。 模型對數(shù)據(jù)點的擬合度通過其殘差來度量阁谆,殘差定義為因變量的實際值與模型預測的值之間的差:r_i=y_i-f(x_i,\beta),最小二乘法通過最小化殘差平方和S來尋找最佳參數(shù)值:S=\sum_{i=1}^nr^2_i愉老,二維模型的一個例子是直線模型场绿。y軸的截距表示為\beta_0,斜率為\beta_1嫉入,模型函數(shù)由f(x,\beta)=\beta_0+\beta_1x裳凸,請參見線性最小二乘法,以獲取該模型的完整示例劝贸。

一個數(shù)據(jù)點可以由多個自變量組成姨谷。例如,當將一個平面擬合到一組高度測量值時映九,平面是兩個自變量的函數(shù)梦湘,例如x和z。在最一般的情況下件甥,每個數(shù)據(jù)點可能有一個或多個自變量和一個或多個因變量捌议。

下圖是一個是一個殘差圖,說明了r_i=0的隨機波動引有,顯示了Y_i=\alpha+\beta x_i+U_i這個線性模型是合適的瓣颅,U_i是一個隨即獨立的變量。

img

如果殘差點具有某種形狀并且不是隨機波動的譬正,線性模型就不合適宫补。例如,如果殘差圖如右圖所示為拋物線形狀曾我,則為拋物線模型Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i對數(shù)據(jù)更加合適粉怕。拋物線模型的殘差可以通過r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i計算。

限制

這種回歸公式只考慮因變量中的觀測誤差(但是可替代的全最小二乘回歸可以解釋這兩個變量中的誤差)抒巢。有兩種截然不同的語境贫贝,具有不同的含義:

  • 回歸預測恒傻。這里對模型進行了擬合附井,以提供一個預測規(guī)則,用于擬合的數(shù)據(jù)所適用的類似情況下的應用雅采。在這里型诚,與這種未來應用相對應的因變量將受到與用于擬合的數(shù)據(jù)中相同類型的觀測誤差的影響客燕。因此,對這些數(shù)據(jù)使用最小二乘預測規(guī)則在邏輯上是一致的俺驶。

  • 回歸擬合“真實關系”幸逆。在用最小二乘法擬合的標準回歸分析中,有一個隱含的假設暮现,即自變量中的誤差為零或嚴格控制还绘,以至于可以忽略不計。當自變量中的誤差不可忽略時栖袋,可以使用測量誤差模型拍顷;這種方法可以導致參數(shù)估計假設檢驗置信區(qū)間塘幅,這些方法考慮到自變量中存在的觀測誤差昔案。另一種方法是用總最小二乘法擬合模型;這可以被看作是采取了一種務實的方法來平衡不同誤差源的影響电媳,從而形成一個用于模型擬合的目標函數(shù)踏揣。

解最小二乘問題

通過設置梯度為0求得平方和的最小值。因為模型包含m個參數(shù)匾乓,因此有m個梯度方程:
\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m
r_i=y_i-f(x_i ,\beta)捞稿,梯度方程可以推導為:
-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m
梯度方程適用于所有最小二乘問題。每一個問題都需要模型及其偏導數(shù)的特殊表達式拼缝。

線性最小二乘

當模型由參數(shù)的線性組合組成時娱局,回歸模型是線性模型,即:
f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)
式中\phi_j是x的函數(shù)咧七。
X_{ij}=\phi_j(x_i)衰齐,并將自變量和因變量轉(zhuǎn)換為矩陣X和Y,我們可以按以下方式計算最小二乘继阻,注意D是所有數(shù)據(jù)的集合耻涛。
L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta
通過將損失梯度設置為零并求解\vec{\beta},可以找到最小值瘟檩。
\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta
最后犬第,將損失的梯度設置為零,并求解\vec{\beta}芒帕,我們得到:
-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY

非線性最小二乘

在某些情況下非線性最小二乘問題有一個解析解歉嗓,但通常情況下是沒有的。在沒有解析解的情況下背蟆,用數(shù)值算法求出使目標最小化的參數(shù)?的值鉴分。大多數(shù)算法都涉及到參數(shù)的初始值的選擇。然后带膀,迭代地對參數(shù)進行細化志珍,即通過逐次逼近得到這些參數(shù):
\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j
式中,上標k是迭代數(shù)垛叨,增量\Delta \beta_j的向量伦糯,稱為位移向量。在一些常用算法中,每次迭代該模型都可以通過對\beta^k近似一階泰勒級數(shù)展開來線性化:
\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}
Jacobian矩陣J是常數(shù)敛纲、自變量和參數(shù)的函數(shù)喂击,因此它在每次迭代時都會改變。殘差由:
r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j
為最小化r_i的平方和淤翔,將梯度方程置為0翰绊,求解\Delta \beta_j
-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0
經(jīng)過重新排列,形成m個聯(lián)立線性方程組旁壮,正規(guī)方程組
\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)
正規(guī)方程用矩陣表示法寫成
(J^TJ)\Delta \beta = J^T \Delta y
這就是高斯牛頓法的定義公式监嗜。

線性最小二乘與非線性最小二乘的區(qū)別

  • 模型函數(shù)f在線性最小二乘LLSQ中是參數(shù)的線性組合形式f=X_{i1}\beta_1+X_{i2}\beta_2+...,該模型可以表示直線抡谐、拋物線或任何其他函數(shù)的線性組合裁奇。在非線性最小二乘NLLSQ中,參數(shù)以函數(shù)的形式表示麦撵,如\beta^2框喳,e^{\beta x}等。如果導數(shù)\partial f/ \partial \beta_j既不是常數(shù)也不是只依賴于自變量的值厦坛,模型的參數(shù)都是線性的五垮。否則模型是非線性的。
  • 求NLLSQ問題的解需要參數(shù)的初始值杜秸;LLSQ不需要放仗。
  • NLLSQ的求解算法通常要求雅可比矩陣的計算類似于LLSQ。偏導數(shù)的解析表達式可能很復雜撬碟。如果無法得到解析表達式诞挨,則必須通過數(shù)值近似計算偏導數(shù),或者必須估計雅可比矩陣呢蛤,通常是通過有限差分惶傻。
  • 在NLLSQ中,不收斂(算法無法找到最小值)是一種常見的現(xiàn)象其障。
  • LLSQ是全局凹的银室,所以不收斂不是問題。
  • 求解NLLSQ通常是一個迭代過程励翼,當滿足收斂準則時蜈敢,迭代過程必須終止。LLSQ解可以使用直接方法計算汽抚,盡管具有大量參數(shù)的問題通常使用迭代方法來解決抓狭,例如Gauss–Seidel方法。
  • 在LLSQ中造烁,解是唯一的否过,但在NLLSQ中午笛,平方和可能存在多個最小值。
  • 在誤差與預測變量不相關的情況下苗桂,LLSQ得到了無偏估計药磺,但即使在這種情況下,NLLSQ估計通常是有偏的誉察。

在尋求非線性最小二乘問題的解時,必須考慮這些差異惹谐。

統(tǒng)計學

為了對結(jié)果進行統(tǒng)計檢驗持偏,有必要對實驗誤差的性質(zhì)作出假設。通常的假設是誤差屬于正態(tài)分布氨肌。中心極限定理支持這樣的觀點:在許多情況下鸿秆,這是一個很好的近似。

  • 高斯-馬爾可夫定理怎囚。在誤差是獨立變量具有期望為零卿叽、不相關且方差相等的線性模型中,觀測值的任何線性組合的最佳線性無偏估計量是其最小二乘估計量恳守】加ぃ”最佳”是指參數(shù)的最小二乘估計具有最小方差。當誤差都屬于同一分布時催烘,等方差假設是有效的沥阱。
  • 在線性模型中,如果誤差屬于正態(tài)分布伊群,則最小二乘估計量也是最大似然估計量考杉。

然而,如果誤差不是正態(tài)分布的舰始,中心極限定理通常意味著只要樣本足夠大崇棠,參數(shù)估計就會近似正態(tài)分布。因此丸卷,鑒于誤差均值獨立于自變量這一重要性質(zhì)枕稀,誤差項的分布在回歸分析中不是一個重要問題。具體來說谜嫉,誤差項是否服從正態(tài)分布并不重要抽莱。

在具有單位權(quán)重的最小二乘法計算中,或在線性回歸中骄恶,第j個參數(shù)的方差Var(\hat \beta_j)食铐,通常估計為:
var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}
其中,真實誤差方差\sigma^2由基于目標函數(shù)平方和最小值的估計值代替僧鲁。分母虐呻,n?m象泵,是統(tǒng)計自由度;請參見有效自由度以獲取歸納斟叼。
如果參數(shù)的概率分布已知或漸近近似偶惠,則可以找到置信限。同樣朗涩,如果殘差的概率分布已知或假設忽孽,則可以對殘差進行統(tǒng)計檢驗。如果已知或假設實驗誤差的概率分布谢床,我們就可以導出因變量的任何線性組合的概率分布兄一。當假設誤差服從正態(tài)分布時,推斷很容易识腿,因此意味著參數(shù)估計和殘差也將是正態(tài)分布的出革,這取決于自變量的值。

加權(quán)最小二乘

當Ω(殘差的相關矩陣)的所有非對角項都為空時渡讼,廣義最小二乘法的一個特例稱為加權(quán)最小二乘法骂束;觀測值的方差(沿協(xié)方差矩陣對角線)可能仍然不相等(異方差)。更簡單地說成箫,異方差是當Y_i的方差取決于x_i的值展箱,這會導致殘差圖產(chǎn)生“扇出”效應,使其朝向更大的Y_i值蹬昌,如下側(cè)殘差圖所示析藕。另一方面,同構(gòu)性假設Y_i和的U_i方差相等凳厢。

img

與主成分之間的關系

關于一組點的平均值的第一個主成分可以用最接近數(shù)據(jù)點的那條線來表示(用最接近的距離的平方來測量账胧,即垂直于直線)。相比之下先紫,線性最小二乘法只嘗試最小化y方向上的距離治泥。因此,雖然二者使用相似的誤差度量遮精,但線性最小二乘法是一種優(yōu)先處理一維數(shù)據(jù)的方法居夹,而PCA則同等對待所有維度。

正則化

tikhonov 正則化

在某些情況下本冲,最小二乘解的正則化版本可能更可取准脂。Tikhonov正則化(或嶺回歸)添加了一個約束,即參數(shù)向量的L2范數(shù)\|\beta\|^2檬洞,即參數(shù)向量的L2范數(shù)狸膏,不大于給定值。它可以通過添加\alpha\|\beta\|^2添怔,其中\alpha是一個常數(shù)(這是約束問題的拉格朗日形式)湾戳。在貝葉斯背景下贤旷,這相當于在參數(shù)向量上放置一個零均值正態(tài)分布的先驗

Lasso method

最小二乘法的另一種正則化版本是Lasso(least absolute shrinkage and selection operator)砾脑,它使用\|\beta\|幼驶,參數(shù)向量的L1范數(shù),不大于給定值韧衣。(如上所述盅藻,這相當于通過添加懲罰項\alpha\|\beta\|對最小二乘法進行無約束最小化)。在貝葉斯背景下畅铭,這相當于在參數(shù)向量上放置一個零平均拉普拉斯 先驗分布氏淑。優(yōu)化問題可以使用二次規(guī)劃或更一般的凸優(yōu)化方法,以及由具體算法如最小角度回歸算法顶瞒。
Lasso 和嶺回歸的一個主要區(qū)別是夸政,在嶺回歸中元旬,隨著懲罰的增加榴徐,所有參數(shù)都會減少但仍然保持非零;而在Lasso中匀归,增加懲罰將導致越來越多的參數(shù)被驅(qū)動到零坑资。這是Lasso相對于嶺回歸的一個優(yōu)勢,因為驅(qū)動參數(shù)為零會從回歸中取消選擇特征穆端。因此袱贮,Lasso自動選擇更相關的特征并丟棄其他特征,而嶺回歸永遠不會完全丟棄任何特征体啰≡芪。基于LASSO開發(fā)了一些特征選擇技術(shù),包括引導樣本的Bolasso方法和分析不同\alpha值對應的回歸系數(shù)荒勇,對所有特征進行評分的FeaLect方法

L1正則化公式在某些情況下是有用的柒莉,因為它傾向于選擇更多參數(shù)為零的解,從而給出依賴較少變量的解沽翔。因此兢孝,Lasso及其變體是壓縮傳感領域的基礎。這種方法的一個擴展是彈性網(wǎng)絡正則化仅偎。

From Wikipedia, the free encyclopedia

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末跨蟹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子橘沥,更是在濱河造成了極大的恐慌窗轩,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,919評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件座咆,死亡現(xiàn)場離奇詭異品姓,居然都是意外死亡寝并,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評論 3 392
  • 文/潘曉璐 我一進店門腹备,熙熙樓的掌柜王于貴愁眉苦臉地迎上來衬潦,“玉大人,你說我怎么就攤上這事植酥《频海” “怎么了?”我有些...
    開封第一講書人閱讀 163,316評論 0 353
  • 文/不壞的土叔 我叫張陵友驮,是天一觀的道長漂羊。 經(jīng)常有香客問我,道長卸留,這世上最難降的妖魔是什么走越? 我笑而不...
    開封第一講書人閱讀 58,294評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮耻瑟,結(jié)果婚禮上旨指,老公的妹妹穿的比我還像新娘。我一直安慰自己喳整,他們只是感情好谆构,可當我...
    茶點故事閱讀 67,318評論 6 390
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著框都,像睡著了一般搬素。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上魏保,一...
    開封第一講書人閱讀 51,245評論 1 299
  • 那天熬尺,我揣著相機與錄音,去河邊找鬼谓罗。 笑死粱哼,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的妥衣。 我是一名探鬼主播皂吮,決...
    沈念sama閱讀 40,120評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼税手!你這毒婦竟也來了蜂筹?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,964評論 0 275
  • 序言:老撾萬榮一對情侶失蹤芦倒,失蹤者是張志新(化名)和其女友劉穎艺挪,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,376評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡麻裳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,592評論 2 333
  • 正文 我和宋清朗相戀三年口蝠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片津坑。...
    茶點故事閱讀 39,764評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡妙蔗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出疆瑰,到底是詐尸還是另有隱情眉反,我是刑警寧澤,帶...
    沈念sama閱讀 35,460評論 5 344
  • 正文 年R本政府宣布穆役,位于F島的核電站寸五,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏耿币。R本人自食惡果不足惜梳杏,卻給世界環(huán)境...
    茶點故事閱讀 41,070評論 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望淹接。 院中可真熱鬧十性,春花似錦、人聲如沸蹈集。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,697評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拢肆。三九已至,卻和暖如春靖诗,著一層夾襖步出監(jiān)牢的瞬間郭怪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,846評論 1 269
  • 我被黑心中介騙來泰國打工刊橘, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留鄙才,地道東北人。 一個月前我還...
    沈念sama閱讀 47,819評論 2 370
  • 正文 我出身青樓促绵,卻偏偏與公主長得像攒庵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子败晴,可洞房花燭夜當晚...
    茶點故事閱讀 44,665評論 2 354