淺談最小二乘法

最小二乘法是回歸分析的一種標準方法忆绰，它通過最小化每個方程式結(jié)果中的殘差平方和來近似超定系統(tǒng)（方程組多于未知數(shù)的方程組）棘钞。

回歸分析（regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法稿湿。

最重要的應用是數(shù)據(jù)擬合。最小二乘意義上的最佳擬合將殘差平方的總和最小化（殘差為：觀察值與模型提供的擬合值之間的差）。當問題在自變量（x變量）中具有很大的不確定性時或粮，則簡單回歸和最小二乘法會出現(xiàn)問題幽歼。在這種情況下朵锣，可以考慮擬合變量誤差模型所需的方法，而不是最小二乘法甸私。

最小二乘問題分為兩類：線性或普通最小二乘和非線性最小二乘诚些，這取決于殘差在所有未知量中是否是線性的。線性最小二乘問題發(fā)生在統(tǒng)計回歸分析中皇型，它有解析解诬烹。非線性問題通常是通過迭代優(yōu)化來解決的，每次迭代系統(tǒng)都近似為線性系統(tǒng)犀被，因此兩種情況下的計算核心是相似的椅您。

多項式最小二乘法將因變量預測中的方差描述為自變量函數(shù)與擬合曲線的偏差。

當觀測值來自指數(shù)族且滿足溫和條件時寡键，最小二乘估計和最大似然估計是相同的掀泳。最小二乘法也可以由矩估計的方法導出。

下面的討論主要是以線性函數(shù)的形式提出的西轩，但是最小二乘法的使用對于更一般的函數(shù)族是有效和實用的员舵。同時，通過迭代地應用局部二次逼近似然（通過Fisher 信息）藕畔，最小二乘法可用于擬合廣義線性模型马僻。

最小二乘法通常歸功于卡爾·弗里德里希·高斯（Carl Friedrich Gauss注服，1795）韭邓，但它首先由阿德里安·瑪麗·勒讓德（Adrien Marie Legendre，1805）發(fā)表溶弟。

問題陳述

目標包括調(diào)整模型函數(shù)的參數(shù)以最適合數(shù)據(jù)集女淑。一個簡單的數(shù)據(jù)集由n個點（數(shù)據(jù)對） $(x_i,y_i),i=1,...,n$ 組成，其中 $x_i$ 是自變量辜御， $y_i$ 是由觀測值獲得的因變量鸭你。模型函數(shù)具有 $f(x,\beta)$ ，在向量 $\beta$ 中保持m個可調(diào)參數(shù)。目的是為“最佳”擬合數(shù)據(jù)的模型找到參數(shù)值袱巨。模型對數(shù)據(jù)點的擬合度通過其殘差來度量阁谆，殘差定義為因變量的實際值與模型預測的值之間的差： $r_i=y_i-f(x_i,\beta)$ ，最小二乘法通過最小化殘差平方和S來尋找最佳參數(shù)值： $S=\sum_{i=1}^nr^2_i$ 愉老，二維模型的一個例子是直線模型场绿。y軸的截距表示為 $\beta_0$ ，斜率為 $\beta_1$ 嫉入，模型函數(shù)由 $f(x,\beta)=\beta_0+\beta_1x$ 裳凸，請參見線性最小二乘法，以獲取該模型的完整示例劝贸。

一個數(shù)據(jù)點可以由多個自變量組成姨谷。例如，當將一個平面擬合到一組高度測量值時映九，平面是兩個自變量的函數(shù)梦湘，例如x和z。在最一般的情況下件甥，每個數(shù)據(jù)點可能有一個或多個自變量和一個或多個因變量捌议。

下圖是一個是一個殘差圖，說明了 $r_i=0$ 的隨機波動引有，顯示了 $Y_i=\alpha+\beta x_i+U_i$ 這個線性模型是合適的瓣颅， $U_i$ 是一個隨即獨立的變量。

img

如果殘差點具有某種形狀并且不是隨機波動的譬正，線性模型就不合適宫补。例如，如果殘差圖如右圖所示為拋物線形狀曾我，則為拋物線模型 $Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i$ 對數(shù)據(jù)更加合適粉怕。拋物線模型的殘差可以通過 $r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i$ 計算。

限制

這種回歸公式只考慮因變量中的觀測誤差（但是可替代的全最小二乘回歸可以解釋這兩個變量中的誤差）抒巢。有兩種截然不同的語境贫贝，具有不同的含義：

回歸預測恒傻。這里對模型進行了擬合附井，以提供一個預測規(guī)則，用于擬合的數(shù)據(jù)所適用的類似情況下的應用雅采。在這里型诚，與這種未來應用相對應的因變量將受到與用于擬合的數(shù)據(jù)中相同類型的觀測誤差的影響客燕。因此，對這些數(shù)據(jù)使用最小二乘預測規(guī)則在邏輯上是一致的俺驶。
回歸擬合“真實關系”幸逆。在用最小二乘法擬合的標準回歸分析中，有一個隱含的假設暮现，即自變量中的誤差為零或嚴格控制还绘，以至于可以忽略不計。當自變量中的誤差不可忽略時栖袋，可以使用測量誤差模型拍顷；這種方法可以導致參數(shù)估計、假設檢驗和置信區(qū)間塘幅，這些方法考慮到自變量中存在的觀測誤差昔案。另一種方法是用總最小二乘法擬合模型；這可以被看作是采取了一種務實的方法來平衡不同誤差源的影響电媳，從而形成一個用于模型擬合的目標函數(shù)踏揣。

解最小二乘問題

通過設置梯度為0求得平方和的最小值。因為模型包含m個參數(shù)匾乓，因此有m個梯度方程：
$\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m$
由 $r_i=y_i-f(x_i ,\beta)$ 捞稿，梯度方程可以推導為：
$-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m$
梯度方程適用于所有最小二乘問題。每一個問題都需要模型及其偏導數(shù)的特殊表達式拼缝。

線性最小二乘

當模型由參數(shù)的線性組合組成時娱局，回歸模型是線性模型，即：
$f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)$
式中 $\phi_j$ 是x的函數(shù)咧七。
令 $X_{ij}=\phi_j(x_i)$ 衰齐，并將自變量和因變量轉(zhuǎn)換為矩陣X和Y，我們可以按以下方式計算最小二乘继阻，注意D是所有數(shù)據(jù)的集合耻涛。
$L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta$
通過將損失梯度設置為零并求解 $\vec{\beta}$ ，可以找到最小值瘟檩。
$\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta$
最后犬第，將損失的梯度設置為零，并求解 $\vec{\beta}$ 芒帕，我們得到：
$-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY$

非線性最小二乘

在某些情況下非線性最小二乘問題有一個解析解歉嗓，但通常情況下是沒有的。在沒有解析解的情況下背蟆，用數(shù)值算法求出使目標最小化的參數(shù)?的值鉴分。大多數(shù)算法都涉及到參數(shù)的初始值的選擇。然后带膀，迭代地對參數(shù)進行細化志珍，即通過逐次逼近得到這些參數(shù)：
$\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j$
式中，上標k是迭代數(shù)垛叨，增量 $\Delta \beta_j$ 的向量伦糯，稱為位移向量。在一些常用算法中，每次迭代該模型都可以通過對 $\beta^k$ 近似一階泰勒級數(shù)展開來線性化：
$\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}$
Jacobian矩陣J是常數(shù)敛纲、自變量和參數(shù)的函數(shù)喂击，因此它在每次迭代時都會改變。殘差由：
$r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j$
為最小化 $r_i$ 的平方和淤翔，將梯度方程置為0翰绊，求解 $\Delta \beta_j$ ：
$-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0$
經(jīng)過重新排列，形成m個聯(lián)立線性方程組旁壮，正規(guī)方程組：
$\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)$
正規(guī)方程用矩陣表示法寫成
$(J^TJ)\Delta \beta = J^T \Delta y$
這就是高斯牛頓法的定義公式监嗜。

線性最小二乘與非線性最小二乘的區(qū)別

模型函數(shù)f在線性最小二乘LLSQ中是參數(shù)的線性組合形式 $f=X_{i1}\beta_1+X_{i2}\beta_2+...$ ，該模型可以表示直線抡谐、拋物線或任何其他函數(shù)的線性組合裁奇。在非線性最小二乘NLLSQ中，參數(shù)以函數(shù)的形式表示麦撵，如 $\beta^2框喳，e^{\beta x}$ 等。如果導數(shù) $\partial f/ \partial \beta_j$ 既不是常數(shù)也不是只依賴于自變量的值厦坛，模型的參數(shù)都是線性的五垮。否則模型是非線性的。
求NLLSQ問題的解需要參數(shù)的初始值杜秸；LLSQ不需要放仗。
NLLSQ的求解算法通常要求雅可比矩陣的計算類似于LLSQ。偏導數(shù)的解析表達式可能很復雜撬碟。如果無法得到解析表達式诞挨，則必須通過數(shù)值近似計算偏導數(shù)，或者必須估計雅可比矩陣呢蛤，通常是通過有限差分惶傻。
在NLLSQ中，不收斂（算法無法找到最小值）是一種常見的現(xiàn)象其障。
LLSQ是全局凹的银室，所以不收斂不是問題。
求解NLLSQ通常是一個迭代過程励翼，當滿足收斂準則時蜈敢，迭代過程必須終止。LLSQ解可以使用直接方法計算汽抚，盡管具有大量參數(shù)的問題通常使用迭代方法來解決抓狭，例如Gauss–Seidel方法。
在LLSQ中造烁，解是唯一的否过，但在NLLSQ中午笛，平方和可能存在多個最小值。
在誤差與預測變量不相關的情況下苗桂，LLSQ得到了無偏估計药磺，但即使在這種情況下，NLLSQ估計通常是有偏的誉察。

在尋求非線性最小二乘問題的解時，必須考慮這些差異惹谐。

統(tǒng)計學

為了對結(jié)果進行統(tǒng)計檢驗持偏，有必要對實驗誤差的性質(zhì)作出假設。通常的假設是誤差屬于正態(tài)分布氨肌。中心極限定理支持這樣的觀點：在許多情況下鸿秆，這是一個很好的近似。

高斯-馬爾可夫定理怎囚。在誤差是獨立變量具有期望為零卿叽、不相關且方差相等的線性模型中，觀測值的任何線性組合的最佳線性無偏估計量是其最小二乘估計量恳守】加ぃ”最佳”是指參數(shù)的最小二乘估計具有最小方差。當誤差都屬于同一分布時催烘，等方差假設是有效的沥阱。
在線性模型中，如果誤差屬于正態(tài)分布伊群，則最小二乘估計量也是最大似然估計量考杉。

然而，如果誤差不是正態(tài)分布的舰始，中心極限定理通常意味著只要樣本足夠大崇棠，參數(shù)估計就會近似正態(tài)分布。因此丸卷，鑒于誤差均值獨立于自變量這一重要性質(zhì)枕稀，誤差項的分布在回歸分析中不是一個重要問題。具體來說谜嫉，誤差項是否服從正態(tài)分布并不重要抽莱。

在具有單位權(quán)重的最小二乘法計算中，或在線性回歸中骄恶，第j個參數(shù)的方差 $Var(\hat \beta_j)$ 食铐，通常估計為：
$var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}$
其中，真實誤差方差 $\sigma^2$ 由基于目標函數(shù)平方和最小值的估計值代替僧鲁。分母虐呻，n?m象泵，是統(tǒng)計自由度；請參見有效自由度以獲取歸納斟叼。
如果參數(shù)的概率分布已知或漸近近似偶惠，則可以找到置信限。同樣朗涩，如果殘差的概率分布已知或假設忽孽，則可以對殘差進行統(tǒng)計檢驗。如果已知或假設實驗誤差的概率分布谢床，我們就可以導出因變量的任何線性組合的概率分布兄一。當假設誤差服從正態(tài)分布時，推斷很容易识腿，因此意味著參數(shù)估計和殘差也將是正態(tài)分布的出革，這取決于自變量的值。

加權(quán)最小二乘

當Ω（殘差的相關矩陣）的所有非對角項都為空時渡讼，廣義最小二乘法的一個特例稱為加權(quán)最小二乘法骂束；觀測值的方差（沿協(xié)方差矩陣對角線）可能仍然不相等（異方差）。更簡單地說成箫，異方差是當 $Y_i$ 的方差取決于 $x_i$ 的值展箱，這會導致殘差圖產(chǎn)生“扇出”效應，使其朝向更大的 $Y_i$ 值蹬昌，如下側(cè)殘差圖所示析藕。另一方面，同構(gòu)性假設 $Y_i$ 和的 $U_i$ 方差相等凳厢。

img

與主成分之間的關系

關于一組點的平均值的第一個主成分可以用最接近數(shù)據(jù)點的那條線來表示（用最接近的距離的平方來測量账胧，即垂直于直線）。相比之下先紫，線性最小二乘法只嘗試最小化 $y$ 方向上的距離治泥。因此，雖然二者使用相似的誤差度量遮精，但線性最小二乘法是一種優(yōu)先處理一維數(shù)據(jù)的方法居夹，而PCA則同等對待所有維度。

正則化

tikhonov 正則化

在某些情況下本冲，最小二乘解的正則化版本可能更可取准脂。Tikhonov正則化（或嶺回歸）添加了一個約束，即參數(shù)向量的L2范數(shù) $\|\beta\|^2$ 檬洞，即參數(shù)向量的L2范數(shù)狸膏，不大于給定值。它可以通過添加 $\alpha\|\beta\|^2$ 添怔，其中 $\alpha$ 是一個常數(shù)（這是約束問題的拉格朗日形式）湾戳。在貝葉斯背景下贤旷，這相當于在參數(shù)向量上放置一個零均值正態(tài)分布的先驗。

Lasso method

最小二乘法的另一種正則化版本是Lasso（least absolute shrinkage and selection operator）砾脑，它使用 $\|\beta\|$ 幼驶，參數(shù)向量的L1范數(shù)，不大于給定值韧衣。（如上所述盅藻，這相當于通過添加懲罰項 $\alpha\|\beta\|$ 對最小二乘法進行無約束最小化）。在貝葉斯背景下畅铭，這相當于在參數(shù)向量上放置一個零平均拉普拉斯先驗分布氏淑。優(yōu)化問題可以使用二次規(guī)劃或更一般的凸優(yōu)化方法，以及由具體算法如最小角度回歸算法顶瞒。
Lasso 和嶺回歸的一個主要區(qū)別是夸政，在嶺回歸中元旬，隨著懲罰的增加榴徐，所有參數(shù)都會減少但仍然保持非零；而在Lasso中匀归，增加懲罰將導致越來越多的參數(shù)被驅(qū)動到零坑资。這是Lasso相對于嶺回歸的一個優(yōu)勢，因為驅(qū)動參數(shù)為零會從回歸中取消選擇特征穆端。因此袱贮，Lasso自動選擇更相關的特征并丟棄其他特征，而嶺回歸永遠不會完全丟棄任何特征体啰≡芪。基于LASSO開發(fā)了一些特征選擇技術(shù)，包括引導樣本的Bolasso方法和分析不同 $\alpha$ 值對應的回歸系數(shù)荒勇，對所有特征進行評分的FeaLect方法

L1正則化公式在某些情況下是有用的柒莉，因為它傾向于選擇更多參數(shù)為零的解，從而給出依賴較少變量的解沽翔。因此兢孝，Lasso及其變體是壓縮傳感領域的基礎。這種方法的一個擴展是彈性網(wǎng)絡正則化仅偎。

From Wikipedia, the free encyclopedia