ESL 3: Linear Methods for Regression

一個線性回歸模型假設(shè)回歸函數(shù) E(Y|X) 對于輸入 X 是線性的坷虑。
它的優(yōu)勢在于:

  • 簡單
  • 能夠表示每個輸入對輸出的影響
  • 輸入可以進行變換
  • 他們有時候比復(fù)雜的方法更精準(zhǔn)鲸沮,尤其是在樣本數(shù)量少、低信噪比或者稀疏矩陣的情形赔蒲。

3.2 Linear Regression Models and Least Squares

p 維線性回歸模型形式如下:

f(X) = \beta_0 + \sum_{j=1}^p X_j \beta_j

我們需要估計一組參數(shù) \beta,使殘差平方和(Residual Sum of Squares)最小:

\begin{align} \text{RSS}(\boldsymbol{\beta}) &= (\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} )^T(\boldsymbol{y} - \boldsymbol{X}\boldsymbol{\beta} ) \\ &= \boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{y}^T\boldsymbol{X}\boldsymbol{\beta} - \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{y} + \boldsymbol{\beta}^T\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{\beta} \end{align}

其中琼牧,\boldsymbol{X} 是一個 N \times (p+1) 矩陣,\boldsymbol{y}N \times 1 觀測值哀卫。

\beta 求導(dǎo)可以得到:

\frac{\partial \text{RSS}(\beta)}{\partial \beta} = -2 \boldsymbol{X}^T\boldsymbol{y} + 2\boldsymbol{X}^T\boldsymbol{X} \boldsymbol{\beta}

由于二階導(dǎo)數(shù)正定巨坊,令一階導(dǎo)數(shù)為 0 向量,得出極值點(即估計值):

\hat{\beta}= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

\hat{\boldsymbol{y}} = \boldsymbol{X} \hat{\beta} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}

我們稱 \boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 為估計矩陣("hat" matrix)此改,它滿足對稱性和冪等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

當(dāng) \boldsymbol{X} 中某些列線性相關(guān)(即非滿秩矩陣)時趾撵,(\boldsymbol{X}^T\boldsymbol{X}) 是奇異矩陣,它只能求廣義逆矩陣共啃,不止一個解占调。因此,我們需要將冗余的輸入剔除掉移剪,大部分求解軟件都實現(xiàn)了這個功能妈候。

估計參數(shù)的統(tǒng)計特性

為了確定估計的參數(shù) \boldsymbol{\hat{\beta}} 的統(tǒng)計特性,我們假設(shè):

  • 每個觀測值 y_i 相互獨立
  • y_i有固定的噪聲 \varepsilon \sim N(0, \sigma^2)

那么估計值 \hat{\beta} 的方差為:

\text{Var}(\hat{\beta}) = (\boldsymbol{X}^T\boldsymbol{X})^{-1} \sigma^2

where :

\hat{\sigma}^2 = \frac{\text{RSS}}{N-p-1}= \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

證明

N 個 y 的觀測值可以表示為:

\boldsymbol{y} = \boldsymbol{X}\beta + \boldsymbol{\varepsilon}

其中 \boldsymbol{\varepsilon}N \times 1 的噪聲挂滓。因此有:
\begin{align} \hat{\beta} &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y} \\ &= \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon} \end{align}

無偏性(期望值為 \beta):
E(\hat{\beta}) = \beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}) = \beta

協(xié)方差矩陣(注意是\beta \beta^T 而非 \beta^T \beta苦银,是一個矩陣):

\begin{align} \text{Var}(\hat{\beta}) &= E[(\beta - \hat{\beta})(\beta - \hat{\beta})^T] \\ &=E[(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T\boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}] \\ &= (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T E(\boldsymbol{\varepsilon}\boldsymbol{\varepsilon}^T) \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T \boldsymbol{I} \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1} \\ &= \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1} \end{align}

可以得到:

\hat{\beta} \sim N(\beta, \sigma^2 (\boldsymbol{X}^T\boldsymbol{X})^{-1})

下面來確定 \sigma^2

我們可以通過觀測值 y 和預(yù)測值 \hat{y} 的差來得到噪聲 \varepsilon赶站。

\begin{align} \boldsymbol{y - \hat{y}} &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} -\boldsymbol{X}\hat{\beta} \\ &= \boldsymbol{X}\beta + \boldsymbol{\varepsilon} - \boldsymbol{X}(\beta + (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{\varepsilon}) \\ &= (\boldsymbol{I -H} )\boldsymbol{\varepsilon} \end{align}

\begin{align} \sum_{i=1}^N(y_i - \hat{y_i})^2 &= (\boldsymbol{y - \hat{y}})^T (\boldsymbol{y - \hat{y}}) \\ &= \boldsymbol{\varepsilon}^T(\boldsymbol{I - H}) \boldsymbol{\varepsilon} \\ &= \sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} \end{align}

其期望值為:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= E[\sum_{k =1}^N \varepsilon_k^2- \sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij} ] \\ &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \end{align}

由于 \varepsilon_i, \varepsilon_j 是獨立的幔虏,當(dāng) i \neq j 時:
\text{Cov}(\varepsilon_i, \varepsilon_j) = E(\varepsilon_i \varepsilon_j) - E(\varepsilon_i)E(\varepsilon_j) = 0

因此:
\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= N\sigma^2 - E(\sum_{i, j = 1}^N \varepsilon_i \varepsilon_j H_{ij}) \\ &= N\sigma^2 - E(\sum_{i=1}^{N}\varepsilon_i^2H_{ii}) \\ &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \end{align}

這里再利用公式:
\text{trace}(ABC) = \text{trace}(CAB)

得到:

\begin{align} E[\sum_{i=1}^N(y_i - \hat{y_i})^2] &= \sigma^2[N - \text{trace}(\boldsymbol{H})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X(X^TX)^{-1}X^T})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{X^TX(X^TX)^{-1}}_{(p+1) \times (p+1)})] \\ &= \sigma^2[N - \text{trace}(\boldsymbol{I}_{(p+1) \times (p+1)})] \\ &= \sigma^2(N - p -1) \end{align}

因此,對 \sigma^2 的無偏估計就是:

\hat{\sigma}^2 = \frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

模型誤差的統(tǒng)計特性

由于我們對第 i 個樣本的噪聲 \varepsilon_i 無偏估計就是 \hat{\varepsilon_i} = y_i - \hat{y_i}贝椿,我們計算其方差:

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}(\boldsymbol{y} - \hat{\boldsymbol{y}}) \\ &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \end{align}

由于 D(AX) = AD(X)A^T

\begin{align} \text{Var}(\hat{\boldsymbol{\varepsilon}}) &= \text{Var}[(\boldsymbol{I} - \boldsymbol{H}){\boldsymbol{\varepsilon}}] \\ &= (\boldsymbol{I} - \boldsymbol{H}) \text{Var}(\boldsymbol{\varepsilon}) (\boldsymbol{I} - \boldsymbol{H}) \end{align}

由于 \varepsilon \sim N(0, \sigma^2)想括,因此:

\text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{I}_{N \times N}

\boldsymbol{H} = \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T 滿足對稱性和冪等性:

\boldsymbol{H}^T = \boldsymbol{H}

\boldsymbol{H}^T\boldsymbol{H} = \boldsymbol{H}

因此有結(jié)論:

\text{Var}(\hat{\boldsymbol{\varepsilon}}) = \sigma^2 (\boldsymbol{I} - \boldsymbol{X}(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T)

顯著性分析

當(dāng)我們判斷哪些參數(shù)可以忽略以降低模型復(fù)雜度時,我們可以使用 F-statistic 進行顯著性分析烙博。假設(shè)我們將 \beta 維度從 p_1 + 1 降低到 p_0 + 1

F = \frac{(\text{RSS}_0 - \text{RSS}_1) / (p_1 - p_0)}{\text{RSS}_1 / (N- p_1 -1)}

F-statistic 描述了每個被忽略的參數(shù)對 RSS 的平均貢獻瑟蜈,用 \hat{\sigma}^2 進行了 normalize烟逊。

當(dāng) p_1 - p_0 =1 即僅去掉一個參數(shù)時(假設(shè) \beta_j = 0),該公式可以簡化為對應(yīng)的 z-score 的平方铺根,其中 z-score 為:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

證明

這個證明同時也是習(xí)題 3.1

Ex. 3.1 Show that the F statistic (3.13) for dropping a single coefficient from a model is equal to the square of the corresponding z-score (3.12).

實際上我們需要證明宪躯,在去掉模型的第 j 個參數(shù)后:

\text{RSS}_0 - \text{RSS}_1 = \frac{\hat{\beta}_j^2}{v_j}

上式中唯一未知的就是 \text{RSS}_0,它實質(zhì)上是求一個帶約束的優(yōu)化問題:

\begin{align} \min_{\beta \in \mathbb{R}^{(p+1) \times 1}} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) \\ \text{s.t.} ~\beta_j = 0 \end{align}

我們可以用拉格朗日乘子法來解決位迂。

L(\beta, \lambda) = (\textbf{y} - \textbf{X}\beta)^T(\textbf{y}-\textbf{X}\beta) + \lambda e_j^T \beta

\beta 求導(dǎo)访雪,并令導(dǎo)數(shù)為 0,有:

\frac{\partial L(\beta, \lambda)}{\partial \beta} = - 2\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda e_j = 0

解出:

\begin{align} \beta_0 &= (\textbf{X}^T\textbf{X})^{-1} \textbf{X}^T\textbf{y} - \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}- \frac{\lambda}{2}(\textbf{X}^T \textbf{X})^{-1} e_j \end{align}

等式兩邊乘以 e_j^T掂林,并帶入\beta_j = 0臣缀,有:
\begin{align} e_j^T\beta_0 = 0 &= e_j^T \hat{\beta} + \frac{\lambda}{2} e_j^T(\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \hat{\beta}_j + \frac{\lambda}{2}v_j \end{align}

因此有:
\lambda = - \frac{2\hat{\beta}_j}{v_j}

帶入可得:
\begin{align} \text{RSS}_0 &= (\textbf{y} - \textbf{X}\beta_0)^T(\textbf{y}-\textbf{X}\beta_0) \\ &= (\textbf{y} - \textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)^T(\textbf{y}-\textbf{X}\hat{\beta} + \frac{\lambda}{2}\textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j) \\ &= \text{RSS}_1 + \frac{\lambda}{2} [e_j^T(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) + (\textbf{y} - \textbf{X}\hat{\beta})^T \textbf{X}(\textbf{X}^T \textbf{X})^{-1} e_j)] \\ &~~~~ + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\lambda^2}{4}e_j^T (\textbf{X}^T \textbf{X})^{-1} e_j \\ &= \text{RSS}_1 + \frac{\hat{\beta}_j^2}{v_j} \end{align}

其中,中間項可以消去的原因是:

\textbf{X}^T(\textbf{y} - \textbf{X}\hat{\beta}) = \textbf{X}^T[\textbf{y} - \textbf{X}(\textbf{X}^T \textbf{X})^{-1}\textbf{X}^T\textbf{y}] = 0

直觀理解泻帮,\textbf{X}\textbf{y} - \textbf{X}\hat{\beta} 是正交的精置,因為 \textbf{X}\hat{\beta} 正是 \textbf{y}\textbf{X} 所在平面上的投影。

3.2.2 The Gauss–Markov Theorem

最小二乘法得出的 \beta 在所有線性無偏估計中均方誤差最小锣杂。當(dāng)然脂倦,如果我們愿意為了進一步減小誤差引入一點 bias,完全可能找到一個更小均方誤差的有偏估計蹲堂。

the least squares estimates of the parameters β have the smallest variance among all linear unbiased estimates

現(xiàn)在我們來證明這個結(jié)論狼讨。對于線性估計:
\boldsymbol{y} = \boldsymbol{X}\beta
\boldsymbol{y} 中的每一個元素都可以看作 \boldsymbol{X} 中的一行與向量 \beta 的線性組合贝淤。

無偏性

那么柒竞,針對無偏性,我們需要證明最小二乘法估計出的 \hat{\beta} 滿足:

E(\alpha^T \hat{\beta}) = \alpha^T\beta

其中 \alpha 是任意向量播聪。

\begin{align} E(\alpha^T \hat{\beta}) &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}) \\ &= E(\alpha^T (\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{X} \beta) \\ &= \alpha^T \beta \end{align}

均方誤差最小

Gauss–Markov theorem 指出朽基,如果還存在其他線性估計 c^T \boldsymbol{y} 滿足:
E(c^T \boldsymbol{y}) = \alpha^T\beta
那么必然有:

\text{Var}(\alpha^T \hat{\beta}) \leq \text{Var}(c^T \boldsymbol{y})

證明:

TBD

3.3 Subset Selection

最小二乘法的兩個主要問題:

  • 預(yù)測精度。雖然它是無偏的离陶,但是方差很大稼虎。如果我們忽略一部分模型參數(shù),雖然會變成有偏估計招刨,但是可能會極大提高精度霎俩。
  • 可解釋性(即模型復(fù)雜度)。當(dāng)模型參數(shù)很多時沉眶,我們想去確定一小部分具有最大影響的模型參數(shù)打却,為此我們愿意犧牲一部分無關(guān)緊要的參數(shù)。

因此谎倔,我們需要選取變量子集柳击,即“model selection”。

3.3.1 Best-Subset Selection

最佳子集是指從所有具有 k (k <= p) 個變量的子集中片习,RSS 最小的那個捌肴。

當(dāng)然蹬叭,最簡單的方式就是從遍歷所有的組合。這樣做的復(fù)雜度是 2^p状知,只適用于小規(guī)模的問題秽五。

3.3.2 Forward- and Backward-Stepwise Selection

“前向逐步選擇”是一種貪心算法。它按順序加入最能提高擬合度的參數(shù)试幽。它雖然不一定找到最優(yōu)解筝蚕,但是它優(yōu)勢在于:

  • 運算量小。當(dāng)維度 p >= 40 時铺坞,幾乎無法算出最優(yōu)解起宽。但是依舊可以用 forward stepwise selection (即使維度 p 大于樣本數(shù) N)。
  • 方差小济榨。最優(yōu)子集方差比 forward stepwise selection 大坯沪,雖然后者可能會有一定的 bias。
Subset selection

那么如何選擇“最能提高擬合度“的參數(shù)呢擒滑?我們在之前“顯著性分析”中已經(jīng)證明了腐晾,去掉一個參數(shù)對殘差的影響為其 z-score 的平方。那么丐一,我們直接從 z-score 最大的參數(shù)開始依次加入即可藻糖。第 j 個參數(shù)的 z-score 可以由于下式計算:

z_j = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{v_j} }

where:

\hat{\sigma}^2 =\frac{\text{RSS}_1}{N-p-1} =\frac{1}{N-p-1} \sum_{i=1}^{N} (y_i-\hat{y})^2

v_j = (\boldsymbol{X}^T\boldsymbol{X})^{-1}_{jj}

“后向逐步選擇” 與 “前向逐步選擇“相反。它從全集開始库车,依次去掉最無關(guān)緊要的變量(z-score 最小的)巨柒。它只能用于樣本數(shù) N 大于維度 p 的情形。

3.4 Shrinkage Methods

Subset selection 確實可以幫我們簡化模型柠衍,并且還可能降低誤差洋满。但是,因為它是一個離散的過程(參數(shù)要么被丟棄要么被保留珍坊,沒有中間狀態(tài))牺勾,它通常具有較大的方差。Shrinkage methods 更加連續(xù)阵漏,因此具有更好的性能驻民。

3.4.1 Ridge Regression

Ridge Regression 通過給參數(shù)數(shù)量增加一個懲罰項來降低模型復(fù)雜度。它的優(yōu)化目標(biāo):

\hat{\beta} = \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2

這里的 \lambda 控制模型“縮小”的程度履怯,\lambda 越大回还,得到的模型復(fù)雜度越低。

值得注意的是虑乖,懲罰項中不包含常數(shù)項 \beta_0懦趋,否則模型不穩(wěn)定。當(dāng)選取 y_i = y_i + c 時疹味,預(yù)測值 \hat{y}_i 的變化量不是 c仅叫。

與經(jīng)典的 Linear Regression 不同帜篇,Ridge Regression 要求輸入 \textbf{X}, \textbf{y} 是經(jīng)過了中心化 (centering) 的。并且诫咱,這里的模型參數(shù) \betap 維而不是 p+1 維的笙隙。

下面我們來證明這一點。

\beta_0 由于不含 \lambda坎缭,可以單獨優(yōu)化竟痰。我們先對 \beta_0 求導(dǎo),并令導(dǎo)數(shù)為0:

\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j) = 0

得到:
\beta_0 = \frac{1}{N}(\sum_{i=1}^N y_i - \sum_{i=1}^N \sum_{j=1}^{p} x_{ij}\beta_j)

\overline{x_j} = \frac{1}{N} \sum_{i=1}^N x_{ij}掏呼,有:

\beta_0 = \frac{1}{N}\sum_{i=1}^N y_i - \sum_{j=1}^{p} \overline{x_{j}} \beta_j

我們以下的變形主要是為了將優(yōu)化目標(biāo)函數(shù)寫成矩陣乘法形式坏快,以進行運算。

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \\ &= \mathop{\arg \min}_{\beta} \sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p \overline{x_j}\beta_j - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 \end{align}

現(xiàn)在我們令:

\begin{align} \beta_0^c &= \beta_0 + \sum_{j=1}^p \overline{x_j}\beta_j =\frac{1}{N} \sum_{i=1}^N y_{i} \\ \beta_j^c&= \beta_j & (j>=1) \end{align}

可以得出:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i - \beta_0^c - \sum_{j=1}^p (x_{ij} - \overline{x_j}) \beta_j^c)^2 + \lambda \sum_{j=1}^p {\beta_j^c}^2 \end{align}

我們再令:

\begin{align} y_i^c &= y_i - \beta_0^c = y_i - \frac{1}{N} \sum_{i=1}^N y_i \\ x_{ij}^c&= x_{ij} - \overline{x_j} & (j >=1) \end{align}

有:

\begin{align} \hat{\beta} &= \mathop{\arg \min}_{\beta^c} \sum_{i=1}^N(y_i^c - \sum_{j=1}^p (x_{ij}^c \beta_j^c)^2) + \lambda \sum_{j=1}^p {\beta_j^c}^2 \\ &=\mathop{\arg \min}_{\beta} (\textbf{y} - \textbf{X}\beta)^T(\textbf{y} - \textbf{X}\beta) + \lambda(\beta^T\beta) \end{align}

其中憎夷,\textbf{X}, \textbf{y}, \beta 都經(jīng)過了中心化莽鸿,并且是 p 維的。

該式對 \beta 求導(dǎo)并令導(dǎo)數(shù)為 0拾给,有:

-\textbf{X}^T(\textbf{y} - \textbf{X}\beta) + \lambda \beta = 0

解得:

\beta = (\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y}

我們看到祥得,即使 \textbf{X}^T\textbf{X} 是非滿秩的,由于多加了一個 \lambda \textbf{I}蒋得,它仍是一個可逆矩陣级及。這也是 ridge regression 的另一個優(yōu)勢。

Ridge Regression and SVD

奇異值分解 (singular value decomposition, SVD) 將一個矩陣分解為三個矩陣的乘積:

\textbf{X}_{N \times p} = \textbf{U}_{N \times N} \mathbf{\Sigma}_{N \times p} \textbf{V}^T_{p \times p}

其中:

  • \textbf{U}_{N \times N} 是一個單位正交矩陣额衙,在 \mathbb{R}^{N \times N} 空間饮焦。它代表了旋轉(zhuǎn)(rotation)
  • \mathbf{\Sigma}_{N \times p} 是一個對角矩陣,但是不一定是方陣入偷。它代表拉伸(scaling)
  • \textbf{V}^T_{p \times p} 是一個單位正交矩陣追驴,在 \mathbb{R}^{p \times p} 空間械哟。它代表旋轉(zhuǎn)(rotation)

對于普通的線性回歸疏之,有:

\begin{align} \hat{y} = \textbf{H}y &= \textbf{X}(\textbf{X}^T\textbf{X})^{-1}\textbf{X}^Ty \\ &= \textbf{U}\mathbf{\Sigma}\textbf{V}^T(\textbf{V}\mathbf{\Sigma}^T\mathbf{\Sigma}\textbf{V}^T)^{-1} \textbf{V}\mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\mathbf{\Sigma} (\mathbf{\Sigma}^T\mathbf{\Sigma})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \textbf{U}\textbf{U}^T y \end{align}

而對于 ridge regression,有:

\begin{align} \hat{y} &= \textbf{X}(\textbf{X}^T\textbf{X} + \lambda \textbf{I})^{-1} \textbf{X}^T \textbf{y} \\ &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \end{align}

假設(shè) SVD 分解的奇異值為 \sigma_1, \sigma_2, ... , \sigma_p暇咆,我們有:

\begin{align} \hat{y} &= \textbf{U}\mathbf{\Sigma}(\mathbf{\Sigma}^T\mathbf{\Sigma} + \lambda \textbf{I})^{-1} \mathbf{\Sigma}^T\textbf{U}^T y \\ &= \sum_{j=1}^p \textbf{u}_j \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \textbf{u}_j^T \textbf{y} \end{align}

其中 \textbf{u}_j 表示矩陣 \textbf{U} 的第 j 列锋爪。

因此,從直觀意義上理解爸业,ridge regression 相比普通的 regression 就是對 \textbf{U} 的每一列附加了一個系數(shù) \frac{\sigma_j^2}{\sigma_j^2 + \lambda} \leq 1其骄。這個系數(shù)與該列對應(yīng)的奇異值相關(guān)。而我們在 SVD 定義中知道 \sigma_j 代表了在 \textbf{u}_j 方向的縮放系數(shù)扯旷。顯然拯爽,\frac{\sigma_j^2}{\sigma_j^2 + \lambda}\sigma_j 越小時,shrinkage 越大钧忽。因此毯炮,直觀理解逼肯,ridge regression 會傾向于忽略輸入 \textbf{X} 方差較小的方向。

the small singular values correspond to directions in the column space of X having small variance, and ridge regression shrinks these directions the most.

這是個比較合理的假設(shè)桃煎,一般情況下篮幢,我們對于樣本中幾乎一樣的輸入?yún)?shù)并不是很關(guān)心.

Reference

  1. ESL solution
  2. ESL Chinese
  3. Simple Linear Regression
  4. Proofs involving ordinary least squares
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市为迈,隨后出現(xiàn)的幾起案子三椿,更是在濱河造成了極大的恐慌,老刑警劉巖葫辐,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件搜锰,死亡現(xiàn)場離奇詭異,居然都是意外死亡耿战,警方通過查閱死者的電腦和手機纽乱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來昆箕,“玉大人鸦列,你說我怎么就攤上這事∨籼龋” “怎么了薯嗤?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長纤泵。 經(jīng)常有香客問我骆姐,道長,這世上最難降的妖魔是什么捏题? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任玻褪,我火速辦了婚禮,結(jié)果婚禮上公荧,老公的妹妹穿的比我還像新娘带射。我一直安慰自己,他們只是感情好循狰,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布窟社。 她就那樣靜靜地躺著,像睡著了一般绪钥。 火紅的嫁衣襯著肌膚如雪灿里。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天程腹,我揣著相機與錄音济锄,去河邊找鬼粹淋。 笑死昂灵,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的侣灶。 我是一名探鬼主播,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼缕碎,長吁一口氣:“原來是場噩夢啊……” “哼褥影!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起咏雌,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤凡怎,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后赊抖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體统倒,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年氛雪,在試婚紗的時候發(fā)現(xiàn)自己被綠了房匆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡报亩,死狀恐怖浴鸿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情弦追,我是刑警寧澤岳链,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站劲件,受9級特大地震影響掸哑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜零远,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一苗分、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧牵辣,春花似錦摔癣、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拐云。三九已至罢猪,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叉瘩,已是汗流浹背膳帕。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人危彩。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓攒磨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親汤徽。 傳聞我的和親對象是個殘疾皇子娩缰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容