一個線性回歸模型假設(shè)回歸函數(shù) E(Y|X) 對于輸入 X 是線性的坷虑。
它的優(yōu)勢在于:
- 簡單
- 能夠表示每個輸入對輸出的影響
- 輸入可以進行變換
- 他們有時候比復(fù)雜的方法更精準(zhǔn)鲸沮,尤其是在樣本數(shù)量少、低信噪比或者稀疏矩陣的情形赔蒲。
3.2 Linear Regression Models and Least Squares
維線性回歸模型形式如下:
我們需要估計一組參數(shù) ,使殘差平方和(Residual Sum of Squares)最小:
其中琼牧, 是一個
矩陣,
是
觀測值哀卫。
對 求導(dǎo)可以得到:
由于二階導(dǎo)數(shù)正定巨坊,令一階導(dǎo)數(shù)為 0 向量,得出極值點(即估計值):
我們稱 為估計矩陣("hat" matrix)此改,它滿足對稱性和冪等性:
當(dāng) 中某些列線性相關(guān)(即非滿秩矩陣)時趾撵,
是奇異矩陣,它只能求廣義逆矩陣共啃,不止一個解占调。因此,我們需要將冗余的輸入剔除掉移剪,大部分求解軟件都實現(xiàn)了這個功能妈候。
估計參數(shù)的統(tǒng)計特性
為了確定估計的參數(shù) 的統(tǒng)計特性,我們假設(shè):
- 每個觀測值
相互獨立
-
有固定的噪聲
那么估計值 的方差為:
where :
證明
N 個 y 的觀測值可以表示為:
其中 是
的噪聲挂滓。因此有:
無偏性(期望值為 ):
協(xié)方差矩陣(注意是 而非
苦银,是一個矩陣):
可以得到:
下面來確定 。
我們可以通過觀測值 和預(yù)測值
的差來得到噪聲
赶站。
其期望值為:
由于 是獨立的幔虏,當(dāng)
時:
因此:
這里再利用公式:
得到:
因此,對 的無偏估計就是:
模型誤差的統(tǒng)計特性
由于我們對第 i 個樣本的噪聲 無偏估計就是
贝椿,我們計算其方差:
由于 :
由于 想括,因此:
而 滿足對稱性和冪等性:
因此有結(jié)論:
顯著性分析
當(dāng)我們判斷哪些參數(shù)可以忽略以降低模型復(fù)雜度時,我們可以使用 F-statistic 進行顯著性分析烙博。假設(shè)我們將 維度從
降低到
:
F-statistic 描述了每個被忽略的參數(shù)對 RSS 的平均貢獻瑟蜈,用 進行了 normalize烟逊。
當(dāng) 即僅去掉一個參數(shù)時(假設(shè)
),該公式可以簡化為對應(yīng)的 z-score 的平方铺根,其中 z-score 為:
where:
證明
這個證明同時也是習(xí)題 3.1
Ex. 3.1 Show that the F statistic (3.13) for dropping a single coefficient from a model is equal to the square of the corresponding z-score (3.12).
實際上我們需要證明宪躯,在去掉模型的第 j 個參數(shù)后:
上式中唯一未知的就是 ,它實質(zhì)上是求一個帶約束的優(yōu)化問題:
我們可以用拉格朗日乘子法來解決位迂。
對 求導(dǎo)访雪,并令導(dǎo)數(shù)為 0,有:
解出:
等式兩邊乘以 掂林,并帶入
臣缀,有:
因此有:
帶入可得:
其中,中間項可以消去的原因是:
直觀理解泻帮, 和
是正交的精置,因為
正是
在
所在平面上的投影。
3.2.2 The Gauss–Markov Theorem
最小二乘法得出的 在所有線性無偏估計中均方誤差最小锣杂。當(dāng)然脂倦,如果我們愿意為了進一步減小誤差引入一點 bias,完全可能找到一個更小均方誤差的有偏估計蹲堂。
the least squares estimates of the parameters β have the smallest variance among all linear unbiased estimates
現(xiàn)在我們來證明這個結(jié)論狼讨。對于線性估計:
中的每一個元素都可以看作
中的一行與向量
的線性組合贝淤。
無偏性
那么柒竞,針對無偏性,我們需要證明最小二乘法估計出的 滿足:
其中 是任意向量播聪。
均方誤差最小
Gauss–Markov theorem 指出朽基,如果還存在其他線性估計 滿足:
那么必然有:
證明:
TBD
3.3 Subset Selection
最小二乘法的兩個主要問題:
- 預(yù)測精度。雖然它是無偏的离陶,但是方差很大稼虎。如果我們忽略一部分模型參數(shù),雖然會變成有偏估計招刨,但是可能會極大提高精度霎俩。
- 可解釋性(即模型復(fù)雜度)。當(dāng)模型參數(shù)很多時沉眶,我們想去確定一小部分具有最大影響的模型參數(shù)打却,為此我們愿意犧牲一部分無關(guān)緊要的參數(shù)。
因此谎倔,我們需要選取變量子集柳击,即“model selection”。
3.3.1 Best-Subset Selection
最佳子集是指從所有具有 個變量的子集中片习,RSS 最小的那個捌肴。
當(dāng)然蹬叭,最簡單的方式就是從遍歷所有的組合。這樣做的復(fù)雜度是 状知,只適用于小規(guī)模的問題秽五。
3.3.2 Forward- and Backward-Stepwise Selection
“前向逐步選擇”是一種貪心算法。它按順序加入最能提高擬合度的參數(shù)试幽。它雖然不一定找到最優(yōu)解筝蚕,但是它優(yōu)勢在于:
- 運算量小。當(dāng)維度
時铺坞,幾乎無法算出最優(yōu)解起宽。但是依舊可以用 forward stepwise selection (即使維度 p 大于樣本數(shù) N)。
- 方差小济榨。最優(yōu)子集方差比 forward stepwise selection 大坯沪,雖然后者可能會有一定的 bias。
那么如何選擇“最能提高擬合度“的參數(shù)呢擒滑?我們在之前“顯著性分析”中已經(jīng)證明了腐晾,去掉一個參數(shù)對殘差的影響為其 z-score 的平方。那么丐一,我們直接從 z-score 最大的參數(shù)開始依次加入即可藻糖。第 個參數(shù)的 z-score 可以由于下式計算:
where:
“后向逐步選擇” 與 “前向逐步選擇“相反。它從全集開始库车,依次去掉最無關(guān)緊要的變量(z-score 最小的)巨柒。它只能用于樣本數(shù) N 大于維度 p 的情形。
3.4 Shrinkage Methods
Subset selection 確實可以幫我們簡化模型柠衍,并且還可能降低誤差洋满。但是,因為它是一個離散的過程(參數(shù)要么被丟棄要么被保留珍坊,沒有中間狀態(tài))牺勾,它通常具有較大的方差。Shrinkage methods 更加連續(xù)阵漏,因此具有更好的性能驻民。
3.4.1 Ridge Regression
Ridge Regression 通過給參數(shù)數(shù)量增加一個懲罰項來降低模型復(fù)雜度。它的優(yōu)化目標(biāo):
這里的 控制模型“縮小”的程度履怯,
越大回还,得到的模型復(fù)雜度越低。
值得注意的是虑乖,懲罰項中不包含常數(shù)項 懦趋,否則模型不穩(wěn)定。當(dāng)選取
時疹味,預(yù)測值
的變化量不是
仅叫。
與經(jīng)典的 Linear Regression 不同帜篇,Ridge Regression 要求輸入 是經(jīng)過了中心化 (centering) 的。并且诫咱,這里的模型參數(shù)
是
維而不是
維的笙隙。
下面我們來證明這一點。
由于不含
坎缭,可以單獨優(yōu)化竟痰。我們先對
求導(dǎo),并令導(dǎo)數(shù)為0:
得到:
令 掏呼,有:
我們以下的變形主要是為了將優(yōu)化目標(biāo)函數(shù)寫成矩陣乘法形式坏快,以進行運算。
現(xiàn)在我們令:
可以得出:
我們再令:
有:
其中憎夷, 都經(jīng)過了中心化莽鸿,并且是
維的。
該式對 求導(dǎo)并令導(dǎo)數(shù)為 0拾给,有:
解得:
我們看到祥得,即使 是非滿秩的,由于多加了一個
蒋得,它仍是一個可逆矩陣级及。這也是 ridge regression 的另一個優(yōu)勢。
Ridge Regression and SVD
奇異值分解 (singular value decomposition, SVD) 將一個矩陣分解為三個矩陣的乘積:
其中:
-
是一個單位正交矩陣额衙,在
空間饮焦。它代表了旋轉(zhuǎn)(rotation)
-
是一個對角矩陣,但是不一定是方陣入偷。它代表拉伸(scaling)
-
是一個單位正交矩陣追驴,在
空間械哟。它代表旋轉(zhuǎn)(rotation)
對于普通的線性回歸疏之,有:
而對于 ridge regression,有:
假設(shè) SVD 分解的奇異值為 暇咆,我們有:
其中 表示矩陣
的第
列锋爪。
因此,從直觀意義上理解爸业,ridge regression 相比普通的 regression 就是對 的每一列附加了一個系數(shù)
其骄。這個系數(shù)與該列對應(yīng)的奇異值相關(guān)。而我們在 SVD 定義中知道
代表了在
方向的縮放系數(shù)扯旷。顯然拯爽,
在
越小時,shrinkage 越大钧忽。因此毯炮,直觀理解逼肯,ridge regression 會傾向于忽略輸入
方差較小的方向。
the small singular values correspond to directions in the column space of X having small variance, and ridge regression shrinks these directions the most.
這是個比較合理的假設(shè)桃煎,一般情況下篮幢,我們對于樣本中幾乎一樣的輸入?yún)?shù)并不是很關(guān)心.