如上篇文章靶溜, 嶺回歸狂塘、Lasso回歸和ElasticNet 回歸都是以普通的線性回歸為基礎(chǔ)匾乓,先列舉下線性回歸的模型公式:
嶺回歸為解決共線性問題捞稿,Lasso回歸是為解決變量選擇的問題, ElasticNet 解決不一致性和group select的問題拼缝。簡單來說這三個回歸算法是對線性回歸某些問題的優(yōu)化括享。
本文旨在列舉線性回歸涉及的關(guān)鍵問題, 后續(xù)文章針對每個點進(jìn)行詳細(xì)介紹珍促。
- 模型系數(shù)的求解方法
- 擬合問題
- 變量選擇
- 正則化
1.系數(shù)的求解方法
線性回歸求解過程其實是求線性回歸函數(shù)的W系數(shù)。求解系數(shù)的常見方法包括:最小二乘法和梯度下降法剩愧。
- 最小二乘法
最小二乘法是通過建立等價關(guān)系找到全局最小值猪叙, 通過推導(dǎo), 可得到如下公式:
由于最小二乘法直接進(jìn)行矩陣運算(求逆等),盡管可以得到全局最優(yōu)解穴翩。但是在數(shù)據(jù)很多場景的回歸分析或預(yù)測問題犬第,其計算效率較低(涉及超大矩陣的求逆運算)。
- 梯度下降法
梯度下降法作為迭代法的一種芒帕,先給定一個參數(shù)向量初始值歉嗓,然后向目標(biāo)函數(shù)下降最快的方向調(diào)整(即梯度方向),在若干次迭代之后找到全局最小背蟆。隨機梯度下降法的一個缺點是:在接近極值時收斂速度變慢鉴分,并且該方法對初始值的選取比較敏感。
2. 擬合問題
預(yù)測模型通常存在過擬合和欠擬合兩種極端情況带膀。 欠擬合是只得到的線性模型不能很好的擬合或者表示訓(xùn)練數(shù)據(jù)志珍。 過擬合是指線性模型能非常準(zhǔn)確的擬合訓(xùn)練數(shù)據(jù), 但是對新的預(yù)測數(shù)據(jù)不能很好的擬合或者表示垛叨。以最小二乘法為例伦糯,如果響應(yīng)變量和預(yù)測變量之間有比較明顯的線性關(guān)系,最小二乘回歸會有很小的偏倚嗽元,如果觀測數(shù)量n遠(yuǎn)大于預(yù)測變量p時敛纲,最小二乘回歸也會有較小的方差。但是如果n和p比較接近剂癌,則容易產(chǎn)生過擬合淤翔;如果n<p,最小二乘回歸得不到有意義的結(jié)果珍手。
通常解決過擬合問題办铡, 采用的方法就是:通過變量選擇來減少變量數(shù)目, 以及正則化琳要。
3. 變量選擇
線性回歸的模型寡具,經(jīng)常有自變量和與部分因變量是無關(guān)的,又有些自變量之間本身就是明顯相關(guān)(即共線性問題)稚补, 這些問題會增加模型的復(fù)雜性童叠,以及模型的解釋能力。針對這問題课幕, 引入變量選擇厦坛,或者叫特征選擇。
變量的選擇方法有:
- 子集選擇 包括逐步回歸和最優(yōu)子集法等乍惊,對可能的部分子集擬合線性模型杜秸,利用判別準(zhǔn)則 (如AIC,BIC,Cp,調(diào)整R2 等)決定最優(yōu)的模型。
- 收縮方法(shrinkage method) 收縮方法又稱為正則化(regularization)润绎。主要是嶺回歸(ridge regression)和lasso回歸撬碟。嶺回歸可以解決共線性問題诞挨。Lasso使某些系數(shù)的估計為0,達(dá)到去除變量的效果呢蛤。
- 降維 主成分回歸(PCR)和偏最小二乘回歸(PLS)的方法惶傻。把p個預(yù)測變量投影到m維空間(m<p),利用投影得到的不相關(guān)的組合建立線性模型其障。
4 正則化
為解決過擬合問題银室,回歸模型可在損失函數(shù)的后面加上一個約束條件從而限制模型的復(fù)雜度,這個約束條件即為正則化励翼。線性回歸的L1正則與L2正則:
嶺回歸L2范式:
Lasso回歸L1范式:
如下圖蜈敢,假設(shè)存在一個二元預(yù)測模型x = (x1, x2),對應(yīng)存在兩個系數(shù)w=(w1, w2)抚笔。 左邊圖是Lasso回歸扶认, 右邊表示的是嶺回歸圖。等高線的紅色橢圓形是最小二乘法的誤差項(或者損失函數(shù)殊橙,等高線是指誤差項取值相同的點的連線)辐宾, 藍(lán)色部分是懲罰項(正則化項)的約束條件:Lasso是||Beta1|| + ||Beta2|| < t, 圖形如左邊膨蛮, 嶺回歸的懲罰項是||Beta1||^2 + ||Beta2||^2 < t叠纹,如右邊藍(lán)色圓圈。
加入正則化后模型求得的系數(shù)解w的值敞葛, 一定是在損失函數(shù)項和正則化項之間誉察,即出現(xiàn)在圖中損失函數(shù)項等值線與正則化項等值線相交處。采用L1范數(shù)時誤差項的等值線與懲罰項等值線的交點出現(xiàn)在(參數(shù)空間)坐標(biāo)軸上惹谐,即w1或w2為0持偏;而在采用L2范數(shù)時,兩個等值線的相交點常出現(xiàn)在某個象限內(nèi)(如圖示第2象限)氨肌,即w1或w2均非0鸿秆。因此Lasso具有選擇變量的作用。
PS: 懲罰項中還存在一個參數(shù)怎囚,是lambda卿叽, 這是一個可調(diào)參數(shù)。求這個參數(shù)常見方法時:交叉驗證或者Cp準(zhǔn)則恳守。