概括
嶺回歸是一種簡約模型钧栖,執(zhí)行L2正則化谤牡。L2正則化添加的懲罰相當于回歸系數的平方,并試圖將它們最小化丙曙。嶺回歸的方程如下所示:
LS Obj + λ (sum of the square of coefficients)
這里的目標如下:
- 如果 λ = 0爸业,則輸出類似于簡單線性回歸。
- 如果 λ = 非常大亏镰,回歸系數將變?yōu)榱恪?/li>
訓練嶺回歸模型
要在R中構建嶺回歸扯旷,會用到glmnet
包中的glmnet
函數。使用mtcars
數據集來進行對里程的預測索抓。
# Loaging the library
library(glmnet)
# Getting the independent variable
x_var <- data.matrix(mtcars[, c("hp", "wt", "drat")])
# Getting the dependent variable
y_var <- mtcars[, "mpg"]
# Setting the range of lambda values
lambda_seq <- 10^seq(2, -2, by = -.1)
# Using glmnet function to build the ridge regression in r
fit <- glmnet(x_var, y_var, alpha = 0, lambda = lambda_seq)
# Checking the model
summary(fit)
# Output
Length Class Mode
a0 41 -none- numeric
beta 123 dgCMatrix S4
df 41 -none- numeric
dim 2 -none- numeric
lambda 41 -none- numeric
dev.ratio 41 -none- numeric
nulldev 1 -none- numeric
npasses 1 -none- numeric
jerr 1 -none- numeric
offset 1 -none- logical
call 5 -none- call
nobs 1 -none- numeric
選擇最佳Lambda值
glmnet
函數會針對所有不同的 lambda 值多次訓練模型钧忽,我們將這些值作為向量序列傳遞給 glmnet
函數的 lambda
參數。接下來的任務是自動使用 cv.glmnet()
函數來識別能夠導致最小誤差的最優(yōu) lambda 值逼肯。這可以通過交叉驗證來實現耸黑,交叉驗證有助于評估模型在新的、未見過的數據上的泛化能力篮幢。
以下是使用 cv.glmnet()
進行嶺回歸交叉驗證的示例:
# Using cross validation glmnet
ridge_cv <- cv.glmnet(x_var, y_var, alpha = 0, lambda = lambdas)
# Best lambda value
best_lambda <- ridge_cv$lambda.min
best_lambda
# Output
[1] 79.43000
使用K折交叉驗證決定最佳模型
最佳模型可以通過從交叉驗證對象中調用 glmnet.fit
來提取大刊。根據Dev值來決定最佳模型,這里可以通過將 lambda 設置為 79.43000 來重新構建模型洲拇。
best_fit <- ridge_cv$glmnet.fit
head(best_fit)
# Output
Df %Dev Lambda
[1,] 3 0.1798 100.00000
[2,] 3 0.2167 79.43000
[3,] 3 0.2589 63.10000
[4,] 3 0.3060 50.12000
[5,] 3 0.3574 39.81000
[6,] 3 0.4120 31.62000
建立最后的模型
# Rebuilding the model with optimal lambda value
best_ridge <- glmnet(x_var, y_var, alpha = 0, lambda = 79.43000)
確認回歸系數
coef(best_ridge)
# Output
4 x 1 sparse Matrix of class "dgCMatrix"
s0
(Intercept) 20.099502946
hp -0.004398609
wt -0.344175261
drat 0.484807607
如果事先有劃分訓練集和驗證集的話也可以通過R2值來檢查模型擬合度
# here x is the test dataset
pred <- predict(best_ridge, s = best_lambda, newx = x)
# R squared formula
actual <- test$Price
preds <- test$PreditedPrice
rss <- sum((preds - actual) ^ 2)
tss <- sum((actual - mean(actual)) ^ 2)
rsq <- 1 - rss/tss
rsq