R數(shù)據(jù)分析:逐步回歸的做法和原理烫幕,案例剖析

做回歸的時(shí)候經(jīng)常頭痛的一個(gè)問題就是變量的選擇,好多人一放一大堆變量但是結(jié)果做出來都沒意義幻锁,這個(gè)時(shí)候你可以試試讓算法給你選擇最優(yōu)的自變量組合喲。

那么今天要寫的就是回歸時(shí)篩選變量的逐步法:

The stepwise regression (or stepwise selection) consists of iteratively adding and removing predictors, in the predictive model, in order to find the subset of variables in the data set resulting in the best performing model, that is a model that lowers prediction error.

逐步法又分三種策略:

  1. 前進(jìn):就是把變量按照貢獻(xiàn)大小一個(gè)一個(gè)的往回歸模型中放边臼,直到所有自變量都是顯著的為止哄尔。
  2. 后退:就是把所有的自變量都放進(jìn)去然后把貢獻(xiàn)小的自變量一個(gè)一個(gè)的往出來取,直到所有的自變量都顯著柠并。
  3. 逐步Stepwise selection:這個(gè)就是把兩種方法結(jié)合起來究飞,先是把貢獻(xiàn)大的變量一個(gè)一個(gè)放(前進(jìn)),所有變量放完了又把沒有貢獻(xiàn)的取出來(后退)堂鲤。

R語言實(shí)操

在R中能做逐步回歸的方法有很多亿傅,比如:

  • stepAIC() [MASS 包]
  • regsubsets() [leaps 包]
  • train() [caret 包]

今天我還是給大家寫一個(gè)例子,這個(gè)例子我們用train來做瘟栖,train()有一個(gè)可選參數(shù) method葵擎,這個(gè)參數(shù)可以有以下3個(gè)選擇:

  • "leapBackward", to fit linear regression with backward selection后退
  • "leapForward", to fit linear regression with forward selection前進(jìn)
  • "leapSeq", to fit linear regression with stepwise selection 逐步

我們用到的數(shù)據(jù)為R自帶的Swiss數(shù)據(jù)集,里面有6個(gè)變量:

image

我想用其余5個(gè)變量來預(yù)測Fertility半哟,但是5個(gè)有點(diǎn)多酬滤,我想用逐步回歸選一選

我要選出一個(gè)最好的自變量組合來預(yù)測Fertility:

step.model <- train(Fertility ~., data = swiss,
                    method = "leapSeq", 
                    tuneGrid = data.frame(nvmax = 1:5),
                    trControl = train.control
)
step.model$results

運(yùn)行上面的代碼就可以輸出如下結(jié)果:

image

我們把自變量的最大個(gè)數(shù)nvmax規(guī)定為5,所以我們會(huì)跑出來不同自變量個(gè)數(shù)的最佳自變量組合的模型結(jié)果:

the function starts by searching different best models of different size, up to the best 5-variables model. That is, it searches the best 1-variable model, the best 2-variables model, …, the best 5-variables models.

我們需要根據(jù)模型的RMSE和MAE對模型進(jìn)行選擇寓涨,可以看到模型5的RMSE和MAE是最小的盯串,所以最好的模型就是5個(gè)變量都放進(jìn)去,當(dāng)然了戒良,你不愿意自己選体捏,也可以直接輸出最好的模型:

step.model$bestTune

[圖片上傳失敗...(image-8456d2-1613469621881)]

結(jié)果顯示依然是模型5最好。

那么模型到底怎么選出來的呢糯崎?

summary(step.model$finalModel)
image

從輸出結(jié)果可以看到自變量的選擇過程几缭,如果只要一個(gè)變量那么最好的選擇就是Education,如果放兩個(gè)自變量沃呢,那么最好的選擇就是Education和Catholic年栓。以此類推。薄霜。

那么模型的系數(shù)是多少呢某抓?

coef(step.model$finalModel, 5)
image

還有,既然變量都給你選好了惰瓜,我們直接用lm法也可以得到模型系數(shù)的呀:

lm(Fertility ~ Agriculture +Examination+ Education + Catholic + Infant.Mortality, 
   data = swiss)
image

模型系數(shù)一摸一樣否副。

小結(jié)

今天給大家寫了逐步回歸的做法,感謝大家耐心看完鸵熟,自己的文章都寫的很細(xì)副编,代碼都在原文中负甸,希望大家都可以自己做一做流强,請關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取所有數(shù)據(jù)和本人收集的學(xué)習(xí)資料痹届。如果對您有用請先收藏,再點(diǎn)贊轉(zhuǎn)發(fā)打月。

也歡迎大家的意見和建議队腐。

如果你是一個(gè)大學(xué)本科生或研究生,如果你正在因?yàn)槟愕慕y(tǒng)計(jì)作業(yè)奏篙、數(shù)據(jù)分析柴淘、論文、報(bào)告秘通、考試等發(fā)愁为严,如果你在使用SPSS,R,Python肺稀,Mplus, Excel中遇到任何問題第股,都可以聯(lián)系我。因?yàn)槲铱梢越o您提供好的话原,詳細(xì)和耐心的數(shù)據(jù)分析服務(wù)夕吻。

如果你對Z檢驗(yàn),t檢驗(yàn)繁仁,方差分析涉馅,多元方差分析,回歸黄虱,卡方檢驗(yàn)稚矿,相關(guān),多水平模型捻浦,結(jié)構(gòu)方程模型盐捷,中介調(diào)節(jié),量表信效度等等統(tǒng)計(jì)技巧有任何問題默勾,請私信我碉渡,獲取詳細(xì)和耐心的指導(dǎo)。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

加油吧母剥,打工人滞诺!

猜你喜歡:

R數(shù)據(jù)分析:邏輯斯蒂回歸與泊松回歸

R數(shù)據(jù)分析:多分類邏輯回歸

R數(shù)據(jù)分析:多元邏輯斯蒂回歸的做法

R數(shù)據(jù)分析:線性回歸的做法和優(yōu)化實(shí)例

R數(shù)據(jù)分析:如何做邏輯斯蒂回歸

python機(jī)器學(xué)習(xí):線性回歸中的啞變量轉(zhuǎn)換

Python機(jī)器學(xué)習(xí)入門:線性回歸實(shí)例操練

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市环疼,隨后出現(xiàn)的幾起案子习霹,更是在濱河造成了極大的恐慌,老刑警劉巖炫隶,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淋叶,死亡現(xiàn)場離奇詭異,居然都是意外死亡伪阶,警方通過查閱死者的電腦和手機(jī)煞檩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門处嫌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人斟湃,你說我怎么就攤上這事熏迹。” “怎么了凝赛?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵注暗,是天一觀的道長。 經(jīng)常有香客問我墓猎,道長捆昏,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任毙沾,我火速辦了婚禮屡立,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘搀军。我一直安慰自己膨俐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布罩句。 她就那樣靜靜地躺著焚刺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪门烂。 梳的紋絲不亂的頭發(fā)上乳愉,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音屯远,去河邊找鬼蔓姚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛慨丐,可吹牛的內(nèi)容都是我干的坡脐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼房揭,長吁一口氣:“原來是場噩夢啊……” “哼备闲!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捅暴,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤恬砂,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蓬痒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體泻骤,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了狱掂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片演痒。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖符欠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情瓶埋,我是刑警寧澤希柿,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站养筒,受9級特大地震影響曾撤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜晕粪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一挤悉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧巫湘,春花似錦装悲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至阅嘶,卻和暖如春属瓣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讯柔。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工抡蛙, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人魂迄。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓粗截,卻偏偏與公主長得像,于是被迫代替她去往敵國和親捣炬。 傳聞我的和親對象是個(gè)殘疾皇子慈格,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容