2019/3/24-星期日-陰晴天
好多天沒有看這本spss高級教程了盼理,今天大致看了一下回歸模型章節(jié)的第一部分裆甩。做一下相關(guān)的記錄姐叁。
一铺董、相關(guān)概念
多重線性回歸進(jìn)行統(tǒng)計(jì)分析時(shí)需要滿足以下條件:
①自變量與因變量之間存在線性關(guān)系,這個(gè)可以通過繪制“散點(diǎn)矩陣”反映棱貌。
②各觀測間相互獨(dú)立玖媚,即任意兩個(gè)觀測殘差的協(xié)方差為0;
③殘差服從正態(tài)分布N(0键畴,)最盅。其方差= = var()反映了回歸模型的精度突雪,越小起惕,所得到的回歸模型預(yù)測y的精確度越高。
④ 的大小不隨所有變量取值水平的變化而變化咏删。即方差齊次性惹想。
順便提一下總平方和、回歸平方和督函、殘差平方和的區(qū)別嘀粱。
二、實(shí)例問題
某專門面向年輕人制作肖像的公司計(jì)劃在國內(nèi)開設(shè)幾家分店辰狡,收集了目前已開設(shè)分店的銷售數(shù)據(jù)(y,萬元)及分店所在城市的16歲一下人數(shù)(x1,萬人)锋叨,人均可支配收入(x2,元)。數(shù)據(jù)reg.sav宛篇。鏈接:https://pan.baidu.com/s/12Vk-7HAyeqNbtMMfoDG0Rw 提取碼:o7hs娃磺。
1、對數(shù)據(jù)的初步分析叫倍,問題中可知有兩個(gè)自變量x1,x2以及一個(gè)反應(yīng)變量y偷卧。所以問題是如何同時(shí)考慮x1,x2多個(gè)因素對同一結(jié)果y的影響。
從結(jié)果給出了回歸模型的常數(shù)項(xiàng)吆倦、16歲一下年輕人人數(shù)听诸、人均可支配收入的偏回歸系數(shù),分別為-6.886蚕泽、1.455晌梨、0.009。
回歸模型
回歸模型的假設(shè)檢驗(yàn)
首先要考察模型中的自變量與因變量之間時(shí)是否存在線性關(guān)系须妻,也就是檢驗(yàn)各自變量的回歸系數(shù)是否均為0仔蝌,此處采用方差分析的基本思想進(jìn)行判斷。
建立假設(shè):
反應(yīng)變量y的總變異為總平方和璧南,表示為 表示反應(yīng)變量所有的變異掌逛。它由下面兩部分組成。
①回歸平方和,SSR表示反應(yīng)變量的變異中由回歸模型中所包含的p個(gè)自變量所能解釋的部分司倚。
②誤差平方和SSE豆混,表示反因變量的變異中沒有被回歸模型中所包含的變量解釋部分篓像。
上圖輸出的是對模型中所有自變量的回歸系數(shù)等于0的F檢驗(yàn)結(jié)果。F=99.103皿伺、P值<0.01,說明至少有一個(gè)自變量的回歸系數(shù)不為0员辩,所建立的回歸模型是有統(tǒng)計(jì)學(xué)意義的。
偏回歸系數(shù)的假設(shè)檢驗(yàn)
在得到整個(gè)回歸模型有統(tǒng)計(jì)學(xué)意義以后鸵鸥,還需要具體檢驗(yàn)?zāi)硞€(gè)自變量與反應(yīng)變量之間是否存在線性關(guān)系奠滑,就是對其偏回歸系數(shù)是否等于0進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)。通扯恃ǎ可以用t檢驗(yàn)來回答這個(gè)問題宋税。
t=()
是第i個(gè)自變量的偏回歸系數(shù),是其標(biāo)準(zhǔn)誤讼油。
下圖可以看出x1杰赛、x2的偏回歸系數(shù)是否等于0的t檢驗(yàn)結(jié)果,t值分別等于6.868(=1.455/0.212)和2.305(=0.009/0.004),P值<0.01矮台、P=0.33乏屯。按 水平,認(rèn)為瘦赫、 全不為0辰晕。
標(biāo)準(zhǔn)化偏回歸系數(shù)
標(biāo)準(zhǔn)化回歸系數(shù)一般出自對模型中自變量()對y的貢獻(xiàn)大小進(jìn)行比較,以消除原始變量單位不同及量綱不同的影響确虱。而實(shí)際上含友,計(jì)算標(biāo)準(zhǔn)偏回歸系數(shù)還可以減少在擬合回歸模型計(jì)算求解時(shí)的截?cái)嗾`差,從而提高模型的擬合精度蝉娜。首先對原始變量按一下公式進(jìn)行標(biāo)準(zhǔn)化唱较。
從圖中可以看出16歲一下年輕人人數(shù)的標(biāo)準(zhǔn)化偏回歸系數(shù)為0.748,支配收入的標(biāo)準(zhǔn)化偏回歸系數(shù)為0.251召川,年輕人人數(shù)對銷售收入的影響大南缓。
注意偏回歸系數(shù)大的自變量其標(biāo)準(zhǔn)化回歸系數(shù)可能大,也有可能小荧呐。
衡量多元線性回歸模型優(yōu)劣的標(biāo)準(zhǔn)
當(dāng)供建立回歸模型的自變量有p個(gè)時(shí)汉形,僅考慮各因素的主效應(yīng),可以建立個(gè)模型倍阐。如何來衡量這些模型的好壞概疆?常用有一下標(biāo)準(zhǔn):
1、復(fù)利相關(guān)系數(shù)R
表示模型中所有自變量與反應(yīng)變量之間線性回歸的密切程度大小峰搪,實(shí)際上它是與其估計(jì)值的簡單相關(guān)系數(shù)岔冀。例子中R=0.957;但是需要注意的是多元相關(guān)系數(shù)R值多大才算好概耻,沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)使套。
2罐呼、決定系數(shù)
模型的決定系數(shù)等于復(fù)相關(guān)系數(shù)的平方。它表示反應(yīng)變量y的總變異中可由回歸模型中自變量解釋的部分所占的比例侦高,是衡量所建立模型效果好壞的指標(biāo)之一嫉柴。
3、校正的決定系數(shù)
由于用評價(jià)擬合模型的好壞具有一定的局限性奉呛,即使是向模型中增加的變量沒有統(tǒng)計(jì)學(xué)意義计螺,值仍會增大。因此需要校正瞧壮,從而形成校正的決定系數(shù):
4登馒、剩余標(biāo)準(zhǔn)差
Std它等于誤差均方MSE的算術(shù)平方根,就是殘差之標(biāo)準(zhǔn)差馁痴,其大小反應(yīng)了用建立的模型預(yù)測因變量時(shí)的精度谊娇。剩余標(biāo)準(zhǔn)差越小肺孤,建立的模型效果就越好罗晕。