?本文為 劉強(qiáng)嵌巷,裴艷波重窟,張貝貝. R語(yǔ)言與現(xiàn)代統(tǒng)計(jì)方法. 一書(shū)的閱讀記錄鸟雏,僅有粗略的操作步驟享郊。沒(méi)有數(shù)理統(tǒng)計(jì)基礎(chǔ)及相關(guān)數(shù)學(xué)知識(shí)的人慎用此書(shū)以及本文。
一孝鹊、回歸
fit <- lm(formula, data=data)
formula部分可以為y~x1+x2+x3
+ 添加一個(gè)自變量炊琉,兩個(gè)自變量之間為并列。
:冒號(hào)表示兩個(gè)自變量的交互項(xiàng)
* 星號(hào)表示兩者相加且相乘(x1*x2:x1+x2+x1:x2)
lm(X1X4*X5,data=xxx)等同于lm(X1X4+X5+X4:X5,data=xxx)
fit #輸出回歸系數(shù)Coefficients:
summary(fit)#輸出殘差Residuals又活、回歸系數(shù)Coefficients:苔咪、擬合程度R2和F
aov(fit)#自變量的平方和
回歸診斷
- gauss-markov假設(shè)的診斷:參見(jiàn):樣本獨(dú)立、正態(tài)柳骄、等方差
通過(guò)觀察誤差項(xiàng)是否滿足以下假設(shè)來(lái)檢驗(yàn):
- 殘差與擬合值獨(dú)立
- 殘差正態(tài)
par(mfrow=c(2,2))#
plot(fit)#四幅回歸模型檢驗(yàn)圖
par()函數(shù)參見(jiàn)
- 左上:殘差與擬合值的散點(diǎn)圖团赏,擬合值(y值)取橫軸的值時(shí),它的殘差為縱軸的值耐薯。
- 右上:根號(hào)下學(xué)生化殘差和擬合值的散點(diǎn)圖
- 左下:殘差的qq圖
- 右下:cook distance紅線為 等值線(of cook distance)
1.1. 異方差性
H0:誤差的方差恒定
car包
library(car)
ncvTest(fit)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.1310691, Df = 1, p = 0.71733
結(jié)果大于0.05則表示H0成立舔清,不存在異方差性
car::spreadLevelPlot(fit)
## Suggested power transformation: -0.646129
圖為學(xué)生化后的殘差與擬合值的散點(diǎn)圖,出現(xiàn)水平線表示等方差曲初,斜線則為異方差(方差不齊)体谒。
Suggested power transformation: -0.646129表示將數(shù)據(jù)進(jìn)行 -0.646129次方的轉(zhuǎn)換之后異方差性會(huì)減到最小。
1.2. 自相關(guān)(自變量自己會(huì)影響自己复斥,19年的物價(jià)會(huì)影響20年的物價(jià))
- 當(dāng)殘差與自變量互為獨(dú)立時(shí)营密,D=2 或 DW 越接近2械媒,判斷無(wú)自相關(guān)性把握越大目锭。
- 當(dāng)相鄰兩點(diǎn)的殘差為正相關(guān)時(shí)评汰,D<2,DW 越接近于0痢虹,正自相關(guān)性越強(qiáng)被去。
- 當(dāng)相鄰兩點(diǎn)的殘差為負(fù)相關(guān)時(shí),D>2奖唯,DW 越接近于4惨缆,負(fù)自相關(guān)性越強(qiáng)。
durbin-waston:
- H0:rou(一階自相關(guān)系數(shù))=0
- 0<DW<4
- 參考文獻(xiàn)1丰捷、參考文獻(xiàn)2
car::durbinWatsonTest(fit)
## lag Autocorrelation D-W Statistic p-value
## 1 0.1345412 0.8877734 0.002
## Alternative hypothesis: rho != 0
- 多重共線性
矩陣x是列滿秩矩陣-->各列變量之間線性無(wú)關(guān)
2.1. VIF
car::vif(fit)
2.2. 特征值法
接近0則有多多重共線性
x <- as.matrix(cbind(rep(1,nrow(data)),data[,-y]))
xx <- t(x)%*%x
xx
## rep(1, nrow(xxx)) X2 X3
## rep(1, nrow(xxx)) 11.0 3.479343e+05 1508505
## X2 347934.3 1.168701e+10 47854633475
## X3 1508504.8 4.785463e+10 206909714762
2.3. 條件數(shù)法
\lambdai趨近于0坯墨,則ki趨近于正無(wú)窮
- 強(qiáng)影響點(diǎn)
3.1. 異常值
3.2. 高杠桿值
3.3. 強(qiáng)影響點(diǎn)