5.1 數(shù)據(jù)的分類與模型選擇
- 變量的取值類型
因變量的取值類型通常包括:連續(xù)變量护桦、“0-1”變量或稱二分類變量、有序變量(等級變量)蔓罚、多分類變量和連續(xù)伴有刪失變量杠纵,解釋變量則可分為連續(xù)變量荠耽、分類變量和等級變量。
- 模型選擇方式:基本公式
若不是正態(tài)分布比藻,則該模型為廣義線性模型铝量,而若不是連續(xù)或正態(tài)分布,則該模型為一般線性模型银亲。下表為不同變量類型可選用的模型分類:
5.2 廣義線性模型
廣義線性模型(generalized linear model)是一般線性模型的直接推廣慢叨,它使因變量的總體均值通過一個(gè)非線性連接函數(shù)(link function)而依賴于線性預(yù)測值,同時(shí)還允許響應(yīng)概率分布為指數(shù)分布族中的任何一員务蝠,在廣義線性模型中常用的分布族如下所示:
分布 | 函數(shù) | 模型 |
---|---|---|
正態(tài)(Gaussian) | 普通線性模型 | |
二項(xiàng)(Binomial) | logistic模型和概率模型單位(probit)模型 | |
泊松(Poission) | 對數(shù)線性模型 |
廣義線性模型函數(shù)glm()
的用法:
glm(formula,family = gaussian, data,...)
formula為公式拍谐,即為要擬合的模型;
family為分布族馏段,包括正態(tài)分布轩拨、二項(xiàng)分布、泊松分布和 伽瑪分布院喜,分布族還可以通過選項(xiàng)link=來指定使用的連接函數(shù)亡蓉;
data為可選擇的數(shù)據(jù)框。
說明與舉例
1喷舀、Logistic模型
-
函數(shù)形式:
其中參數(shù)估計(jì)采用極大似然估計(jì)砍濒。
-
舉例:
對45名駕駛員的調(diào)查結(jié)果淋肾,其中4個(gè)變量的含義為:- x1:表示視力狀況,1好爸邢,0則為有問題樊卓;
- x2:年齡,數(shù)值型杠河;
- x3:駕車教育碌尔,1表示參加過駕車教育,0表示無感猛;
- y:分類變量(去年是否出過事故七扰,1出過奢赂,0沒有)
#(1)建立全變量logistic回歸模型
d5.1 <- xlsx::read.xlsx("msaD.xlsx",sheetIndex=5)
logit.glm <- glm(y~x1+x2+x3,family=binomial,data=d5.1)#logistic回歸模型
#summary(logit.glm) #可查看初步的Logistic回歸結(jié)果
#(2)逐步篩選變量logistic回歸模型
logit.step <- step(logit.glm,direction="both")#逐步篩選法變量選擇
#summary(logit.step)#可查看變量選擇結(jié)果
#(3)預(yù)測發(fā)生交通事故的概率
pre <- predict(logit.step,data.frame(x1=1))#預(yù)測視力正常司機(jī)Logistic回歸結(jié)果
p <- exp(pre)/(1+exp(pre))#預(yù)測視力正常司機(jī)發(fā)生事故概率
2陪白、對數(shù)線性模型:
- 函數(shù)形式:
其中,式2含有交叉項(xiàng)膳灶。
- 舉例:
某企業(yè)想了解顧客對其產(chǎn)品是否滿意咱士,同時(shí)還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。
d5.2 <- read.xlsx("msaD.xlsx",sheetName="d5.2")
head(d5.2)
##y表示頻數(shù)轧钓,x1表示收入人群序厉,x2表示滿意程度
# y x1 x2
#1 53 1 1
#2 434 2 1
#3 111 3 1
#4 38 1 2
#5 108 2 2
#6 48 3 2
poi <- glm(y~x1+x2,family=poisson(link=log),data=d5.2)
summary(poi)
#Call:
#glm(formula = y ~ x1 + x2, family = poisson(link = log), data = d5.2)
#
#Deviance Residuals:
# 1 2 3 4 5 6
#-10.784 14.444 -8.468 -2.620 4.960 -3.142
#
#Coefficients:
# Estimate Std. Error z value Pr(>|z|)
#(Intercept) 6.15687 0.14196 43.371 < 2e-16 ***
#x1 0.12915 0.04370 2.955 0.00312 **
#x2 -1.12573 0.08262 -13.625 < 2e-16 ***
#---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
#(Dispersion parameter for poisson family taken to be 1)
#
# Null deviance: 662.84 on 5 degrees of freedom
#Residual deviance: 437.97 on 3 degrees of freedom
#AIC: 481.96
#
#Number of Fisher Scoring iterations: 5
從檢驗(yàn)結(jié)果可以看出,p1和p2都<0.01毕箍,說明收入和滿意程度對產(chǎn)品有重要影響弛房。
5.3 一般線性模型
1、完全隨機(jī)設(shè)計(jì)模型
-
函數(shù)形式:
其中而柑,表示觀察結(jié)果的總體均值文捶,是啞變量的系數(shù),稱為A因素各水平的主效應(yīng)媒咳,是誤差項(xiàng)粹排。啞變量:也叫虛擬變量,引入啞變量的目的是涩澡,想不能夠定量處理的變量量化顽耳,如職業(yè)、性別對收入的影響等妙同,這種“量化”通常是通過引入“啞變量”來完成的射富,根據(jù)這些因素的屬性類型,構(gòu)造只取“0”或“1”的人工變量粥帚,通常稱為啞變量辉浦,記為D。
舉例:
設(shè)有3臺(tái)機(jī)器茎辐,用來生產(chǎn)規(guī)格相同的鋁合金薄板∠芙迹現(xiàn)從3臺(tái)機(jī)器生產(chǎn)出的薄板中各 隨機(jī)抽取5塊掂恕,測出厚度值,試分析各機(jī)器生產(chǎn)的薄板厚度有無顯著差異?
d5.3 <- read.xlsx("msaD.xlsx",sheetName="d5.3")
head(d5.3)
# Y A
#1 2.36 1
#2 2.38 1
#3 2.48 1
#4 2.45 1
#5 2.47 1
#6 2.43 1
#完全隨機(jī)設(shè)計(jì)模型方差分析
anova(lm(Y~factor(A),data=d5.3))
#Analysis of Variance Table
#
#Response: Y
# Df Sum Sq Mean Sq F value Pr(>F)
#factor(A) 2 0.122233 0.061117 40.534 8.94e-07 ***
#Residuals 15 0.022617 0.001508
#---
#Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
P<0.05弛槐,說明各機(jī)器生產(chǎn)的薄板厚度有顯著差異懊亡。
2、隨機(jī)單位組設(shè)計(jì)模型
- 函數(shù)形式:
其中乎串,為總體均數(shù)店枣,為處理因素A的第i個(gè)水平的效應(yīng);為第j個(gè)單位組的效應(yīng)叹誉,為誤差項(xiàng)鸯两。
- 舉例:
使用4種燃料,3種推進(jìn)器作火箭射程試驗(yàn)长豁,每一種組合情況做一次試驗(yàn)钧唐,則得火箭 射程列在下表中,試分析各種燃料A與各種推進(jìn)器B對火箭射程有無顯著影響?
d5.4 <- read.xlsx("msaD.xlsx",sheetName="d5.4")
head(d5.4)
##A是燃料匠襟,B是推進(jìn)器钝侠,Y是射程
# Y A B
#1 582 1 1
#2 491 2 1
#3 601 3 1
#4 758 4 1
#5 562 1 2
#6 541 2 2
anova(lm(Y~factor(A)+factor(B),data=d5.4))
#Analysis of Variance Table
#
#Response: Y
# Df Sum Sq Mean Sq F value Pr(>F)
#factor(A) 3 15759 5253 0.4306 0.7387
#factor(B) 2 22385 11192 0.9174 0.4491
#Residuals 6 73198 12200
P(A)和P(B)均>0.05,說明各種燃料和各種推進(jìn)器對火箭射程都無顯著影響酸舍。