一刊头、廣義線性模型和線性模型
廣義線性模型(Generalized Linear Models型酥,GLM)由Nelder和Wedderburn于 1972年提出和發(fā)表 侍咱,旨在解決普通線性回歸模型無法處理因變量離散柠并,并發(fā)展能夠解決非正態(tài)因變量的回歸建模任務(wù)的建模方法岭接。
在廣義線性模型的框架下,因變量不再要求連續(xù)臼予、正態(tài)鸣戴,當(dāng)然自變量更加沒有特殊的要求。能夠?qū)?strong>正態(tài)分布粘拾、二項分布窄锅、泊松分布、Gamma分布等隨機因變量進行建模.
通俗來說缰雇,廣義線性模型是普通線性模型的普遍化入偷,如果把普通線性回歸模型稱為狹義線性模型,那么它就是廣義線性模型中因變量服從正態(tài)分布的一個特例
二械哟、廣義線性模型的適用范圍
結(jié)果變量是類別:包括二分類變量(是/否)和多分類變量(優(yōu)秀/良好/差)
結(jié)果變量是非負(fù)整數(shù):結(jié)婚次數(shù)疏之、一生中流產(chǎn)的次數(shù),他們的均值和方差通常是相關(guān)的
建模方法論
1) 假設(shè)因變量服從某個隨機分布暇咆,如正態(tài)分布锋爪、二項分布
2) 根據(jù)上述的假設(shè)分布構(gòu)建因變量的轉(zhuǎn)換形式(參考下文的鏈接函數(shù))
3) 對轉(zhuǎn)換后的隨機變量進行線性擬合
三種常見的廣義線性模型
正態(tài)分布(特殊類型的廣義線性模型)
二項分布變量
泊松分布
三丙曙、廣義線性模型的R語言實現(xiàn)
glm(formula, family = gaussian, data, weights, subset,
na.action, start = NULL, etastart, mustart, offset,
control = list(...), model = TRUE, method = "glm.fit",
x = FALSE, y = TRUE, singular.ok = TRUE, contrasts = NULL, ...)
概率分布family及連接函數(shù) function
binomial(link = "logit")
gaussian(link = "identity")
Gamma(link = "inverse")
inverse.gaussian(link = "1/mu^2")
poisson(link = "log")
quasi(link = "identity", variance = "constant")
quasibinomial(link = "logit")
quasipoisson(link = "log")
使用以下函數(shù)提取擬合模型中的有用信息
1、展示數(shù)據(jù)并構(gòu)建模型
使用Affairs數(shù)據(jù)展示logistic回歸
# get summary statistics
data(Affairs, package="AER")
summary(Affairs)
table(Affairs$affairs)
# create binary outcome variable
Affairs$ynaffair[Affairs$affairs > 0] <- 1
Affairs$ynaffair[Affairs$affairs == 0] <- 0
Affairs$ynaffair <- factor(Affairs$ynaffair,
levels=c(0,1),
labels=c("No","Yes"))
table(Affairs$ynaffair)
為了演示其骄,這里生成一個二分類變量ynaffair(是否婚外遇)
# fit full model
fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children +
religiousness + education + occupation +rating,
data=Affairs,family=binomial())
summary(fit.full)
將所有變量納入回歸方程亏镰,得到fit.full,使用summary函數(shù)看一下模型的內(nèi)部構(gòu)成
# fit reduced model
fit.reduced <- glm(ynaffair ~ age + yearsmarried + religiousness +
rating, data=Affairs, family=binomial())
summary(fit.reduced)
接下來將有意義的進一步納入回歸拯爽,然后 summary看一下函數(shù)內(nèi)部:
2索抓、模型間比較
可以看到,fit.full與fit.reduced的AIC差異并不到毯炮,后面我們繼續(xù)學(xué)習(xí)AIC的含義逼肯,這里我們簡單介紹以下AIC越接近0代表模型越優(yōu)。
為了進一步比較兩個模型否副,使用ANOVA函數(shù)比較
# compare models
anova(fit.reduced, fit.full, test="Chisq")
可以看到p值大于0.05汉矿,兩個模型差異無統(tǒng)計學(xué)意義。
3备禀、模型中關(guān)鍵參數(shù)的提取
coef與coefficients得到的結(jié)果一樣洲拇,都是每個變量的系數(shù),反對數(shù)后曲尸,得到每個變量的OR值(相對風(fēng)險)
coef(fit.full)
coefficients(fit.full)
exp(coef(fit.full))
本篇篇幅暫時不再擴展赋续,下一篇繼續(xù)廣義線性模型的預(yù)測,效能評估及列線圖等展示另患。