廣義與一般線性模型及R使用

5.1 數(shù)據(jù)的分類與模型選擇

  • 變量的取值類型

因變量y的取值類型通常包括:連續(xù)變量护桦、“0-1”變量或稱二分類變量、有序變量(等級變量)蔓罚、多分類變量和連續(xù)伴有刪失變量杠纵,解釋變量x則可分為連續(xù)變量荠耽、分類變量和等級變量。

  • 模型選擇方式:基本公式

\mathbf Y = \mathbf X \mathbf \beta + e \\ E(e) = 0 ,cov(e) = \sigma^2I

\mathbf Y不是正態(tài)分布比藻,則該模型為廣義線性模型铝量,而若\mathbf X不是連續(xù)或正態(tài)分布,則該模型為一般線性模型银亲。下表為不同變量類型可選用的模型分類:

1582793257442.jpg

5.2 廣義線性模型

廣義線性模型(generalized linear model)是一般線性模型的直接推廣慢叨,它使因變量的總體均值通過一個(gè)非線性連接函數(shù)(link function)而依賴于線性預(yù)測值,同時(shí)還允許響應(yīng)概率分布為指數(shù)分布族中的任何一員务蝠,在廣義線性模型中常用的分布族如下所示:

分布 函數(shù) 模型
正態(tài)(Gaussian) E(y)=\mathbf{X}'\beta 普通線性模型
二項(xiàng)(Binomial) E(y)= \frac{exp(\mathbf{X}'\beta)}{1+exp(\mathbf{X}'\beta)} logistic模型和概率模型單位(probit)模型
泊松(Poission) E(y) = exp(\mathbf{X}'\beta) 對數(shù)線性模型

廣義線性模型函數(shù)glm()的用法:

glm(formula,family = gaussian, data,...)

formula為公式拍谐,即為要擬合的模型;
family為分布族馏段,包括正態(tài)分布轩拨、二項(xiàng)分布、泊松分布和 伽瑪分布院喜,分布族還可以通過選項(xiàng)link=來指定使用的連接函數(shù)亡蓉;
data為可選擇的數(shù)據(jù)框。

說明與舉例

1喷舀、Logistic模型

  • 函數(shù)形式:
    logit(y) = ln \frac{P}{1-P} = \beta_0 +\beta_1x_1 +\beta_2x_2+\cdots+\beta_px_p = \mathbf X \beta

    其中參數(shù)估計(jì)采用極大似然估計(jì)砍濒。

  • 舉例:
    對45名駕駛員的調(diào)查結(jié)果淋肾,其中4個(gè)變量的含義為:

    • x1:表示視力狀況,1好爸邢,0則為有問題樊卓;
    • x2:年齡,數(shù)值型杠河;
    • x3:駕車教育碌尔,1表示參加過駕車教育,0表示無感猛;
    • y:分類變量(去年是否出過事故七扰,1出過奢赂,0沒有)
#(1)建立全變量logistic回歸模型
d5.1 <- xlsx::read.xlsx("msaD.xlsx",sheetIndex=5)
logit.glm <- glm(y~x1+x2+x3,family=binomial,data=d5.1)#logistic回歸模型
#summary(logit.glm) #可查看初步的Logistic回歸結(jié)果

#(2)逐步篩選變量logistic回歸模型
logit.step <- step(logit.glm,direction="both")#逐步篩選法變量選擇
#summary(logit.step)#可查看變量選擇結(jié)果

#(3)預(yù)測發(fā)生交通事故的概率
pre <- predict(logit.step,data.frame(x1=1))#預(yù)測視力正常司機(jī)Logistic回歸結(jié)果
p <- exp(pre)/(1+exp(pre))#預(yù)測視力正常司機(jī)發(fā)生事故概率

2陪白、對數(shù)線性模型:

  • 函數(shù)形式:

ln(m_{ij}) = \alpha_i + \beta_j + ε_(tái){ij}
ln(m_{ij}= \alpha_i + \beta_j +(\alpha\beta)_{ij}+ ε_(tái){ij})

其中,式2含有交叉項(xiàng)膳灶。

  • 舉例:

某企業(yè)想了解顧客對其產(chǎn)品是否滿意咱士,同時(shí)還想了解不同收入的人群對其產(chǎn)品的滿意程度是否相同。

d5.2 <- read.xlsx("msaD.xlsx",sheetName="d5.2")
head(d5.2)
##y表示頻數(shù)轧钓,x1表示收入人群序厉,x2表示滿意程度
#    y x1 x2
#1  53  1  1
#2 434  2  1
#3 111  3  1
#4  38  1  2
#5 108  2  2
#6  48  3  2
poi <- glm(y~x1+x2,family=poisson(link=log),data=d5.2)
summary(poi)

#Call:
#glm(formula = y ~ x1 + x2, family = poisson(link = log), data = d5.2)
#
#Deviance Residuals:
#      1        2        3        4        5        6
#-10.784   14.444   -8.468   -2.620    4.960   -3.142
#
#Coefficients:
#            Estimate Std. Error z value Pr(>|z|)
#(Intercept)  6.15687    0.14196  43.371  < 2e-16 ***
#x1           0.12915    0.04370   2.955  0.00312 **
#x2          -1.12573    0.08262 -13.625  < 2e-16 ***
#---
#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
#(Dispersion parameter for poisson family taken to be 1)
#
#    Null deviance: 662.84  on 5  degrees of freedom
#Residual deviance: 437.97  on 3  degrees of freedom
#AIC: 481.96
#
#Number of Fisher Scoring iterations: 5

從檢驗(yàn)結(jié)果可以看出,p1和p2都<0.01毕箍,說明收入和滿意程度對產(chǎn)品有重要影響弛房。

5.3 一般線性模型

1、完全隨機(jī)設(shè)計(jì)模型

  • 函數(shù)形式:

    y_{ij} = \mu + \alpha_i + e_{ij}\ ,\ i=1,2,\cdots,n
    其中而柑,\mu表示觀察結(jié)果y_{ij}的總體均值文捶,\alpha_i是啞變量的系數(shù),稱為A因素各水平的主效應(yīng)媒咳,e_{ij}是誤差項(xiàng)粹排。

    啞變量:也叫虛擬變量,引入啞變量的目的是涩澡,想不能夠定量處理的變量量化顽耳,如職業(yè)、性別對收入的影響等妙同,這種“量化”通常是通過引入“啞變量”來完成的射富,根據(jù)這些因素的屬性類型,構(gòu)造只取“0”或“1”的人工變量粥帚,通常稱為啞變量辉浦,記為D。

  • 舉例:

設(shè)有3臺(tái)機(jī)器茎辐,用來生產(chǎn)規(guī)格相同的鋁合金薄板∠芙迹現(xiàn)從3臺(tái)機(jī)器生產(chǎn)出的薄板中各 隨機(jī)抽取5塊掂恕,測出厚度值,試分析各機(jī)器生產(chǎn)的薄板厚度有無顯著差異?

d5.3 <- read.xlsx("msaD.xlsx",sheetName="d5.3")
head(d5.3)
#     Y A
#1 2.36 1
#2 2.38 1
#3 2.48 1
#4 2.45 1
#5 2.47 1
#6 2.43 1
#完全隨機(jī)設(shè)計(jì)模型方差分析
anova(lm(Y~factor(A),data=d5.3))

#Analysis of Variance Table
#
#Response: Y
#          Df   Sum Sq  Mean Sq F value   Pr(>F)
#factor(A)  2 0.122233 0.061117  40.534 8.94e-07 ***
#Residuals 15 0.022617 0.001508
#---
#Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

P<0.05弛槐,說明各機(jī)器生產(chǎn)的薄板厚度有顯著差異懊亡。

2、隨機(jī)單位組設(shè)計(jì)模型

  • 函數(shù)形式:

y_{ij}=\mu+\alpha_{i} + \beta_j + e + ij , \ i=1,2,\cdots,n

其中乎串,\mu為總體均數(shù)店枣,\alpha_i為處理因素A的第i個(gè)水平的效應(yīng);\beta_j為第j個(gè)單位組的效應(yīng)叹誉,e_{ij}為誤差項(xiàng)鸯两。

  • 舉例:

使用4種燃料,3種推進(jìn)器作火箭射程試驗(yàn)长豁,每一種組合情況做一次試驗(yàn)钧唐,則得火箭 射程列在下表中,試分析各種燃料A與各種推進(jìn)器B對火箭射程有無顯著影響?

d5.4 <- read.xlsx("msaD.xlsx",sheetName="d5.4")
head(d5.4)
##A是燃料匠襟,B是推進(jìn)器钝侠,Y是射程
#    Y A B
#1 582 1 1
#2 491 2 1
#3 601 3 1
#4 758 4 1
#5 562 1 2
#6 541 2 2
anova(lm(Y~factor(A)+factor(B),data=d5.4))
#Analysis of Variance Table
#
#Response: Y
#          Df Sum Sq Mean Sq F value Pr(>F)
#factor(A)  3  15759    5253  0.4306 0.7387
#factor(B)  2  22385   11192  0.9174 0.4491
#Residuals  6  73198   12200

P(A)和P(B)均>0.05,說明各種燃料和各種推進(jìn)器對火箭射程都無顯著影響酸舍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末帅韧,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子啃勉,更是在濱河造成了極大的恐慌忽舟,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淮阐,死亡現(xiàn)場離奇詭異叮阅,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)枝嘶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門帘饶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人群扶,你說我怎么就攤上這事及刻。” “怎么了竞阐?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵缴饭,是天一觀的道長。 經(jīng)常有香客問我骆莹,道長颗搂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任幕垦,我火速辦了婚禮丢氢,結(jié)果婚禮上傅联,老公的妹妹穿的比我還像新娘。我一直安慰自己疚察,他們只是感情好蒸走,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著貌嫡,像睡著了一般比驻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上岛抄,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天别惦,我揣著相機(jī)與錄音,去河邊找鬼夫椭。 笑死掸掸,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的益楼。 我是一名探鬼主播猾漫,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼点晴,長吁一口氣:“原來是場噩夢啊……” “哼感凤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起粒督,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤陪竿,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后屠橄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體族跛,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年锐墙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了礁哄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡溪北,死狀恐怖桐绒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情之拨,我是刑警寧澤茉继,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站蚀乔,受9級特大地震影響烁竭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吉挣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一派撕、第九天 我趴在偏房一處隱蔽的房頂上張望婉弹。 院中可真熱鬧,春花似錦终吼、人聲如沸马胧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽佩脊。三九已至,卻和暖如春垫卤,著一層夾襖步出監(jiān)牢的瞬間威彰,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工穴肘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留歇盼,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓评抚,卻偏偏與公主長得像豹缀,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子慨代,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容