統(tǒng)計(jì)入門(mén)系統(tǒng)知識(shí)--多因素線性回歸

案例1:研究究高血壓患者血壓與性別烧董、年齡洲鸠、身高、體重等變量的關(guān)系诵叁,隨機(jī)測(cè)量了32名40歲以上的血壓y界牡、年齡X1簿寂、體重指數(shù)X2、性別X3宿亡,試建立多重線性回歸方程常遂。數(shù)據(jù)文件見(jiàn)mreg.sav。


多因素線性回歸應(yīng)用條件

線性(linear)挽荠、獨(dú)立性(independent)克胳、正態(tài)性(normal)平绩、方差齊性(equal variance)----LINE

? ?線性—自變量與應(yīng)變量的關(guān)系是線性的。用散點(diǎn)圖判斷

? ?獨(dú)立性—任意兩個(gè)(殘差)觀察值互相獨(dú)立漠另。常利用專業(yè)知識(shí)判斷

? ?正態(tài)性—要求殘差服從正態(tài)分布捏雌。常用殘差圖分析

? ?差齊性—要求殘差的方差齊性。用散點(diǎn)圖或殘差圖判斷


多因素線性回歸分析步驟

1.線性關(guān)系描述(包括散點(diǎn)圖)

2.用各變量的數(shù)據(jù)建立線性回歸方程

3.對(duì)總的方程進(jìn)行假設(shè)檢驗(yàn)


案例分析

1.根據(jù)知識(shí)判斷三個(gè)自變量笆搓,在理論上是否可能會(huì)影響血壓的改變

2.與簡(jiǎn)單線性回歸相類似性湿,先繪制散點(diǎn)圖,以便在進(jìn)行回歸分析之前了解各變量之間是否存在線性關(guān)系满败。

3.本例有2個(gè)連續(xù)性定量自變量與一個(gè)反應(yīng)變量肤频,繪制散點(diǎn)圖矩陣,如下算墨。二分類或無(wú)序多分類宵荒,無(wú)需散點(diǎn)圖。

第一步:散點(diǎn)圖? ? ? ?

SPSS路徑:Graphs→ Legacy Dialogs → Scatter/Dot→ matrix scatter


第二步:多因素線性回歸分析

SPSS路徑:Analyze→ regression → linear



殘差獨(dú)立性 b值的95%CI的置信區(qū)間


殘差正態(tài)性净嘀、方差齊性


計(jì)算預(yù)測(cè)值和殘差

第三步:結(jié)果解讀

結(jié)果1:?

模型擬合優(yōu)度情況报咳,調(diào)整R^2=0.775,說(shuō)明對(duì)真實(shí)世界模擬度好

Durbin-Watson值=1.969挖藏,在1-3之間暑刃,獨(dú)立性符合

R^2結(jié)果和殘差獨(dú)立性檢驗(yàn)( Durbin-Watson檢驗(yàn))

結(jié)果2:?

本例F=36.542,P<0.001熬苍,說(shuō)明至少有一個(gè)自變量解釋了一部分的因變量的變異稍走,模型成功建立袁翁,模型具有統(tǒng)計(jì)學(xué)意義柴底。

方差分析(ANOVA),主要探討模型是否成功建成

結(jié)果3:

①回歸系數(shù)b值粱胜,統(tǒng)計(jì)學(xué)上稱為偏回歸系數(shù)

②回歸系數(shù)的抽樣誤差柄驻,即標(biāo)準(zhǔn)誤

③Beta值,它是標(biāo)準(zhǔn)化b值焙压,標(biāo)準(zhǔn)化回歸系數(shù)鸿脓。可以用來(lái)比較各個(gè)自變量x對(duì)y的影響程度涯曲。它回答以下問(wèn)題:年齡野哭、性別和體重指數(shù),到底誰(shuí)對(duì)y的影響更大幻件。在本例中拨黔,年齡對(duì)血壓的改變影響最大(它解釋了血壓最大程度的變異)。

④t值绰沥,是各個(gè)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量篱蝇,線性回歸檢驗(yàn)統(tǒng)計(jì)量為t值贺待。

⑤顯著性:即P值。P<0.05說(shuō)明自變量與因變量回歸關(guān)系成立零截,有關(guān)系麸塞,有影響。

回歸分析的主要結(jié)果: 計(jì)算回歸系數(shù)涧衙、并對(duì)回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)哪工,探討影響因素。

本研究結(jié)果顯示绍撞,年齡對(duì)血壓的影響的存在著統(tǒng)計(jì)學(xué)差異(b=0.99正勒,t=3.22,P<0.001)傻铣;這意味著年齡每增加一個(gè)單位(在本研究中一單位等于一歲)章贞,血壓將上升0.99個(gè)單位

本研究結(jié)果顯示,BMI對(duì)血壓的影響的存在著統(tǒng)計(jì)學(xué)差異(b=1.08非洲,t=2.14鸭限,P=0.041);這意味著B(niǎo)MI每增加一個(gè)單位两踏,血壓將上升1.08個(gè)單位

本研究結(jié)果顯示败京,(b=-9.327, t=-3.72梦染,P=0.002)男性=1赡麦,女性=2,女性相對(duì)男性帕识,血壓低9.33個(gè)單位泛粹;男性是高血壓危險(xiǎn)因素(對(duì)照組為低值組)

多因素回歸分析結(jié)果表達(dá)

納入年齡、體重指數(shù)和性別構(gòu)建多因素線性回歸方程肮疗。結(jié)果發(fā)現(xiàn)晶姊,不同年齡(歲)對(duì)血壓的影響有統(tǒng)計(jì)學(xué)差異(b=0.99,95%CI 0.36-1.62,t=3.22伪货,P<0.001)们衙,不同的性別(男性較女性)對(duì)血壓的影響有統(tǒng)計(jì)學(xué)差異(b=-9.33,95%CI -14.47- -4.19碱呼,t=3.22蒙挑,P=0.003),不同的體重指數(shù)對(duì)血壓的影響有統(tǒng)計(jì)學(xué)差異(b=1.08,95%CI 0.05-2.11愚臀,t=2.14忆蚀,P=0.041)。

結(jié)果4:

殘差統(tǒng)計(jì):PRE_1(預(yù)測(cè)值)和RES_1(殘差) ,兩組相加蜓谋,剛好是y“血壓值”

結(jié)果5:

殘差直方圖:本例殘差均數(shù)接近于0梦皮,標(biāo)準(zhǔn)差接近于1,數(shù)據(jù)呈正態(tài)分布(標(biāo)準(zhǔn)正態(tài)分布)

殘差直方圖

結(jié)果6:

殘差圖桃焕。本例從圖形來(lái)看剑肯,標(biāo)準(zhǔn)化殘差圖分布在0值周圍,基本是上下對(duì)稱分布观堂,分布特征不隨預(yù)測(cè)值的增加而發(fā)生改變让网,意味著數(shù)據(jù)方差齊性、獨(dú)立性條件符合师痕。

殘差圖

線性回歸分析注意事項(xiàng):


1.線性回歸分析LINE條件不成立怎么辦溃睹?

?線性:如果X和Y的關(guān)系是非線性的關(guān)系(如曲線關(guān)系),則回歸系數(shù)b值無(wú)法值正確反映X和Y 的關(guān)系(X是二分類胰坟、無(wú)序多分類除外)

處理方法:將X轉(zhuǎn)為啞變量處理(分類)因篇,或者曲線回歸,或者對(duì)自變量x進(jìn)行轉(zhuǎn)換(指數(shù)轉(zhuǎn)換x^3笔横,或者對(duì)數(shù)轉(zhuǎn)換log(x)等)竞滓。

?正態(tài)性:如果殘差不符合正態(tài)性(一般是嚴(yán)重偏態(tài)分布),則可以考慮對(duì)y或者x進(jìn)行數(shù)據(jù)轉(zhuǎn)換(比如BOX-COX轉(zhuǎn)換)吹缔,推動(dòng)殘差正態(tài)分布商佑;或?qū)轉(zhuǎn)成2分類或多分類數(shù)據(jù)采用logistic回歸

方差不齊:方差不齊可以采用其他方法估計(jì)回歸系數(shù),常見(jiàn)的如加權(quán)最小二乘法估計(jì)回歸系數(shù)

?獨(dú)立性:如果獨(dú)立性條件不符合厢塘,則采用非獨(dú)立性的數(shù)據(jù)分析方法茶没,比如線性混合模型、多水平模型晚碾、廣義估計(jì)方程等抓半。

數(shù)據(jù)不符合要求者,一定要謹(jǐn)慎開(kāi)展線性回歸分析迄薄。


2. 回歸分析R^2很小怎么辦琅关?

醫(yī)學(xué)研究線性回歸有幾個(gè)重要的用途煮岁,其中兩個(gè)分別是預(yù)測(cè)結(jié)局讥蔽,探討影響因素。

目的是預(yù)測(cè)的線性回歸画机,R^2非常重要冶伞,R^2越高,模型預(yù)測(cè)效果越好步氏,所以經(jīng)濟(jì)學(xué)領(lǐng)域特別看中R^2响禽。

醫(yī)學(xué)研究開(kāi)展回歸模型,最大的目的是探討影響因素(或者控制混雜)。在這個(gè)目的是芋类,R^2無(wú)論大小隆嗅,都不太影響結(jié)果。探討影響因素侯繁,首要探討的是某一個(gè)因素在假設(shè)檢驗(yàn)中P值到底是否小于0.05胖喳。

有人說(shuō)R^2這么小,建模有什么意思贮竟?我倒反駁說(shuō)丽焊,就憑醫(yī)學(xué)研究的那幾個(gè)指標(biāo),你就想預(yù)測(cè)如此復(fù)雜的醫(yī)學(xué)現(xiàn)象咕别?癡人說(shuō)夢(mèng)技健!

所以,諸位不必糾結(jié)R^2是不是過(guò)小了惰拱!R^2雖好雌贱,不必苛求。


3.回歸分析還需注意異常值

在實(shí)踐中偿短,科研工作者鑒別數(shù)據(jù)異常值是統(tǒng)計(jì)分析前首先要完成的工作帽芽,否則會(huì)導(dǎo)致前功盡棄,得不償失翔冀。比如下圖:虛線是代表受異常值影響而偏離的回歸線导街。


引自:方積乾主編,生物醫(yī)學(xué)研究的統(tǒng)計(jì)學(xué)方法(第二版)

異常值數(shù)據(jù)的識(shí)別可以通過(guò)簡(jiǎn)單纤子、直觀搬瑰、有效的散點(diǎn)圖,也可以計(jì)算相關(guān)統(tǒng)計(jì)量(比如殘差或者廣義平方距離獲得)來(lái)反映控硼。

發(fā)現(xiàn)可能的異常數(shù)據(jù)泽论,不宜草率刪除,應(yīng)該仔細(xì)審查這些可能異常數(shù)據(jù)的獲得過(guò)程卡乾。

?實(shí)驗(yàn)失誤翼悴、記錄錯(cuò)誤或者錄入錯(cuò)誤等造成,考慮刪除或者重新測(cè)量幔妨;

?若異常值便是個(gè)體本身造成鹦赎,不便刪除,否則會(huì)扭曲真實(shí)結(jié)果误堡。


為什么多因素回歸分析結(jié)果和單因素回歸分析結(jié)果不一致古话?

原因在于,多因素回歸分析時(shí)自變量直接存在相關(guān)性锁施,或者很多時(shí)候我們說(shuō)是多重共線性(即使程度很輕)陪踩。變量與變量復(fù)雜的關(guān)系杖们,將影響模型構(gòu)建的成功率,造成回歸系數(shù)變動(dòng)肩狂。

若變量之間沒(méi)有相關(guān)摘完,對(duì)于某一個(gè)自變量而言,多因素和單因素回歸分析結(jié)果一致傻谁;

若存在著關(guān)系描焰,當(dāng)控制其它自變量不變時(shí),多因素回歸分析結(jié)果與單因素回歸存在著一定的差異栅螟。


舉例:探討B(tài)MI與結(jié)局的關(guān)系

探討B(tài)MI與結(jié)局的關(guān)系

單因素結(jié)果如下:b=1.506荆秦,P<0.001

納入年齡后,結(jié)果截然不同:b=0.564力图,P=0.064

說(shuō)明:年齡對(duì)BMI有影響步绸,同時(shí)年齡對(duì)血壓也有影響,而多因素回歸當(dāng)控制年齡不變時(shí)吃媒,兩者之間的關(guān)系就不復(fù)存在瓤介。

醫(yī)學(xué)上稱年齡為混雜因素。

多因素回歸法分析較單因素回歸更能有效控制混雜因素赘那,從而更為準(zhǔn)確地探討自變量對(duì)因變量的影響


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末刑桑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子募舟,更是在濱河造成了極大的恐慌祠斧,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拱礁,死亡現(xiàn)場(chǎng)離奇詭異琢锋,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)呢灶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)吴超,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人鸯乃,你說(shuō)我怎么就攤上這事鲸阻。” “怎么了缨睡?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,285評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵鸟悴,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我宏蛉,道長(zhǎng)遣臼,這世上最難降的妖魔是什么性置? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,485評(píng)論 1 283
  • 正文 為了忘掉前任拾并,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘嗅义。我一直安慰自己屏歹,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,581評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布之碗。 她就那樣靜靜地躺著蝙眶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪褪那。 梳的紋絲不亂的頭發(fā)上幽纷,一...
    開(kāi)封第一講書(shū)人閱讀 49,821評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音博敬,去河邊找鬼友浸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛偏窝,可吹牛的內(nèi)容都是我干的收恢。 我是一名探鬼主播,決...
    沈念sama閱讀 38,960評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼祭往,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼伦意!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起硼补,我...
    開(kāi)封第一講書(shū)人閱讀 37,719評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤驮肉,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后已骇,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體缆八,經(jīng)...
    沈念sama閱讀 44,186評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,516評(píng)論 2 327
  • 正文 我和宋清朗相戀三年疾捍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了奈辰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,650評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡乱豆,死狀恐怖奖恰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情宛裕,我是刑警寧澤瑟啃,帶...
    沈念sama閱讀 34,329評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站揩尸,受9級(jí)特大地震影響蛹屿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜岩榆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,936評(píng)論 3 313
  • 文/蒙蒙 一错负、第九天 我趴在偏房一處隱蔽的房頂上張望坟瓢。 院中可真熱鬧,春花似錦犹撒、人聲如沸折联。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,757評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)诚镰。三九已至,卻和暖如春祥款,著一層夾襖步出監(jiān)牢的瞬間清笨,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,991評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工刃跛, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留函筋,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,370評(píng)論 2 360
  • 正文 我出身青樓奠伪,卻偏偏與公主長(zhǎng)得像跌帐,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子绊率,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,527評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容