多元線性回歸
一呐籽、原理:
多元線性回歸分析就是研究一個因變量和多個自變量之間的關(guān)系锋勺。公式如下:
?=a+b1x1+ b2x2蚀瘸。x1和x2為兩個自變量,y為因變量庶橱。
二贮勃、要素:
1、因變量:必須為連續(xù)型變量
2苏章、自變量:可為多個變量
3寂嘉、方法:應(yīng)用最多的為逐步法(stepwise),即對自變量按照一定的納入和排除標(biāo)準(zhǔn)反復(fù)進(jìn)行引入枫绅、剔除過程泉孩,直到?jīng)]有變量被引入,也沒有變量被剔除為止并淋。
該回歸方法與logistics回歸分析和Cox回歸分析最顯著的區(qū)別就是寓搬,其因變量(y)是連續(xù)變量。舉例:你可以使用該回歸去研究哪些因素可以影響腫瘤的大邢氐ⅰ(連續(xù)變量)句喷,但不能使用該回歸去研究那些因素可以影響老年人的是否患高血壓病(分類變量)兔毙。
logistics回歸分析
一脏嚷、原理
多元回歸分析研究一個正太隨機(jī)因變量Y與一組自變量X(x1,x2,x3,...,xp)的數(shù)量關(guān)系,但我們經(jīng)常遇到因變量為二分類變量的情況瞒御,如發(fā)病與否父叙、死亡與否等。需要研究該分類變量與一組自變量之間的關(guān)系肴裙,則采用二分類Logistic回歸趾唱,又稱非條件Logistic回歸。
Logistic回歸是一種概率分析蜻懦,即分析當(dāng)暴露因素為x時甜癞,個體發(fā)生某事件(y)的概率的大小。Logistic的方程式為y=β0+β1X1+β2X2+…βmXm宛乃。β1悠咱,β2…βm稱為回歸系數(shù),反映了在其他變量固定后征炼,x=1與x=0相比發(fā)生y事件的概率析既。OR越大,發(fā)生結(jié)果的可能性越大
二谆奥、要素:
1眼坏、因變量:一個二分類因變量
2、協(xié)變量:所有的自變量
3酸些、方法:自變量少時采用進(jìn)入法(enter)宰译,自變量太多時檐蚜,選用前進(jìn)法(forward)中的偏似然比(LR),前進(jìn)LR相當(dāng)于多元線性回歸中的逐步回歸
三沿侈、重點(diǎn):
1闯第、Logistic回歸分析對樣本量是有一定要求的。簡單的估算方法:樣本量為自變量個數(shù)的10倍缀拭。例如有5個自變量(x1咳短、x2、x3智厌、x4诲泌、x5),則值少要有50個患者數(shù)據(jù)铣鹏。
2敷扫、因變量(y)是分類變量
3、不允許有數(shù)據(jù)刪失
Cox回歸分析
一诚卸、原理:
Logistic回歸分析只考慮了終點(diǎn)事件的出現(xiàn)與否葵第,但惡性腫瘤等隨訪研究中,還需要考慮觀察對象達(dá)到終點(diǎn)所經(jīng)歷的時間長短合溺。
生存分析就是將終點(diǎn)事件的出現(xiàn)與否和達(dá)到終點(diǎn)所經(jīng)歷的時間長短結(jié)合起來分析的一類統(tǒng)計(jì)分析方法卒密。其包含的具體統(tǒng)計(jì)過程如下:
l、壽命表 用于分析分組生存資料棠赛,求出不同組段的生存率哮奇。或者當(dāng)樣本量較大時(如n> 50) 睛约,可以把資料按不同時間段分成幾組鼎俘,觀察不同時間點(diǎn)的生存率。
2辩涝、Kaplan-Meier 用于樣本含量較小時贸伐,不能給出特定時間點(diǎn)的生存率,這樣就不用擔(dān)心每個時間段內(nèi)只有很少的幾個觀測怔揩,甚至沒有觀測的尷尬局面捉邢。 單因素生存曲線比較(Kaplan-Meier 法)采用乘積極限法( Product-limit estimates) 來估計(jì)生存率,同時還可以對一個影響因素進(jìn)行檢驗(yàn)商膊。它適用于以個體為單位收集信息的精確生存時間的生存資料伏伐,是最為基本的一種生存分析方法。
3翘狱、Cox 回歸 用于擬合Cox 比例風(fēng)險(xiǎn)模型秘案,這是生存分析中最重要的一種分析方法,它的出現(xiàn)具有劃時代的意義潦匈,是多因素分析方法中最為常用的一種阱高。
4、Cox 依時協(xié)變量 是Cox 比例模型的進(jìn)一步發(fā)展茬缩。當(dāng)所研究的危險(xiǎn)因素其取值隨時間而不斷變化赤惊,或者其作用強(qiáng)度隨時間而不斷變化時,Cox 模型的適用條件被違反凰锡, 此時需要對模型加以修正未舟,就必須用到這個過程。舉一個典型的例子掂为,臨床試驗(yàn)隨訪資料中經(jīng)常碰到某研究對象從安慰劑組退出裕膀,跳轉(zhuǎn)至治療組的資料就應(yīng)當(dāng)用此過程來分析。
K-M法只能研究一個因素對生存時間的影響勇哗,當(dāng)對生存時間的影響因素有多個時便無能為力昼扛,而Cox比例風(fēng)險(xiǎn)模型則可以估計(jì)多個研究因素對風(fēng)險(xiǎn)率的影響,該過程稱為Cox回歸(Cox regression)
二欲诺、要素:
1抄谐、因變量:生存時間
2、協(xié)變量:所有的自變量
3扰法、方法:一般采用前進(jìn)條件法(forward_LR)相當(dāng)于多元線性回歸中的逐步回歸法
4蛹含、允許數(shù)據(jù)刪失:即截尾數(shù)據(jù)。產(chǎn)生截尾的原因一般為患者失訪塞颁、患者生存期超過了研究的終止期浦箱;但截尾數(shù)據(jù)的價(jià)值在于提供了觀察期間的信息,生存時間不會短于觀察時間祠锣。截尾數(shù)據(jù)常在其右上角標(biāo)記“+”
三酷窥、結(jié)果解讀:
B:回歸系數(shù)估計(jì)值
SE:回歸系數(shù)的標(biāo)準(zhǔn)誤
Exp(B):相對危險(xiǎn)度RR值
y是生存時間;舉例:年齡锤岸、性別竖幔、分級、分期是偷、geneA的表達(dá)量拳氢,那些是影響腫瘤患者生存時間的因素