丁香公開課學(xué)習(xí)筆記
生存分析(survival)概念:將時間的結(jié)局和發(fā)生這個結(jié)局所經(jīng)歷的的時間因素綜合起來分析的一種統(tǒng)計方法捉兴。它能處理截尾數(shù)據(jù),并對整個生存過程進行分析或比較同衣。
生存資料特點:
(1)有生成結(jié)局,生存時間
(2)有不確定的截尾數(shù)據(jù)
(3)分布可能呈現(xiàn)指數(shù)分布、weibull分布休讳,對數(shù)正態(tài)分布、對數(shù)logistic分布等
生成分析主要包括內(nèi)容:
(1)統(tǒng)計描述:計算生成率尿孔,繪制生成率曲線俊柔,計算中位生存時間
(2)統(tǒng)計推斷:估計總體生產(chǎn)率的可信區(qū)間,生存曲線的比較
有言在先(容易混淆的概念或者馬甲名字)
(1)終點事件(terminal event)=失效事件(failure event)活合,如:因癌死亡雏婶,大多用1表示
(2)截尾:所以沒有發(fā)生結(jié)局的都是截尾,則 如上述的結(jié)局白指,終止研究留晚,失訪,死于車禍等都是屬于截尾數(shù)據(jù)告嘲,都可以用0表示错维。
截尾數(shù)據(jù)不能提供完全的in小奖地,真實的生成時間未知,直至比觀察到的截尾時間長赋焕,常用符號“+”表示参歹。在統(tǒng)計軟件會進行一些估算(具體怎么估算的,暫不考慮)隆判。
(3)生存概率(probability ofsurvival)表示 單位時間段開始存活的個體到該段時間結(jié)束時仍存活的可能性犬庇。
某年(單位時間)活滿一年人數(shù)/某年年初人口數(shù)(歷險數(shù))
死亡概率
(4)生存率(survival rate ):表示觀察對象經(jīng)歷k個單位時間段后仍存活的可能性。
由于大多存在截尾數(shù)據(jù)侨嘀,會分段計算生成概率臭挽,然后相乘,pi為某個時段的生存概率
所以:生存率=累計生存概率≠生存概率
(5)單因素分析得到的HR就是Crude HR,由多因素分析的到的HR就是Adjusted HR
(6) COX回歸中 Exp(B) =RR=HR
生存分析的基本方法:
一般我們用的就是乘積極限法(Kaplan-Meier法)、壽命表法飒炎、cox比例風(fēng)險回歸模型埋哟。
(1)非參數(shù)法:不論資料是什么分布類型(不考慮),只根據(jù)樣本提供的順序統(tǒng)計量對生存率進行估計郎汪。常用乘積極限法和壽命表法赤赊。
生存曲線的比較:log-rank檢驗(非參數(shù)檢驗法)
1.乘積極限法(Kaplan-Meier法)
適用于分組生存資料的分析,需要知道每例患者的生存時間與狀態(tài)煞赢。
中位生存時間:若生存率0.5處所對應(yīng)的曲線與X軸平行抛计,則中位生存時間不只一個;若各時間點生存率均大于50%照筑,無法估計中位生存時間吹截。
對
2.壽命表法
適用于未分組的生存資料,不需要知道每例患者的生存時間與狀態(tài)凝危。
①實際工作中波俄,隨訪結(jié)果常常沒有每個觀察對象確切的生存時間,只能獲得按隨訪時間分段的資料
②當(dāng)樣本較大(n>50)時蛾默,采用乘積極限估計生存率及標(biāo)準(zhǔn)誤往往較為繁瑣
log-rank檢驗
對數(shù)秩檢驗懦铺,非參數(shù)檢驗法,單因素分析支鸡,其零假設(shè)為兩總體生存曲線相同冬念,但檢驗過程一般不估計生存率,而是利用死亡數(shù)和死亡概率數(shù)作為統(tǒng)計推斷牧挣。
log-rank檢驗注意事項:
①相對死亡比:實際死亡數(shù)A與理論死亡數(shù)T之比急前,相對危險度(relative risk,RR)估計值為兩組相對死亡率之比。如A組患者與B組患者相比RR=2.64瀑构,表示A組患者死亡風(fēng)險是B組患者死亡風(fēng)險DE 2.64倍。SPSS里的log-rank不提供這個值,可以采用cox回歸据块,或者其他軟件如graphpad來算。
②log-rank檢驗適用于兩條整條生存曲線的比較另假,比較兩條生存曲線某時點的生存率是有特定算法的
像屋。不能直接對兩個點的生存率的值進行比較边篮。
③兩組以上的生存曲線比較時己莺,log-rank算出來的p只能代表這多條曲線具有區(qū)別戈轿,但具體兩兩有無區(qū)別需要分開計算,再進行檢驗水準(zhǔn)α的校正思杯。
額外知識點:三種檢驗方法(log-rank、breslow色乾、tarone)的比較
Log rank:檢驗生存分布是否相同誊册,各時間點權(quán)重一樣。
Breslow:檢驗生存分布是否相同暖璧,以各時間點的觀察例數(shù)為權(quán)重案怯。
Tarone-Ware:檢驗生存分布是否相同,以各時間點的觀察例數(shù)的平方根為權(quán)重澎办。? ?
log-rank法側(cè)重于遠期差別嘲碱,breslow法側(cè)重于近期差別,tarone法介于兩者之間局蚀。對于一開始靠得很近麦锯,隨著時間的推移逐漸拉開的生存曲線,log-rank法較breslow法更容易得到顯著性的結(jié)果琅绅;反之离咐,對于一開始拉的很開,以后逐漸靠近的生存曲線奉件,breslow法較log-rank法更容易獲得統(tǒng)計學(xué)差異。如果log-rank法有顯著差異昆著,而breslow沒有差異县貌,可以解釋為在開始時生存率沒有差異,隨之時間的推移生存率出現(xiàn)差異凑懂,反之亦然煤痕。tarone法是一種折中的方法,介于兩者之間。?
(2)參數(shù)法:假定生存時間服從特定的參數(shù)分布摆碉,根據(jù)分布特點對影響生存的時間進行分析塘匣。常用指數(shù)分布法,weibull分布法巷帝,對數(shù)正態(tài)分布法忌卤、對數(shù)logistic回歸分布法。對時間進行轉(zhuǎn)化楞泼,使其符合正態(tài)分布后在進行后面操作驰徊。用的少。
(3)半?yún)?shù)法:介于上述兩者之間堕阔,一般屬于多因素分析方法棍厂。用于探討生存過程的主要影響因素,經(jīng)典方法就是cox比例風(fēng)險回歸模型超陆。
cox比例風(fēng)險回歸模型
(1)COX模型不直接考察生存時間與各自變量的關(guān)系牺弹,而是利用風(fēng)險率作為應(yīng)變量。COX模型的基本結(jié)構(gòu)為:
h(t,X):t時點上m個危險因素起作用時的風(fēng)險率时呀,即在時間t上的死亡率张漂;
h0(t):某時間t上當(dāng)m個危險因素為0時的基準(zhǔn)風(fēng)險率;
X = (X1,X2,X3,...Xm):與生存時間可能有關(guān)的自變量退唠;
β = (β1鹃锈,β2,...βm):COX模型的回歸系數(shù)瞧预。
COX回歸方程的檢驗方法有屎债,采用似然比檢驗、Wald檢驗和記分檢驗(后兩者比較常用)盆驹。假設(shè)檢驗H0為:β1=β2=...=βm=0躯喇,H1:各β j(j=1,2,...m)不全為0
h0(t)分布類型未做任何限定硝枉,但h(t)隨變量X的變化假定為指數(shù)函數(shù)exp(bx),故COX模型為半?yún)?shù)模型正压。又由于h0(t)分布類型未做任何限定焦履,使用范圍廣泛,類似于非參數(shù)方法嘉裤,但其檢驗效率高于非參數(shù)檢驗,接近參數(shù)模型厢洞∠洌總而言之秋柄,pick它!
(2)COX回歸模型的應(yīng)用條件(均需滿足)
①已知觀察對象生存時間
②已知觀察對象在事先確定的觀察時間內(nèi)省店,其是否發(fā)生某件事情的結(jié)果
③自變量可以是計量資料懦傍、計數(shù)資料芦劣、或等級資料
④等比例風(fēng)險(PH),指協(xié)變量不同狀態(tài)的病人的風(fēng)險在不同的時間比例保持不變寸认。
(例如偏塞,當(dāng)選擇是否有糖尿病作為其中一個協(xié)變量,那么研究的時間段內(nèi)灸叼,比如10年庆捺,具有糖尿病患者的肝癌的死亡風(fēng)險是非糖尿病的3倍滔以,無論第一年,第二年醉者,...,都是如此)
(3)等比例風(fēng)險驗證
①按照協(xié)變量分組的K-M生存曲線撬即,如果曲線存在明顯交叉,則不滿足PH假定唱歧。(簡單,使用多)
②將協(xié)變量與時間做交換項引入模型颅崩,如果交互項沒有統(tǒng)計學(xué)意義沿后,則等比例風(fēng)險成立朽砰,如果有統(tǒng)計學(xué)意義,則不成立漆弄。
與時間有關(guān)的風(fēng)險稱為非比例風(fēng)險造锅,采用非比例風(fēng)險模型分析。
(4)COX回歸前之因子初步篩選
①.剔除缺失數(shù)據(jù)較多的因子
②.剔除變異幾乎為零的因子
③.對所有因子單個作為單因素COX模型分析倒谷,選擇具有統(tǒng)計意義變量作多因素COX模型分析恨锚,此時α值可以去大些,如α=0.1
如果有效樣本量足夠大可以通過軟件自帶的篩選因子方法:前進法猴伶,后退法他挎,逐步法進行操作捡需,否則不推薦使用站辉。
(5)COX回歸結(jié)果簡單解讀
sig.=p <0.05 屬于危險因素
exp(B) = HR 值越大對生存的影響越大