1夏漱、背景介紹
Cox回歸是一種用于生存分析的統(tǒng)計模型豪诲,最早由英國統(tǒng)計學家David Cox 命名,主要用于探究某些因素對于事件發(fā)生時間的影響程度挂绰。Cox模型是一種半?yún)?shù)模型屎篱,即只對協(xié)變量和風險函數(shù)(描述因子對生存時間的影響)作出了特定的分布假設(shè),而對基礎(chǔ)分布假設(shè)沒有作出限制葵蒂。
Cox回歸分析面對的問題是:“目標事件”(如死亡或疾病再發(fā)交播、復(fù)發(fā)等)在某些“危險因素”的影響下,何時發(fā)生践付。
在生存分析中秦士,探究“生存曲線”的斜率和它變化的原因是非常重要的,而Cox回歸提供了一種可靠的方法來揭示相關(guān)因素對于生存時間的影響永高。通常隧土,我們使用Cox回歸來比較在不同條件下(如藥物治療的應(yīng)用,疾病的嚴重程度等)的生存曲線命爬,以此來推斷不同因素對于生存時間的影響程度曹傀。
2、Cox 比例風險回歸模型
2.1 數(shù)據(jù)集
其中T代表min(T, C)饲宛,其中T為死亡時間皆愉,C為觀測截止時間。E代表是否觀察到“死亡”,1代表觀測到了幕庐,0代表未觀測到久锥,即生存分析中的“刪失”數(shù)據(jù),刪失數(shù)據(jù)共11個异剥。
var1,var2,var3代表了我們關(guān)系的變量奴拦,可以是是否為實驗組的虛擬變量,可以是一個用戶的渠道路徑届吁,也可以是用戶自身的屬性
2.2 比例風險Cox回歸
from lifelines.datasets import load_regression_dataset
from lifelines import CoxPHFitter
regression_dataset = load_regression_dataset()
print(regression_dataset.head())
print(regression_dataset['E'].value_counts())
cph = CoxPHFitter()
cph.fit(regression_dataset, 'T', event_col='E')
cph.print_summary()
cph.plot()
結(jié)果分析:從結(jié)果來看错妖,我們認為var1和var3在5%的顯著性水平下是顯著的。認為var1水平越高疚沐,用戶的風險函數(shù)值越大暂氯,即存活時間越短(cox回歸是對風險函數(shù)建模,這與死亡加速模型剛好相反亮蛔,死亡加速模型是對存活時間建模痴施,兩個模型的參數(shù)符號相反)。同理究流,var3水平越高辣吃,用戶的風險函數(shù)值越大。
這里還可以畫出每個參數(shù)的風險水平coef值: