<meta charset="utf-8">
什么是一致性指數(shù)酸舍?
C-index责嚷,英文名全稱concordance index莱睁,中文里有人翻譯成一致性指數(shù)痕支,最早是由范德堡大學(xué)(Vanderbilt University)生物統(tǒng)計教教授Frank E Harrell Jr 1996年提出颁虐,主要用于計算生存分析中的COX模型預(yù)測值與真實之間的區(qū)分度(discrimination),和大家熟悉的AUC其實是差不多的卧须;在評價腫瘤患者預(yù)后模型的預(yù)測精度中用的比較多另绩。一般評價模型的好壞主要有兩個方面,一是模型的擬合優(yōu)度(Goodness of Fit),常見的評價指標(biāo)主要有R方花嘶、-2logL笋籽、AIC、BIC等椭员;
另外一個是模型的預(yù)測精度车海,顧名思義就是模型的真實值與預(yù)測值之間差別大小,均方誤差隘击,相對誤差等容劳。在臨床應(yīng)用上更注重預(yù)測精度,建模的主要目的是用于預(yù)測闸度,而C-index它就屬于模型評價指標(biāo)中的預(yù)測精度竭贩。
C-index的計算方法是把所研究的資料中的所有研究對象隨機(jī)地兩兩組成對子,以生存分析為例,兩個病人如果生存時間較長的一位其預(yù)測生存時間長于另一位,或預(yù)測的生存概率高的一位的生存時間長于另一位,則稱之為預(yù)測結(jié)果與實際結(jié)果相符莺禁,稱之為一致留量。
計算C-index=K/M。
從上述計算方法可以看出C-index在0.5-1之間(任意配對隨機(jī)情況下一致與不一致剛好是0.5的概率)。0.5為完全不一致,說明該模型沒有預(yù)測作用,1為完全一致,說明該模型預(yù)測結(jié)果與實際完全一致楼熄。一般情況下C-index在0.50-0.70為準(zhǔn)確度較低:在0.71-0.90之間為準(zhǔn)確度中等;而高于0.90則為高準(zhǔn)確度忆绰,跟相關(guān)系數(shù)有點類似。
光從C-index一個數(shù)字上還是很難以衡量到底是準(zhǔn)確度高還是低可岂,所以人們就想著用一個統(tǒng)計學(xué)檢驗來說服證明這個高低错敢,正如篩選基因差異是光看差異倍數(shù)來判斷表達(dá)差異還過于武斷,此時引入重抽樣技術(shù)(Bootstrap)來檢驗預(yù)測模型的準(zhǔn)確度缕粹。Bootstrap是非參數(shù)統(tǒng)計中一種重要的估計統(tǒng)計量方差進(jìn)而進(jìn)行區(qū)間估計的統(tǒng)計方法稚茅。
Bootstrap方法核心思想和基本步驟如下:
(1)采用重抽樣技術(shù)從原始樣本中抽取一定數(shù)量的樣本,此過程允許重復(fù)抽樣。
(2)根據(jù)抽出的樣本計算給定的統(tǒng)計量T平斩。
(3)重復(fù)上述N次(一般大于1000),得到N個統(tǒng)計量T亚享。
(4)計算上述N個統(tǒng)計量T的樣木方差,得到統(tǒng)計量的方差。
另如果數(shù)據(jù)集很大的話可以按照不同的比例將數(shù)據(jù)集拆分绘面,一部分用于建模一部分用于驗證欺税。關(guān)于交叉驗證(Cross-validation),如5-fold揭璃、10-fold等晚凿。
雖然看起來很復(fù)雜,但是事實上已經(jīng)有人做了這些事情瘦馍,在R中有包可以直接計算一致性指數(shù):Hmisc 歼秽、compareC,兩個包都可以計算c-index扣墩。
參考資料來源:https://shengxin.ren/article/104
作者:醫(yī)科研
鏈接:http://www.reibang.com/p/5e648f0f49ed
來源:簡書