ROC曲線原理實例分析 【1】

在選擇診斷試驗時绍在,許多研究者會在靈敏度和特異度之間進行艱難的取舍勺届。那么,是否可以綜合考慮靈敏度和特異度的特點桑滩,根據(jù)一個指標(biāo)評價診斷試驗的準確性呢?受試者工作特征曲線(receiver operating characteristic curve允睹,簡稱ROC曲線)运准,用來描述診斷試驗的內(nèi)在真實程度幌氮,應(yīng)用十分廣泛。
ROC曲線是以真陽性率(靈敏度)為縱坐標(biāo)戳吝,假陽性率(1-特異度)為橫坐標(biāo)繪制的浩销。每一個點都對應(yīng)診斷試驗的一個截點,我們將這些可能的點連接起來即可制作出經(jīng)驗ROC曲線(empirical ROC curve)听哭。該方法可以幫助研究者簡單慢洋、直觀地分析診斷試驗的臨床準確性,選擇更加合適的截點陆盘。

一普筹、背景介紹

在介紹ROC曲線之前,首先來介紹一下預(yù)測模型的背景隘马。

(一)預(yù)測模型建模流程簡介

1.利用數(shù)據(jù)中的訓(xùn)練集進行模擬的生成太防。

2.利用測試集進行模型的評測。

3.將評測的結(jié)果反饋給生成模型酸员。

4.若評測結(jié)果比較滿意蜒车,進行生成模型的輸出,否則重新生成幔嗦。

那么測試集如何評測預(yù)測模型酿愧?這里引出混淆矩陣的概念。

(二)混淆矩陣

混淆矩陣也稱誤差矩陣邀泉,是表示精度評價的一種標(biāo)準格式嬉挡,常用來預(yù)測模型的準確率。

image

圖1 混淆矩陣

P:樣本中的正例汇恤,n:樣本中的負例 Y:通過模型預(yù)測出來樣本中的正列庞钢,N:通過模型預(yù)測出來樣本中的負列 TP(True Positives):本來是正列,通過模型預(yù)測出來也是正列FP(False Positives):本來是負列因谎,通過模型預(yù)測出來也是正列預(yù)測模型準確率accuracy=(TP+TN)/(P+n)(三)案例分析
表1 原始數(shù)據(jù)

image

從表1可以看出基括,有20個觀測值,結(jié)局有1和0兩種狀態(tài)蓝角,分別代表著陽性和陰性阱穗。類似于Logistic回歸當(dāng)中某個人是否患疾病,患病為1使鹅,不患病為0揪阶。預(yù)測概率是通過Logistic回歸預(yù)測的結(jié)果。那怎么去預(yù)測這組概率的準確率呢患朱?

首先將這組數(shù)據(jù)的預(yù)測概率按照從大到小的順序進行排列鲁僚。一般的二分類的實現(xiàn)方法就是選擇一個閾值,將大于這個閾值的樣本認為是正例,小于這個閾值的樣本認為是反例冰沙。如果以0.54為閾值侨艾,將預(yù)測概率0.54設(shè)置為陽性,預(yù)測概率小于0.54設(shè)置為陰性拓挥。 表2 以0.54為閾值的預(yù)測結(jié)局
image

從表2中可以看出前6個數(shù)據(jù)預(yù)測結(jié)局為陽性唠梨,其他14個數(shù)據(jù)預(yù)測結(jié)局為陰性。計算它的混淆矩陣如表3侥啤,真實結(jié)局中有10個1和10個0当叭。但是預(yù)測結(jié)局的陽性數(shù)有6個,其中有5個是真實陽性盖灸,有1個是真實陰性蚁鳖。第三個觀測值結(jié)局本來是陰性的,但預(yù)測結(jié)局是陽性的赁炎,這個觀測值預(yù)測錯誤醉箕。同理,預(yù)測結(jié)局的陰性數(shù)有14個徙垫,其中有9個是真實陰性讥裤,有5個是真實陽性。第九個觀測值結(jié)局本來是陽性的姻报,但預(yù)測結(jié)局是陰性的坞琴,這個觀測值預(yù)測錯誤。

表3 混淆矩陣表

image

真陽率是指本來是陽性的逗抑,預(yù)測出的結(jié)果也是陽性的。假陽率是指本來是陰性的寒亥,但預(yù)測出的結(jié)果是陽性的邮府。從表3中可以看出,在真實陽性數(shù)這一豎列中溉奕,預(yù)測正確的觀測值有5個褂傀,所以真陽率(TPR)=5/P=5/10=0.5。在真實陰性數(shù)這一豎列中加勤,預(yù)測正確的觀測值有1個仙辟,所以假陽率(FPR)=1/n=1/10=0.1。

同理真陰率(TNR)=9/10=0.1鳄梅,假陰率(FNR)=5/10=0.5叠国。

表4 真陽率和假陽率

image

從表4可以看出,以0.54為閾值戴尸,作出來的混淆矩陣真陽率為0.5粟焊,假陽率為0.1。真陽率和假陽率是以每一次相應(yīng)的預(yù)測概率為閾值,算出混淆矩陣而得到的项棠。

將1-20每個樣本的評分均作為分類器的判定閾值悲雳,可以得到20組TPR和FPR的有序數(shù)對。然后以TPR和FPR為兩個坐標(biāo)軸建立一個直角坐標(biāo)系香追,就可以得到圖2合瓢。

image

圖2 TPR和FPR的有序數(shù)對

二、ROC曲線概念

ROC曲線:受試者工作特征曲線(receiver operating characteristic curve透典,簡稱ROC曲線)晴楔,又稱為感受性曲線(sensitivity curve)。

采用真陽性率和假陽性率作出的曲線掷匠,適用于診斷試驗結(jié)果為連續(xù)變量滥崩。試驗的真陽性率(Sen)為縱坐標(biāo)(Y),假陽性率(1-Spe)為橫坐標(biāo)(X)讹语,坐標(biāo)軸上的率值由01或0%100%钙皮。

image

圖3 ROC曲線示意圖橫軸FPR:1-TPR,1-Specificity顽决,F(xiàn)PR越大短条,預(yù)測正類中實際負類越多〔挪ぃ縱軸TPR:Sensitivity茸时,TPR越大,預(yù)測正類中實際正類越多赋访。理想目標(biāo):TPR=1可都,TPR=0,即圖中(0,1)點蚓耽,故ROC曲線越靠攏(0,1)點渠牲,越偏離45°對角線越好,Sensitivity步悠、Specificity越大效果越好签杈。

三、最佳閾值的確定——約登指數(shù)

約登指數(shù)(Youden index鼎兽,YI):是評價篩查試驗真實性的方法答姥,假設(shè)其假陰性和假陽性的危害性同等意義時,即可應(yīng)用約登指數(shù)谚咬。約登指數(shù)=靈敏度Sensitivity+特異度Specificit-1=[a/(a+c)+d/(b+d)]-1鹦付。指數(shù)越大說明篩查試驗的效果越好,真實性越大择卦。從表中可以看出睁壁,真陽率與假陽率的差值就是約登指數(shù)背苦,最大的約登指數(shù)為0.4,0.4對應(yīng)的預(yù)測概率為0.54潘明,大于0.54認為是陽性的行剂,小于0.54認為是陰性的。0.54就是最佳閾值钳降。

四厚宰、AUC概念

AUC(Area Under Curve)值為ROC曲線下方的面積大小。顯然遂填,AUC越大铲觉,預(yù)測效果越好。AUC=1吓坚,是完美分類器撵幽,采用這個預(yù)測模型時,不管設(shè)定什么截斷點都能得出完美預(yù)測礁击。絕大多數(shù)預(yù)測的場合盐杂,不存在完美分類器。0.5<AUC<1哆窿,優(yōu)于隨機猜測链烈。這個預(yù)測模型妥善設(shè)定截斷點的話,能有預(yù)測價值挚躯。AUC=0.5强衡,跟隨機猜測一樣(例:拋硬幣),模型沒有預(yù)測價值码荔。AUC<0.5漩勤,比隨機猜測還差,但只要總是反預(yù)測而行缩搅,就優(yōu)于隨機預(yù)測锯七。

image

圖4 包含AUC值的ROC曲線

[參考資料](https://mp.weixin.qq.com/s?src=11&timestamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE7Bq3d1cN-XspGn-EV2gqpTVgaS2q1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市誉己,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌域蜗,老刑警劉巖巨双,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異霉祸,居然都是意外死亡筑累,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門丝蹭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慢宗,“玉大人,你說我怎么就攤上這事【倒粒” “怎么了敏晤?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長缅茉。 經(jīng)常有香客問我嘴脾,道長,這世上最難降的妖魔是什么蔬墩? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任译打,我火速辦了婚禮,結(jié)果婚禮上拇颅,老公的妹妹穿的比我還像新娘奏司。我一直安慰自己,他們只是感情好樟插,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布韵洋。 她就那樣靜靜地躺著,像睡著了一般岸夯。 火紅的嫁衣襯著肌膚如雪麻献。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天猜扮,我揣著相機與錄音勉吻,去河邊找鬼。 笑死旅赢,一個胖子當(dāng)著我的面吹牛齿桃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播煮盼,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼短纵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了僵控?” 一聲冷哼從身側(cè)響起香到,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎报破,沒想到半個月后悠就,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡充易,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年梗脾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盹靴。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡炸茧,死狀恐怖瑞妇,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情梭冠,我是刑警寧澤辕狰,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站妈嘹,受9級特大地震影響柳琢,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜润脸,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一柬脸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧毙驯,春花似錦倒堕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至铭段,卻和暖如春骤宣,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背序愚。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工憔披, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人爸吮。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓芬膝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親形娇。 傳聞我的和親對象是個殘疾皇子锰霜,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容