ROC润梯,AUC,Precision甥厦,Recall纺铭,F(xiàn)1的介紹與計(jì)算

文章作者:Tyan
博客:noahsnail.com ?|? CSDN ?|? 簡(jiǎn)書(shū)

1. 基本概念

1.1 ROC與AUC

ROC曲線(xiàn)和AUC常被用來(lái)評(píng)價(jià)一個(gè)二值分類(lèi)器(binary classifier)的優(yōu)劣,ROC曲線(xiàn)稱(chēng)為受試者工作特征曲線(xiàn) (receiver operating characteristic curve刀疙,簡(jiǎn)稱(chēng)ROC曲線(xiàn))舶赔,又稱(chēng)為感受性曲線(xiàn)(sensitivity curve),AUC(Area Under Curve)是ROC曲線(xiàn)下的面積庙洼。在計(jì)算ROC曲線(xiàn)之前顿痪,首先要了解一些基本概念镊辕。在二元分類(lèi)模型的預(yù)測(cè)結(jié)果有四種,以判斷人是否有病為例:

  • 真陽(yáng)性(TP):診斷為有蚁袭,實(shí)際上也有病征懈。
  • 偽陽(yáng)性(FP):診斷為有,實(shí)際卻沒(méi)有病揩悄。
  • 真陰性(TN):診斷為沒(méi)有卖哎,實(shí)際上也沒(méi)有病。
  • 偽陰性(FN):診斷為沒(méi)有删性,實(shí)際卻有病亏娜。

其關(guān)系如下圖所示:

TP、FP蹬挺、TN维贺、FN

ROC空間將偽陽(yáng)性率(FPR)定義為X軸,真陽(yáng)性率(TPR)定義為Y軸巴帮。TPR:在所有實(shí)際為陽(yáng)性的樣本中溯泣,被正確地判斷為陽(yáng)性之比率,TPR=\frac {TP} {TP+FN} 榕茧。FPR:在所有實(shí)際為陰性的樣本中垃沦,被錯(cuò)誤地判斷為陽(yáng)性之比率,FPR=\frac {FP} {FP+TN}用押。

1.2 Precision肢簿、Recall與F1

對(duì)于二分類(lèi)問(wèn)題另一個(gè)常用的評(píng)價(jià)指標(biāo)是精確率(precision)與召回率(recall)以及F1值。精確率表示在預(yù)測(cè)為陽(yáng)性的樣本中蜻拨,真正有陽(yáng)性的樣本所占的比例池充。精確率的定義為P=\frac {TP} {TP+FP}。召回率表示所有真正呈陽(yáng)性的樣本中官觅,預(yù)測(cè)為陽(yáng)性所占的比例纵菌。召回率的定義為R=\frac {TP} {TP+FN}阐污,F(xiàn)1值是精確率和召回率的調(diào)和均值休涤,公式為F1=\frac {2PR} {P+R}。精確率和召回率都高時(shí)笛辟,F(xiàn)1值也會(huì)高功氨。通常情況下,Precision與Recall是相互矛盾的手幢。

2. 曲線(xiàn)介紹

2.1 ROC曲線(xiàn)

ROC曲線(xiàn)坐標(biāo)系如下圖所示捷凄,虛線(xiàn)為隨機(jī)猜測(cè)的概率,即猜對(duì)跟猜錯(cuò)的概率是一樣的围来。理想情況下跺涤,我們是希望FPR為0匈睁,沒(méi)有一個(gè)假陽(yáng)性,TPR為1桶错,即全為真陽(yáng)性航唆,此時(shí)所有樣本都被正確分類(lèi),點(diǎn)位于左上角(0,1)位置處院刁,沒(méi)有一個(gè)分錯(cuò)的數(shù)據(jù)糯钙,這是最完美的情況,實(shí)際情況中基本不可能退腥。如果點(diǎn)位于虛線(xiàn)下方任岸,例如C點(diǎn),說(shuō)明分類(lèi)錯(cuò)誤的多狡刘,分類(lèi)正確的少享潜,此時(shí)不是我們想要的。如果點(diǎn)位于虛線(xiàn)上方嗅蔬,例如C \prime點(diǎn)米碰,說(shuō)明分類(lèi)錯(cuò)誤的少,分類(lèi)正確的多购城,此時(shí)是我們想要的吕座,因此我們希望ROC曲線(xiàn)盡可能的靠近左上角。對(duì)于一個(gè)特定的分類(lèi)器和測(cè)試數(shù)據(jù)集瘪板,只能得到一個(gè)分類(lèi)結(jié)果吴趴,即ROC曲線(xiàn)坐標(biāo)系中的一點(diǎn),那么如何得到一條ROC曲線(xiàn)呢侮攀?分類(lèi)問(wèn)題中我們經(jīng)常會(huì)得到某個(gè)樣本是正樣本的概率锣枝,根據(jù)概率值與閾值的比較來(lái)判斷某個(gè)樣本是否是正樣本。在不同的閾值下可以得到不同的TPR和FPR值兰英,即可以得到一系列的點(diǎn)撇叁,將它們?cè)趫D中繪制出來(lái),并依次連接起來(lái)就得到了ROC曲線(xiàn)畦贸,閾值取值越多陨闹,ROC曲線(xiàn)越平滑。

AUC為ROC曲線(xiàn)下的面積薄坏,它的面積不會(huì)大于1趋厉,由于ROC曲線(xiàn)一般都處于直線(xiàn)y=x的上方,因此AUC的取值范圍通常在(0.5胶坠,1)之間君账。由于ROC曲線(xiàn)不能很好的看出分類(lèi)器模型的好壞,因此采用AUC值來(lái)進(jìn)行分類(lèi)器模型的評(píng)估與比較沈善。通常AUC值越大乡数,分類(lèi)器性能越好椭蹄。

ROC曲線(xiàn)

在基本概念中我們提到了精確率、召回率以及F1值净赴,既然有它們作為二分類(lèi)的評(píng)價(jià)指標(biāo)塑娇,為什么還要使用ROC和AUC呢?這是因?yàn)镽OC曲線(xiàn)有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本分布發(fā)生變化時(shí)劫侧,即正負(fù)樣本數(shù)量相差較大時(shí)埋酬,ROC曲線(xiàn)仍能保持不變。實(shí)際數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)樣本數(shù)量不平衡現(xiàn)象烧栋,并且測(cè)試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時(shí)間發(fā)生變化写妥。下圖是兩個(gè)分類(lèi)器模型(算法)的ROC曲線(xiàn)比較圖:

ROC曲線(xiàn)比較

2.2 P-R曲線(xiàn)

在P-R曲線(xiàn)中,Recall為橫坐標(biāo)审姓,Precision為縱坐標(biāo)珍特。在ROC曲線(xiàn)中曲線(xiàn)越凸向左上角約好,在P-R曲線(xiàn)中魔吐,曲線(xiàn)越凸向右上角越好扎筒。P-R曲線(xiàn)判斷模型的好壞要根據(jù)具體情況具體分析,有的項(xiàng)目要求召回率較高酬姆、有的項(xiàng)目要求精確率較高嗜桌。P-R曲線(xiàn)的繪制跟ROC曲線(xiàn)的繪制是一樣的,在不同的閾值下得到不同的Precision辞色、Recall骨宠,得到一系列的點(diǎn),將它們?cè)赑-R圖中繪制出來(lái)相满,并依次連接起來(lái)就得到了P-R圖层亿。兩個(gè)分類(lèi)器模型(算法)P-R曲線(xiàn)比較的一個(gè)例子如下圖所示:

P-R曲線(xiàn)比較

2.3 ROC與P-R對(duì)比

從公式計(jì)算中可以看出,ROC曲線(xiàn)中真陽(yáng)性率TPR的計(jì)算公式與P-R曲線(xiàn)中的召回率Recall計(jì)算公式是一樣的立美,即二者是同一個(gè)東西在不同環(huán)境下的不同叫法匿又。當(dāng)正負(fù)樣本差距不大的情況下,ROC曲線(xiàn)和P-R的趨勢(shì)是差不多的建蹄,但是當(dāng)負(fù)樣本很多的時(shí)候碌更,ROC曲線(xiàn)效果依然較好,但是P-R曲線(xiàn)效果一般躲撰。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末针贬,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子拢蛋,更是在濱河造成了極大的恐慌,老刑警劉巖蔫巩,帶你破解...
    沈念sama閱讀 222,000評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件谆棱,死亡現(xiàn)場(chǎng)離奇詭異快压,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)垃瞧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)蔫劣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人个从,你說(shuō)我怎么就攤上這事脉幢。” “怎么了嗦锐?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,561評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵嫌松,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我奕污,道長(zhǎng)萎羔,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,782評(píng)論 1 298
  • 正文 為了忘掉前任碳默,我火速辦了婚禮贾陷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘嘱根。我一直安慰自己髓废,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,798評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布该抒。 她就那樣靜靜地躺著瓦哎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柔逼。 梳的紋絲不亂的頭發(fā)上蒋譬,一...
    開(kāi)封第一講書(shū)人閱讀 52,394評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音愉适,去河邊找鬼犯助。 笑死,一個(gè)胖子當(dāng)著我的面吹牛维咸,可吹牛的內(nèi)容都是我干的剂买。 我是一名探鬼主播,決...
    沈念sama閱讀 40,952評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼癌蓖,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼瞬哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起租副,我...
    開(kāi)封第一講書(shū)人閱讀 39,852評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤坐慰,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后用僧,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體结胀,經(jīng)...
    沈念sama閱讀 46,409評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赞咙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,483評(píng)論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了糟港。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片攀操。...
    茶點(diǎn)故事閱讀 40,615評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秸抚,靈堂內(nèi)的尸體忽然破棺而出速和,到底是詐尸還是另有隱情,我是刑警寧澤剥汤,帶...
    沈念sama閱讀 36,303評(píng)論 5 350
  • 正文 年R本政府宣布颠放,位于F島的核電站,受9級(jí)特大地震影響秀姐,放射性物質(zhì)發(fā)生泄漏慈迈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,979評(píng)論 3 334
  • 文/蒙蒙 一省有、第九天 我趴在偏房一處隱蔽的房頂上張望痒留。 院中可真熱鬧,春花似錦蠢沿、人聲如沸伸头。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,470評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)恤磷。三九已至,卻和暖如春野宜,著一層夾襖步出監(jiān)牢的瞬間扫步,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,571評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工匈子, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留河胎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,041評(píng)論 3 377
  • 正文 我出身青樓虎敦,卻偏偏與公主長(zhǎng)得像游岳,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子其徙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,630評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容