序
分類任務(wù)不同于回歸坐搔,本次記錄一下分類任務(wù)中常用的評價指標AUC與ROC
混淆矩陣
在搞清楚ROC和AUC之前帆竹,需要先弄明白混淆矩陣
混淆矩陣中有著Positive、Negative、True孝偎、False的概念,其意義如下:
○ 稱預測類別為1的為Positive(陽性)凉敲,預測類別為0的為Negative(陰性)衣盾。
○ 預測正確的為True(真),預測錯誤的為False(偽)爷抓。
那么就產(chǎn)生了如下的混淆矩陣:
- 那么混淆矩陣能干什么呢势决?
1、真陽率(也就是正類被預測為正類占所有正類樣本的比例)
2蓝撇、偽陽率(也就是負類被預測為負類占所有負類樣本的比例)
AUC與ROC
-
ROC:
ROC的橫軸代表FPRate果复,縱軸是TPRate,當二者相等時渤昌,如下圖
其實也就是 y=x直線虽抄,其含義為將正類預測正確的概率=將負類預測正確的概率=0.5,那么就容易看出來独柑,我們期望該條線盡量往左上方偏迈窟,也就是盡量讓正類預測正確的概率大一些,如下面的圖:
AUC:
AUC是ROC下方的面積忌栅。從上面分析來看车酣,ROC的極限是正樣本都被預測正確,也就是TPRate=1,此時的AUC=1骇径,所以躯肌,一般情況下,AUC的值都是小于1的破衔,他代表了一個正樣本被預測為正類的 概率值 比一個負樣本預測為正樣本的概率值 要大的可能性清女。也就是說,任意一個樣本x晰筛,都對應(yīng)著有一個判定為正樣本的概率P嫡丙。-
舉例說明:
對于下面的八個樣本的預測情況:
可以得到相應(yīng)的混淆矩陣:
進而計算得到:TPRate=3/4,F(xiàn)PRate=2/4读第,得到ROC曲線如下:
因此可以計算面積得到AUC=0.625
對于一些以概率值為預測值的模型來說曙博,其預測值為下圖樣式:
那么此時我們所選取一個閾值,例如>=0.5怜瞒,就將其預測值設(shè)置為1父泳,這個時候該閾值的選取將影響最終的AUC。
AUC的優(yōu)勢:
AUC的計算方法同時考慮了分類器對于正例和負例的分類能力吴汪,在樣本不平衡的情況下惠窄,依然能夠?qū)Ψ诸惼髯鞒龊侠淼脑u價。因此AUC的目的就是用于平衡準確率與召回率漾橙。
例如在反欺詐場景杆融,設(shè)非欺詐類樣本為正例,負例占比很少(假設(shè)0.1%)霜运,如果使用準確率評估脾歇,把所有的樣本預測為正例便可以獲得99.9%的準確率。
但是如果使用AUC淘捡,把所有樣本預測為正例藕各,TPRate和FPRate同時為1,AUC僅為0.5案淋,成功規(guī)避了樣本不均勻帶來的問題座韵。
轉(zhuǎn)載注明:http://www.reibang.com/p/cb2ec4ff10eb