預(yù)測(橫) 實際(縱) |
+ | - |
---|---|---|
+ | tp | fn |
- | fp | tn |
準確率(Accuracy)
accuracy是最常見也是最基本的評價指標繁涂。但是拱她,在二分類且正負樣本不平衡的情況下,尤其是對于較少數(shù)樣本類感興趣時扔罪,accuracy基本無參考價值秉沼。如欺詐檢測、癌癥檢測等矿酵,100個樣例中唬复,99個負例,1個正例全肮。模型將任意樣本都分為負例敞咧,accuracy值為0.99。但是辜腺,拿這個模型去檢測新樣本休建,一個正例也分不出來。精確率(Precision)评疗、召回率(Recall)
precision是相對于模型預(yù)測而言的,可以理解為模型做出新預(yù)測時的自信度得分是多少或做出這個預(yù)測是對的可能性是多少百匆。自信度邑彪。
recall是相對于真實標簽而言的,可以理解為模型預(yù)測出的正例占實際正例的比例胧华。覆蓋率寄症。
如果模型很貪婪宙彪,想要覆蓋更多的樣本,那么它就有可能會犯錯有巧。這個時候的recall值常很高释漆,precision常很低。如果模型很保守篮迎,只對很確定的樣本做出預(yù)測男图,則precision值常很高,recall值常很低甜橱。我們可以選擇只看我們感興趣的樣本類逊笆,也就是較少數(shù)樣本類的precision和recall來評價模型的好壞。
疾病檢測岂傲、反垃圾等难裆,是在保證精確率的條件下提升召回率;搜索等是在保證召回率的情況下提升精確率镊掖。F1值(F1-score)
F1值是個綜合考慮precision值和recall值的指標乃戈。
多類別分類時,有宏平均(macro-average)和微平均(micro-average)兩種亩进。
宏平均是指先對每個類別單獨計算F1值症虑。取這些值的算術(shù)平均值作為全局指標。這種方式平等地對待每個類別归薛,所以其值主要受稀有類別的影響谍憔,更能體現(xiàn)模型在稀有類別上的表現(xiàn)。
微平均是指先累加各個類別的tp主籍、fp韵卤、tn、fn值崇猫,再由這些值來計算F1值沈条。這種方式平等地對待每個樣本,所以其值主要受到常見類別的影響诅炉。ROC-AUC
無論的真實概率是多少蜡歹,都不會影響sensitivity和specificity。也就是說涕烧,這兩個指標是不會受到不平衡數(shù)據(jù)的影響的月而。而
是會受到數(shù)據(jù)集中正負比例的影響的。
ROC曲線(Receiver Operating Characteristic Curve)是一個以fpr為軸议纯,tpr為
軸父款,取不同的score threshold畫出來的。
基本上,ROC曲線下面積即AUC越大憨攒,或者說曲線越接近于左上角(fpr=0, tpr=1)世杀,那么模型的分類效果就越好。一般來說肝集,最優(yōu)score threshold就是ROC曲線離基準線最遠的一點或者說是ROC曲線離左上角最近的一點對應(yīng)的閾值瞻坝,再或者是根據(jù)用戶自定義的cost function來決定的。
AUC就是從所有正例樣本中隨機選擇出一個樣本杏瞻,在所有負例樣本中隨機選擇出一個樣本所刀,使用分類器進行預(yù)測。將正例樣本預(yù)測為正的概率記作捞挥,將負例樣本預(yù)測為負的概率記作
浮创,
的概率就等于AUC值。因此砌函,AUC反映的是分類器對于樣本的排序能力斩披。根據(jù)這個解釋,如果我們完全隨機地對樣本進行分類胸嘴,那么AUC應(yīng)該接近于0.5雏掠。另外斩祭,AUC值對于樣本類別是否均衡并不敏感劣像,這也是不均衡樣本通常使用AUC評價分類器性能的一個原因。通常使用AUC的目的摧玫,一是為了比較不同模型性能的好壞耳奕,二是為了找到得到最佳指標值的那個閾值點。
-
PR-AUC
PR曲線诬像,是以P為軸屋群,以R為
軸,取不同的概率閾值得到不同的(p,r)點后畫成的線坏挠。
為了解決P芍躏、R、F-Measure(即)的單點局限性降狠,得到一個能夠反映全局的指標对竣,使用PR-AUC/AP。同樣地榜配,PR-AUC值越大否纬,或者說曲線越接近右上角(p=1, r=1),那么模型就越理想蛋褥、越好临燃。
- AAP(Approximated Average Precision)
AAP將PR-AUC面積分割成不同的長方形然后求面積和。
- IAP(Interpolated Average Precision)
如果存在r'>r且p'>p,使用p'代替p參與面積計算膜廊。AAP會比IAP離實際的PR-AUC更近乏沸,面積也會小點。
PASCAL VOC中使用IAP作為AP值溃论,認為這一方法能夠有效地減少PR曲線中的抖動屎蜓。然后對于多類別進行AP取平均操作后得mAP值。
- AAP(Approximated Average Precision)
算法傾向如果是“寧可錯殺一千钥勋,不可放過一個”炬转,可以設(shè)定在合理的precision值下,最高的recall值作為最優(yōu)點算灸,找到這個點對應(yīng)的閾值扼劈。總之菲驴,我們可以根據(jù)具體的應(yīng)用或者是偏好荐吵,在曲線上找到最優(yōu)的點,去調(diào)整模型的閾值赊瞬,從而得到一個符合具體應(yīng)用的模型先煎。