常用的評價指標:accuracy任连、precision、recall例诀、f1-score随抠、ROC-AUC、PR-AUC

預(yù)測(橫)
實際(縱)
+ -
+ tp fn
- fp tn
  • 準確率(Accuracy)
    accuracy=\frac{tp+tn}{tp+fp+tn+fn}
    accuracy是最常見也是最基本的評價指標繁涂。但是拱她,在二分類且正負樣本不平衡的情況下,尤其是對于較少數(shù)樣本類感興趣時扔罪,accuracy基本無參考價值秉沼。如欺詐檢測、癌癥檢測等矿酵,100個樣例中唬复,99個負例,1個正例全肮。模型將任意樣本都分為負例敞咧,accuracy值為0.99。但是辜腺,拿這個模型去檢測新樣本休建,一個正例也分不出來。

  • 精確率(Precision)评疗、召回率(Recall)
    precision=\frac{tp}{tp+fp}测砂,recall=\frac{tp}{tp+fn}
    precision是相對于模型預(yù)測而言的,可以理解為模型做出新預(yù)測時的自信度得分是多少或做出這個預(yù)測是對的可能性是多少百匆。自信度邑彪。
    recall是相對于真實標簽而言的,可以理解為模型預(yù)測出的正例占實際正例的比例胧华。覆蓋率寄症。
    如果模型很貪婪宙彪,想要覆蓋更多的樣本,那么它就有可能會犯錯有巧。這個時候的recall值常很高释漆,precision常很低。如果模型很保守篮迎,只對很確定的樣本做出預(yù)測男图,則precision值常很高,recall值常很低甜橱。我們可以選擇只看我們感興趣的樣本類逊笆,也就是較少數(shù)樣本類的precision和recall來評價模型的好壞。
    疾病檢測岂傲、反垃圾等难裆,是在保證精確率的條件下提升召回率;搜索等是在保證召回率的情況下提升精確率镊掖。

  • F1值(F1-score)
    f1-score=\frac{2}{\frac{1}{P}+\frac{1}{R}}=\frac{2PR}{P+R}
    F1值是個綜合考慮precision值和recall值的指標乃戈。
    多類別分類時,有宏平均(macro-average)和微平均(micro-average)兩種亩进。
    宏平均是指先對每個類別單獨計算F1值症虑。取這些值的算術(shù)平均值作為全局指標。這種方式平等地對待每個類別归薛,所以其值主要受稀有類別的影響谍憔,更能體現(xiàn)模型在稀有類別上的表現(xiàn)。
    微平均是指先累加各個類別的tp主籍、fp韵卤、tn、fn值崇猫,再由這些值來計算F1值沈条。這種方式平等地對待每個樣本,所以其值主要受到常見類別的影響诅炉。

  • ROC-AUC
    \begin{aligned}sensitivity&=recall=true\ positive\ rate\\ &=\frac{tp}{tp+fn}\\ &=P(\hat{y}=1|y=1)\end{aligned}
    \begin{aligned}specifity&=1-false\ positive\ rate\\ &=\frac{tn}{fp+tn}\\ &=P(\hat{y}=0|y=0)\end{aligned}
    無論y的真實概率是多少蜡歹,都不會影響sensitivity和specificity。也就是說涕烧,這兩個指標是不會受到不平衡數(shù)據(jù)的影響的月而。而precision=P(y=1|\hat{y}=1)是會受到數(shù)據(jù)集中正負比例的影響的。
    ROC曲線(Receiver Operating Characteristic Curve)是一個以fpr為x軸议纯,tpr為y軸父款,取不同的score threshold畫出來的。
    基本上,ROC曲線下面積即AUC越大憨攒,或者說曲線越接近于左上角(fpr=0, tpr=1)世杀,那么模型的分類效果就越好。一般來說肝集,最優(yōu)score threshold就是ROC曲線離y=x基準線最遠的一點或者說是ROC曲線離左上角最近的一點對應(yīng)的閾值瞻坝,再或者是根據(jù)用戶自定義的cost function來決定的。
    AUC就是從所有正例樣本中隨機選擇出一個樣本杏瞻,在所有負例樣本中隨機選擇出一個樣本所刀,使用分類器進行預(yù)測。將正例樣本預(yù)測為正的概率記作P_1捞挥,將負例樣本預(yù)測為負的概率記作P_0浮创,P_1>P_0的概率就等于AUC值。因此砌函,AUC反映的是分類器對于樣本的排序能力斩披。根據(jù)這個解釋,如果我們完全隨機地對樣本進行分類胸嘴,那么AUC應(yīng)該接近于0.5雏掠。另外斩祭,AUC值對于樣本類別是否均衡并不敏感劣像,這也是不均衡樣本通常使用AUC評價分類器性能的一個原因。通常使用AUC的目的摧玫,一是為了比較不同模型性能的好壞耳奕,二是為了找到得到最佳指標值的那個閾值點。

  • PR-AUC
    PR曲線诬像,是以P為y軸屋群,以R為x軸,取不同的概率閾值得到不同的(p,r)點后畫成的線坏挠。
    為了解決P芍躏、R、F-Measure(即\frac{1}{\lambda \frac{1}{P}+(1-\lambda)\frac{1}{R}})的單點局限性降狠,得到一個能夠反映全局的指標对竣,使用PR-AUC/AP。同樣地榜配,PR-AUC值越大否纬,或者說曲線越接近右上角(p=1, r=1),那么模型就越理想蛋褥、越好临燃。
    AP=\int_0^1 p(r)d(r)

    • AAP(Approximated Average Precision)
      AAP將PR-AUC面積分割成不同的長方形然后求面積和。
      AAP=\sum_{k=1}^{N}p(k)\Delta r(k)
    • IAP(Interpolated Average Precision)
      如果存在r'>r且p'>p,使用p'代替p參與面積計算膜廊。AAP會比IAP離實際的PR-AUC更近乏沸,面積也會小點。
      PASCAL VOC中使用IAP作為AP值溃论,認為這一方法能夠有效地減少PR曲線中的抖動屎蜓。然后對于多類別進行AP取平均操作后得mAP值。

算法傾向如果是“寧可錯殺一千钥勋,不可放過一個”炬转,可以設(shè)定在合理的precision值下,最高的recall值作為最優(yōu)點算灸,找到這個點對應(yīng)的閾值扼劈。總之菲驴,我們可以根據(jù)具體的應(yīng)用或者是偏好荐吵,在曲線上找到最優(yōu)的點,去調(diào)整模型的閾值赊瞬,從而得到一個符合具體應(yīng)用的模型先煎。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市巧涧,隨后出現(xiàn)的幾起案子薯蝎,更是在濱河造成了極大的恐慌,老刑警劉巖谤绳,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件占锯,死亡現(xiàn)場離奇詭異,居然都是意外死亡缩筛,警方通過查閱死者的電腦和手機消略,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞎抛,“玉大人艺演,你說我怎么就攤上這事⊥╇” “怎么了胎撤?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長豪硅。 經(jīng)常有香客問我哩照,道長,這世上最難降的妖魔是什么懒浮? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任飘弧,我火速辦了婚禮识藤,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘次伶。我一直安慰自己痴昧,他們只是感情好,可當我...
    茶點故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布冠王。 她就那樣靜靜地躺著赶撰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪柱彻。 梳的紋絲不亂的頭發(fā)上豪娜,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機與錄音哟楷,去河邊找鬼瘤载。 笑死,一個胖子當著我的面吹牛卖擅,可吹牛的內(nèi)容都是我干的鸣奔。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼惩阶,長吁一口氣:“原來是場噩夢啊……” “哼挎狸!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起断楷,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤锨匆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后脐嫂,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體统刮,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡紊遵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年账千,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片暗膜。...
    茶點故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡匀奏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出学搜,到底是詐尸還是另有隱情娃善,我是刑警寧澤,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布瑞佩,位于F島的核電站聚磺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏炬丸。R本人自食惡果不足惜瘫寝,卻給世界環(huán)境...
    茶點故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一蜒蕾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧焕阿,春花似錦咪啡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至褒纲,卻和暖如春准夷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背莺掠。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工冕象, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人汁蝶。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓渐扮,卻偏偏與公主長得像,于是被迫代替她去往敵國和親掖棉。 傳聞我的和親對象是個殘疾皇子墓律,可洞房花燭夜當晚...
    茶點故事閱讀 45,092評論 2 355