【轉(zhuǎn)】 分類模型評估指標(biāo)匯總

作者:努力的孔子

https://www.cnblogs.com/yanshw/p/10735079.html

對模型進(jìn)行評估時发乔,可以選擇很多種指標(biāo)菌羽,但不同的指標(biāo)可能得到不同的結(jié)果,如何選擇合適的指標(biāo)反肋,需要取決于任務(wù)需求七咧。

正確率與錯誤率

正確率:正確分類的樣本數(shù)/總樣本數(shù),accuracy

錯誤率:錯誤分類的樣本數(shù)/總樣本數(shù)靶庙,error

正確率+錯誤率=1

這兩種指標(biāo)最簡單髓棋,也最常用

缺點(diǎn)

  1. 不一定能反應(yīng)模型的泛化能力,如類別不均衡問題惶洲。

  2. 不能滿足所有任務(wù)需求

如有一車西瓜按声,任務(wù)一:挑出的好瓜中有多少實(shí)際是好瓜,任務(wù)二: 所有的好瓜有多少被挑出來了恬吕,顯然正確率和錯誤率不能解決這個問題签则。

查準(zhǔn)率與查全率

先認(rèn)識幾個概念

正樣本/正元組:目標(biāo)元組,感興趣的元組

負(fù)樣本/負(fù)元組:其他元組

對于二分類問題铐料,模型的預(yù)測結(jié)果可以劃分為:真正例 TP渐裂、假正例 FP、真負(fù)例 TN钠惩、 假負(fù)例 FN,

真正例就是實(shí)際為正柒凉、預(yù)測為正,其他同理

顯然 TP+FP+TN+FN=總樣本數(shù)

混淆矩陣

把上面四種劃分用混淆矩陣來表示

從而得出如下概念

查準(zhǔn)率:預(yù)測為正里多少實(shí)際為正篓跛,precision膝捞,也叫精度

查全率:實(shí)際為正里多少預(yù)測為正,recall愧沟,也叫召回率

查準(zhǔn)率和查全率是一對矛盾的度量蔬咬。通常來講鲤遥,查準(zhǔn)率高,查全率就低林艘,反之亦然盖奈。

例如還是一車西瓜,我希望將所有好瓜盡可能選出來狐援,如果我把所有瓜都選了钢坦,那自然所有好瓜都被選了,這就需要所有的瓜被識別為好瓜啥酱,此時查準(zhǔn)率較低场钉,而召回率是100%,

如果我希望選出的瓜都是好瓜懈涛,那就要慎重了逛万,寧可不選,不能錯選批钠,這就需要預(yù)測為正就必須是真正例宇植,此時查準(zhǔn)率是100%,查全率可能較低埋心。

注意我說的是可能較低指郁,通常如果樣本很好分,比如正的全分到正的拷呆,負(fù)的全分到負(fù)的闲坎,那查準(zhǔn)率、查全率都是100%茬斧,不矛盾腰懂。

P-R曲線

既然矛盾,那兩者之間的關(guān)系應(yīng)該如下圖

這條曲線叫 P-R曲線项秉,即查準(zhǔn)率-查全率曲線绣溜。

這條曲線怎么畫出來的呢?可以這么理解娄蔼,假如我用某種方法得到樣本是正例的概率(如用模型對所有樣本進(jìn)行預(yù)測)怖喻,然后把樣本按概率排序,從高到低

如果模型把第一個預(yù)測為正岁诉,其余預(yù)測為負(fù)锚沸,此時查準(zhǔn)率為1,查全率接近于0涕癣,

如果模型把前2個預(yù)測為正哗蜈,其余預(yù)測為負(fù),此時查準(zhǔn)率稍微降低,查全率稍微增加恬叹,

依次...

如果模型把除最后一個外的樣本預(yù)測為正候生,最后一個預(yù)測為負(fù)同眯,那么查準(zhǔn)率很低绽昼,查全率很高。

此時我把數(shù)據(jù)順序打亂须蜗,畫出來的圖依然一樣硅确,即上圖。

既然查準(zhǔn)率和查全率互相矛盾明肮,那用哪個作為評價指標(biāo)呢菱农?或者說同時用兩個指標(biāo)怎么評價模型呢?

兩種情形

  1. 如果學(xué)習(xí)器A的P-R曲線能完全“包住”學(xué)習(xí)器C的P-R曲線柿估,則A的性能優(yōu)于C

  2. 如果學(xué)習(xí)器A的P-R曲線與學(xué)習(xí)器B的P-R曲線相交循未,則難以判斷孰優(yōu)孰劣,此時通常的作法是秫舌,固定查準(zhǔn)率的妖,比較查全率,或者固定查全率足陨,比較查準(zhǔn)率嫂粟。

通常情況下曲線會相交,但是人們?nèi)韵M褍蓚€學(xué)習(xí)器比出個高低墨缘,一個合理的方式是比較兩條P-R曲線下的面積星虹。

但是這個面積不好計(jì)算,于是人們又設(shè)計(jì)了一些其他綜合考慮查準(zhǔn)率查全率的方式镊讼,來替代面積計(jì)算宽涌。

平衡點(diǎn):Break-Event Point,簡稱BEP蝶棋,就是選擇 查準(zhǔn)率=查全率 的點(diǎn)护糖,即上圖,y=x直線與P-R曲線的交點(diǎn)

這種方法比較暴力

F1 與 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的調(diào)和平均數(shù)嚼松。

與算數(shù)平均數(shù) 和 幾何平均數(shù)相比嫡良,調(diào)和平均數(shù)更重視較小值。

在一些應(yīng)用中献酗,對查準(zhǔn)率和查全率的重視程度有所不同寝受。

例如商品推薦系統(tǒng),為了避免騷擾客戶罕偎,希望推薦的內(nèi)容都是客戶感興趣的很澄,此時查準(zhǔn)率比較重要,

又如資料查詢系統(tǒng),為了不漏掉有用信息甩苛,希望把所有資料都取到蹂楣,此時查全率比較重要。

此時需要對查準(zhǔn)率和查全率進(jìn)行加權(quán)

即 P 和 R 的加權(quán)調(diào)和平均數(shù)讯蒲。

β>0痊土,β度量了查全率對查準(zhǔn)率的重要性,β=1時即為F1

β>1墨林,查全率更重要赁酝,β<1,查準(zhǔn)率更重要

多分類的F1

多分類沒有正例負(fù)例之說旭等,那么可以轉(zhuǎn)化為多個二分類酌呆,即多個混淆矩陣,在這多個混淆矩陣上綜合考慮查準(zhǔn)率和查全率搔耕,即多分類的F1

方法1

直接在每個混淆矩陣上計(jì)算出查準(zhǔn)率和查全率隙袁,再求平均,這樣得到“宏查準(zhǔn)率”弃榨,“宏查全率”和“宏F1”

方法2

把混淆矩陣中對應(yīng)元素相加求平均菩收,即 TP 的平均,TN 的平均惭墓,等坛梁,再計(jì)算查準(zhǔn)率、查全率腊凶、F1划咐,這樣得到“微查準(zhǔn)率”,“微查全率”和“微F1”

ROC 與 AUC

很多學(xué)習(xí)器是為樣本生成一個概率钧萍,然后和設(shè)定閾值進(jìn)行比較褐缠,大于閾值為正例,小于為負(fù)例风瘦,如邏輯回歸队魏。

而模型的優(yōu)劣取決于兩點(diǎn):

  1. 這個概率的計(jì)算準(zhǔn)確與否

  2. 閾值的設(shè)定

我們把計(jì)算出的概率按從大到小排序,然后在某個點(diǎn)劃分開万搔,這個點(diǎn)就是閾值胡桨,可以根據(jù)實(shí)際任務(wù)需求來確定這個閾值,比如更重視查準(zhǔn)率瞬雹,則閾值設(shè)大點(diǎn)昧谊,若更重視查全率,則閾值設(shè)小點(diǎn)酗捌,

這里體現(xiàn)了同一模型的優(yōu)化呢诬,

不同的模型計(jì)算出的概率是不一樣的涌哲,也就是說樣本按概率排序時順序不同,那切分時自然可能分到不同的類尚镰,

這里體現(xiàn)了不同模型之間的差異阀圾,

所以ROC可以用來模型優(yōu)化和模型選擇,理論上講 P-R曲線也可以狗唉。

ROC曲線的繪制方法與P-R曲線類似初烘,不再贅述,結(jié)果如下圖

橫坐標(biāo)為假正例率敞曹,縱坐標(biāo)為真正例率账月,曲線下的面積叫 AUC

如何評價模型呢综膀?

  1. 若學(xué)習(xí)器A的ROC曲線能包住學(xué)習(xí)器B的ROC曲線澳迫,則A優(yōu)于B

  2. 若學(xué)習(xí)器A的ROC曲線與學(xué)習(xí)器B的ROC曲線相交,則難以比較孰優(yōu)孰劣剧劝,此時可以比較AUC的大小

總結(jié)

  1. 模型評估主要考慮兩種場景:類別均衡橄登,類別不均衡

  2. 模型評估必須考慮實(shí)際任務(wù)需求

  3. P-R 曲線和 ROC曲線可以用于模型選擇

  4. ROC曲線可以用于模型優(yōu)化

參考資料:

周志華《機(jī)器學(xué)習(xí)》

首發(fā)于微信公眾號:機(jī)器學(xué)習(xí)算法與Python實(shí)戰(zhàn)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市讥此,隨后出現(xiàn)的幾起案子拢锹,更是在濱河造成了極大的恐慌,老刑警劉巖萄喳,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件卒稳,死亡現(xiàn)場離奇詭異,居然都是意外死亡他巨,警方通過查閱死者的電腦和手機(jī)充坑,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來染突,“玉大人捻爷,你說我怎么就攤上這事》萜螅” “怎么了也榄?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長司志。 經(jīng)常有香客問我甜紫,道長,這世上最難降的妖魔是什么骂远? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任囚霸,我火速辦了婚禮,結(jié)果婚禮上吧史,老公的妹妹穿的比我還像新娘邮辽。我一直安慰自己唠雕,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布吨述。 她就那樣靜靜地躺著岩睁,像睡著了一般。 火紅的嫁衣襯著肌膚如雪揣云。 梳的紋絲不亂的頭發(fā)上捕儒,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天,我揣著相機(jī)與錄音邓夕,去河邊找鬼刘莹。 笑死,一個胖子當(dāng)著我的面吹牛焚刚,可吹牛的內(nèi)容都是我干的点弯。 我是一名探鬼主播,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼矿咕,長吁一口氣:“原來是場噩夢啊……” “哼抢肛!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起碳柱,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤捡絮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后莲镣,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體福稳,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年瑞侮,在試婚紗的時候發(fā)現(xiàn)自己被綠了的圆。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡区岗,死狀恐怖略板,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情慈缔,我是刑警寧澤叮称,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站藐鹤,受9級特大地震影響瓤檐,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜娱节,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一挠蛉、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肄满,春花似錦谴古、人聲如沸质涛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汇陆。三九已至,卻和暖如春带饱,著一層夾襖步出監(jiān)牢的瞬間毡代,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工勺疼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留教寂,地道東北人。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓执庐,卻偏偏與公主長得像酪耕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子耕肩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,969評論 2 355

推薦閱讀更多精彩內(nèi)容