模型性能評(píng)估指標(biāo)匯總蝎抽,F(xiàn)1政钟,召回率,精確樟结,ROC养交,P-R曲線,AUC

Preliminary

  • TP:實(shí)際為P瓢宦,預(yù)測為P
  • TN:實(shí)際為N碎连,預(yù)測為N
  • FP:實(shí)際為N,預(yù)測為P
  • FN:實(shí)際為P刁笙,預(yù)測為N

如何記憶:

  • TP/TN: 以T開頭破花,表明預(yù)測正確谦趣,預(yù)測即為第二個(gè)字母
  • FP/FN: 以F開頭,表明預(yù)測錯(cuò)誤座每,預(yù)測與第二個(gè)字母相反

Accuracy

最簡單也是最好理解的前鹅,也是我們很早就開始接觸的一個(gè)指標(biāo)就是準(zhǔn)確率,即預(yù)測正確的樣本除以總樣本數(shù)
accuracy=\frac{TP+TN}{TP+TN+FP+FN}

Recall, Precision, F1

  • Recall(召回率):預(yù)測正確的正類在正類樣本中的比例(針對(duì)于樣本真實(shí)情況)
  • Precision(精確率):預(yù)測正確的正類在預(yù)測為正類中的比例(針對(duì)于預(yù)測情況)
  • F1:兩者通常難以兼得峭梳,因此引入兩者的調(diào)和平均舰绘,來得到一個(gè)trade-off的值
    Recall(召回率/查全率/sensitivity/真正例率/TPR) = \frac{TP} {TP+FN}\\ Precision(精確率/查準(zhǔn)率) = \frac{TP} {TP+FP}\\ F1 = \frac{precision * recall * 2} {precision + recall}

micro 與macro

有時(shí)我們?nèi)绻啻斡?xùn)練或測試,每次都有一個(gè)混淆矩陣葱椭,或者多分類任務(wù)捂寿,此時(shí)需要綜合考慮recall,precision孵运,f1
macro(P) = \frac1n\sum_{i=1}^nP_i\\ macro(R) = \frac1n\sum_{i=1}^nR_i\\ macro(f1) = \frac {2*macro(P)*macro(R)}{macro(R)+macro(P)}\\ micro(P)=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} \\ micro(R)=\frac{\overline{TP}}{\overline{TP}+\overline{FN}} \\ macro(f1) = \frac {2*micro(P)*micro(R)}{micro(R)+micro(P)}

P-R曲線

對(duì)于一個(gè)模型最終輸出的分類結(jié)果秦陋,不同的閾值,可以得到不同的precision與recall治笨,將其繪制成一條曲線驳概。

  • 如果一個(gè)模型的P-R曲線完全被另外一個(gè)模型的曲線“包住”,如下圖的A與C旷赖,在Precision相等的情況下顺又,Recall_A > Recall_C,在Recall相等的情況下等孵,Precision_A > Precision_C稚照,因此A模型由于C模型。
  • 如果兩條曲線有交點(diǎn)(比如A與B)俯萌,可以將曲線與x軸形成的面積作為一個(gè)評(píng)估指標(biāo)果录,但是這個(gè)值不容易計(jì)算,因此有了以下衡量方法:
    • BEP(Break-event Point)咐熙,平衡點(diǎn)雕憔,Recall與precision相等的時(shí)候的取值,此時(shí)比較A優(yōu)于B(取BEP大的)
    • F1值


      圖源機(jī)器學(xué)習(xí)——周志華

ROC與AUC-解決樣本分布不均衡

ROC

ROC:Receiver Operating Characteristic糖声,橫軸:FPR(假正例率斤彼,在所有負(fù)例中,有多少被識(shí)別為正例)蘸泻,縱軸:TPR(真正例率琉苇,在所有正例中,有多少被識(shí)別為正例)
TPR=\frac{TP}{TP+FN}(真正例率)\\ FPR = \frac{FP}{TN+FP} (假正例率)
與P-C曲線類似悦施,在取不同閾值的時(shí)候并扇,可以得到多個(gè)TPR與多個(gè)FPR,將其繪制成一條曲線抡诞,即得到了ROC曲線穷蛹。

  • (0,0)點(diǎn):當(dāng)閾值等于1時(shí)土陪,即把所有樣本都預(yù)測為反例時(shí),此時(shí)TPR與FPR均為0肴熏,因此ROC曲線過原點(diǎn)鬼雀。
  • (1,1)點(diǎn):當(dāng)閾值等于0時(shí),即把所有樣本都預(yù)測為正例蛙吏,此時(shí)TPR與FPR均為1源哩,因此ROC曲線一定過(1,1)點(diǎn)

AUC

當(dāng)比較兩個(gè)分類模型的性能時(shí)鸦做,如果一個(gè)模型A的ROC曲線完全包住了另一個(gè)模型B励烦,那么前者的性能優(yōu)于后者(當(dāng)真正例率相等時(shí),A的假正例率低于B泼诱,反之亦然)坛掠,而如果有交點(diǎn),此時(shí)我們可以比較ROC曲線下的面積治筒,即AUC(Area under ROC curve)却音。

AUC:若ROC曲線為y=x,表示的意義是:對(duì)于不論真實(shí)類別是1還是0的樣本矢炼,分類器預(yù)測為1的概率是相等的。而我們希望分類器達(dá)到的效果是:對(duì)于真實(shí)類別為1的樣本阿纤,分類器預(yù)測為1的概率(即TPRate)句灌,要大于真實(shí)類別為0而預(yù)測類別為1的概率(即FPRate),即y>x

AUC的含義:AUC是一個(gè)概率值欠拾,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本胰锌,當(dāng)前的分類算法根據(jù)計(jì)算得到的Score值將這個(gè)正樣本排在負(fù)樣本前面的概率就是AUC值。AUC值越大藐窄,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本前面资昧,即能夠更好的分類。

ROC與AUC的優(yōu)勢

準(zhǔn)確率有時(shí)并不可靠荆忍,比如在100個(gè)樣本當(dāng)中格带,90個(gè)為正例,10個(gè)為負(fù)例刹枉。此時(shí)如果一個(gè)模型將所有樣本預(yù)測為positive叽唱,準(zhǔn)確率也有90%。但是ROC曲線不受到樣本分布不均衡的影響微宝,因?yàn)槠錂M坐標(biāo)與縱坐標(biāo)都是在真實(shí)的正樣本和負(fù)樣本當(dāng)中觀察問題棺亭。
同樣的例子,TPR 只關(guān)注 90% 正樣本中有多少是被真正預(yù)測的蟋软,而與10%毫無關(guān)系镶摘,同理嗽桩,F(xiàn)PR 只關(guān)注 10% 負(fù)樣本中有多少是被錯(cuò)誤預(yù)測的,也與那 90%無關(guān)系凄敢,因此選用TPR和FPR可以避免樣本分布不均衡的問題碌冶。

幾種情況

  • AUC = 1:是完美分類器,采用這個(gè)預(yù)測模型時(shí)贡未,存在至少一個(gè)閾值能得出完美預(yù)測种樱。絕大多數(shù)預(yù)測的場合,不存在完美分類器俊卤。
  • 0.5 < AUC < 1:優(yōu)于隨機(jī)猜測嫩挤。如果這個(gè)模型閾值設(shè)定合理,有預(yù)測價(jià)值消恍。
  • AUC = 0.5:跟隨機(jī)猜測一樣(例:丟銅板)岂昭,模型沒有預(yù)測價(jià)值。
  • 0<AUC < 0.5:比隨機(jī)猜測還差狠怨;但只要總是反預(yù)測而行约啊,就優(yōu)于隨機(jī)猜測。
  • AUC=0:模型的預(yù)測完全相反佣赖,把所有正樣本預(yù)測為負(fù)例恰矩,把所有負(fù)樣本預(yù)測為正例
    下圖為以上五種情況對(duì)應(yīng)的AUC值、ROC曲線和模型預(yù)測樣本分布憎蛤,其中模型預(yù)測樣本分布中外傅,橫坐標(biāo)表示模型輸出的score,縱軸表示該預(yù)測值的樣本數(shù)/總樣本數(shù)
AUC與ROC

AUC與ROC

有關(guān)混淆矩陣俩檬,不同比值的含義

  1. \frac{TP}{TP+FN}:召回率萎胰,查全率,sensitivity棚辽,靈敏度技竟,真正例率,TPR屈藐,含義:在所有負(fù)例中榔组,有多少被識(shí)別為正例
  2. \frac{TP}{TP+FP}:精確率,在所有識(shí)別為正例的樣本當(dāng)中联逻,有多少是真的正例
  3. \frac{TN}{TN+FP}:Specificity瓷患,特異度,真負(fù)例率遣妥,在所有負(fù)例當(dāng)中擅编,有多少是真的負(fù)例
  4. \frac{FP}{TN+FP}:假正例率,含義:在所有負(fù)例中,有多少被識(shí)別為正例

參考

如何理解機(jī)器學(xué)習(xí)和統(tǒng)計(jì)中的AUC?
如何深刻理解 AUC-ROC 曲線
micro, macro, weighted F1的計(jì)算

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末爱态,一起剝皮案震驚了整個(gè)濱河市谭贪,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌锦担,老刑警劉巖俭识,帶你破解...
    沈念sama閱讀 221,635評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異洞渔,居然都是意外死亡套媚,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門磁椒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來堤瘤,“玉大人,你說我怎么就攤上這事浆熔”痉” “怎么了?”我有些...
    開封第一講書人閱讀 168,083評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵医增,是天一觀的道長慎皱。 經(jīng)常有香客問我,道長叶骨,這世上最難降的妖魔是什么茫多? 我笑而不...
    開封第一講書人閱讀 59,640評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮忽刽,結(jié)果婚禮上天揖,老公的妹妹穿的比我還像新娘。我一直安慰自己缔恳,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評(píng)論 6 397
  • 文/花漫 我一把揭開白布洁闰。 她就那樣靜靜地躺著歉甚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪扑眉。 梳的紋絲不亂的頭發(fā)上纸泄,一...
    開封第一講書人閱讀 52,262評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音腰素,去河邊找鬼聘裁。 笑死,一個(gè)胖子當(dāng)著我的面吹牛弓千,可吹牛的內(nèi)容都是我干的衡便。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼镣陕!你這毒婦竟也來了谴餐?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,736評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤呆抑,失蹤者是張志新(化名)和其女友劉穎岂嗓,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鹊碍,經(jīng)...
    沈念sama閱讀 46,280評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡厌殉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了侈咕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片公罕。...
    茶點(diǎn)故事閱讀 40,503評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖乎完,靈堂內(nèi)的尸體忽然破棺而出熏兄,到底是詐尸還是另有隱情,我是刑警寧澤树姨,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布摩桶,位于F島的核電站,受9級(jí)特大地震影響帽揪,放射性物質(zhì)發(fā)生泄漏硝清。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評(píng)論 3 333
  • 文/蒙蒙 一转晰、第九天 我趴在偏房一處隱蔽的房頂上張望芦拿。 院中可真熱鬧,春花似錦查邢、人聲如沸蔗崎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缓苛。三九已至,卻和暖如春邓深,著一層夾襖步出監(jiān)牢的瞬間未桥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評(píng)論 1 272
  • 我被黑心中介騙來泰國打工芥备, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留冬耿,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,909評(píng)論 3 376
  • 正文 我出身青樓萌壳,卻偏偏與公主長得像亦镶,于是被迫代替她去往敵國和親日月。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容