Preliminary
- TP:實(shí)際為P瓢宦,預(yù)測為P
- TN:實(shí)際為N碎连,預(yù)測為N
- FP:實(shí)際為N,預(yù)測為P
- FN:實(shí)際為P刁笙,預(yù)測為N
如何記憶:
- TP/TN: 以T開頭破花,表明預(yù)測正確谦趣,預(yù)測即為第二個(gè)字母
- FP/FN: 以F開頭,表明預(yù)測錯(cuò)誤座每,預(yù)測與第二個(gè)字母相反
Accuracy
最簡單也是最好理解的前鹅,也是我們很早就開始接觸的一個(gè)指標(biāo)就是準(zhǔn)確率,即預(yù)測正確的樣本除以總樣本數(shù)
Recall, Precision, F1
- Recall(召回率):預(yù)測正確的正類在正類樣本中的比例(針對(duì)于樣本真實(shí)情況)
- Precision(精確率):預(yù)測正確的正類在預(yù)測為正類中的比例(針對(duì)于預(yù)測情況)
- F1:兩者通常難以兼得峭梳,因此引入兩者的調(diào)和平均舰绘,來得到一個(gè)trade-off的值
micro 與macro
有時(shí)我們?nèi)绻啻斡?xùn)練或測試,每次都有一個(gè)混淆矩陣葱椭,或者多分類任務(wù)捂寿,此時(shí)需要綜合考慮recall,precision孵运,f1
P-R曲線
對(duì)于一個(gè)模型最終輸出的分類結(jié)果秦陋,不同的閾值,可以得到不同的precision與recall治笨,將其繪制成一條曲線驳概。
- 如果一個(gè)模型的P-R曲線完全被另外一個(gè)模型的曲線“包住”,如下圖的A與C旷赖,在Precision相等的情況下顺又,
,在Recall相等的情況下等孵,
稚照,因此A模型由于C模型。
- 如果兩條曲線有交點(diǎn)(比如A與B)俯萌,可以將曲線與x軸形成的面積作為一個(gè)評(píng)估指標(biāo)果录,但是這個(gè)值不容易計(jì)算,因此有了以下衡量方法:
- BEP(Break-event Point)咐熙,平衡點(diǎn)雕憔,Recall與precision相等的時(shí)候的取值,此時(shí)比較A優(yōu)于B(取BEP大的)
-
F1值
圖源機(jī)器學(xué)習(xí)——周志華
ROC與AUC-解決樣本分布不均衡
ROC
ROC:Receiver Operating Characteristic糖声,橫軸:FPR(假正例率斤彼,在所有負(fù)例中,有多少被識(shí)別為正例)蘸泻,縱軸:TPR(真正例率琉苇,在所有正例中,有多少被識(shí)別為正例)
與P-C曲線類似悦施,在取不同閾值的時(shí)候并扇,可以得到多個(gè)TPR與多個(gè)FPR,將其繪制成一條曲線抡诞,即得到了ROC曲線穷蛹。
- (0,0)點(diǎn):當(dāng)閾值等于1時(shí)土陪,即把所有樣本都預(yù)測為反例時(shí),此時(shí)TPR與FPR均為0肴熏,因此ROC曲線過原點(diǎn)鬼雀。
- (1,1)點(diǎn):當(dāng)閾值等于0時(shí),即把所有樣本都預(yù)測為正例蛙吏,此時(shí)TPR與FPR均為1源哩,因此ROC曲線一定過(1,1)點(diǎn)
AUC
當(dāng)比較兩個(gè)分類模型的性能時(shí)鸦做,如果一個(gè)模型A的ROC曲線完全包住了另一個(gè)模型B励烦,那么前者的性能優(yōu)于后者(當(dāng)真正例率相等時(shí),A的假正例率低于B泼诱,反之亦然)坛掠,而如果有交點(diǎn),此時(shí)我們可以比較ROC曲線下的面積治筒,即AUC(Area under ROC curve)却音。
AUC:若ROC曲線為y=x,表示的意義是:對(duì)于不論真實(shí)類別是1還是0的樣本矢炼,分類器預(yù)測為1的概率是相等的。而我們希望分類器達(dá)到的效果是:對(duì)于真實(shí)類別為1的樣本阿纤,分類器預(yù)測為1的概率(即TPRate)句灌,要大于真實(shí)類別為0而預(yù)測類別為1的概率(即FPRate),即y>x
AUC的含義:AUC是一個(gè)概率值欠拾,當(dāng)你隨機(jī)挑選一個(gè)正樣本以及一個(gè)負(fù)樣本胰锌,當(dāng)前的分類算法根據(jù)計(jì)算得到的Score值將這個(gè)正樣本排在負(fù)樣本前面的概率就是AUC值。AUC值越大藐窄,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本前面资昧,即能夠更好的分類。
ROC與AUC的優(yōu)勢
準(zhǔn)確率有時(shí)并不可靠荆忍,比如在100個(gè)樣本當(dāng)中格带,90個(gè)為正例,10個(gè)為負(fù)例刹枉。此時(shí)如果一個(gè)模型將所有樣本預(yù)測為positive叽唱,準(zhǔn)確率也有90%。但是ROC曲線不受到樣本分布不均衡的影響微宝,因?yàn)槠錂M坐標(biāo)與縱坐標(biāo)都是在真實(shí)的正樣本和負(fù)樣本當(dāng)中觀察問題棺亭。
同樣的例子,TPR 只關(guān)注 90% 正樣本中有多少是被真正預(yù)測的蟋软,而與10%毫無關(guān)系镶摘,同理嗽桩,F(xiàn)PR 只關(guān)注 10% 負(fù)樣本中有多少是被錯(cuò)誤預(yù)測的,也與那 90%無關(guān)系凄敢,因此選用TPR和FPR可以避免樣本分布不均衡的問題碌冶。
幾種情況
- AUC = 1:是完美分類器,采用這個(gè)預(yù)測模型時(shí)贡未,存在至少一個(gè)閾值能得出完美預(yù)測种樱。絕大多數(shù)預(yù)測的場合,不存在完美分類器俊卤。
- 0.5 < AUC < 1:優(yōu)于隨機(jī)猜測嫩挤。如果這個(gè)模型閾值設(shè)定合理,有預(yù)測價(jià)值消恍。
- AUC = 0.5:跟隨機(jī)猜測一樣(例:丟銅板)岂昭,模型沒有預(yù)測價(jià)值。
- 0<AUC < 0.5:比隨機(jī)猜測還差狠怨;但只要總是反預(yù)測而行约啊,就優(yōu)于隨機(jī)猜測。
- AUC=0:模型的預(yù)測完全相反佣赖,把所有正樣本預(yù)測為負(fù)例恰矩,把所有負(fù)樣本預(yù)測為正例
下圖為以上五種情況對(duì)應(yīng)的AUC值、ROC曲線和模型預(yù)測樣本分布憎蛤,其中模型預(yù)測樣本分布中外傅,橫坐標(biāo)表示模型輸出的score,縱軸表示該預(yù)測值的樣本數(shù)/總樣本數(shù)
有關(guān)混淆矩陣俩檬,不同比值的含義
-
:召回率萎胰,查全率,sensitivity棚辽,靈敏度技竟,真正例率,TPR屈藐,含義:在所有負(fù)例中榔组,有多少被識(shí)別為正例
-
:精確率,在所有識(shí)別為正例的樣本當(dāng)中联逻,有多少是真的正例
-
:Specificity瓷患,特異度,真負(fù)例率遣妥,在所有負(fù)例當(dāng)中擅编,有多少是真的負(fù)例
-
:假正例率,含義:在所有負(fù)例中,有多少被識(shí)別為正例
參考
如何理解機(jī)器學(xué)習(xí)和統(tǒng)計(jì)中的AUC?
如何深刻理解 AUC-ROC 曲線
micro, macro, weighted F1的計(jì)算