精確率、召回率拳话、F1
精確率 = TP / (TP + FP)先匪,表示返回的正例中真正例所占的比例;
召回率 = TP / (TP + FN)弃衍,表示返回的真正例占所有正例的比例呀非。
(幫助記憶:精確率、召回率都沒TN什么事)
有時候單獨的看精確率和召回率并不能很好的表示一個分類器的好壞镜盯,這時候就需要F1了岸裙。
F1 = 2TP / (2TP + FP + FN)
ROC、AUC
先介紹兩個概念:
1) 真正類率(TPR)速缆,TPR = TP / (TP + FN)降允,返回的正類占所有正類的比例;(沒錯艺糜,跟召回率一個公式)
2)假正類率(FPR)剧董,F(xiàn)PR = FP / (FP + TN),返回的負(fù)類占所有負(fù)類的比例破停。
假設(shè)對于分類器C翅楼,當(dāng)一個樣本是正類的概率大于某一個閾值(一般為0.5)時,我們就將其歸為正類真慢。那么對于一個分類器和固定的數(shù)據(jù)集而言毅臊,如果這個閾值不斷的變化(從0到1),我們也就得到了一系列的返回結(jié)果黑界。每一個返回結(jié)果我們都可以得到一對(FPR, TPR)管嬉。我們將這一系列的(FPR,TPR)畫到以FPR為橫軸园爷,以TPR為縱軸的坐標(biāo)系中宠蚂,我們就得到了所謂ROC曲線。
理想情況下童社,我們希望TPR接近于1求厕,F(xiàn)PR接近于0。
考慮兩種極端的情況:
1)如果閾值=0,那么所有的檢測對象都標(biāo)記為正類并返回呀癣。此時美浦,TPR=1, FPR=1,對應(yīng)于點(1,1)项栏;
2)如果閾值=1浦辨,那么所有的檢測對象都標(biāo)記為負(fù)類,沒有返回沼沈。此時流酬,TPR=0,RPR=0列另,對應(yīng)于點(0,0)芽腾。
(幫助記憶:TPR、FPR页衙、ROC是描述分類器摊滔,所以只對返回數(shù)據(jù)感興趣,而返回的對象都標(biāo)記為正類(TP和FP)店乐,所以TPR代表返回的正類占所有正類的比例艰躺,F(xiàn)PR代表返回的負(fù)類占所有負(fù)類的比例)
明白了ROC,AUC就很簡單了眨八,AUC(Area Under Curve)表示ROC曲線下的面積腺兴,AUC的取值為0.5-1。我們的期望是AUC越大越好踪古。