機器學習度量指標
分類評估指標
TN TP FN FP
TP:預測為正向(P)绍申,實際上預測正確(T),即判斷為正向的正確率
TN:預測為負向(N)顾彰,實際上預測正確(T)极阅,即判斷為負向的正確率
FP:預測為正向(P),實際上預測錯誤(F)涨享,誤報率筋搏,即把負向判斷成了正向
FN:預測為負向(N),實際上預測錯誤(F)厕隧,漏報率奔脐,即把正向判斷稱了負向
Positive | Negative | |
---|---|---|
True | True Positive(TP) 真陽性 | True Negative(TN) 真陰性 |
False | False Positive(FP) 假陽性 | False Negative(FN) 假陰性 |
準確率(Accuracy)
【注意】當分類問題是平衡(blanced)的時候,準確率可以較好地反映模型的優(yōu)劣程度栏账,但不適用于數(shù)據(jù)集不平衡的時候帖族。
例如:分類問題的數(shù)據(jù)集中本來就有97% 示例是屬于X,只有另外3%不屬于X挡爵,所有示例都被分類成X的時候竖般,準確率仍然高達97%,但這沒有任何意義茶鹃。
精確率Precision
查準率 即在預測為正向的數(shù)據(jù)中涣雕,有多少預測正確”蒸妫【預測結(jié)果為真的數(shù)據(jù)】
召回率Recall
查全率 即在所有正向的數(shù)據(jù)中挣郭,有多少預測正確×圃希【樣本原來真的數(shù)據(jù)】
F1-Score
F1值為精確率和召回率的調(diào)和均值兑障。
ROC(Receiver Operating Characteristic)曲線
先了解以下幾個概念
真正率(True Positive Rate, TPR),又名靈敏度(Sensitivity):分類正確的正樣本個數(shù)占整個正樣本個數(shù)的比例蕉汪。
假負率(False Negative Rate, FNR):分類錯誤的正樣本的個數(shù)占正樣本的個數(shù)的比例流译。
假正率(False Positive Rate, FPR):分類錯誤的負樣本個數(shù)占整個負樣本個數(shù)的比例。
真負率(True Negative Rate, TNR):分類正確的負樣本的個數(shù)占負樣本的個數(shù)的比例者疤。
ROC曲線是以假正率(FP_rate)和真正率(TP_rate)為軸的曲線福澡,ROC曲線下面的面積我們叫做AUC。
AUC(Area Under Curve) 被定義為ROC曲線下的面積驹马,顯然這個面積的數(shù)值不會大于1革砸。
如下圖所示:
曲線與FP_rate軸圍成的面積(記作AUC)越大除秀,說明性能越好,即圖上L2曲線對應的性能優(yōu)于曲線L1對應的性能算利。即:曲線越靠近A點(左上方)性能越好册踩,曲線越靠近B點(右下方)曲線性能越差。
PR(precision recall)曲線
表現(xiàn)的是precision和recall之間的關(guān)系笔时。
回歸評估指標
測試數(shù)據(jù)集中的點棍好,距離模型的平均距離越小,該模型越精確允耿。
使用平均距離借笙,而不是所有測試樣本的距離和,因為距離和受樣本數(shù)量的影響
平均絕對誤差 MAE
平均絕對誤差MAE(Mean Absolute Error)又被稱為 范數(shù)損失(l1-norm loss)较锡。
平均平方誤差 MSE
平均平方誤差 MSE(Mean Squared Error)又被稱為 范數(shù)損失(l2-norm loss)业稼。
RMSE:均方根誤差
均方根誤差RMSE(Root Mean Squared Error)
RMSE和MAE有局限性:同一個算法模型,解決不同的問題蚂蕴,不能體現(xiàn)此模型針對不同問題所表現(xiàn)的優(yōu)劣低散。因為不同實際應用中,數(shù)據(jù)的量綱不同骡楼,無法直接比較預測值熔号,因此無法判斷模型更適合預測哪個問題。
R-squared
原始數(shù)據(jù)和均值之差的平方和
預測數(shù)據(jù)與原始數(shù)據(jù)均值之差的平方和
上面公式中表示測試數(shù)據(jù)真實值的方差(內(nèi)部差異)鸟整;代表回歸值與真實值之間的平方差異(回歸差異)引镊,因此R-squared既考量了回歸值與真實值的差異,也兼顧了問題本身真實值的變動篮条〉芡罚【模型對樣本數(shù)據(jù)的擬合度】
R-squared 取值范圍,值越大表示模型越擬合訓練數(shù)據(jù);最優(yōu)解是1;當模型 預測為隨機值的時候涉茧,有可能為負;若預測值恒為樣本期望赴恨,R2為0。
from sklearn.metrics import mean_squared_error #均方誤差
from sklearn.metrics import mean_absolute_error #平方絕對誤差
from sklearn.metrics import r2_score#R square
聚類性能指標
ARI (Adjusted Rand index)
若樣本數(shù)據(jù)本身帶有正確的類別信息伴栓,可用ARI指標進行評估伦连。
from sklearn.metrics import adjusted_rand_score()
輪廓系數(shù) Silhouette Cofficient
若樣本數(shù)據(jù)沒有所屬類別,可用輪廓系數(shù)來度量聚類結(jié)果的質(zhì)量钳垮。
from sklearn.metrics import silhouette_score
sklearn里的常見評測指標
Scoring(得分) | Function(函數(shù)) | Comment(注解) |
---|---|---|
Classification(分類) | ||
‘a(chǎn)ccuracy’ | metrics.accuracy_score | |
‘a(chǎn)verage_precision’ | metrics.average_precision_score | |
‘f1’ | metrics.f1_score | for binary targets(用于二進制目標) |
‘f1_micro’ | metrics.f1_score | micro-averaged(微平均) |
‘f1_macro’ | metrics.f1_score | macro-averaged(微平均) |
‘f1_weighted’ | metrics.f1_score | weighted average(加權(quán)平均) |
‘f1_samples’ | metrics.f1_score | by multilabel sample(通過 multilabel 樣本) |
‘neg_log_loss’ | metrics.log_loss | requires predict_proba support(需要 predict_proba 支持) |
‘precision’ etc. | metrics.precision_score | suffixes apply as with ‘f1’(后綴適用于 ‘f1’) |
‘recall’ etc. | metrics.recall_score | suffixes apply as with ‘f1’(后綴適用于 ‘f1’) |
‘roc_auc’ | metrics.roc_auc_score | |
Clustering(聚類) | ||
‘a(chǎn)djusted_mutual_info_score’ | metrics.adjusted_mutual_info_score | |
‘a(chǎn)djusted_rand_score’ | metrics.adjusted_rand_score | |
‘completeness_score’ | metrics.completeness_score | |
‘fowlkes_mallows_score’ | metrics.fowlkes_mallows_score | |
‘homogeneity_score’ | metrics.homogeneity_score | |
‘mutual_info_score’ | metrics.mutual_info_score | |
‘normalized_mutual_info_score’ | metrics.normalized_mutual_info_score | |
‘v_measure_score’ | metrics.v_measure_score | |
Regression(回歸) | ||
‘explained_variance’ | metrics.explained_variance_score | |
‘neg_mean_absolute_error’ | metrics.mean_absolute_error | |
‘neg_mean_squared_error’ | metrics.mean_squared_error | |
‘neg_mean_squared_log_error’ | metrics.mean_squared_log_error | |
‘neg_median_absolute_error’ | metrics.median_absolute_error | |
‘r2’ | metrics.r2_score |