知識整理
ROC和AUC
- ROC的畫法:參考CSDN迎膜。
- AUC的意義:從Positive中選一個例子P,從Negetive中選一個例子N胁孙,學習器判斷P為正例的概率為s1渴庆,判斷N為正例的概率為s2,s1 >s2的概率就是AUC纤壁。
- AUC的計算方法:參考《機器學習》35頁公式左刽。公式嘗試理解:lrank計算的就是當前正例被判為正例的概率比反例被判為反例的概率小的概率,既s1 < s2的概率酌媒,對于每一個正例欠痴,算出這樣一個概率,然后取平均值秒咨,作為AUC喇辽。
- 參考資料: 知乎
習題
2.1
500取350組合數(shù) × 500取350組合數(shù)
2.2
- 10折交叉驗證法:將100個樣本劃分為10個互斥的子集,并保持每個子集的一致性拭荤,得到10個子集茵臭,每個子集10個樣本,5個正例舅世,5個反例,然后取9個子集進行訓練奇徒,1個子集進行測試雏亚,由于每個子集中正反例數(shù)目相等,所以預測結(jié)果的錯誤率應該為50%摩钙。
- 留一法: 若留的是正例罢低,則訓練集中反例數(shù)量比正例數(shù)量多一個,留得正例被預測為反例;若留的是反例网持,則訓練集中正例數(shù)量比反例數(shù)量多一個宜岛,留得反例被預測為正例。
2.3
BEP值和F1值沒有關系
2.4
TPR(真正例率):真正例占正例的比例功舀。TP/(TP+FN)
FPR(假正例率):假正例占反例的比例萍倡。FP/(FP+TN)
P(查準率):TP/(TP+FP),正例中有多少比例被判為真正例
R(查全率):TP/(TP+FN)辟汰,被判為正例的數(shù)據(jù)中列敲,有多少比例是真正例
2.5
不會
2.6
ROC上的每一個點都會對應一個TPR和FPR,設有m+個正例帖汞,m-個反例:
- 錯誤率E = (m+ × (1-TPR) + m- × FPR) / (m+ + m-).
- 加入代價后 Ecost = (m+ × (1-TPR) × cost01 + m- × FPR × cost10) / (m+ + m- ).
- 學習器會在錯誤率最低處進行截斷戴而。