錯(cuò)誤率(error rate): 分類錯(cuò)誤樣本數(shù)占樣本總數(shù)的比例鼓择, E=a/m
精度(accuracy):= 1 - 錯(cuò)誤率就漾, 1-a/m
誤差:學(xué)習(xí)器實(shí)際預(yù)測輸入 VS 樣本真實(shí)輸出
訓(xùn)練誤差(training error)/經(jīng)驗(yàn)誤差(empirical error):在訓(xùn)練集上的誤差
泛化誤差:在新樣本上的誤差
過擬合(overfitting)VS 欠擬合(underfitting)
過擬合是無法避免的 只能緩解或減小其風(fēng)險(xiǎn)
混淆矩陣(confusion matrix):
查準(zhǔn)率 P: P = TP/(TP+FP) (選出的瓜中 好瓜比例好 有把握才下手 會(huì)漏掉一些好瓜)
查全率 R: R = TP(TP+FN) (好瓜盡可能多的選出 選上全部西瓜 查準(zhǔn)率低)
二者大部分時(shí)是矛盾的
根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果排序摆出,“最可能” -> “最不可能”首妖,按此順序逐個(gè)把樣本作為正例預(yù)測,得出P-R圖
若曲線被完全“包住”悯搔,則性能優(yōu) e.g. A性能優(yōu)于C
若交叉妒貌,則難以判斷(如A與B)铸豁。可以考慮特定點(diǎn)下比較 或比較曲線面積在刺。
平衡點(diǎn)(Break-Even Point) BEP: 查準(zhǔn)率 = 查全率 (A is better than B)
F1度量: F1 = 2*P*R/(P+R) = 2*TP/(樣例總數(shù)+TP-TN)
F_β:F1度量的一般形式头镊,表達(dá)對P和R的不同偏好 F_β = (1+β2)*P*R/(β2*P)+R, 其中 β>0
β<1: 查準(zhǔn)率影響大;β=1: 與F1相同颖杏;β>1: 查全率影響大
宏查準(zhǔn)率/宏查全率/宏F1 (macro-XX): 先計(jì)算出各混淆矩陣對應(yīng)的P坛芽,R翼抠,再平均
微查準(zhǔn)率/微查全率/微F1 (micro-XX):先對混淆矩陣各元素平均阴颖,再公式計(jì)算P R F1
ROC (Receiver Operating Characteristics) 曲線:縱軸 真正例率 TPR = TP/(TP+FN); 橫軸 假正例率 FPR = FP/(TN+FP)
AUC (Area Under ROC Curve): ROC曲線下的面積
非均等代價(jià) (unequal cost):權(quán)衡不同類型錯(cuò)誤造成的不同損失
以二分類任務(wù)為例丐膝,代價(jià)矩陣為:
在非均等代價(jià)下帅矗,ROC曲線不能直接反應(yīng)出期望的總體代價(jià),需要代價(jià)曲線
橫軸為[0,1]的正例概率代價(jià) (p為樣例為正的概率)
縱軸為[0,1]的歸一化代價(jià)
ROC上每一點(diǎn) 計(jì)算FNR 繪制(0, FPR) - (1,FNR)的線段 取所有線段的下屆 圍成的面積即為學(xué)習(xí)器的期望總體代價(jià)
Motivation:希望比較不同學(xué)習(xí)器的泛化性能
- 測試集性能≠泛化性能
- 測試性能 與 測試集本身 相關(guān)性大
- 機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性
So we propose:
統(tǒng)計(jì)假設(shè)檢驗(yàn):基于假設(shè)檢驗(yàn)結(jié)果,若測試集上 A 優(yōu)于 B, 則A的泛化性能是否在統(tǒng)計(jì)意義上優(yōu)于B, 及這個(gè)結(jié)論的把握有多大喘落。
假設(shè):對學(xué)習(xí)器 泛化錯(cuò)誤率(性能)分布的某種判斷與猜想
偏差(bias):期望輸出與真實(shí)標(biāo)記的差別 --- 學(xué)習(xí)算法本身的擬合能力
方差:同樣大小訓(xùn)練集的變動(dòng)導(dǎo)致的學(xué)習(xí)性能變化 --- 數(shù)據(jù)擾動(dòng)影響
噪聲:能達(dá)到的期望泛化誤差的下屆 --- 學(xué)習(xí)問題本身的難度
泛化誤差可分解為 偏差最冰、方差與噪聲之和
由學(xué)習(xí)算法的能力暖哨、數(shù)據(jù)的充分性、學(xué)習(xí)任務(wù)本身的難度 共同決定
偏差-方差窘境(bias-variance dilemma):