模型評(píng)估常用名詞
錯(cuò)誤率:
分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例稱(chēng)為“錯(cuò)誤率”(error rate)甩恼,即如果在m個(gè)樣本中有a個(gè)樣本分類(lèi)錯(cuò)誤,則錯(cuò)誤率E=a/m翎冲;
精度:
1-a/m稱(chēng)為“精度”(accuracy)华畏,即“精度=1一錯(cuò)誤率”。
誤差:
學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異稱(chēng)為“誤差”(error)跨嘉,學(xué)習(xí)器在訓(xùn)練集上的誤差稱(chēng)為“訓(xùn)練誤差”(training error)或“經(jīng)驗(yàn)誤差”(empirical error)川慌,在新樣本上的誤差稱(chēng)為“泛化誤差”(generalization error)。我們希望得到泛化誤差小的學(xué)習(xí)器祠乃,實(shí)際能做的是努力使經(jīng)驗(yàn)誤差最小化梦重。
混淆矩陣:
|xx | +1 | -1 |
| +1 | TP(真正) | FN()|
| -1 | FP | TN|
正確率/查準(zhǔn)率:
(Precision),它等于 TP/(TP+FP) 亮瓷,給出的是預(yù)測(cè)為正例的樣本中的真正正例的比例琴拧。
召回率/查全率:
(Recall),他等于 TP/(TP+FN)嘱支,給出的是預(yù)測(cè)為正例的真實(shí)正例占所有真實(shí)正例的比例蚓胸。
ROC與AUC
ROC全稱(chēng)是“受試者工作特征”(Receiver Operating Characteristic)曲線(xiàn),其橫軸是“假正例率”(False Positive Rate除师,簡(jiǎn)稱(chēng)FPR)沛膳,縱軸是“真正例率”(True Positive Rate,簡(jiǎn)稱(chēng)TRP)汛聚,
TPR = TP/(TP+FN)
FPR = FP/(TN+FP)
ROC曲線(xiàn)給出的是當(dāng)閾值變化時(shí)假陽(yáng)率和真陽(yáng)率的變化情況锹安。左下角的點(diǎn)所對(duì)應(yīng)的是將所有樣例判為反例的情況,而右上角的點(diǎn)對(duì)應(yīng)的則是將所有樣例判為正例的情況倚舀。虛線(xiàn)給出的是隨機(jī)猜測(cè)的結(jié)果曲線(xiàn)叹哭。
對(duì)不同的ROC曲線(xiàn)進(jìn)行比較的一個(gè)指標(biāo)是曲線(xiàn)下的面積(Area Unser the Curve)。AUC給出的是分類(lèi)器的平均性能值痕貌,當(dāng)然它并不能完全代替對(duì)整條曲線(xiàn)的觀察风罩。一個(gè)完美分類(lèi)器的AUC為1.0,而隨機(jī)猜測(cè)的AUC則為0.5舵稠。
“過(guò)擬合”(overfitting)與“欠擬合”(underfitting):
學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候超升,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化能力下降柱查。這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱(chēng)為過(guò)擬合廓俭,相對(duì)地,欠擬合是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好唉工。
基礎(chǔ)術(shù)語(yǔ)
數(shù)據(jù)集與屬性
記錄的集合稱(chēng)為一個(gè)“數(shù)據(jù)集”(data set) 或者“示例”(instance)或者“樣本”(sample)
反映的對(duì)象的性質(zhì)的研乒。例如“色澤”,“根蒂”淋硝,“敲聲”稱(chēng)為“屬性”(attribute)或者“特征”(feature)
模型
若預(yù)測(cè)的是離散值雹熬,此學(xué)習(xí)任務(wù)稱(chēng)為“分類(lèi)”(classification)
若預(yù)測(cè)的是連續(xù)值宽菜,此學(xué)習(xí)任務(wù)稱(chēng)為“回歸”(regression)
“聚類(lèi)”(clustering),即將訓(xùn)練集中西瓜分成若干組竿报,每組稱(chēng)為一個(gè)“簇”(cluster)铅乡,這些自動(dòng)形成的簇可能對(duì)應(yīng)潛在的概念劃分,在聚類(lèi)學(xué)習(xí)中烈菌,都是事先不知道的阵幸,通常不擁有標(biāo)記信息。
學(xué)得模型后芽世,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為“測(cè)試”(testing)挚赊, 被預(yù)測(cè)的樣本稱(chēng)為“預(yù)測(cè)樣本”(testing sample)。 Fx: 學(xué)得f 后济瓢,對(duì)X進(jìn)行測(cè)試荠割,可得到其預(yù)測(cè)標(biāo)記,即 y=f(X)
監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)
根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息旺矾,學(xué)習(xí)任務(wù)可分為以下兩大類(lèi):“監(jiān)督學(xué)習(xí)”(supervised learning)和“無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning) 分類(lèi)和回歸是前者的代表蔑鹦,而聚類(lèi)則是后者的代表。機(jī)器學(xué)習(xí)使學(xué)得的模型適用于“新樣本”箕宙,學(xué)得的模型適用于新樣本的能力嚎朽,稱(chēng)為“泛化”(generalization)能力。
打一個(gè)最簡(jiǎn)單的比喻扒吁,我們的目的是為了能夠用機(jī)器來(lái)代替我們的經(jīng)驗(yàn)來(lái)判斷一個(gè)西瓜到底是不是好瓜火鼻!有兩種辦法室囊,第一種就是告訴機(jī)器現(xiàn)有的瓜雕崩,讓一個(gè)經(jīng)驗(yàn)豐富的瓜農(nóng)來(lái)幫你分好哪些是好瓜,哪些是壞瓜融撞,讓你根據(jù)特征來(lái)學(xué)習(xí)盼铁!這就是有人告訴你對(duì)錯(cuò)!就是受到教育尝偎! 第二種就是給你一堆瓜饶火,啥的都不告訴你,你跟進(jìn)你的觀察和思考致扯,自主將這些瓜分類(lèi)肤寝,這一堆瓜有都是本地的,這一堆瓜都是深綠色的抖僵,然后根據(jù)調(diào)整鲤看,自己找到好瓜的那一堆!
分布
通常假設(shè)樣本空間中全體樣本服從一個(gè)未知的“分布”(distribution)D耍群,我們獲得的每個(gè)樣本都是獨(dú)立地從這個(gè)分布上采樣獲得的义桂,即“獨(dú)立同分布”(independent and identically distributed).訓(xùn)練樣本越多找筝,得到關(guān)于D的信息越多,越可能通過(guò)學(xué)習(xí)獲得強(qiáng)泛化能力的模型