1、分類結果混淆矩陣
對于二分類問題,可將樣例根據(jù)其真實類別與學習期預測類別的組合劃分為真正例(True Positive),假正例(False Positive),真反例(True Negative)精刷,假反例(False Negative)四種情形舀寓,四種情形組成的混淆矩陣如下:
真實情況 | 預測結果 | |
---|---|---|
正例 | 反例 | |
正例 | TP | FN |
反例 | FP | TN |
2胯舷、P-R曲線
P-R曲線刻畫查準率和查全率之間的關系,查準率指的是在所有預測為正例的數(shù)據(jù)中谋旦,真正例所占的比例条篷,查全率是指預測為真正例的數(shù)據(jù)占所有正例數(shù)據(jù)的比例。
即:查準率P=TP/(TP + FP) 查全率=TP/(TP+FN)
查準率和查全率是一對矛盾的度量蛤织,一般來說赴叹,查準率高時,查全率往往偏低指蚜,查全率高時乞巧,查準率往往偏低,例如摊鸡,若希望將好瓜盡可能多選出來绽媒,則可通過增加選瓜的數(shù)量來實現(xiàn),如果希望將所有的西瓜都選上免猾,那么所有的好瓜必然都被選上了是辕,但這樣查準率就會較低;若希望選出的瓜中好瓜比例盡可能高猎提,則可只挑選最有把握的瓜获三,但這樣就難免會漏掉不少好瓜,使得查全率較低锨苏。
在很多情況下疙教,我們可以根據(jù)學習器的預測結果對樣例進行排序,排在前面的是學習器認為最可能是正例的樣本伞租,排在后面的是學習器認為最不可能是正例的樣本贞谓,按此順序逐個把樣本作為正例進行預測,則每次可計算當前的查全率和查準率葵诈,以查準率為y軸裸弦,以查全率為x軸,可以畫出下面的P-R曲線作喘。
如果一個學習器的P-R曲線被另一個學習器的P-R曲線完全包住理疙,則可斷言后者的性能優(yōu)于前者,例如上面的A和B優(yōu)于學習器C徊都,但是A和B的性能無法直接判斷沪斟,但我們往往仍希望把學習器A和學習器B進行一個比較,我們可以根據(jù)曲線下方的面積大小來進行比較暇矫,但更常用的是平衡點或者是F1值主之。平衡點(BEP)是查準率=查全率時的取值,如果這個值較大李根,則說明學習器的性能較好槽奕。而F1 = 2 * P * R /( P + R ),同樣房轿,F(xiàn)1值越大粤攒,我們可以認為該學習器的性能較好。
3囱持、ROC曲線
很多學習器是為測試樣本產生一個實值或概率預測夯接,然后將這個預測值與一個分類閾值進行比較,若大于閾值分為正類纷妆,否則為反類盔几,因此分類過程可以看作選取一個截斷點。
不同任務中掩幢,可以選擇不同截斷點逊拍,若更注重”查準率”,應選擇排序中靠前位置進行截斷际邻,反之若注重”查全率”芯丧,則選擇靠后位置截斷。因此排序本身質量的好壞世曾,可以直接導致學習器不同泛化性能好壞缨恒,ROC曲線則是從這個角度出發(fā)來研究學習器的工具。
曲線的坐標分別為真正例率(TPR)和假正例率(FPR)轮听,定義如下:
下圖為ROC曲線示意圖肿轨,因現(xiàn)實任務中通常利用有限個測試樣例來繪制ROC圖,因此應為無法產生光滑曲線蕊程,如右圖所示椒袍。
繪圖過程很簡單:給定m個正例子,n個反例子藻茂,根據(jù)學習器預測結果進行排序驹暑,先把分類閾值設為最大,使得所有例子均預測為反例辨赐,此時TPR和FPR均為0优俘,在(0,0)處標記一個點掀序,再將分類閾值依次設為每個樣例的預測值帆焕,即依次將每個例子劃分為正例。設前一個坐標為(x,y),若當前為真正例叶雹,對應標記點為(x,y+1/m)财饥,若當前為假正例,則標記點為(x+1/n,y)折晦,然后依次連接各點钥星。
下面舉個繪圖例子: 有10個樣例子,5個正例子满着,5個反例子谦炒。有兩個學習器A,B,分別對10個例子進行預測风喇,按照預測的值(這里就不具體列了)從高到低排序結果如下:
A:[反正正正反反正正反反]
B : [反正反反反正正正正反]
按照繪圖過程宁改,可以得到學習器對應的ROC曲線點
A:y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1]
x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1]
B:y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1]
x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1]
繪制曲線結果如下:
藍色為學習器A的ROC曲線,其包含了B的曲線魂莫,說明它性能更優(yōu)秀还蹲,這點從A,B對10個例子的排序結果顯然是能看出來的,A中正例排序高的數(shù)目多于B豁鲤。此外秽誊,如果兩個曲線有交叉,則需要計算曲線圍住的面積(AUC)來評價性能優(yōu)劣琳骡。
4锅论、第一章知識點拾遺
假設空間:我們把學習過程看作一個在所有假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集匹配的假設楣号。拿書中的例子來說最易,我們通過色澤、根蒂炫狱、敲聲來判斷瓜的好壞藻懒,色澤有兩種取值,根蒂有三種取值视译,敲聲有兩種取值嬉荆,那么總共的假設空間有4 * 3 * 3 + 1 = 37 種,即我們訓練的目標是從這37種假設中找到與訓練樣本最為匹配的假設酷含。當然匹配到的假設可能有多種鄙早,這時候就會用到歸納偏好。
歸納偏好:給定一組西瓜的訓練集椅亚,我們通過訓練樣本的訓練發(fā)現(xiàn)有三個能夠與其相匹配的假設限番,那么到底選擇哪一個呢?這時呀舔,學習算法本身的偏好就會起到關鍵的作用弥虐。我們可能喜歡更復雜的模型,也可能喜歡更簡單的模型。機器學習算法在學習過程中對某種類型假設的偏好霜瘪,稱為歸納偏好珠插。
奧卡姆剃刀:這是一種常用的、自然科學研究中最基本的原則粥庄,即“若有多個假設與觀察一致丧失,則選擇最簡單的一個”豺妓。
5惜互、第二章知識點拾遺
數(shù)據(jù)集拆分:如果我們有一個數(shù)據(jù)集D,如果我們想用這個數(shù)據(jù)集既用來訓練琳拭,又用來測試训堆,我們應該如何做呢?有下面幾種做法:
1)留出法:直接將數(shù)據(jù)集D拆分為兩個互斥的集合白嘁,其中一個用作訓練集坑鱼,另一個用作測試集。單次使用留出法得到的估計結果往往不夠穩(wěn)定可靠絮缅,在使用留出法時鲁沥,一般要采用若干次隨機劃分,重復進行試驗評估后取平均值作為留出法的評估結果耕魄。
2)交叉驗證法画恰,大家都比較熟悉,一般稱為k折交叉驗證吸奴,如果k的大小與數(shù)據(jù)集大小m相同允扇,此時又稱為留一法,留一法的評估結果往往被認為比較準確则奥,然后考润,留一法也有缺陷,在數(shù)據(jù)集比較大的時候读处,計算復雜度太高
3)自助法:通過有放回的隨機抽樣不斷產生與原數(shù)據(jù)集大小相同的數(shù)據(jù)集D‘糊治,然后沒有在D’中出現(xiàn)過的數(shù)據(jù)組合為測試集。自助法在數(shù)據(jù)集較小罚舱,難以有效劃分訓練/測試集的時候比較有用井辜。