二戰(zhàn)周志華《機器學習》-PR曲線和ROC曲線

1、分類結果混淆矩陣

對于二分類問題，可將樣例根據(jù)其真實類別與學習期預測類別的組合劃分為真正例(True Positive),假正例(False Positive)，真反例(True Negative)精刷，假反例(False Negative)四種情形舀寓，四種情形組成的混淆矩陣如下：

真實情況	預測結果
	正例	反例
正例	TP	FN
反例	FP	TN

2胯舷、P-R曲線

P-R曲線刻畫查準率和查全率之間的關系，查準率指的是在所有預測為正例的數(shù)據(jù)中谋旦，真正例所占的比例条篷，查全率是指預測為真正例的數(shù)據(jù)占所有正例數(shù)據(jù)的比例。
即：查準率P=TP／(TP + FP) 查全率=TP／（TP+FN）
查準率和查全率是一對矛盾的度量蛤织，一般來說赴叹，查準率高時，查全率往往偏低指蚜，查全率高時乞巧，查準率往往偏低，例如摊鸡，若希望將好瓜盡可能多選出來绽媒，則可通過增加選瓜的數(shù)量來實現(xiàn)，如果希望將所有的西瓜都選上免猾，那么所有的好瓜必然都被選上了是辕，但這樣查準率就會較低；若希望選出的瓜中好瓜比例盡可能高猎提，則可只挑選最有把握的瓜获三，但這樣就難免會漏掉不少好瓜，使得查全率較低锨苏。

在很多情況下疙教，我們可以根據(jù)學習器的預測結果對樣例進行排序，排在前面的是學習器認為最可能是正例的樣本伞租，排在后面的是學習器認為最不可能是正例的樣本贞谓，按此順序逐個把樣本作為正例進行預測，則每次可計算當前的查全率和查準率葵诈，以查準率為y軸裸弦，以查全率為x軸，可以畫出下面的P-R曲線作喘。

查準率-查全率曲線

如果一個學習器的P-R曲線被另一個學習器的P-R曲線完全包住理疙，則可斷言后者的性能優(yōu)于前者，例如上面的A和B優(yōu)于學習器C徊都，但是A和B的性能無法直接判斷沪斟，但我們往往仍希望把學習器A和學習器B進行一個比較，我們可以根據(jù)曲線下方的面積大小來進行比較暇矫，但更常用的是平衡點或者是F1值主之。平衡點（BEP）是查準率=查全率時的取值，如果這個值較大李根，則說明學習器的性能較好槽奕。而F1 = 2 * P * R ／( P + R )，同樣房轿，F(xiàn)1值越大粤攒，我們可以認為該學習器的性能較好。

3囱持、ROC曲線

很多學習器是為測試樣本產生一個實值或概率預測夯接，然后將這個預測值與一個分類閾值進行比較，若大于閾值分為正類纷妆，否則為反類盔几，因此分類過程可以看作選取一個截斷點。
不同任務中掩幢，可以選擇不同截斷點逊拍，若更注重”查準率”，應選擇排序中靠前位置進行截斷际邻，反之若注重”查全率”芯丧，則選擇靠后位置截斷。因此排序本身質量的好壞世曾，可以直接導致學習器不同泛化性能好壞缨恒，ROC曲線則是從這個角度出發(fā)來研究學習器的工具。
曲線的坐標分別為真正例率（TPR）和假正例率（FPR）轮听，定義如下：

下圖為ROC曲線示意圖肿轨，因現(xiàn)實任務中通常利用有限個測試樣例來繪制ROC圖，因此應為無法產生光滑曲線蕊程，如右圖所示椒袍。

繪圖過程很簡單：給定m個正例子，n個反例子藻茂，根據(jù)學習器預測結果進行排序驹暑，先把分類閾值設為最大，使得所有例子均預測為反例辨赐，此時TPR和FPR均為0优俘，在（0，0）處標記一個點掀序，再將分類閾值依次設為每個樣例的預測值帆焕，即依次將每個例子劃分為正例。設前一個坐標為(x,y)，若當前為真正例叶雹，對應標記點為(x,y+1/m)财饥，若當前為假正例，則標記點為（x+1/n,y）折晦，然后依次連接各點钥星。
下面舉個繪圖例子：有10個樣例子，5個正例子满着，5個反例子谦炒。有兩個學習器A,B，分別對10個例子進行預測风喇，按照預測的值（這里就不具體列了）從高到低排序結果如下：
A：[反正正正反反正正反反]
B : [反正反反反正正正正反]
按照繪圖過程宁改，可以得到學習器對應的ROC曲線點
A：y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1]
x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1]
B：y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1]
x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1]
繪制曲線結果如下：

藍色為學習器A的ROC曲線，其包含了B的曲線魂莫，說明它性能更優(yōu)秀还蹲，這點從A,B對10個例子的排序結果顯然是能看出來的，A中正例排序高的數(shù)目多于B豁鲤。此外秽誊，如果兩個曲線有交叉，則需要計算曲線圍住的面積(AUC)來評價性能優(yōu)劣琳骡。

4锅论、第一章知識點拾遺

假設空間：我們把學習過程看作一個在所有假設組成的空間中進行搜索的過程，搜索目標是找到與訓練集匹配的假設楣号。拿書中的例子來說最易，我們通過色澤、根蒂炫狱、敲聲來判斷瓜的好壞藻懒，色澤有兩種取值，根蒂有三種取值视译，敲聲有兩種取值嬉荆，那么總共的假設空間有4 * 3 * 3 + 1 = 37 種，即我們訓練的目標是從這37種假設中找到與訓練樣本最為匹配的假設酷含。當然匹配到的假設可能有多種鄙早，這時候就會用到歸納偏好。

歸納偏好：給定一組西瓜的訓練集椅亚，我們通過訓練樣本的訓練發(fā)現(xiàn)有三個能夠與其相匹配的假設限番，那么到底選擇哪一個呢？這時呀舔，學習算法本身的偏好就會起到關鍵的作用弥虐。我們可能喜歡更復雜的模型，也可能喜歡更簡單的模型。機器學習算法在學習過程中對某種類型假設的偏好霜瘪，稱為歸納偏好珠插。

奧卡姆剃刀：這是一種常用的、自然科學研究中最基本的原則粥庄，即“若有多個假設與觀察一致丧失，則選擇最簡單的一個”豺妓。

5惜互、第二章知識點拾遺

數(shù)據(jù)集拆分：如果我們有一個數(shù)據(jù)集D，如果我們想用這個數(shù)據(jù)集既用來訓練琳拭，又用來測試训堆，我們應該如何做呢？有下面幾種做法：
1）留出法：直接將數(shù)據(jù)集D拆分為兩個互斥的集合白嘁，其中一個用作訓練集坑鱼，另一個用作測試集。單次使用留出法得到的估計結果往往不夠穩(wěn)定可靠絮缅，在使用留出法時鲁沥，一般要采用若干次隨機劃分，重復進行試驗評估后取平均值作為留出法的評估結果耕魄。
2）交叉驗證法画恰，大家都比較熟悉，一般稱為k折交叉驗證吸奴，如果k的大小與數(shù)據(jù)集大小m相同允扇，此時又稱為留一法，留一法的評估結果往往被認為比較準確则奥，然后考润，留一法也有缺陷，在數(shù)據(jù)集比較大的時候读处，計算復雜度太高
3）自助法：通過有放回的隨機抽樣不斷產生與原數(shù)據(jù)集大小相同的數(shù)據(jù)集D‘糊治，然后沒有在D’中出現(xiàn)過的數(shù)據(jù)組合為測試集。自助法在數(shù)據(jù)集較小罚舱，難以有效劃分訓練／測試集的時候比較有用井辜。

最后編輯于：2017.12.11 00:48:52

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市馆匿，隨后出現(xiàn)的幾起案子抑胎，更是在濱河造成了極大的恐慌，老刑警劉巖渐北，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件阿逃，死亡現(xiàn)場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機恃锉，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門搀菩，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人破托，你說我怎么就攤上這事肪跋。” “怎么了土砂？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵州既，是天一觀的道長。經(jīng)常有香客問我萝映，道長吴叶，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任序臂，我火速辦了婚禮蚌卤，結果婚禮上，老公的妹妹穿的比我還像新娘奥秆。我一直安慰自己逊彭，他們只是感情好，可當我...
茶點故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布构订。她就那樣靜靜地躺著侮叮，像睡著了一般。火紅的嫁衣襯著肌膚如雪鲫咽。梳的紋絲不亂的頭發(fā)上签赃，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天，我揣著相機與錄音分尸，去河邊找鬼锦聊。笑死，一個胖子當著我的面吹牛箩绍，可吹牛的內容都是我干的孔庭。我是一名探鬼主播，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼材蛛，長吁一口氣：“原來是場噩夢啊……” “哼圆到！你這毒婦竟也來了？” 一聲冷哼從身側響起卑吭，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤芽淡，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后豆赏，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體挣菲，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡富稻，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了白胀。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片椭赋。...
茶點故事閱讀 37,989評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖或杠，靈堂內的尸體忽然破棺而出哪怔，到底是詐尸還是另有隱情，我是刑警寧澤向抢，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內幕
正文年R本政府宣布认境，位于F島的核電站，受9級特大地震影響笋额，放射性物質發(fā)生泄漏元暴。R本人自食惡果不足惜篷扩，卻給世界環(huán)境...
茶點故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一兄猩、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧鉴未，春花似錦枢冤、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案淹真，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至连茧，卻和暖如春核蘸，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背啸驯。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工客扎，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人罚斗。一個月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓徙鱼，卻偏偏與公主長得像，于是被迫代替她去往敵國和親针姿。傳聞我的和親對象是個殘疾皇子袱吆，可洞房花燭夜當晚...
茶點故事閱讀 42,700評論 2贊 345