機(jī)器學(xué)習(xí) Chapter 2 模型評估與選擇

錯(cuò)誤率(error rate): 分類錯(cuò)誤樣本數(shù)占樣本總數(shù)的比例鼓择, E=a/m
精度(accuracy):= 1 - 錯(cuò)誤率就漾, 1-a/m

誤差:學(xué)習(xí)器實(shí)際預(yù)測輸入 VS 樣本真實(shí)輸出
訓(xùn)練誤差(training error)/經(jīng)驗(yàn)誤差(empirical error):在訓(xùn)練集上的誤差
泛化誤差:在新樣本上的誤差


過擬合(overfitting)VS 欠擬合(underfitting)

過擬合是無法避免的 只能緩解或減小其風(fēng)險(xiǎn)


評估方法

混淆矩陣(confusion matrix)

查準(zhǔn)率 P: P = TP/(TP+FP) (選出的瓜中 好瓜比例好 有把握才下手 會(huì)漏掉一些好瓜)
查全率 R: R = TP(TP+FN) (好瓜盡可能多的選出 選上全部西瓜 查準(zhǔn)率低)
二者大部分時(shí)是矛盾的

根據(jù)學(xué)習(xí)器的預(yù)測結(jié)果排序摆出,“最可能” -> “最不可能”首妖,按此順序逐個(gè)把樣本作為正例預(yù)測,得出P-R圖



若曲線被完全“包住”悯搔,則性能優(yōu) e.g. A性能優(yōu)于C
若交叉妒貌,則難以判斷(如A與B)铸豁。可以考慮特定點(diǎn)下比較 或比較曲線面積在刺。

平衡點(diǎn)(Break-Even Point) BEP: 查準(zhǔn)率 = 查全率 (A is better than B)
F1度量: F1 = 2*P*R/(P+R) = 2*TP/(樣例總數(shù)+TP-TN)
F_β:F1度量的一般形式头镊,表達(dá)對P和R的不同偏好 F_β = (1+β2)*P*R/(β2*P)+R, 其中 β>0
β<1: 查準(zhǔn)率影響大;β=1: 與F1相同颖杏;β>1: 查全率影響大

宏查準(zhǔn)率/宏查全率/宏F1 (macro-XX): 先計(jì)算出各混淆矩陣對應(yīng)的P坛芽,R翼抠,再平均
微查準(zhǔn)率/微查全率/微F1 (micro-XX):先對混淆矩陣各元素平均阴颖,再公式計(jì)算P R F1

ROC (Receiver Operating Characteristics) 曲線:縱軸 真正例率 TPR = TP/(TP+FN); 橫軸 假正例率 FPR = FP/(TN+FP)
AUC (Area Under ROC Curve): ROC曲線下的面積

非均等代價(jià) (unequal cost):權(quán)衡不同類型錯(cuò)誤造成的不同損失
以二分類任務(wù)為例丐膝,代價(jià)矩陣為:


在非均等代價(jià)下帅矗,ROC曲線不能直接反應(yīng)出期望的總體代價(jià),需要代價(jià)曲線
橫軸為[0,1]的正例概率代價(jià) (p為樣例為正的概率)

縱軸為[0,1]的歸一化代價(jià)

ROC上每一點(diǎn) 計(jì)算FNR 繪制(0, FPR) - (1,FNR)的線段 取所有線段的下屆 圍成的面積即為學(xué)習(xí)器的期望總體代價(jià)


Motivation:希望比較不同學(xué)習(xí)器的泛化性能

  • 測試集性能≠泛化性能
  • 測試性能 與 測試集本身 相關(guān)性大
  • 機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性

So we propose:
統(tǒng)計(jì)假設(shè)檢驗(yàn):基于假設(shè)檢驗(yàn)結(jié)果,若測試集上 A 優(yōu)于 B, 則A的泛化性能是否在統(tǒng)計(jì)意義上優(yōu)于B, 及這個(gè)結(jié)論的把握有多大喘落。
假設(shè):對學(xué)習(xí)器 泛化錯(cuò)誤率(性能)分布的某種判斷與猜想

假設(shè)檢驗(yàn)

偏差(bias):期望輸出與真實(shí)標(biāo)記的差別 --- 學(xué)習(xí)算法本身的擬合能力
方差:同樣大小訓(xùn)練集的變動(dòng)導(dǎo)致的學(xué)習(xí)性能變化 --- 數(shù)據(jù)擾動(dòng)影響
噪聲:能達(dá)到的期望泛化誤差的下屆 --- 學(xué)習(xí)問題本身的難度

泛化誤差可分解為 偏差最冰、方差與噪聲之和
由學(xué)習(xí)算法的能力暖哨、數(shù)據(jù)的充分性、學(xué)習(xí)任務(wù)本身的難度 共同決定

偏差-方差窘境(bias-variance dilemma):

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末沛慢,一起剝皮案震驚了整個(gè)濱河市达布,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌躺苦,老刑警劉巖产还,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脐区,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)尤溜,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門汗唱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人哩罪,你說我怎么就攤上這事〉舛” “怎么了框弛?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長斗搞。 經(jīng)常有香客問我慷妙,道長,這世上最難降的妖魔是什么虑啤? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任架馋,我火速辦了婚禮,結(jié)果婚禮上铣墨,老公的妹妹穿的比我還像新娘办绝。我一直安慰自己姚淆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布降淮。 她就那樣靜靜地躺著,像睡著了一般霍殴。 火紅的嫁衣襯著肌膚如雪系吩。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天月弛,我揣著相機(jī)與錄音科盛,去河邊找鬼。 笑死厉萝,一個(gè)胖子當(dāng)著我的面吹牛榨崩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蜡饵,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼溯祸,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了博杖?” 一聲冷哼從身側(cè)響起筷登,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎狈醉,沒想到半個(gè)月后惠险,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡渣慕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了眨猎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片强经。...
    茶點(diǎn)故事閱讀 39,841評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡夕凝,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出码秉,到底是詐尸還是另有隱情,我是刑警寧澤须鼎,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布府蔗,位于F島的核電站,受9級特大地震影響赡译,放射性物質(zhì)發(fā)生泄漏不铆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一只洒、第九天 我趴在偏房一處隱蔽的房頂上張望劳坑。 院中可真熱鬧,春花似錦距芬、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至纵朋,卻和暖如春茄袖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背宪祥。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工蝗羊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人耀找。 一個(gè)月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓野芒,卻偏偏與公主長得像,于是被迫代替她去往敵國和親撮抓。 傳聞我的和親對象是個(gè)殘疾皇子摇锋,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 作者:hooly微信公眾號:一口袋星光 目錄: 1.說明;2.概念咽笼;3.bias-variance trade-o...
    hooly閱讀 5,613評論 0 5
  • 1. 經(jīng)驗(yàn)誤差與過擬合 錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例 例如:m個(gè)樣本中有a個(gè)樣本分類錯(cuò)誤戚炫,則錯(cuò)誤率為 ...
    geekspeng閱讀 2,863評論 0 3
  • 2.1 經(jīng)驗(yàn)誤差與過擬合 錯(cuò)誤率:分類錯(cuò)誤樣本數(shù)/總樣本數(shù) 精度:1-錯(cuò)誤率 訓(xùn)練集上的誤差稱為訓(xùn)練誤差或經(jīng)驗(yàn)誤差...
    AJI米閱讀 465評論 0 0
  • 簡介 此章節(jié)介紹了對模型的評估方法施掏,以及對兩個(gè)或多個(gè)模型進(jìn)行比較的方法。 概念 錯(cuò)誤率(error rate):如...
    mulanfly閱讀 3,200評論 0 2
  • 這兩天七芭,“主動(dòng)”這個(gè)詞時(shí)不時(shí)就會(huì)出現(xiàn)在腦海中狸驳,原因很簡單预明,對有些工作不滿意耙箍。 工作不滿意的原因也有,部門連續(xù)離職兩...
    皮皮老貓閱讀 125評論 0 4