0-2 泛化能力是什么?如何評估达传?

本篇只做最簡單的定性科普篙耗,因為定量的各種公式推導我也沒搞懂,在應用層面的模型開發(fā)工作中宪赶,也很少用到宗弯。

0. 什么是泛化能力?如何評估

泛化能力是模型對未知數(shù)據(jù)的預測能力搂妻。大白話來說就是蒙保,模型訓好了,放到實際場景中去使用欲主,會不會掉鏈子邓厕,還是能達到跟訓練時一樣的效果。泛化能力的本質(zhì)就是反映模型有沒有對客觀世界做真實的刻畫扁瓢,還是發(fā)生了過擬合详恼。

泛化能力的評估,說簡單很簡單引几,搞個測試集測一下就可以了昧互。

1. 那到底有什么坑?

舉個栗子:

k折交叉訓練開發(fā)了5個模型伟桅,它們在測試集上的AUC敞掘、準確率等指標必然不是一毛一樣的,那這個模型的整體指標到底是多少楣铁?是否求個均值就可以了玖雁,五個0.8均值是0.8,(0.7,0.7,0.8,0.9,0.9)的均值也是0.8盖腕,這兩組模型的表現(xiàn)能說是一樣嗎赫冬?

在測試集上測了下指標是0.8,難道模型的真實性能就一定是0.8嗎赊堪?說不定是巧了~畢竟測試集樣本量也就那么些對不對面殖?這個問題的本質(zhì)就是,模型在測試集上測得的指標哭廉,我們有多大把握(置信度)說它反映了模型的真實性能脊僚?

以概率論角度來看,模型的泛化能力那也是以概率態(tài)存在的遵绰,我們每次拿個測試集測一下辽幌,無非是在這個“泛化能力的分布空間”中采了個樣。在一個概率分布中采到了一個0.8的樣椿访,撐破天我們能說取0.8的概率比較大乌企,但不能說一定是0.8。

繼續(xù)舉栗子:

如果用同樣的方法(比如k折交叉訓練)成玫,開發(fā)出了五個模型加酵,在相應的測試集上測得其性能指標分別是0.7,0.7,0.8,0.9,0.9拳喻,我們會認為,模型的性能指標有較大可能是0.8左右猪腕,比如說性能指標落在0.75~0.85之間的概率是60%冗澈,落在0.65~0.95之間的概率是90%,而落在0.65以下或0.95以上的概率是剩下的10%(這些結果是通過采樣(測試集測試)+各種奇奇怪怪的假設檢驗公式算出來的)陋葡。

那么假設最后的結果是亚亲,模型有5%的可能性,性能指標在0.65之下腐缤。也就是捌归,盡管測了好多次,拿到了一堆0.7/0.8/0.9的數(shù)岭粤,但這些仍然有可能是巧合惜索。盡管可能性不大,但仍然有5%的可能這個模型其實非常差剃浇。能不能接受這個風險呢门扇?能接受就用,不能接受那就繼續(xù)優(yōu)化模型去吧~

上面這段話中所說的60%偿渡、90%之類的臼寄,就算是置信度的概念的概念了。

說得再詳細一點溜宽,假設另一組用k折開發(fā)出的模型吉拳,測試出的指標是0.79,0.8,0.8,0.8,0.81這樣,這個表現(xiàn)就穩(wěn)定多了适揉,這個“穩(wěn)定”留攒,可以描述為:模型有95%的可能性,性能在0.75~0.85之間嫉嘀,有99.9%的可能性炼邀,性能指標在0.65~0.95之間,另外還有0.05%的可能性剪侮,性能指標低于0.65拭宁,跟前面的5%相比,這個風險就小多了瓣俯。

以上所說的杰标,是從概率論的假設檢驗角度出發(fā),去說明模型泛化能力的考察中置信度的問題彩匕。在具體的機器學習領域腔剂,泛化能力的考察和比較有一些更具體的方法,比如交叉驗證t檢驗驼仪、Freidman檢驗掸犬、Nemenyi后續(xù)檢驗等等袜漩,此處就不表了,還沒看懂湾碎。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末噪服,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子胜茧,更是在濱河造成了極大的恐慌,老刑警劉巖仇味,帶你破解...
    沈念sama閱讀 212,599評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件呻顽,死亡現(xiàn)場離奇詭異,居然都是意外死亡丹墨,警方通過查閱死者的電腦和手機廊遍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來贩挣,“玉大人喉前,你說我怎么就攤上這事⊥醪疲” “怎么了卵迂?”我有些...
    開封第一講書人閱讀 158,084評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長绒净。 經(jīng)常有香客問我见咒,道長,這世上最難降的妖魔是什么挂疆? 我笑而不...
    開封第一講書人閱讀 56,708評論 1 284
  • 正文 為了忘掉前任改览,我火速辦了婚禮,結果婚禮上缤言,老公的妹妹穿的比我還像新娘宝当。我一直安慰自己,他們只是感情好胆萧,可當我...
    茶點故事閱讀 65,813評論 6 386
  • 文/花漫 我一把揭開白布庆揩。 她就那樣靜靜地躺著,像睡著了一般跌穗。 火紅的嫁衣襯著肌膚如雪盾鳞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,021評論 1 291
  • 那天瞻离,我揣著相機與錄音腾仅,去河邊找鬼。 笑死套利,一個胖子當著我的面吹牛推励,可吹牛的內(nèi)容都是我干的鹤耍。 我是一名探鬼主播,決...
    沈念sama閱讀 39,120評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼验辞,長吁一口氣:“原來是場噩夢啊……” “哼稿黄!你這毒婦竟也來了?” 一聲冷哼從身側響起跌造,我...
    開封第一講書人閱讀 37,866評論 0 268
  • 序言:老撾萬榮一對情侶失蹤杆怕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后壳贪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陵珍,經(jīng)...
    沈念sama閱讀 44,308評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,633評論 2 327
  • 正文 我和宋清朗相戀三年违施,在試婚紗的時候發(fā)現(xiàn)自己被綠了互纯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,768評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡磕蒲,死狀恐怖留潦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情辣往,我是刑警寧澤兔院,帶...
    沈念sama閱讀 34,461評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站站削,受9級特大地震影響秆乳,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钻哩,卻給世界環(huán)境...
    茶點故事閱讀 40,094評論 3 317
  • 文/蒙蒙 一屹堰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧街氢,春花似錦扯键、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至伦乔,卻和暖如春厉亏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背烈和。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評論 1 267
  • 我被黑心中介騙來泰國打工爱只, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人招刹。 一個月前我還...
    沈念sama閱讀 46,571評論 2 362
  • 正文 我出身青樓恬试,卻偏偏與公主長得像窝趣,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子训柴,可洞房花燭夜當晚...
    茶點故事閱讀 43,666評論 2 350

推薦閱讀更多精彩內(nèi)容