經(jīng)驗風險、期望風險歪赢、結(jié)構(gòu)風險

本次記錄內(nèi)容包括機器學習中的三種類型的風險函數(shù)

風險函數(shù)與損失函數(shù)的關(guān)系

統(tǒng)計學習模型旨在假設(shè)空間中尋找最佳的模型化戳,那么需要指定一個準則來作為模型選取的評判標準。
因此引入了損失函數(shù)和風險函數(shù)埋凯。

損失函數(shù):度量模型一次預測的好壞
風險函數(shù):度量平均意義下的模型預測好壞

由損失函數(shù)推向風險函數(shù)

常見的損失函數(shù):


確定了損失函數(shù)后点楼,那么自然地損失函數(shù)越小越好,由于模型的輸入X白对,輸出Y 是隨機變量掠廓,遵循聯(lián)合分布P(X, Y),所以損失函數(shù)的期望為:

(連續(xù)變量求積分甩恼,離散變量求和)

為什么要引入損失函數(shù)的期望呢蟀瞧?
原因是:人們希望模型能夠刻畫在全體樣本上的預測能力!

解釋:就目前為止条摸,我們手頭上的數(shù)據(jù)僅僅是訓練集悦污,想要刻畫模型對訓練集擬合的好壞,直接將單點誤差損失相加求均值即可屈溉,但是我們的模型再怎樣對訓練集擬合的好塞关,都無濟于事,因為我們更多考慮的是模型對未知數(shù)據(jù)的擬合能力子巾。那么如何衡量模型在全體數(shù)據(jù)集上的性能呢帆赢?自然而然,引入概率論中兩隨機變量的期望线梗。

區(qū)別一下期望和均值:

如果我們能進行無窮次隨機實驗并計算出其樣本的平均數(shù)的話椰于,那么這個平均數(shù)其實就是期望。當然實際上根本不可能進行無窮次實驗仪搔,但是實驗樣本的平均數(shù)會隨著實驗樣本的增多越來越接近期望瘾婿,就像頻率隨著實驗樣本的增多會越來越接近概率一樣
如果說概率是頻率隨樣本趨于無窮的極限
那么期望就是平均數(shù)隨樣本趨于無窮的極限

經(jīng)驗風險與期望風險

我們將上面提到的訓練集的總損失定義為經(jīng)驗風險,如下所示:



將損失的期望稱為期望風險,如下所示:


怎樣求風險偏陪?

機器學習問題求的是條件概率抢呆,那么有人就說了,既然上面提到了兩隨機變量的聯(lián)合分布笛谦,那么我們根據(jù)條件概率-聯(lián)合概率-邊緣概率的關(guān)系豈不是可以直接求解抱虐?

其實,我們手頭無法得到全體樣本饥脑,因此恳邀,聯(lián)合概率 P(X, Y) 是無法得到的,但是根據(jù)弱大數(shù)定律灶轰,當樣本N無限大時谣沸,可用經(jīng)驗風險作為期望風險的估計,也就是局部估計整體笋颤。
那么我們常說的風險最小化其實就指的是經(jīng)驗風險最小化乳附!

為何引入結(jié)構(gòu)化風險?

雖然可以使用經(jīng)驗損失近似估計期望風險椰弊,但是大數(shù)定理的前提是N無窮大许溅,實際上瓤鼻,我們的訓練集一般不會特別大秉版,此時就需要對經(jīng)驗風險做出適當調(diào)整才能近似估計。因此引入結(jié)構(gòu)風險茬祷。

結(jié)構(gòu)化風險是為了緩解數(shù)據(jù)集過小而導致的過擬合現(xiàn)象清焕,其等價于正則化,本質(zhì)上反應的是模型的復雜度祭犯。認為經(jīng)驗風險越小秸妥,參數(shù)越多,模型越復雜沃粗,因此引入對模型復雜度的懲罰機制粥惧。定義如下:

正則化被定義為模型復雜度的單調(diào)函數(shù),λ用于權(quán)衡經(jīng)驗風險與模型復雜度最盅。
至此突雪,我們認為結(jié)構(gòu)風險最小化的模型是最優(yōu)模型,因此涡贱,我們的優(yōu)化問題變?yōu)椋?/p>

結(jié)構(gòu)化風險本質(zhì)

結(jié)構(gòu)化風險(正則項)其實是加入了模型參數(shù)分布的先驗知識咏删,也就是貝葉斯學派為了將模型往人們期望的地方去發(fā)展,繼而加入了先驗分布问词,由于是人為的先驗督函,因此也就是一個規(guī)則項(這也就是正則項名稱的由來)。這樣一來,風險函數(shù)將進一步考慮了被估計量的先驗概率分布辰狡。

李航老師書中的兩個疑惑

  1. “當模型是條件概率分布锋叨、損失函數(shù)是對數(shù)損失函數(shù)火鼻、模型復雜度由模型的先驗概率表示時奥裸,結(jié)構(gòu)風險最小化就等價于最大后驗概率估計》采”
    證明:

  1. "當模型是條件概率分布些己,損失函數(shù)是對數(shù)損失函數(shù)時豌鸡,經(jīng)驗風險最小化就等價于極大似然估計"
    證明:
    極大似然需滿足樣本抽樣為獨立同分布,且模型已知段标,對模型參數(shù)進行估計涯冠。
    極大似然定義如下:

轉(zhuǎn)載注明:http://www.reibang.com/p/903e35e1c95a

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市逼庞,隨后出現(xiàn)的幾起案子蛇更,更是在濱河造成了極大的恐慌,老刑警劉巖赛糟,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件派任,死亡現(xiàn)場離奇詭異,居然都是意外死亡璧南,警方通過查閱死者的電腦和手機掌逛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來司倚,“玉大人豆混,你說我怎么就攤上這事《” “怎么了皿伺?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長盒粮。 經(jīng)常有香客問我鸵鸥,道長,這世上最難降的妖魔是什么丹皱? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任妒穴,我火速辦了婚禮,結(jié)果婚禮上种呐,老公的妹妹穿的比我還像新娘宰翅。我一直安慰自己,他們只是感情好爽室,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布汁讼。 她就那樣靜靜地躺著淆攻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嘿架。 梳的紋絲不亂的頭發(fā)上瓶珊,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天,我揣著相機與錄音耸彪,去河邊找鬼伞芹。 笑死,一個胖子當著我的面吹牛蝉娜,可吹牛的內(nèi)容都是我干的唱较。 我是一名探鬼主播,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼召川,長吁一口氣:“原來是場噩夢啊……” “哼南缓!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起荧呐,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤汉形,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后倍阐,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體概疆,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年峰搪,在試婚紗的時候發(fā)現(xiàn)自己被綠了岔冀。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡罢艾,死狀恐怖楣颠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情咐蚯,我是刑警寧澤,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布弄贿,位于F島的核電站春锋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏差凹。R本人自食惡果不足惜期奔,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望危尿。 院中可真熱鬧呐萌,春花似錦、人聲如沸谊娇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至赠堵,卻和暖如春小渊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背茫叭。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工酬屉, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人揍愁。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓呐萨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親莽囤。 傳聞我的和親對象是個殘疾皇子垛吗,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351