經(jīng)驗風險脐区、期望風險凌节、結(jié)構(gòu)風險

序

本次記錄內(nèi)容包括機器學習中的三種類型的風險函數(shù)

風險函數(shù)與損失函數(shù)的關(guān)系

統(tǒng)計學習模型旨在假設(shè)空間中尋找最佳的模型化戳，那么需要指定一個準則來作為模型選取的評判標準。
因此引入了損失函數(shù)和風險函數(shù)埋凯。

損失函數(shù)：度量模型一次預測的好壞
風險函數(shù)：度量平均意義下的模型預測好壞

由損失函數(shù)推向風險函數(shù)

常見的損失函數(shù)：

確定了損失函數(shù)后点楼，那么自然地損失函數(shù)越小越好，由于模型的輸入X白对，輸出Y 是隨機變量掠廓，遵循聯(lián)合分布P(X, Y)，所以損失函數(shù)的期望為：

（連續(xù)變量求積分甩恼，離散變量求和）

為什么要引入損失函數(shù)的期望呢蟀瞧？

原因是:人們希望模型能夠刻畫在全體樣本上的預測能力！

解釋：就目前為止条摸，我們手頭上的數(shù)據(jù)僅僅是訓練集悦污，想要刻畫模型對訓練集擬合的好壞，直接將單點誤差損失相加求均值即可屈溉，但是我們的模型再怎樣對訓練集擬合的好塞关，都無濟于事，因為我們更多考慮的是模型對未知數(shù)據(jù)的擬合能力子巾。那么如何衡量模型在全體數(shù)據(jù)集上的性能呢帆赢？自然而然，引入概率論中兩隨機變量的期望线梗。

區(qū)別一下期望和均值：

如果我們能進行無窮次隨機實驗并計算出其樣本的平均數(shù)的話椰于，那么這個平均數(shù)其實就是期望。當然實際上根本不可能進行無窮次實驗仪搔，但是實驗樣本的平均數(shù)會隨著實驗樣本的增多越來越接近期望瘾婿，就像頻率隨著實驗樣本的增多會越來越接近概率一樣
如果說概率是頻率隨樣本趨于無窮的極限
那么期望就是平均數(shù)隨樣本趨于無窮的極限

經(jīng)驗風險與期望風險

我們將上面提到的訓練集的總損失定義為經(jīng)驗風險，如下所示：

將損失的期望稱為期望風險，如下所示：

怎樣求風險偏陪？

機器學習問題求的是條件概率抢呆，那么有人就說了，既然上面提到了兩隨機變量的聯(lián)合分布笛谦，那么我們根據(jù)條件概率-聯(lián)合概率-邊緣概率的關(guān)系豈不是可以直接求解抱虐？

其實，我們手頭無法得到全體樣本饥脑，因此恳邀，聯(lián)合概率 P(X, Y) 是無法得到的，但是根據(jù)弱大數(shù)定律灶轰，當樣本N無限大時谣沸，可用經(jīng)驗風險作為期望風險的估計，也就是局部估計整體笋颤。
那么我們常說的風險最小化其實就指的是經(jīng)驗風險最小化乳附！

為何引入結(jié)構(gòu)化風險？

雖然可以使用經(jīng)驗損失近似估計期望風險椰弊，但是大數(shù)定理的前提是N無窮大许溅，實際上瓤鼻，我們的訓練集一般不會特別大秉版，此時就需要對經(jīng)驗風險做出適當調(diào)整才能近似估計。因此引入結(jié)構(gòu)風險茬祷。

結(jié)構(gòu)化風險是為了緩解數(shù)據(jù)集過小而導致的過擬合現(xiàn)象清焕，其等價于正則化，本質(zhì)上反應的是模型的復雜度祭犯。認為經(jīng)驗風險越小秸妥，參數(shù)越多，模型越復雜沃粗，因此引入對模型復雜度的懲罰機制粥惧。定義如下：

正則化被定義為模型復雜度的單調(diào)函數(shù)，λ用于權(quán)衡經(jīng)驗風險與模型復雜度最盅。
至此突雪，我們認為結(jié)構(gòu)風險最小化的模型是最優(yōu)模型，因此涡贱，我們的優(yōu)化問題變?yōu)椋?/p>

結(jié)構(gòu)化風險本質(zhì)

結(jié)構(gòu)化風險（正則項）其實是加入了模型參數(shù)分布的先驗知識咏删，也就是貝葉斯學派為了將模型往人們期望的地方去發(fā)展，繼而加入了先驗分布问词，由于是人為的先驗督函，因此也就是一個規(guī)則項（這也就是正則項名稱的由來）。這樣一來，風險函數(shù)將進一步考慮了被估計量的先驗概率分布辰狡。