序
本次記錄內(nèi)容包括機器學習中的三種類型的風險函數(shù)
風險函數(shù)與損失函數(shù)的關(guān)系
統(tǒng)計學習模型旨在假設(shè)空間中尋找最佳的模型化戳,那么需要指定一個準則來作為模型選取的評判標準。
因此引入了損失函數(shù)和風險函數(shù)埋凯。
損失函數(shù):度量模型一次預測的好壞
風險函數(shù):度量平均意義下的模型預測好壞
由損失函數(shù)推向風險函數(shù)
常見的損失函數(shù):
確定了損失函數(shù)后点楼,那么自然地損失函數(shù)越小越好,由于模型的輸入X白对,輸出Y 是隨機變量掠廓,遵循聯(lián)合分布P(X, Y),所以損失函數(shù)的期望為:
(連續(xù)變量求積分甩恼,離散變量求和)
為什么要引入損失函數(shù)的期望呢蟀瞧?
原因是:人們希望模型能夠刻畫在全體樣本上的預測能力!
解釋:就目前為止条摸,我們手頭上的數(shù)據(jù)僅僅是訓練集悦污,想要刻畫模型對訓練集擬合的好壞,直接將單點誤差損失相加求均值即可屈溉,但是我們的模型再怎樣對訓練集擬合的好塞关,都無濟于事,因為我們更多考慮的是模型對未知數(shù)據(jù)的擬合能力子巾。那么如何衡量模型在全體數(shù)據(jù)集上的性能呢帆赢?自然而然,引入概率論中兩隨機變量的期望线梗。
區(qū)別一下期望和均值:
如果我們能進行無窮次隨機實驗并計算出其樣本的平均數(shù)的話椰于,那么這個平均數(shù)其實就是期望。當然實際上根本不可能進行無窮次實驗仪搔,但是實驗樣本的平均數(shù)會隨著實驗樣本的增多越來越接近期望瘾婿,就像頻率隨著實驗樣本的增多會越來越接近概率一樣
如果說概率是頻率隨樣本趨于無窮的極限
那么期望就是平均數(shù)隨樣本趨于無窮的極限
經(jīng)驗風險與期望風險
我們將上面提到的訓練集的總損失定義為經(jīng)驗風險,如下所示:
將損失的期望稱為期望風險,如下所示:
怎樣求風險偏陪?
機器學習問題求的是條件概率抢呆,那么有人就說了,既然上面提到了兩隨機變量的聯(lián)合分布笛谦,那么我們根據(jù)條件概率-聯(lián)合概率-邊緣概率的關(guān)系豈不是可以直接求解抱虐?
其實,我們手頭無法得到全體樣本饥脑,因此恳邀,聯(lián)合概率 P(X, Y) 是無法得到的,但是根據(jù)弱大數(shù)定律灶轰,當樣本N無限大時谣沸,可用經(jīng)驗風險作為期望風險的估計,也就是局部估計整體笋颤。
那么我們常說的風險最小化其實就指的是經(jīng)驗風險最小化乳附!
為何引入結(jié)構(gòu)化風險?
雖然可以使用經(jīng)驗損失近似估計期望風險椰弊,但是大數(shù)定理的前提是N無窮大许溅,實際上瓤鼻,我們的訓練集一般不會特別大秉版,此時就需要對經(jīng)驗風險做出適當調(diào)整才能近似估計。因此引入結(jié)構(gòu)風險茬祷。
結(jié)構(gòu)化風險是為了緩解數(shù)據(jù)集過小而導致的過擬合現(xiàn)象清焕,其等價于正則化,本質(zhì)上反應的是模型的復雜度祭犯。認為經(jīng)驗風險越小秸妥,參數(shù)越多,模型越復雜沃粗,因此引入對模型復雜度的懲罰機制粥惧。定義如下:
正則化被定義為模型復雜度的單調(diào)函數(shù),λ用于權(quán)衡經(jīng)驗風險與模型復雜度最盅。
至此突雪,我們認為結(jié)構(gòu)風險最小化的模型是最優(yōu)模型,因此涡贱,我們的優(yōu)化問題變?yōu)椋?/p>
結(jié)構(gòu)化風險本質(zhì)
結(jié)構(gòu)化風險(正則項)其實是加入了模型參數(shù)分布的先驗知識咏删,也就是貝葉斯學派為了將模型往人們期望的地方去發(fā)展,繼而加入了先驗分布问词,由于是人為的先驗督函,因此也就是一個規(guī)則項(這也就是正則項名稱的由來)。這樣一來,風險函數(shù)將進一步考慮了被估計量的先驗概率分布辰狡。
李航老師書中的兩個疑惑
-
“當模型是條件概率分布锋叨、損失函數(shù)是對數(shù)損失函數(shù)火鼻、模型復雜度由模型的先驗概率表示時奥裸,結(jié)構(gòu)風險最小化就等價于最大后驗概率估計》采”
證明:
-
"當模型是條件概率分布些己,損失函數(shù)是對數(shù)損失函數(shù)時豌鸡,經(jīng)驗風險最小化就等價于極大似然估計"
證明:
極大似然需滿足樣本抽樣為獨立同分布,且模型已知段标,對模型參數(shù)進行估計涯冠。
極大似然定義如下:
轉(zhuǎn)載注明:http://www.reibang.com/p/903e35e1c95a