統(tǒng)計(jì)領(lǐng)域?yàn)槲覀兲峁┝撕芏喙ぞ邅韺?shí)現(xiàn)機(jī)器學(xué)習(xí)目標(biāo),不僅可以解決訓(xùn)練集上的任務(wù),還可以泛化腮考。點(diǎn)估計(jì)試圖為一些感興趣的量提供單個”最優(yōu)”預(yù)測。 一般地玄捕,感興趣的量可以是單個參數(shù)踩蔚,或是某些參數(shù)模型中的一個向量參數(shù),例如線性回歸中的權(quán)重枚粘,但是也有可能是整個函數(shù)馅闽。
為了區(qū)分參數(shù)估計(jì)和真實(shí)值,我們習(xí)慣將參數(shù) 的點(diǎn)估計(jì)表示為
馍迄。
令 是
個獨(dú)立同分布(i.i.d.)的數(shù)據(jù)點(diǎn)福也。 點(diǎn)估計(jì)或統(tǒng)計(jì)量是這些數(shù)據(jù)的任意函數(shù):
這個定義不要求 返回一個接近真實(shí)
的值,或者
的值域恰好是
的允許取值范圍柬姚。 點(diǎn)估計(jì)的定義非常寬泛拟杉,給了估計(jì)量的設(shè)計(jì)者極大的靈活性。 雖然幾乎所有的函數(shù)都可以稱為估計(jì)量量承,但是一個良好的估計(jì)量的輸出會接近生成訓(xùn)練數(shù)據(jù)的真實(shí)參數(shù)
。
現(xiàn)在穴店,我們采取頻率派在統(tǒng)計(jì)上的觀點(diǎn)撕捍。 換言之,我們假設(shè)真實(shí)參數(shù) 是固定但未知的泣洞,而點(diǎn)估計(jì)
是數(shù)據(jù)的函數(shù)忧风。 由于數(shù)據(jù)是隨機(jī)過程采樣出來的,數(shù)據(jù)的任何函數(shù)都是隨機(jī)的球凰。 因此
是一個隨機(jī)變量狮腿。
點(diǎn)估計(jì)也可以指輸入和目標(biāo)變量之間關(guān)系的估計(jì)腿宰。 我們將這種類型的點(diǎn)估計(jì)稱為函數(shù)估計(jì)。有時我們會關(guān)注函數(shù)估計(jì)(或函數(shù)近似)缘厢。 這時我們試圖從輸入向量 預(yù)測變量
吃度。 我們假設(shè)有一個函數(shù)
表示
和
之間的近似關(guān)系。 例如贴硫,我們可能假設(shè)
椿每,其中
是
中未能從
預(yù)測的一部分。 在函數(shù)估計(jì)中英遭,我們感興趣的是用模型估計(jì)去近似
间护,或者估計(jì)
。 函數(shù)估計(jì)和點(diǎn)估計(jì)參數(shù)
是一樣的挖诸;函數(shù)估計(jì)
是函數(shù)空間中的一個點(diǎn)估計(jì)汁尺。
估計(jì)的偏差被定義為:
其中期望作用在所有數(shù)據(jù)(看作是從隨機(jī)變量采樣得到的)上, 是用于定義數(shù)據(jù)生成分布的
的真實(shí)值多律。
我們有時會考慮估計(jì)量的另一個性質(zhì)是它作為數(shù)據(jù)樣本的函數(shù)均函,期望的變化程度是多少。 正如我們可以計(jì)算估計(jì)量的期望來決定它的偏差菱涤,我們也可以計(jì)算它的方差苞也。 估計(jì)量的方差就是一個方差
其中隨機(jī)變量是訓(xùn)練集。 另外粘秆,方差的平方根被稱為標(biāo)準(zhǔn)差如迟,記作 。我們可以使用均方誤差權(quán)衡偏差和方差:
1.1 偏差和方差的區(qū)別與權(quán)衡
偏差和方差度量著估計(jì)量的兩個不同誤差來源攻走。 偏差度量著偏離真實(shí)函數(shù)或參數(shù)的誤差期望殷勘。 而方差度量著數(shù)據(jù)上任意特定采樣可能導(dǎo)致的估計(jì)期望的偏差。
- 偏差昔搂,對象是單個模型玲销,期望輸出與真實(shí)標(biāo)記的差別(可以解釋為描述了模型對本訓(xùn)練集的擬合程度)
- 方差,對象是多個模型(這里更好的解釋是換同樣規(guī)模的訓(xùn)練集摘符,模型的擬合程度怎么樣贤斜;也可以說方差是刻畫數(shù)據(jù)擾動對模型的影響,描述的是訓(xùn)練結(jié)果的分散程度)
我們把模型擬合函數(shù)的能力稱為模型的容量逛裤。
從上圖可以知道:隨著容量的增大偏差隨之減少瘩绒,而方差隨之增大,使得泛化誤差呈現(xiàn) U 形带族。因而锁荔,降低偏差或者方差需要針對不同的場景來設(shè)計(jì),下面我們以線性回歸為例來說明蝙砌,我們使用了如下的代價函數(shù)來評估預(yù)測誤差:
改進(jìn)策略 | 使用場景 |
---|---|
采集更多的樣本 | 高方差 |
降低特征維度 | 高方差 |
采集更多的特征 | 高偏差 |
進(jìn)行高次多項(xiàng)式回歸(增加模型復(fù)雜度) | 高偏差 |
降低正則化項(xiàng)系數(shù) |
高方差 |
增大正則化項(xiàng)系數(shù) |
高偏差 |
1.2 從方差-偏差角度分析 bagging 和 boosting
- bagging 是并行的(即分別訓(xùn)練幾個不同的模型阳堕,然后讓所有模型表決測試樣例的輸出)跋理,每個基學(xué)習(xí)器可以單獨(dú)訓(xùn)練√褡埽基學(xué)習(xí)器獨(dú)立性很強(qiáng)前普,所以說 bagging 關(guān)注的是降低方差。
- boosting 是串行的越驻,后一個學(xué)習(xí)器要在前一個學(xué)習(xí)器訓(xùn)練好之后才能訓(xùn)練汁政,即學(xué)習(xí)器之間獨(dú)立性沒那么強(qiáng),且 boosting 關(guān)注偏差 (每一步我們都會在上一輪的基礎(chǔ)上更加的擬合原數(shù)據(jù)缀旁,所以可以保證偏差记劈,所以對于每個基分類器來說,問題就是如何選擇方差更小的分類器并巍,即更簡單的弱分類器)目木。于是 boosting 對樣本集會擬合的更好,所以說boosting 關(guān)注的是降低偏差懊渡。