1.統(tǒng)計(jì)學(xué)習(xí)包括監(jiān)督學(xué)習(xí)暮现、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及強(qiáng)化學(xué)習(xí)楚昭,其一般步驟如下:
- 得到一個(gè)有限的訓(xùn)練集合栖袋;
- 確定包含學(xué)習(xí)模型集合;
- 確定學(xué)習(xí)策略抚太;
- 確定學(xué)習(xí)算法塘幅;
- 選擇最優(yōu)模型;
- 利用學(xué)習(xí)出的最優(yōu)模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)和分析尿贫;
2.統(tǒng)計(jì)學(xué)習(xí)三要素:
- 模型
- 策略
- 算法
2.1模型
統(tǒng)計(jì)學(xué)習(xí)中首先要考慮的問(wèn)題是學(xué)習(xí)什么樣的模型电媳,在監(jiān)督學(xué)習(xí)過(guò)程中,模型基本可以理解為所要學(xué)習(xí)的條件概率分布或者決策函數(shù)庆亡。
2.2策略
有了模型匾乓,統(tǒng)計(jì)學(xué)習(xí)需要考慮的是按照什么樣的準(zhǔn)則選擇最優(yōu)的模型。這個(gè)過(guò)程可以理解成為使用一定的策略選擇最優(yōu)的模型又谋。在選擇的過(guò)程中一般會(huì)用到下面幾種損失函數(shù)來(lái)評(píng)價(jià)模型的好壞:
- 0-1損失函數(shù)
- 平方損失函數(shù)
3.絕對(duì)損失函數(shù)
4.對(duì)數(shù)損失函數(shù)
一般來(lái)說(shuō)損失函數(shù)的值越小拼缝,模型就越好谅辣。我們通過(guò)損失函數(shù)來(lái)評(píng)價(jià)一個(gè)模型效果的好壞碗殷,然后選擇最優(yōu)的模型卸伞。
2.3算法
算法指的是學(xué)習(xí)模型的具體的計(jì)算方法歪泳。統(tǒng)計(jì)學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略继阻,從假設(shè)空間中選擇最優(yōu)模型耻涛,最后使用某種具體的算法,例如SGD瘟檩,來(lái)求解最優(yōu)模型抹缕。一般來(lái)說(shuō),通過(guò)策略中的損失函數(shù)會(huì)將統(tǒng)計(jì)學(xué)習(xí)問(wèn)題轉(zhuǎn)化為一個(gè)最優(yōu)化問(wèn)題芒帕,訓(xùn)練模型的過(guò)程也就轉(zhuǎn)化為了求解最優(yōu)解的過(guò)程歉嗓。
3.過(guò)擬合
在模型選擇中丰介,我們希望選擇或者學(xué)習(xí)一個(gè)合適的模型背蟆。如果存在著一個(gè)“真”模型,那么我們所選擇的模型應(yīng)該逼近“真”模型哮幢。但是我在根據(jù)訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行擬合的時(shí)候带膀,如果一味追求提高對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)能力,所選擇模型的復(fù)雜度往往比“真”模型更高橙垢,這種現(xiàn)象稱為過(guò)擬合垛叨。過(guò)擬合造成的結(jié)果就是模型對(duì)已知數(shù)據(jù)的預(yù)測(cè)能力很好但是對(duì)未知數(shù)據(jù)預(yù)測(cè)效果很差。我們?cè)谶M(jìn)行模型訓(xùn)練求解的過(guò)程中應(yīng)該盡量避免過(guò)擬合的發(fā)生柜某。
4.正則化
模型選擇的一個(gè)經(jīng)典方法是正則化嗽元。所謂的正則化,可以理解成為在損失函數(shù)的基礎(chǔ)上加上一個(gè)正則化項(xiàng)或者說(shuō)懲罰項(xiàng)喂击。正則化項(xiàng)一般是模型復(fù)雜度(可以簡(jiǎn)單的理解成為模型參數(shù)的個(gè)數(shù))的單調(diào)遞增函數(shù)剂癌,模型越復(fù)雜,正則化值就越大翰绊。其一般形式如下:
其中佩谷,第1項(xiàng)是原有的損失函數(shù)項(xiàng),第2項(xiàng)是正則化項(xiàng)监嗜,λ為調(diào)整二者之間關(guān)系的系數(shù)谐檀,一般為正數(shù)。正則化有很多不同的形式裁奇,常用的一般有L1和L2范數(shù)桐猬。
5.交叉驗(yàn)證
交叉驗(yàn)證是另一種用來(lái)建立可靠的具有一定泛化能力的手段。一般來(lái)說(shuō)交叉驗(yàn)證是將數(shù)據(jù)集隨機(jī)的分為訓(xùn)練集刽肠、驗(yàn)證集合測(cè)試集课幕,三者的比例一般為7:2:1厦坛。其中訓(xùn)練集用來(lái)訓(xùn)練模型,驗(yàn)證集用于模型的選擇乍惊,測(cè)試集用于對(duì)最終學(xué)習(xí)方法的評(píng)估杜秸。一般來(lái)說(shuō)我們選擇一個(gè)在驗(yàn)證集上具有最小預(yù)測(cè)誤差的模型作為最優(yōu)模型。
常用的三種交叉驗(yàn)證方法:
- Holdout 驗(yàn)證
- K折交叉驗(yàn)證
- 留一交叉驗(yàn)證
這里面最常用的就是K折交叉驗(yàn)證润绎。方法為:初始采樣分割成K個(gè)子樣本撬碟,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來(lái)訓(xùn)練莉撇。交叉驗(yàn)證重復(fù)K次呢蛤,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式棍郎,最終得到一個(gè)單一評(píng)測(cè)其障。這個(gè)方法的優(yōu)勢(shì)在于,同時(shí)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證涂佃,每次的結(jié)果驗(yàn)證一次励翼,10折交叉驗(yàn)證是最常用的。