監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)的特點(diǎn):訓(xùn)練樣例是帶有標(biāo)簽的鹏秋。也就是人們已經(jīng)知道應(yīng)該如何劃分成幾種特定的類型柿估。對于訓(xùn)練數(shù)據(jù)宜猜,人們能預(yù)測出準(zhǔn)確的結(jié)果。
而無監(jiān)督學(xué)習(xí)相反们镜,人們本身不知道劃分的結(jié)果币叹,完全根據(jù)數(shù)據(jù)自身的特點(diǎn)分類。
輸入數(shù)據(jù)
每個輸入數(shù)據(jù)是一個實例憎账,由特征向量表示套硼。
訓(xùn)練集
訓(xùn)練集由相應(yīng)的輸入與輸出對確定。又稱為樣本胞皱、樣本點(diǎn)邪意。
問題分類
輸入與輸出都為連續(xù)的稱為回歸問題。
輸出是有限個離散的預(yù)測問題是分類問題反砌。
輸入與輸出變量均為變量序列的預(yù)測問題為標(biāo)注問題
聯(lián)合概率分布
監(jiān)督學(xué)習(xí)假設(shè)輸入變量X與輸出變量Y遵循聯(lián)合概率分布 P(X,Y).雾鬼,訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)被看做依聯(lián)合概率分布P(X,Y)獨(dú)立同分布產(chǎn)生的。
假設(shè)空間
模型確定了輸入變量與輸出變量的映射關(guān)系宴树。學(xué)習(xí)的目的就是在于找到最好的這樣的模型策菜。假設(shè)空間由輸入空間到輸出空間的映射的集合。
三要素
方法 = 模型 + 策略 + 算法
損失函數(shù)
又稱代價函數(shù),度量預(yù)測錯誤的程度又憨。
經(jīng)驗風(fēng)險最小化與結(jié)構(gòu)風(fēng)險最小化
用訓(xùn)練數(shù)據(jù)集的經(jīng)驗風(fēng)險估計期望風(fēng)險翠霍。
經(jīng)驗風(fēng)險最小化(ERM)策略認(rèn)為經(jīng)驗風(fēng)險小的模型是最優(yōu)模型。
而結(jié)構(gòu)風(fēng)險最小化(SRM)策略認(rèn)為簡單的結(jié)構(gòu)比復(fù)雜結(jié)構(gòu)更具有優(yōu)勢(防止過擬合)蠢莺,在ERM的基礎(chǔ)上添加了懲罰項寒匙。模型越復(fù)雜,罰項就越大躏将。
過擬合
隨著模型復(fù)雜度的增加锄弱,訓(xùn)練誤差不斷減小,但是測試誤差確是先減小后增大祸憋。因此在選擇模型的時候需要選擇復(fù)雜度適當(dāng)?shù)摹?/p>
正則化與交叉驗證
正則化是結(jié)構(gòu)最小化的具體實現(xiàn)会宪。
一般有如下格式:
交叉驗證
通過訓(xùn)練集訓(xùn)練模型,在測試集上評價模型的好壞蚯窥。選擇測試誤差最小的模型掸鹅。
泛化誤差
理論上衡量模型對未知數(shù)據(jù)的預(yù)測能力,是學(xué)習(xí)方法本質(zhì)上重要的性質(zhì)沟沙。
現(xiàn)實中采用最多的方法是通過測試誤差來評價學(xué)習(xí)方法的泛化能力河劝。