統(tǒng)計學(xué)習(xí)
“學(xué)習(xí)”的定義:“如果一個系統(tǒng)能通過執(zhí)行某個過程改進(jìn)它的性能眉撵,這就是學(xué)習(xí)”帐要。
現(xiàn)如今的機(jī)器學(xué)習(xí)一般就是統(tǒng)計機(jī)器學(xué)習(xí)把敞。
統(tǒng)計學(xué)習(xí)的對象:data
- 提取特征
- 抽象模型
- 進(jìn)行分析和預(yù)測
統(tǒng)計學(xué)習(xí)的目標(biāo):
- 學(xué)習(xí)什么樣的模型
- 如何學(xué)習(xí)模型
統(tǒng)計學(xué)習(xí)方法類型:
- supervised learning
- unsupervised learning
- semi-supervised learning
- reforcement learning
- more...
統(tǒng)計學(xué)習(xí)的步驟
- 得到一個有限的訓(xùn)練數(shù)據(jù)集合, training data
- 確定所有學(xué)習(xí)模型的集合,model
- 確定模型選擇的準(zhǔn)則榨惠,strategy
- 實現(xiàn)求解最優(yōu)模型的算法奋早,algorithm
- 通過學(xué)習(xí)方法選擇最優(yōu)方法
- 利用最優(yōu)模型對新數(shù)據(jù)進(jìn)行預(yù)測分析
監(jiān)督學(xué)習(xí)
過程: 輸入 ----------> 特征向量 ------>特征空間 ----->輸出空間
輸入變量X盛霎,輸出變量Y:
- 回歸問題:輸入輸出均為連續(xù)變量的預(yù)測問題
- 分類問題:輸入輸出均為有限個離散變量的預(yù)測問題
- 標(biāo)注問題:輸入輸出均為變量序列的預(yù)測問題
統(tǒng)計學(xué)習(xí)三要素
模型
統(tǒng)計學(xué)習(xí)首要考慮的問題。
在監(jiān)督學(xué)習(xí)中耽装,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)摩渺。-
策略
- 損失函數(shù)
- 定義:用來度量輸出的預(yù)測值f(X)與真實值Y之間不一致(錯誤)的程度。
- 常見損失函數(shù):0-1損失函數(shù)剂邮,平方損失函數(shù)
記作L(f(X),Y) - 意義:損失函數(shù)數(shù)值越小,模型就越好横侦。
- 期望風(fēng)險:Rexp(f)
- 風(fēng)險函數(shù)
- 經(jīng)驗風(fēng)險
定義:模型關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失挥萌。
Remp(f) : sum(L(yi,f(xi)))/N,當(dāng)N趨于無限大式,經(jīng)驗風(fēng)險趨于期望風(fēng)險枉侧。
經(jīng)驗風(fēng)險最小化容易導(dǎo)致過擬合現(xiàn)象 - 結(jié)構(gòu)風(fēng)險
意義:防止過擬合
定義: 在經(jīng)驗風(fēng)險的基礎(chǔ)上加上表示模型復(fù)雜度的正則化項或罰項
Rsrm(f) : sum(L(yi,f(xi)))/N + lambda(J(f))
- 經(jīng)驗風(fēng)險
- 損失函數(shù)
算法
經(jīng)過策略引瀑,問題歸結(jié)為最優(yōu)化問題,統(tǒng)計學(xué)習(xí)的算法成為求解最優(yōu)化問題的算法榨馁。
挑戰(zhàn):如果保證找到全局最優(yōu)解憨栽,并使求解的過程非常高效。