機器學習(或統(tǒng)計學習)算法的目標是減少預期的泛化誤差种吸,這也被稱為損失(Loss)肴掷。如果我們知道真實的分布 P(X,Y)照藻,那么使損失最小化就是一個可以通過優(yōu)化算法來解決的最優(yōu)化任務痊焊。
但是囊陡,我們并不知道真實分布的形態(tài)纽乱,只是有一堆可用于訓練的樣本而已蛾绎。因此,我們需要基于給定的樣本攢出一個優(yōu)化問題鸦列,即最小化在訓練集上的誤差租冠,并由訓練集所定義的經(jīng)驗分布近似真實的期望分布。
1.1 統(tǒng)計學習
- 統(tǒng)計學習的特點
統(tǒng)計學習(statistical learning):是關(guān)于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行分析與預測的一門學科薯嗤。是計算機系統(tǒng)通過運用統(tǒng)計方法從數(shù)據(jù)中提煉潛在的模式與關(guān)系顽爹,從而提高系統(tǒng)性能的機器學習。
(1)骆姐、以計算機及網(wǎng)絡為平臺
(2)镜粤、以數(shù)據(jù)為研究對象(數(shù)據(jù)驅(qū)動)
(3)、以分析和預測為研究目的
(4)玻褪、以概率論肉渴、統(tǒng)計學、信息論带射、優(yōu)化理論同规、計算機科學為基礎(chǔ)學科 - 統(tǒng)計學習的對象
數(shù)據(jù)(data):數(shù)字、文字窟社、圖象券勺、視頻、音頻及其組合灿里。 - 統(tǒng)計學習的目的
(1)关炼、分析:獲取新知識,帶來新發(fā)現(xiàn)
(2)钠四、預測:提升系統(tǒng)性能 - 統(tǒng)計學習的步驟
(1)盗扒、獲取訓練集(有限的)
(2)跪楞、確定假設空間(模型的集合缀去,假設函數(shù))
(3)、確定學習策略(風險函數(shù))
(4)甸祭、確定優(yōu)化算法
(5)缕碎、學習得到最優(yōu)模型
(6)、模型分析與預測
1.2 統(tǒng)計學習的分類
1.2.1 基本分類
(1)池户、監(jiān)督學習(supervised learning):從標注數(shù)據(jù)中學習預測模型的機器學習問題咏雌。
注:模型實際上都是定義在特征空間上的凡怎。
注:監(jiān)督學習的基本假設要求隨機變量X和Y服從聯(lián)合概率分布P(X,Y),它可以是PMF也可以是PDF赊抖,但只是假設其存在统倒,對學習系統(tǒng)來說,聯(lián)合概率分布的具體定義是未知的氛雪,因為如果知道了P(X,Y)房匆,就可以求出條件概率分布P(Y|X),也就不需要學習了报亩。
(2)浴鸿、無監(jiān)督學習(unsupervised learning):從無標注數(shù)據(jù)中學習預測模型的機器學習問題,其本質(zhì)是學習數(shù)據(jù)中的統(tǒng)計規(guī)律或潛在結(jié)構(gòu)弦追,例如聚類岳链、降維、概率估計劲件。
(3)掸哑、強化學習(reinforcement learning):智能系統(tǒng)在與環(huán)境的連續(xù)互動中學習最優(yōu)行為策略的機器學習問題。
1.2.2 按模型分類
(1)寇仓、概率模型(probabilistic model):也叫生成模型举户,即模型表示了從 x 產(chǎn)生 y 的生成關(guān)系。
(2)遍烦、非概率模型(nonprobabilistic model):也叫判別模型俭嘁,判別模型關(guān)心的是 x 應該預測什么樣的 y。
注:
概率模型一定可以表示為聯(lián)合概率分布的形式服猪,而非概率模型則不能供填;
概率模型收斂速度更快;
概率模型可以存在隱變量罢猪,而非概率模型則不能近她。
判別模型直接面對預測,準確率更高膳帕;
判別模型可以定義高度抽象的特征工程粘捎,因此可以簡化學習問題。
1.3 統(tǒng)計學習方法三要素
1.3.1 假設空間(假設函數(shù)的集合)
注:假設空間中的模型一般有無窮多個。
1.3.2 風險函數(shù)(損失函數(shù))
期望風險(expected risk)
經(jīng)驗風險(empirical risk)
結(jié)構(gòu)風險(structural risk)= 經(jīng)驗風險 + 正則化項
1.3.3 優(yōu)化算法
求解目標函數(shù)
注:統(tǒng)計學習方法具體采用的損失函數(shù)未必是模型評估時使用的評估函數(shù)
補:J(f)是正則化項汤徽,它是模型復雜度的單調(diào)遞增函數(shù)娩缰,模型越復雜,正則化值就越大谒府,正則化項一般定義為模型參數(shù)向量的范數(shù)(L1,L2)拼坎。在凸優(yōu)化中浮毯,目標函數(shù)經(jīng)正則化得到的最優(yōu)值是原問題最優(yōu)值的下界,證明如下:
正則化符合奧卡姆剃刀(Occam's razor)原理:在所有可能選擇的模型中泰鸡,能夠很好地解釋已知數(shù)據(jù)并且十分簡單才是最好的模型债蓝。
1.6 泛化能力
泛化能力(generalization ability):學習方法對未知數(shù)據(jù)的預測能力。
1.6.2 泛化誤差及其上界
注:泛化誤差就是期望風險