緒論
人類通過經(jīng)驗做出一些判斷祖今,在計算機(jī)系統(tǒng)中,經(jīng)驗一般以數(shù)據(jù)的形式存在穷遂。因此函匕,機(jī)器學(xué)習(xí)所研究的主要內(nèi)容是從數(shù)據(jù)中產(chǎn)生“模型”的算法,即學(xué)習(xí)算法蚪黑。
從數(shù)據(jù)中學(xué)的模型的過程叫做學(xué)習(xí)或者訓(xùn)練盅惜,所學(xué)得的模型對應(yīng)了數(shù)據(jù)的某種潛在規(guī)律。
1 基本概念
- 學(xué)習(xí)類型
我們所預(yù)測的結(jié)果是離散值忌穿,則這類學(xué)習(xí)任務(wù)稱為分類抒寂。
若預(yù)測的結(jié)果是連續(xù)值,則稱為回歸掠剑。
根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記可分為:
監(jiān)督學(xué)習(xí)(有標(biāo)記)屈芜,代表是分類,回歸。
無監(jiān)督學(xué)習(xí)(無標(biāo)記)井佑,代表是聚類属铁。
學(xué)習(xí)的目標(biāo)是使得所學(xué)得的模型很好的適用于新樣本,適應(yīng)新樣本的能力我們稱為泛化能力躬翁。
假設(shè)空間:
假定有屬性A焦蘑、B、C盒发,各自的取值有2種喇肋、3種、3種迹辐,則假設(shè)空間大小計算方式為:
3 * 4 * 4 + 1
因為取值中除了特定的值還包含通配符*蝶防,也就是說該數(shù)據(jù)取值任意。同時包括一個“空”明吩。
通過訓(xùn)練集數(shù)據(jù)對假設(shè)空間進(jìn)行縮減间学,得到的稱為版本空間。歸納偏好:
歸納偏好可以看作是學(xué)習(xí)算法自身在一個龐大假設(shè)空間中對假設(shè)進(jìn)行選擇的啟發(fā)式印荔,如何沒有歸納偏好低葫,學(xué)習(xí)算法會被假設(shè)空間的等效假設(shè)所迷惑。
奧卡姆剃刀:若多個假設(shè)與觀察一直仍律,選擇最簡單的嘿悬。
- NFL定理
證明過程
NFL定理:對于學(xué)習(xí)算法A,如果它在某些問題上表現(xiàn)的優(yōu)于B水泉,那么肯定在另一些問題上不如B
NFL定理說明:脫離了應(yīng)用背景善涨,討論算法的優(yōu)劣都是毫無意義的。