學(xué)習(xí)目標(biāo)
- 看懂每一步推導(dǎo)
- 會(huì)調(diào)scikit-learn庫實(shí)現(xiàn)代碼
第一章 緒論
1 基本術(shù)語
- 模型:一個(gè)函數(shù)
- 樣本空間 :
表示
- 標(biāo)記:
標(biāo)記取值為離散型忙迁,是分類任務(wù)classification
標(biāo)記取值為連續(xù)性可柿,是回歸任務(wù)regression
用到標(biāo)記筐喳,是有監(jiān)督學(xué)習(xí)
沒用標(biāo)記任岸,是無監(jiān)督學(xué)習(xí) - 泛化:對(duì)未知事物判斷的準(zhǔn)確與否
- 分布:假設(shè)樣本空間服從一個(gè)概率分布
。通常假設(shè)我們收集到的樣本都是獨(dú)立同分布的咬摇。
- 算法:從數(shù)據(jù)中學(xué)得“模型”的具體方法
2 假設(shè)空間和版本空間
- 假設(shè)空間:如一元一次函數(shù)辙诞,一元二次函數(shù)。。骗村。對(duì)一個(gè)問題可能可以解決的模型(假設(shè))所在的空間嫌褪。
- 數(shù)據(jù)作為訓(xùn)練集可以有多個(gè)假設(shè)空間,且在不同的假設(shè)空間中都有可能學(xué)得能夠擬合訓(xùn)練集的模型胚股,我們將所有能夠擬合訓(xùn)練集的模型構(gòu)成的集合稱為版本空間渔扎。
3 歸納偏好
不同的機(jī)器學(xué)習(xí)算法有不同的偏好,我們稱為 “歸納偏好”
- “奧卡姆剃刀”原則——“若有多個(gè)假設(shè)與觀察一致信轿,則選最簡單的那個(gè)”
通常基于模型在測試集上的表現(xiàn)來評(píng)判模型之間的優(yōu)劣残吩。
總誤差與學(xué)習(xí)算法無關(guān)
NFL定理
證明:(考慮二分類财忽,f均勻分布)
1.1.png
學(xué)習(xí)算法自身的歸納偏好和問題要相配。
數(shù)據(jù)決定模型的上限泣侮,而算法讓模型無限逼近上限即彪。