1 什么是機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí):能從數(shù)據(jù)中自動(dòng)提取有價(jià)值信息的算法設(shè)計(jì)闷尿。
三要素:數(shù)據(jù)孝治、模型葡盗、學(xué)習(xí)。模型(model)描述了從一個(gè)數(shù)據(jù)集生成另一個(gè)數(shù)據(jù)集的過程购对。從數(shù)據(jù)中學(xué)習(xí)而得到模型猾昆,學(xué)習(xí)的過程就是不斷調(diào)整模型參數(shù)的過程。(筆者:好的模型能應(yīng)用于新的數(shù)據(jù)骡苞,稱為泛化垂蜗。)
1.1 正名
算法(algorithm):一指模型預(yù)測(cè)(predictors);二值模型訓(xùn)練(training)解幽。
看待數(shù)據(jù)(data)的三個(gè)視角:
- 數(shù)組(計(jì)算機(jī)科學(xué)視角)
- 向量(物理視角)
- 遵循加法和縮放(scaling)規(guī)則的對(duì)象(代數(shù)視角)
本節(jié)小結(jié)
- 把數(shù)據(jù)看成向量贴见。
- 從統(tǒng)計(jì)或優(yōu)化的視角選擇合適的模型。
- 學(xué)習(xí)就是基于已有數(shù)據(jù)使用優(yōu)化方法使得模型能應(yīng)用于新的數(shù)據(jù)躲株。
1.2 本書的兩種閱讀方式
- 自底向上片部。優(yōu)點(diǎn)基礎(chǔ)扎,步步為營(yíng)霜定;缺點(diǎn)档悠,缺少應(yīng)用路徑,容易忘記不感興趣的點(diǎn)望浩。
- 自頂向下辖所。優(yōu)點(diǎn):?jiǎn)栴}導(dǎo)向,目標(biāo)驅(qū)動(dòng)磨德,所學(xué)既所用缘回;缺點(diǎn):基礎(chǔ)不牢吆视,部分概念不清。
本書組織方式: - 第一部分酥宴。按自底向上組織數(shù)學(xué)基礎(chǔ)揩环。包括:
- 線性代數(shù)(linear algebra)
- 解析幾何(analytic geometry)
- 矩陣分解(matrix decomposition)
- 矢量驗(yàn)算(vector calculus)
- 統(tǒng)計(jì)理論(probability theory)
- 最優(yōu)化(optimization)
- 第二部分。分為四大類問題:
- 回歸(regression)
- 降維(dimensionality reduction)
- 密度估計(jì)(density estimation)
- 分類(classification)幅虑。
兩個(gè)部分之間可以方便導(dǎo)航丰滑。