數(shù)山有路踊谋,學海無涯:機器學習概論
機器學習的基本原理與基礎概念,其要點如下:
- 機器學習是計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預測與分析的學科罪郊;
- 根據(jù)輸入輸出類型的不同青责,機器學習可分為分類問題捻撑、回歸問題、標注問題三類价认;
- 過擬合是機器學習中不可避免的問題嗅定,可通過選擇合適的模型降低其影響;
- 監(jiān)督學習是目前機器學習的主流任務用踩,包括生成方法和判別方法兩類渠退。
image
簡約而不簡單:線性回歸
線性回歸的基本原理,其要點如下:
- 線性回歸假設輸出變量是若干輸入變量的線性組合脐彩,并根據(jù)這一關(guān)系求解線性組合中的最優(yōu)系數(shù)碎乃;
- 最小二乘法可用于解決單變量線性回歸問題,當誤差函數(shù)服從正態(tài)分布時惠奸,它與最大似然估計等價梅誓;
- 多元線性回歸問題也可以用最小二乘法求解,但極易出現(xiàn)過擬合現(xiàn)象佛南;
- 嶺回歸和 LASSO 回歸分別通過引入二范數(shù)懲罰項和一范數(shù)懲罰項抑制過擬合梗掰。
image
大道至簡:樸素貝葉斯方法
樸素貝葉斯方法的基本原理,其要點如下:
- 樸素貝葉斯方法利用后驗概率選擇最佳分類嗅回,后驗概率可以通過貝葉斯定理求解及穗;
- 樸素貝葉斯方法假定所有屬性相互獨立,基于這一假設將類條件概率轉(zhuǎn)化為屬性條件概率的乘積绵载;
- 樸素貝葉斯方法可以使期望風險最小化埂陆;
- 影響樸素貝葉斯分類的是所有屬性之間的依賴關(guān)系在不同類別上的分布。
image
衍化至繁:邏輯回歸
邏輯回歸方法的基本原理娃豹,其要點如下:
- 邏輯回歸模型是對線性回歸的改進焚虱,用于解決分類問題;
- 邏輯回歸輸出的是實例屬于每個類別的似然概率培愁,似然概率最大的類別就是分類結(jié)果著摔;
- 在一定條件下,邏輯回歸模型與樸素貝葉斯分類器是等價的定续;
- 多分類問題時可以通過多次使用二分類邏輯回歸或者使用 Softmax 回歸解決谍咆。
image
步步為營禾锤,有章可循:決策樹
決策樹的基本原理,其要點如下:
- 決策樹是包含根節(jié)點摹察、內(nèi)部節(jié)點和葉節(jié)點的樹結(jié)構(gòu)恩掷,通過判定不同屬性的特征來解決分類問題;
- 決策樹的學習過程包括特征選擇供嚎、決策樹生成黄娘、決策樹剪枝三個步驟;
- 決策樹生成的基礎是特征選擇克滴,特征選擇的指標包括信息增益逼争、信息增益比和基尼系數(shù);
- 決策樹的剪枝策略包括預剪枝和后剪枝劝赔。
image
窮則變誓焦,變則通:支持向量機
支持向量機的基本原理,其要點如下:
- 線性可分支持向量機通過硬間隔最大化求出劃分超平面着帽,解決線性分類問題杂伟;
- 線性支持向量機通過軟間隔最大化求出劃分超平面,解決線性分類問題仍翰;
- 非線性支持向量機利用核函數(shù)實現(xiàn)從低維原始空間到高維特征空間的轉(zhuǎn)換赫粥,在高維空間上解決非線性分類問題;
- 支持向量機的學習是個凸二次規(guī)劃問題予借,可以用 SMO 算法快速求解越平。
image
三個臭皮匠,賽過諸葛亮:集成學習
集成學習的基本原理蕾羊,其要點如下:
- 集成學習使用多個個體學習器來獲得比每個單獨學習器更好的預測性能喧笔,包括序列化方法和并行化方法兩類;
- 多樣性要求集成學習中的不同個體學習器之間具有足夠的差異性龟再;
- 序列化方法采用 Boosting 機制书闸,通過重復使用概率分布不同的訓練數(shù)據(jù)實現(xiàn)集成,可以降低泛化誤差中的偏差利凑;
- 并行化方法采用 Bagging 機制浆劲,通過在訓練數(shù)據(jù)中多次自助抽取不同的采樣子集實現(xiàn)集成,可以降低泛化誤差中的方差哀澈。
image
物以類聚牌借,人以群分:聚類分析
聚類分析的基本原理,其要點如下:
- 聚類分析是一種無監(jiān)督學習方法割按,通過學習沒有分類標記的訓練樣本發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律膨报;
- 數(shù)據(jù)之間的相似性通常用距離度量,類內(nèi)差異應盡可能小,類間差異應盡可能大现柠;
- 根據(jù)形成聚類方式的不同院领,聚類算法可以分為層次聚類、原型聚類够吩、分布聚類比然、密度聚類等幾類;
- 聚類分析的一個重要應用是對用戶進行分組與歸類周循。
image
好鋼用在刀刃上:降維學習
主成分分析是一種主要的降維方法强法,另一種更加直觀的降維方式則是直接對樣本的屬性做出篩選,這種降維方法就是“特征選擇”湾笛,其要點如下:
- 主成分分析利用正交變換將可能存在相關(guān)性的原始屬性轉(zhuǎn)換成一組線性無關(guān)的新屬性饮怯,并通過選擇重要的新屬性實現(xiàn)降維;
- 主成分分析的解滿足最大方差和最小均方誤差兩類約束條件迄本,因而具有最大可分性和最近重構(gòu)性硕淑;
- 特征選擇則是選取原始特征中的一個子集用于學習任務课竣,是另一種主要的降維技術(shù)嘉赎;
- 特征選擇的關(guān)鍵問題是對特征子集的評價,主要的特征選擇算法包括包裹法于樟、過濾法和嵌入法公条。
image
拓展閱讀參考書
image
總結(jié)自:人工智能基礎課: https://time.geekbang.org/column/62
簡寶玉寫作群日更打卡第 36 天