機(jī)器學(xué)習(xí)的基礎(chǔ)知識
相關(guān)概念
人類學(xué)習(xí)知識機(jī)制:從大量現(xiàn)象中提取反復(fù)出現(xiàn)的規(guī)律與模式。
- 機(jī)器學(xué)習(xí)是計算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運(yùn)用模型對數(shù)據(jù)進(jìn)行預(yù)測與分析的學(xué)科婶恼。
- 機(jī)器學(xué)習(xí)是從數(shù)據(jù)中來偶妖,到數(shù)據(jù)中去宰僧。
特征空間:數(shù)據(jù)的不同屬性之間可以視為相互獨(dú)立茅坛,每個屬性都代表了一個不同的維度案怯,這些維度共同張成了特征空間。
特征向量:每一組屬性值的集合都是這個空間中的一個點(diǎn)江场,因而每個實(shí)例都可以視為特征空間中的一個向量
根據(jù)輸入輸出類型的不同纺酸,預(yù)測問題可以分為以下三類:
- 分類問題:輸出變量為有限個離散變量,當(dāng)個數(shù)為 2 時即為最簡單的二分類問題址否;
- 回歸問題:輸入變量和輸出變量均為連續(xù)變量餐蔬;
- 標(biāo)注問題:輸入變量和輸出變量均為變量序列。
誤差:學(xué)習(xí)器的實(shí)際預(yù)測輸出與樣本真實(shí)輸出之間的差異佑附。
- 訓(xùn)練誤差:學(xué)習(xí)器在訓(xùn)練數(shù)據(jù)集上的誤差用含,也稱經(jīng)驗(yàn)誤差
輸入屬性與輸出分類之間的相關(guān)性,能夠判定給定的問題是不是一個容易學(xué)習(xí)的問題帮匾。 - 測試誤差:學(xué)習(xí)器在新樣本上的誤差,也稱泛化誤差
反映了學(xué)習(xí)器對未知的測試數(shù)據(jù)集的預(yù)測能力痴鳄,是機(jī)器學(xué)習(xí)中的重要概念瘟斜。
測試誤差與模型復(fù)雜度之間呈現(xiàn)的是拋物線的關(guān)系。
當(dāng)模型復(fù)雜度較低時,測試誤差較高螺句;
隨著模型復(fù)雜度的增加虽惭,測試誤差將逐漸下降并達(dá)到最小值;
之后當(dāng)模型復(fù)雜度繼續(xù)上升時蛇尚,測試誤差會隨之增加芽唇,對應(yīng)著過擬合的發(fā)生。
過擬合出現(xiàn)的原因:學(xué)習(xí)時模型包含的參數(shù)過多取劫,從而導(dǎo)致訓(xùn)練誤差較低但測試誤差較高匆笤。
交叉驗(yàn)證:數(shù)據(jù)分成訓(xùn)練集與測試集,并在此基礎(chǔ)上反復(fù)進(jìn)行訓(xùn)練谱邪、測試和模型選擇炮捧,達(dá)到最優(yōu)效果。
機(jī)器學(xué)習(xí)分類:
- 監(jiān)督學(xué)習(xí):基于已知類別的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)惦银;
- 生成方法:根據(jù)輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的聯(lián)合概率分布確定條件概率分布 P(Y|X)咆课,這種方法表示了輸入 X 與輸出 Y 之間的生成關(guān)系
- 判別方法:直接學(xué)習(xí)條件概率分布 P(Y|X)P(Y|X) 或決策函數(shù) f(X)f(X),這種方法表示了根據(jù)輸入 X 得出輸出 Y 的預(yù)測方法扯俱。
生成方法具有更快的收斂速度和更廣的應(yīng)用范圍书蚪,判別方法則具有更高的準(zhǔn)確率和更簡單的使用方式。 - 無監(jiān)督學(xué)習(xí):基于未知類別的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)迅栅;
- 半監(jiān)督學(xué)習(xí):同時使用已知類別和未知類別的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)殊校。