機器學(xué)習(xí)入門的基礎(chǔ)知識,包括常見名詞的解釋(線性回歸剩檀、容量憋沿、過擬合欠擬合、正則化沪猴、超參數(shù)和驗證集辐啄、估計采章、偏差和方差、最大似然估計壶辜、KL散度悯舟、隨機梯度下降)
歡迎關(guān)注我的微信公眾號“人小路遠(yuǎn)”哦,在這里我將會記錄自己日常學(xué)習(xí)的點滴收獲與大家分享砸民,以后也可能會定期記錄一下自己在外讀博的所見所聞抵怎,希望大家喜歡,感謝支持岭参!
1反惕、數(shù)值計算基礎(chǔ)
計算機求解問題的步驟:
1、根據(jù)實際問題建立數(shù)學(xué)模型演侯;(應(yīng)用數(shù)學(xué))
2姿染、由數(shù)學(xué)模型給出數(shù)值計算方法;(計算數(shù)學(xué))
3秒际、根據(jù)計算方法編制算法程序在計算機上算出結(jié)果悬赏。
數(shù)值問題:是輸入和輸出數(shù)據(jù)之間的函數(shù)關(guān)系的一個確定而無歧義的描述÷玻可以理解為:輸入和輸出均為數(shù)據(jù)的數(shù)學(xué)問題闽颇。
上溢:當(dāng)大量級的數(shù)被近似為無窮大時發(fā)生上溢。
下溢:當(dāng)接近零的數(shù)被四舍五入為零時發(fā)生下溢嵌莉。
優(yōu)化:改變x以最小化或最大化某個函數(shù)f(x)的任務(wù)进萄。
目標(biāo)函數(shù):需要最小化或最大化的函數(shù)捻脖∪袂停可描述為:
+ 正則化項
成本(cost)或損失(loss):為了訓(xùn)練模型,我們需要定義一個指標(biāo)來評估這個模型可婶。但通常定義指標(biāo)來表示一個模型是壞的沿癞,這個指標(biāo)稱為成本(cost)或損失(loss),然后盡量最小化這個指標(biāo)矛渴。
損失函數(shù):一般針對單個樣本椎扬,可描述為:
代價函數(shù), 一般針對總體具温,可描述為:
基于梯度的優(yōu)化方法:延方向?qū)?shù)的方向是上升/下降最快的方向蚕涤。
駐點:局部最大/最小值點
最值點:全局最大/最小值點
2、機器學(xué)習(xí)基礎(chǔ)
概念:
- 致力于研究如何通過計算的手段铣猩,利用經(jīng)驗來改善系統(tǒng)自身性能的學(xué)科和方法揖铜。
- 對于某類任務(wù)T和性能度量P,一個計算機程序被認(rèn)為可以從經(jīng)驗E中學(xué)習(xí)是指达皿,通過經(jīng)驗E改進后天吓,它在任務(wù)T上由性能度量P衡量的性能有所提升贿肩。
任務(wù)T:計算機要解決的問題。
學(xué)習(xí):獲得完成任務(wù)能力的過程龄寞。
樣本:量化特征的數(shù)據(jù)集合汰规。
分類:預(yù)測已知輸入的類別。預(yù)測為離散值時物邑,此類學(xué)習(xí)任務(wù)成為分類溜哮。
回歸:預(yù)測的為連續(xù)值時,此類學(xué)習(xí)任務(wù)稱為回歸色解。
聚類:按照潛在標(biāo)準(zhǔn)劃分為不同類型組茬射,稱為聚類學(xué)習(xí)。
訓(xùn)練集:訓(xùn)練數(shù)據(jù)模型的數(shù)據(jù)集冒签。
測試集:評估模型性能P的數(shù)據(jù)集在抛。
無監(jiān)督學(xué)習(xí):訓(xùn)練含有很多特征的數(shù)據(jù)集,然后學(xué)習(xí)出這個數(shù)據(jù)集上有用的結(jié)構(gòu)性質(zhì)萧恕。
監(jiān)督學(xué)習(xí):訓(xùn)練含有很多特征的數(shù)據(jù)集刚梭,數(shù)據(jù)集中的樣本都有一個標(biāo)簽。
數(shù)據(jù)集的表示:通過設(shè)計矩陣票唆,行向量表示一個樣本朴读,每行中的每列元素表征該樣本某個特征數(shù)字化的結(jié)果。
3走趋、線性回歸
定義:利用數(shù)理統(tǒng)計中回歸分析衅金,來確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。描述為:
其中簿煌, 為預(yù)測y的取值氮唯。
機器學(xué)習(xí)任務(wù):通過樣本訓(xùn)練,確定參數(shù) 和b
均方誤差(mean-square error, MSE):度量模型性能的常用方法姨伟,反映估計量與被估計量之間差異程度的一種度量惩琉。記為:
正規(guī)方程:通過解梯度為0時的向量方程,直接求得駐點位置夺荒。
解得:
4瞒渠、容量、過擬合和欠擬合
泛化:訓(xùn)練模型在未觀測到的輸入上表現(xiàn)良好的能力技扼。
訓(xùn)練誤差:模型在訓(xùn)練集上表現(xiàn)出的誤差伍玖。
泛化誤差:新輸入數(shù)據(jù)的誤差期望。通常通過在測試集上的性能來評估泛化誤差剿吻。
決定機器學(xué)習(xí)算法好壞的兩個因素:
- 降低訓(xùn)練誤差窍箍;
- 縮小訓(xùn)練誤差和測試誤差的差距。
欠擬合(underfitting):模型不能再訓(xùn)練集上獲得足夠低的誤差;
過擬合(overfitting):訓(xùn)練誤差和測試誤差的差距太大仔燕。
容量(capacity):指模型擬合各種函數(shù)的能力造垛。
容量不足的模型不能解決復(fù)雜問題;容量高的模型能夠解決復(fù)雜任務(wù)晰搀,但當(dāng)其容量高于任務(wù)所需時五辽,有可能會過擬合。
5外恕、正則化
沒有免費午餐定理:在所有可能的數(shù)據(jù)生成分布上平均之后杆逗,每一個分類算法在未事先觀測的點上都有相同的錯誤率。
正則化(λ):通過引入權(quán)重衰減鳞疲,來修改訓(xùn)練標(biāo)準(zhǔn)罪郊,突出學(xué)習(xí)算法的偏好。目的是為了降低模型的泛化誤差尚洽。
6悔橄、超參數(shù)和驗證集
超參數(shù):指不通過學(xué)習(xí)學(xué)得,而直接設(shè)定或指定的參數(shù)腺毫。適用于控制模型容量的所有參數(shù)癣疟。這些參數(shù)總是趨向于最大可能的模型容量,導(dǎo)致過擬合潮酒。
驗證集:從訓(xùn)練集中分出睛挚,用于調(diào)整超參數(shù)的數(shù)據(jù)集。
7急黎、估計扎狱、偏差和方差
點估計:輸入數(shù)據(jù)樣本的函數(shù),估計出的模型中的參數(shù)值勃教。記為:
偏差:參數(shù)的點估計的數(shù)學(xué)期望與參數(shù)真實值之間的差淤击。記為:
偏差度量偏離真實函數(shù)或參數(shù)的誤差期望;方差度量數(shù)據(jù)上任意特定采樣可能導(dǎo)致的估計期望的偏差荣回。
方差(Variance)
均方誤差:權(quán)衡偏差和方差的方式實現(xiàn)誤差估計遭贸。記為:
8、最大似然估計
似然函數(shù):給出輸出x時心软,關(guān)于θ的似然函數(shù)L(x,θ)
等于給定參數(shù)θ后變量X的概率,即:
最大似然估計:在θ的所有可能取值中著蛙,找到一個能使數(shù)據(jù)出現(xiàn)的“可能性”最大的值删铃。
9、KL散度
KL散度:訓(xùn)練集上的經(jīng)驗分布和模型分布之間的差異的度量方式踏堡。記為:
最小化散度:最小化分布間的交叉熵猎唁。即只用最小化部分:
10、隨機梯度下降
問題:梯度下降當(dāng)樣本空間很大時顷蟆,訓(xùn)練過程消耗過大诫隅。
思路:每次訓(xùn)練不必采用全部樣本數(shù)據(jù)腐魂,而是均勻抽取一部分樣本訓(xùn)練,通過大量的訓(xùn)練步驟逐纬,使小批量數(shù)據(jù)訓(xùn)練的模型擬合全部樣本蛔屹。
解決方法:
- 隨機梯度下降(一次選一個樣本)
- 批梯度下降(一次選小批量樣本)
- ……