今天開始更新《分布式機器學(xué)習(xí)》的系列筆記,保證每周2-3更剑辫,大家一起學(xué)習(xí)啊~~
第一次筆記是機器學(xué)習(xí)基礎(chǔ),就簡單的整理一下知識點。
機器學(xué)習(xí)的基本概念
機器學(xué)習(xí)關(guān)注的核心問題是如何用計算的方式模擬人類的學(xué)習(xí)行為:從歷史經(jīng)驗中獲取規(guī)律或者模型茸时,并將其應(yīng)用到新的類似場景中。
多維度梳理機器學(xué)習(xí)問題:
- 從學(xué)習(xí)目標(biāo)的角度赋访,可以大體分為回歸可都、分類、排序蚓耽、有結(jié)構(gòu)預(yù)測等渠牲。
- 從訓(xùn)練數(shù)據(jù)特性的角度,可以大體分為有監(jiān)督學(xué)習(xí)步悠、半監(jiān)督學(xué)習(xí)签杈、無監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)等贤徒。
- 有監(jiān)督學(xué)習(xí):每個訓(xùn)練數(shù)據(jù)都擁有標(biāo)簽芹壕;
- 半監(jiān)督學(xué)習(xí):訓(xùn)練集里同時存在有標(biāo)簽數(shù)據(jù)和無標(biāo)簽數(shù)據(jù),通常需要對無標(biāo)簽數(shù)據(jù)進行預(yù)處理接奈;
- 無監(jiān)督學(xué)習(xí):數(shù)據(jù)都是無標(biāo)簽的踢涌,學(xué)習(xí)的目的是從數(shù)據(jù)中發(fā)掘關(guān)聯(lián)規(guī)則,或者利用數(shù)據(jù)在輸入空間中的相互關(guān)系對數(shù)據(jù)進行聚類和影響力排序序宦;
- 弱監(jiān)督學(xué)習(xí):存在某種形式的獎勵信號睁壁,該信號可以用于模型訓(xùn)練,但沒有樣本標(biāo)簽?zāi)敲粗苯踊グ啤?zhǔn)確潘明,比如強化學(xué)習(xí)。
- 從模型復(fù)雜的程度秕噪,可以大體分為線性模型和非線性模型钳降。
- 從模型的功能角度,可以分為生成模型和判別模型腌巾。
機器學(xué)習(xí)的基本流程
機器學(xué)習(xí)的流程可以用下圖表示:
常用的損失函數(shù)
- Hinge損失函數(shù)
- 指數(shù)損失函數(shù)
- 交叉熵損失函數(shù)
假設(shè)標(biāo)簽的概率分布:
則交叉熵損失函數(shù)定義為:
常用的機器學(xué)習(xí)模型
(感興趣的可以自己找資料看遂填,在這里只進行簡單梳理,不做詳細筆記)
- 線性模型
- 核方法與支持向量機
- 決策樹與Boosting
- 神經(jīng)網(wǎng)絡(luò)
- 全連接神經(jīng)網(wǎng)絡(luò)
- 卷積神經(jīng)網(wǎng)絡(luò)
- 循環(huán)神經(jīng)網(wǎng)絡(luò)
常用的優(yōu)化方法
典型的優(yōu)化方法:
一階算法 | 二階算法 | |
---|---|---|
確定性算法 | 梯度下降法 投影次梯度下降 近端梯度下降 Frank-Wolfe算法 Nesterov加速算法 坐標(biāo)下降法 對偶坐標(biāo)上升法 |
牛頓法 擬牛頓法 |
隨機算法 | 隨機梯度下降法 隨機坐標(biāo)下降法 隨機對偶坐標(biāo)上升法 隨機方差減小梯度法 |
隨機擬牛頓法 |
還有一些針對神經(jīng)網(wǎng)絡(luò)優(yōu)化的算法澈蝙,例如吓坚,帶沖量的隨機梯度下降法、Nesterov加速方法灯荧、AdaGrad礁击、RMSProp、AdaDelta、Adam哆窿、AMSGrad链烈、等級優(yōu)化算法以及基于熵的隨機梯度下降法等。
機器學(xué)習(xí)理論
- 機器學(xué)習(xí)的泛化誤差
機器學(xué)習(xí)算法的最終目標(biāo)是最小化期望損失風(fēng)險更耻,但由于數(shù)據(jù)的真實分布通常未知测垛,因此學(xué)習(xí)目標(biāo)轉(zhuǎn)化為最小化經(jīng)驗風(fēng)險。
- 泛化誤差的分解
希望算法輸出的模型與最優(yōu)模型的期望風(fēng)險之差盡可能小秧均,這個差距成為泛化誤差食侮。對其進行如下分解:
- :優(yōu)化誤差。衡量的是優(yōu)化算法迭代輪后輸出的模型與精確最小化經(jīng)驗風(fēng)險的差別目胡。是由于優(yōu)化算法的局限性帶來的锯七,與選用的優(yōu)化算法、數(shù)據(jù)量大小誉己、迭代輪數(shù)以及函數(shù)空間有關(guān)眉尸。
- :估計誤差。衡量的是最小化經(jīng)驗風(fēng)險誤差的模型和最小化期望風(fēng)險的模型所對應(yīng)的的期望風(fēng)險的差別巨双。是由訓(xùn)練集的局限性帶來的噪猾,與數(shù)據(jù)量的大小和函數(shù)空間的復(fù)雜程度有關(guān)。
- :近似誤差筑累。衡量的是函數(shù)集合的最優(yōu)期望風(fēng)險與全局最優(yōu)期望風(fēng)險的差別袱蜡。與函數(shù)空間的表達力有關(guān)。