機(jī)器學(xué)習(xí)分類(lèi)
- 按有無(wú)監(jiān)督分類(lèi)
1.全監(jiān)督學(xué)習(xí):回歸算法老翘,樸素貝葉斯芹啥,SVM(支持向量機(jī))
2.無(wú)監(jiān)督學(xué)習(xí):聚類(lèi)算法,降維算法
3.半監(jiān)督學(xué)習(xí) - 是否應(yīng)用了神經(jīng)網(wǎng)絡(luò)
1.傳統(tǒng)機(jī)器學(xué)習(xí)
2.應(yīng)用了深度神經(jīng)網(wǎng)絡(luò)铺峭,深度學(xué)習(xí)
監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)
1.用于訓(xùn)練模型的數(shù)據(jù)有標(biāo)注
2.需要收集或雇傭標(biāo)注者
3.數(shù)據(jù)相對(duì)較少
4.相關(guān)算法多墓怀,效果好
算法包括了:分類(lèi)算法(Logistic Regression、Neutral Network卫键、Naive Bayes傀履、KNN、Decision Tree等)永罚,回歸算法(Linear Regression)啤呼,集成算法(Bagging卧秘、Boosting)
無(wú)監(jiān)督學(xué)習(xí)
1.訓(xùn)練模型的數(shù)據(jù)沒(méi)有標(biāo)注
2.數(shù)據(jù)很多
3.相關(guān)算法少
4.研究前沿
算法包括了:聚類(lèi)算法(K-means),降維算法(SVD)
基本概念和術(shù)語(yǔ)
- 訓(xùn)練數(shù)據(jù)
- 模型參數(shù)
第0輪:0.8*像素0+0.1*像素1>0: 貓
狗
...
第1輪:0.75*像素0+0.2*像素1>0: 貓
參數(shù): (??1,??2)
- 測(cè)試數(shù)據(jù)
此類(lèi)數(shù)據(jù)的標(biāo)注在訓(xùn)練時(shí)候不可見(jiàn) - 測(cè)試指標(biāo)
錯(cuò)誤率官扣,正確率 - 損失函數(shù)Loss Function
1.一個(gè)關(guān)于參數(shù)的數(shù)學(xué)函數(shù)f(??1,??2)
2.損失函數(shù)f可以近似地表示錯(cuò)誤率翅敌,即f值越大,錯(cuò)誤率近似越大
3.好處惕蹄,f可以求關(guān)于每個(gè)參數(shù)的導(dǎo)數(shù)蚯涮,即可以用到梯度下降法
4.這樣使得模型不用猜和試參數(shù),而是有規(guī)律地逐漸找到更好的參數(shù)
關(guān)于損失函數(shù)總結(jié):根據(jù)訓(xùn)練數(shù)據(jù)調(diào)整參數(shù)卖陵,依據(jù)梯度下降法遭顶,找到損失函數(shù),不斷求導(dǎo)泪蔫,沿導(dǎo)數(shù)方向的反方向一直走棒旗,找到一個(gè)合適的點(diǎn),然后優(yōu)化撩荣,防止過(guò)擬合铣揉。 - 推廣能力
1.機(jī)器學(xué)習(xí)模型最重要的功能就是它的推廣能力
2.在訓(xùn)練過(guò)程中,模型只能見(jiàn)到訓(xùn)練數(shù)據(jù)餐曹。不斷優(yōu)化逛拱,使得在訓(xùn)練數(shù)據(jù)上的指標(biāo)越來(lái)越好,錯(cuò)誤率越來(lái)越低台猴,但是我們真正關(guān)心的是一個(gè)它沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)朽合,錯(cuò)誤率怎么樣,即推廣能力Generalization如何
3.模型在訓(xùn)練數(shù)據(jù)上錯(cuò)誤率越小 不等于 推廣能力越強(qiáng)饱狂,根本原因是:參數(shù)已經(jīng)被優(yōu)化成為只能在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好曹步,推廣能力很差。
機(jī)器學(xué)習(xí)的基本架構(gòu)
如何選擇機(jī)器學(xué)習(xí)的模型model
- 根據(jù)輸入數(shù)據(jù)
1.有標(biāo)注:監(jiān)督學(xué)習(xí)
2.無(wú)標(biāo)注:無(wú)監(jiān)督學(xué)習(xí) - 根據(jù)輸出數(shù)據(jù)
1.純數(shù)字:回歸模型
2.類(lèi)別:分類(lèi)模型 - 根據(jù)數(shù)據(jù)規(guī)模
1.數(shù)據(jù)多:可以選擇參數(shù)較多的模型(例如深度學(xué)習(xí))
2.數(shù)據(jù)少:選擇參數(shù)少的較簡(jiǎn)單 模型(比如線性回歸) - 根據(jù)實(shí)際效果
1.選擇推廣能力最好的模型
2.有時(shí)需要在效果嗡官、模型復(fù)雜性箭窜、時(shí)間空間限制之間尋找平衡