什么是機(jī)器學(xué)習(xí)姑宽?
一遣耍、概述
- 機(jī)器學(xué)習(xí)是讓計(jì)算機(jī)具有學(xué)習(xí)的能力,無需進(jìn)行明確編程炮车。 —— 亞瑟·薩繆爾配阵,1959
- 計(jì)算機(jī)程序利用經(jīng)驗(yàn) E 學(xué)習(xí)任務(wù) T,性能是 P示血,如果針對任務(wù) T 的性能 P 隨著經(jīng)驗(yàn) E 不斷增長,則稱為機(jī)器學(xué)習(xí)救拉。 —— 湯姆·米切爾难审,1997
二、機(jī)器學(xué)習(xí)的類型
1. 監(jiān)督學(xué)習(xí)
訓(xùn)練集有標(biāo)簽
-
主要算法
- K近鄰算法
- 線性回歸
- 邏輯回歸
- 支持向量機(jī)(SVM)
- 決策樹和隨機(jī)森林
- 神經(jīng)網(wǎng)絡(luò)
-
分類
-
垃圾郵件過濾器就是一個(gè)很好的例子:用許多帶有歸類(垃圾郵件或普通郵件)的郵件樣本進(jìn)行訓(xùn)練亿絮,過濾器必須還能對新郵件進(jìn)行分類告喊。
img
-
-
回歸
-
預(yù)測目標(biāo)數(shù)值,例如給出一些特征(里程數(shù)派昧、車齡黔姜、品牌等等)稱作預(yù)測值,來預(yù)測一輛汽車的價(jià)格
img
-
2. 非監(jiān)督學(xué)習(xí)
訓(xùn)練集沒有標(biāo)簽
-
主要算法
-
聚類
K 均值
層次聚類分析(HCA)
-
期望最大值
img
-
可視化與降維
主成分分析(PCA)
核主成分分析
局部線性嵌入(LLE)
-
t-分布鄰域嵌入算法(t-SNE)
img
-
異常檢測
img -
關(guān)聯(lián)規(guī)則
- Apriori 算法
- Eclat 算法
-
3. 半監(jiān)督學(xué)習(xí)
大量不帶標(biāo)簽數(shù)據(jù)加上小部分帶標(biāo)簽數(shù)據(jù)
-
主要算法
- 深度信念網(wǎng)絡(luò)(DBN)
- 受限玻爾茲曼機(jī)(RBM)
-
案例
-
比如 Google Photos蒂萎,只要給每個(gè)人一個(gè)標(biāo)簽秆吵,算法就可以命名每張照片中的每個(gè)人,特別適合搜索照片
img
-
4. 強(qiáng)化學(xué)習(xí)
學(xué)習(xí)系統(tǒng)在這里被稱為智能體(agent)五慈,可以對環(huán)境進(jìn)行觀察纳寂,選擇和執(zhí)行動作主穗,獲得獎勵(lì)(負(fù)獎勵(lì)是懲罰)。然后它必須自己學(xué)習(xí)哪個(gè)是最佳方法(稱為策略毙芜,policy)忽媒,以得到長久的最大獎勵(lì)。策略決定了智能體在給定情況下應(yīng)該采取的行動腋粥。
-
主要算法
- Q-learning
img
5. 在線學(xué)習(xí)
用數(shù)據(jù)實(shí)例小批量持續(xù)地進(jìn)行訓(xùn)練晦雨,每個(gè)學(xué)習(xí)步驟都很快且廉價(jià),系統(tǒng)可以動態(tài)地學(xué)習(xí)新獲得的數(shù)據(jù)
-
在線學(xué)習(xí)很適合系統(tǒng)接收連續(xù)流的數(shù)據(jù)(比如隘冲,股票價(jià)格)闹瞧,且需要自動對改變作出調(diào)整。一旦在線學(xué)習(xí)系統(tǒng)學(xué)習(xí)了新的數(shù)據(jù)實(shí)例对嚼,它就不再需要這些數(shù)據(jù)夹抗,可以節(jié)省大量的空間
img
6. 實(shí)例學(xué)習(xí)vs模型學(xué)習(xí)
-
實(shí)例學(xué)習(xí)
系統(tǒng)先用記憶學(xué)習(xí)案例,然后使用相似度測量推廣到新的例子
img -
模型學(xué)習(xí)
建立這些樣本的模型纵竖,然后使用這個(gè)模型進(jìn)行預(yù)測
img
三漠烧、機(jī)器學(xué)習(xí)的使用
-
選擇算法需要考慮的兩個(gè)問題
-
算法場景
- 預(yù)測明天是否下雨,因?yàn)榭梢杂脷v史的天氣情況做預(yù)測靡砌,所以選擇監(jiān)督學(xué)習(xí)算法
- 給一群陌生的人進(jìn)行分組已脓,但是我們并沒有這些人的類別信息,所以選擇無監(jiān)督學(xué)習(xí)算法通殃、通過他們身高度液、體重等特征進(jìn)行處理
-
數(shù)據(jù)類型
- 需要收集或分析的數(shù)據(jù)是什么
img
-
-
開發(fā)流程
- 收集數(shù)據(jù): 收集樣本數(shù)據(jù)
- 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式
- 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)
- 如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源,則可以跳過該步驟
- 另外該步驟需要人工干預(yù)画舌,會降低自動化系統(tǒng)的價(jià)值
- 訓(xùn)練算法: 如果使用無監(jiān)督學(xué)習(xí)算法堕担,由于不存在目標(biāo)變量值,則可以跳過該步驟
- 測試算法: 評估算法效果
- 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序