入門
任務(wù)是從樣本中推理
- 需要解決的問題是:
處理海量數(shù)據(jù)的存儲和計算的高效算法
學(xué)習(xí)得到的模型李皇,一定是高效的精算,即時間復(fù)雜度蒙谓,空間復(fù)雜度和精確度都是相對最好的
- 一些問題的常用數(shù)學(xué)知識解法
- 關(guān)聯(lián)規(guī)則剥啤,使用條件概率 P(Y|X),即在X發(fā)生的條件下减余,Y發(fā)生的概率
如購物籃的分析综苔,可以樣本分析在購買了X的顧客中同時購買了Y的概率來,決定是否要打包銷售Y位岔,或者可以通過數(shù)據(jù)來預(yù)測網(wǎng)站中的外鏈那些是跳出概率較大的如筛,可以對這些做一些預(yù)處理的操作
- 分類問題
學(xué)習(xí)的局限性
- 從特殊到一般的推斷和學(xué)習(xí)的估計
- 機器學(xué)習(xí)的模型應(yīng)該是能夠自適應(yīng)環(huán)境的才好
- 在統(tǒng)計學(xué),模式識別抒抬、神經(jīng)網(wǎng)絡(luò)信號處理杨刨、控制、人工智能以及數(shù)據(jù)挖掘等領(lǐng)域擦剑,按照不同的學(xué)習(xí)方法和側(cè)重點來研究機器學(xué)習(xí)的可行性
監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)分為:分類(離散的數(shù)據(jù))和回歸(連續(xù)的數(shù)據(jù))
- 泛化
表示應(yīng)該正確的分類卻被劃分到錯誤的分類上面妖胀,或者是錯誤的實例劃分到正確的分類上面了,這占全部分類的比例就是模型的泛化能力惠勒,訓(xùn)練集上訓(xùn)練的模型能在多大程度上能夠?qū)π碌膶嵗A(yù)測出正確輸出就是泛化能力
VC維
噪聲
噪聲的存在會影響我們對數(shù)據(jù)的擬合作用
回歸
模型選擇與泛化
選擇正確的偏倚就是赚抡,模型選擇,如果模型選的太復(fù)雜的話纠屋,可能會出現(xiàn)過擬合的想象涂臣,但是要是模型選的不夠復(fù)雜的話,就會出現(xiàn)欠擬合的情況
實例數(shù)據(jù)訓(xùn)練的學(xué)習(xí)算法中存在著三種狀態(tài)的平衡:
- 假設(shè)的復(fù)雜性(模型的復(fù)雜性)
- 數(shù)據(jù)的總量
- 在新的數(shù)據(jù)上的泛化能力售担,也就是模型的預(yù)測能力
為了達(dá)到這個能力赁遗,我們一般使用交叉確認(rèn)的方式來實現(xiàn)闯估,即將數(shù)據(jù)集分成訓(xùn)練集和確認(rèn)集,在訓(xùn)練集上訓(xùn)練得出的模型吼和,能夠在確認(rèn)集上得到正確率最高的模型就是相對最好的模型