機器學習主要解決什么問題?
1 需要手動調(diào)整大量規(guī)則的問題
2 傳統(tǒng)方法無法解決的問題包警,機器學習可以碰碰運氣
3 波動性的環(huán)境
4 復雜問題和大量數(shù)據(jù)
機器學習的種類
分類機器學習算法主要依靠以下幾個標準
1 是否需要人類監(jiān)督(監(jiān)督式學習弱匪,非監(jiān)督式學習,半監(jiān)督式學習,強化學習)
2 是否可以從不斷增長中的數(shù)據(jù)中學習(批量學習和在線學習)
3 是否只是用舊的數(shù)據(jù)點去比較新的數(shù)據(jù)點,還是建立一個預測模型(基于實例學習和基于模型學習)
監(jiān)督式學習中有這些,有些之前在吳恩達機器學習中看到過有些還沒學
k-臨近算法,只是簡單的計算距離
線性回歸
邏輯斯蒂回歸
支持向量機
決策樹和隨機森林 (隨機森林指的是利用多棵樹對樣本進行訓練并預測的一種分類器水慨。)
神經(jīng)網(wǎng)絡
非監(jiān)督式學習
聚集型
k-means
層次聚類分析
期望極大化算法
形象化和降維
PCA
Kernel PCA
Locally-Linear Embedding
t-SNE
關聯(lián)規(guī)則學習
Apriopri
Eclat
非監(jiān)督式學習可以很好的執(zhí)行異常檢測和特征提取等任務
半監(jiān)督式學習可以處理有的有標簽有的沒標簽的那些數(shù)據(jù),許多半監(jiān)督式學習算法是非監(jiān)督式還有監(jiān)督式的結合體敬扛,比如DBNs就是許多RBMs的結合強化學習則是讓學習系統(tǒng)(也被叫做代理人agent)去觀察環(huán)境晰洒,行動之后獲得反饋,他必須靠自己學習去尋找一個好的策略啥箭。
批量學習和在線學習的區(qū)別在于谍珊,一個是一開始就把所有數(shù)據(jù)喂給學習系統(tǒng),讓它一次性學完然后去工作急侥。另一個一點點把數(shù)據(jù)喂給系統(tǒng)砌滞,讓它不斷適應新的數(shù)據(jù)。
基于實例的學習和基于模型的學習
基于實例的學習記住那些樣本坏怪,然后測量新樣本和它們的相似度贝润。比如K-鄰近回歸算法。
基于模型的的學習則是根據(jù)一個模型來進行預測铝宵,一般來說是這樣的:
1.研究數(shù)據(jù)
2.選擇模型
3.使用數(shù)據(jù)對模型進行訓練
4.使用訓練好的模型進行預測
機器學習中可能出現(xiàn)的問題
1.缺乏足夠訓練數(shù)據(jù)打掘,2001年微軟的研究者指出更多的數(shù)據(jù)可以有效的提高預測的準確度。這就表明我們必須重新考慮到底應該在算法研究上投入更多的錢和時間還是在收集數(shù)據(jù)建設語料庫上投入更多的錢和時間捉超。
2.非代表性的線性數(shù)據(jù)胧卤,比如在GDP和幸福感之間關聯(lián)的研究之中,漏掉了很多富有卻不幸福還有幸福但不富裕的國家拼岳,使得整個模型看上去就是一個線性模型枝誊。這種現(xiàn)象的原因可能是認為操作,也可能是取樣方法出現(xiàn)了問題從而導致取樣偏差惜纸。
3.低質(zhì)量的數(shù)據(jù)
如果你的數(shù)據(jù)集到處都是錯誤和漏洞自然訓練不出什么好結果叶撒。
4.不相干的特征
如果你選取的特征和你要預測的內(nèi)容毫不相干自然也是沒法預測的。解決這一問題的方法被稱為特征設計(feature engineering)耐版,首先要選取最有用的特征祠够,其次可以合并已有特征產(chǎn)生更有用的特征,或者獲取新數(shù)據(jù)來增加特征粪牲。
5.過擬合
過擬合主要發(fā)生在模型過于復雜以及數(shù)據(jù)集的干擾噪點太多的時候古瓤,因此主要的解決方法大致是1.簡化模型,使用更少的特征去訓練。2.收集更多數(shù)據(jù)3.通過修復數(shù)據(jù)錯誤以及刪除異常值的方法減少訓練集的噪音落君。
6.欠擬合
與過擬合相反穿香,解決方法大致為
1.選擇更加強大的模型,使用更多參數(shù)
2.通過特征設計(feature engineering)給模型更好的特征去學習
3.減少模型的約束(比如減小正則化的超參數(shù))