LEARNING = REPRESENTATION +EVALUATION + OPTIMIZATION(學習=表示+評估+優(yōu)化)
機器學習有許多可用的學習算法,主要有三個部分組成。
representation表示
一個學習器必須可以表示成可以被計算出的語言斩萌,選擇一個可用的分類器等價于選擇學習的假設空間丁频。一個不在假設空間中的分類器不能被學習犁嗅。
evaluation評估
評估函數(shù)用于區(qū)分分類器的好壞。
optimization優(yōu)化
在眾多的分類器中決定得分高的一個蚊逢, 是提升分類器效率的關鍵缩功。
IT’SGENERALIZATION THAT COUNTS(泛化能力很重要)
機器學習的目標是在訓練集樣例之外的泛化能力晴及。將數(shù)據(jù)集分為訓練集和測試集,訓練集可以采用交叉驗證法進行訓練驗證嫡锌。測試集用于對學習得到的分類器進行評估虑稼。
目標函數(shù)只是真實目標的代替,可以不用完全地優(yōu)化势木,事實上有時局部的優(yōu)化結果比全局的好动雹。
DATA ALONE IS NOT ENOUGH(僅有數(shù)據(jù)是不夠)
針對不同領域,已經(jīng)擁有的可以使機器學習更容易做出選擇的知識跟压,機器學習有歸納偏好。單單從數(shù)據(jù)中學習的結論并不比隨機選擇的結果好(免費午餐定理)歼培。
OVERFITTING HAS MANY FACES(過擬合有很多面孔)
過擬合指的是在訓練數(shù)據(jù)上表現(xiàn)很好震蒋,但在測試數(shù)據(jù)上表現(xiàn)很差茸塞,泛化能力差,主要是由訓練樣本太少或者模型太過復雜以及特征數(shù)過多查剖。
過擬合表現(xiàn)有很多方式钾虐。一種理解過擬合的方式是將泛化錯誤拆分成偏差和方差。偏差表現(xiàn)泛化結果與真實結果之間的差異笋庄,體現(xiàn)模型對數(shù)據(jù)的擬合程度效扫。方差表現(xiàn)數(shù)據(jù)波動的結果,體現(xiàn)問題學習的難度直砂。
減弱抵制過擬合的方式有交叉驗證法以及正則化菌仁。
INTUITION FAILS IN HIGH DIMENSIONS(直覺不適用于高維)
直覺告訴我們,維度越多越好静暂,這樣機器學習會更加精確济丘。但是三維空間的直觀感覺與高維空間是不一樣的:
- 數(shù)據(jù)維度高一般情況下數(shù)據(jù)特征 也會比較高,訓練數(shù)據(jù)就會顯得不夠用洽蛀。
- 即使數(shù)據(jù)夠用摹迷,大量的特征僅有少量的數(shù)據(jù)起著重要作用,多余的特征不但沒有為分類器的學習帶來益處郊供,而且還帶來了噪聲峡碉,使得訓練結果比原來還要差。
- 訓練數(shù)據(jù)即使夠用驮审,在高維許多數(shù)據(jù)特征因為噪聲變得很相近鲫寄。
“blessing of non-uniformity”對此起到了一定的幫助,大概的說在實際應用中大多數(shù)樣例并不均勻的分布地分布在特征空間中头岔,大多集中于分布在低維域塔拳,因此我們可以隱式利用低維空間或者顯示降維。
THEORETICAL GUARANTEES ARE NOT WHAT THEY SEEM(理論保證與看上去的不一樣)
- 邊界保證:給定一個足夠大的訓練集峡竣,告訴你在很大的概率上你的學習器會返回一個成功泛化的假設靠抑,但是無法找到一個保持正確的假設。解決機器學習的可行性問題适掰。
- 漸進保證:給定無窮的數(shù)據(jù)颂碧,學習器將保證輸出正確的分類器。
理論保證就是為了理解类浪,不會在實際運用中起決策作用载城,頂多就是在設計算法的時候給些提示。
FEATURE ENGINEERING IS THE KEY(特征工程是關鍵)
在機器學習工程中特征工程是關鍵费就,也是機器學習工程中主要做的事情诉瓦。在使用機器學習做預測的時候會發(fā)現(xiàn)時間真正消耗不在學習的過程,而是在數(shù)據(jù)的收集,整理睬澡,清理和預處理以及特征設計的試驗與設計固额。機器學習不是一次建立數(shù)據(jù)集并運行學習器的過程,而是反復運行學習器煞聪,分析學習預測結果斗躏,修改調(diào)整數(shù)據(jù)或者學習器的過程。
特征工程越來越困難是因為它是針對特定區(qū)域昔脯,機器學習算法是通用的啄糙。
機器學習傾向于自動化越來越多的特征選擇過程,現(xiàn)在經(jīng)常是通過自動產(chǎn)生大量的具有代表性的特征并根據(jù)信息增益從其中選擇最好的云稚。 同時需要牢記有些特征單獨看上去是不相關的隧饼,當時在組合上是相關的。
MORE DATA BEATS A CLEVERER ALGORITHM(大量數(shù)據(jù)勝過聰明算法)
當構建了最好的特征集之后分類器仍然得不到足夠的準確率碱鳞,有兩種主要的選擇:設計更好的學習算法以及收集更多的數(shù)據(jù)桑李。實際上后者是更快的方式獲得成效。有大量數(shù)據(jù)的笨算法可以勝過數(shù)據(jù)量較少的聰明算法窿给。
機器學習的瓶頸包括時間贵白,內(nèi)存以及訓練數(shù)據(jù)。更多的數(shù)據(jù)意味著更復雜的分類器需要學習崩泡,更聰明的算法更難駕馭禁荒。
LEARN MANY MODELS, NOT JUST ONE(學習很多模型而不僅僅一個)
不同的應用對應不同的最好的分類器。現(xiàn)在選擇最好的學習器是通過嘗試不同的分類器中在其中選擇角撞。研究表明結合不同的學習器可以獲得更好的結果呛伴。
SIMPLICITY DOES NOT IMPLY ACCURACY(簡單并不意味著準確)
奧卡姆剃刀表明沒有必要時不應該增加實體。這在免費午餐理論上不是正確的谒所。(舉了boosted ensemble以及支持向量機的例子热康。通過支持向量機的例子說明模型參數(shù)的數(shù)量與過擬合的趨勢沒有必然聯(lián)系。)
奧卡姆剃刀偏好簡單的假設因為簡單是它的優(yōu)點劣领,與準確度無關姐军。
REPRESENTABLE DOES NOT IMPLY LEARNABLE(可表示不一定可學習)
給定有限的數(shù)據(jù),時間以及內(nèi)存尖淘,標準的學習器只能學習所有可能函數(shù)的子集并且不同學習器的學到的子集不同奕锌,因此可表示的函數(shù)不一定能夠學習到,可以嘗試更多的學習器村生。
CORRELATION DOES NOT IMPLY CAUSATION(相關并不意味著因果)
機器學學習一方面發(fā)現(xiàn)觀測變量之間的相關性惊暴,進一步希望從觀測數(shù)據(jù)發(fā)現(xiàn)因果信息。另一方面趁桃,相關性是因果關系的標志辽话,可以將其作為進一步考察的指南肄鸽。