機器學習推薦文章:A Few Useful Things to Know about Machine Learning

LEARNING = REPRESENTATION +EVALUATION + OPTIMIZATION(學習=表示+評估+優(yōu)化)

機器學習有許多可用的學習算法,主要有三個部分組成。

representation表示

一個學習器必須可以表示成可以被計算出的語言斩萌,選擇一個可用的分類器等價于選擇學習的假設空間丁频。一個不在假設空間中的分類器不能被學習犁嗅。

evaluation評估

評估函數(shù)用于區(qū)分分類器的好壞。

optimization優(yōu)化

在眾多的分類器中決定得分高的一個蚊逢, 是提升分類器效率的關鍵缩功。


機器學習算法的三個組成部分

IT’SGENERALIZATION THAT COUNTS(泛化能力很重要)

機器學習的目標是在訓練集樣例之外的泛化能力晴及。將數(shù)據(jù)集分為訓練集和測試集,訓練集可以采用交叉驗證法進行訓練驗證嫡锌。測試集用于對學習得到的分類器進行評估虑稼。
目標函數(shù)只是真實目標的代替,可以不用完全地優(yōu)化势木,事實上有時局部的優(yōu)化結果比全局的好动雹。

DATA ALONE IS NOT ENOUGH(僅有數(shù)據(jù)是不夠)

針對不同領域,已經(jīng)擁有的可以使機器學習更容易做出選擇的知識跟压,機器學習有歸納偏好。單單從數(shù)據(jù)中學習的結論并不比隨機選擇的結果好(免費午餐定理)歼培。

OVERFITTING HAS MANY FACES(過擬合有很多面孔)

過擬合指的是在訓練數(shù)據(jù)上表現(xiàn)很好震蒋,但在測試數(shù)據(jù)上表現(xiàn)很差茸塞,泛化能力差,主要是由訓練樣本太少或者模型太過復雜以及特征數(shù)過多查剖。
過擬合表現(xiàn)有很多方式钾虐。一種理解過擬合的方式是將泛化錯誤拆分成偏差和方差。偏差表現(xiàn)泛化結果與真實結果之間的差異笋庄,體現(xiàn)模型對數(shù)據(jù)的擬合程度效扫。方差表現(xiàn)數(shù)據(jù)波動的結果,體現(xiàn)問題學習的難度直砂。
減弱抵制過擬合的方式有交叉驗證法以及正則化菌仁。

INTUITION FAILS IN HIGH DIMENSIONS(直覺不適用于高維)

直覺告訴我們,維度越多越好静暂,這樣機器學習會更加精確济丘。但是三維空間的直觀感覺與高維空間是不一樣的:

  • 數(shù)據(jù)維度高一般情況下數(shù)據(jù)特征 也會比較高,訓練數(shù)據(jù)就會顯得不夠用洽蛀。
  • 即使數(shù)據(jù)夠用摹迷,大量的特征僅有少量的數(shù)據(jù)起著重要作用,多余的特征不但沒有為分類器的學習帶來益處郊供,而且還帶來了噪聲峡碉,使得訓練結果比原來還要差。
  • 訓練數(shù)據(jù)即使夠用驮审,在高維許多數(shù)據(jù)特征因為噪聲變得很相近鲫寄。

“blessing of non-uniformity”對此起到了一定的幫助,大概的說在實際應用中大多數(shù)樣例并不均勻的分布地分布在特征空間中头岔,大多集中于分布在低維域塔拳,因此我們可以隱式利用低維空間或者顯示降維。

THEORETICAL GUARANTEES ARE NOT WHAT THEY SEEM(理論保證與看上去的不一樣)

  • 邊界保證:給定一個足夠大的訓練集峡竣,告訴你在很大的概率上你的學習器會返回一個成功泛化的假設靠抑,但是無法找到一個保持正確的假設。解決機器學習的可行性問題适掰。
  • 漸進保證:給定無窮的數(shù)據(jù)颂碧,學習器將保證輸出正確的分類器。

理論保證就是為了理解类浪,不會在實際運用中起決策作用载城,頂多就是在設計算法的時候給些提示。

FEATURE ENGINEERING IS THE KEY(特征工程是關鍵)

在機器學習工程中特征工程是關鍵费就,也是機器學習工程中主要做的事情诉瓦。在使用機器學習做預測的時候會發(fā)現(xiàn)時間真正消耗不在學習的過程,而是在數(shù)據(jù)的收集,整理睬澡,清理和預處理以及特征設計的試驗與設計固额。機器學習不是一次建立數(shù)據(jù)集并運行學習器的過程,而是反復運行學習器煞聪,分析學習預測結果斗躏,修改調(diào)整數(shù)據(jù)或者學習器的過程。
特征工程越來越困難是因為它是針對特定區(qū)域昔脯,機器學習算法是通用的啄糙。
機器學習傾向于自動化越來越多的特征選擇過程,現(xiàn)在經(jīng)常是通過自動產(chǎn)生大量的具有代表性的特征并根據(jù)信息增益從其中選擇最好的云稚。 同時需要牢記有些特征單獨看上去是不相關的隧饼,當時在組合上是相關的。

MORE DATA BEATS A CLEVERER ALGORITHM(大量數(shù)據(jù)勝過聰明算法)

當構建了最好的特征集之后分類器仍然得不到足夠的準確率碱鳞,有兩種主要的選擇:設計更好的學習算法以及收集更多的數(shù)據(jù)桑李。實際上后者是更快的方式獲得成效。有大量數(shù)據(jù)的笨算法可以勝過數(shù)據(jù)量較少的聰明算法窿给。
機器學習的瓶頸包括時間贵白,內(nèi)存以及訓練數(shù)據(jù)。更多的數(shù)據(jù)意味著更復雜的分類器需要學習崩泡,更聰明的算法更難駕馭禁荒。

LEARN MANY MODELS, NOT JUST ONE(學習很多模型而不僅僅一個)

不同的應用對應不同的最好的分類器。現(xiàn)在選擇最好的學習器是通過嘗試不同的分類器中在其中選擇角撞。研究表明結合不同的學習器可以獲得更好的結果呛伴。

SIMPLICITY DOES NOT IMPLY ACCURACY(簡單并不意味著準確)

奧卡姆剃刀表明沒有必要時不應該增加實體。這在免費午餐理論上不是正確的谒所。(舉了boosted ensemble以及支持向量機的例子热康。通過支持向量機的例子說明模型參數(shù)的數(shù)量與過擬合的趨勢沒有必然聯(lián)系。)
奧卡姆剃刀偏好簡單的假設因為簡單是它的優(yōu)點劣领,與準確度無關姐军。

REPRESENTABLE DOES NOT IMPLY LEARNABLE(可表示不一定可學習)

給定有限的數(shù)據(jù),時間以及內(nèi)存尖淘,標準的學習器只能學習所有可能函數(shù)的子集并且不同學習器的學到的子集不同奕锌,因此可表示的函數(shù)不一定能夠學習到,可以嘗試更多的學習器村生。

CORRELATION DOES NOT IMPLY CAUSATION(相關并不意味著因果)

機器學學習一方面發(fā)現(xiàn)觀測變量之間的相關性惊暴,進一步希望從觀測數(shù)據(jù)發(fā)現(xiàn)因果信息。另一方面趁桃,相關性是因果關系的標志辽话,可以將其作為進一步考察的指南肄鸽。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市屡穗,隨后出現(xiàn)的幾起案子贴捡,更是在濱河造成了極大的恐慌,老刑警劉巖村砂,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異屹逛,居然都是意外死亡础废,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門罕模,熙熙樓的掌柜王于貴愁眉苦臉地迎上來评腺,“玉大人,你說我怎么就攤上這事淑掌≥锛ィ” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵抛腕,是天一觀的道長芋绸。 經(jīng)常有香客問我,道長担敌,這世上最難降的妖魔是什么摔敛? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮全封,結果婚禮上马昙,老公的妹妹穿的比我還像新娘。我一直安慰自己刹悴,他們只是感情好行楞,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著土匀,像睡著了一般子房。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上恒削,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天池颈,我揣著相機與錄音,去河邊找鬼钓丰。 笑死躯砰,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的携丁。 我是一名探鬼主播琢歇,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼兰怠,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了李茫?” 一聲冷哼從身側響起揭保,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎魄宏,沒想到半個月后秸侣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡宠互,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年味榛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片予跌。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡搏色,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出券册,到底是詐尸還是另有隱情频轿,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布烁焙,位于F島的核電站航邢,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏考阱。R本人自食惡果不足惜翠忠,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望乞榨。 院中可真熱鬧秽之,春花似錦、人聲如沸吃既。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽鹦倚。三九已至河质,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間震叙,已是汗流浹背掀鹅。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留媒楼,地道東北人乐尊。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像划址,于是被迫代替她去往敵國和親扔嵌。 傳聞我的和親對象是個殘疾皇子限府,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容