機器學(xué)習(xí)
1. 定義
- 機器學(xué)習(xí)是多領(lǐng)域交叉學(xué)科瑟捣,機器學(xué)習(xí)從業(yè)者需要掌握一定的編程技能陕悬、數(shù)理統(tǒng)計知識以及相應(yīng)的專業(yè)領(lǐng)域知識习柠。
- 機器學(xué)習(xí)研究的是計算機怎樣模擬人類的學(xué)習(xí)行為疏魏,以獲取新的知識或技能,并重新組織已有的知識結(jié)構(gòu)使之不斷改善自身钳踊。
- 簡而言之衷敌,就是計算機從數(shù)據(jù)中學(xué)習(xí)出規(guī)律和模式,以應(yīng)用在新數(shù)據(jù)上做預(yù)測的任務(wù)拓瞪。
數(shù)據(jù)(Data)缴罗、學(xué)習(xí)算法(Learning Algorithm)、模型(Model)是機器學(xué)習(xí)三要素祭埂,機器學(xué)習(xí)的輸入是數(shù)據(jù)(Data)面氓,學(xué)到的結(jié)果叫模型(Model)。從數(shù)據(jù)中學(xué)得模型這個過程通過執(zhí)行某個學(xué)習(xí)算法(Learning Algorithm)來完成。
由上圖可知:假設(shè)了Ground Truth f的存在舌界,那么學(xué)習(xí)算法要做的就是找出某個映射掘譬,這個映射盡可能得接近f。在實際的訓(xùn)練過程中禀横,學(xué)習(xí)算法會有一個假設(shè)集合(Hypothesis Set屁药,記作H)粥血,這個集合包含所有候選的映射函數(shù)柏锄。學(xué)習(xí)算法做的事情就是從中選出最好的g,使得g越接近f越好复亏。
因此機器學(xué)習(xí)可定義為:A takes D and H to get g(using data to compute hypothesis g that approximates target f)趾娃。
2. 歷史
AI(人工智能)在上世紀中葉就已經(jīng)誕生,1950年缔御,一位名叫馬文·明斯基(后被人稱為“人工智能之父”)的大四學(xué)生與他的同學(xué)鄧恩·埃德蒙一起抬闷,建造了世界上第一臺神經(jīng)網(wǎng)絡(luò)計算機。這也被看做是人工智能的一個起點耕突。巧合的是笤成,同樣是在1950年,被稱為“計算機之父”的阿蘭·圖靈提出了一個舉世矚目的想法——圖靈測試眷茁。
1956年炕泳,在由達特茅斯學(xué)院舉辦的一次會議上,計算機專家約翰·麥卡錫提出了“人工智能”一詞上祈。后來培遵,這被人們看做是人工智能正式誕生的標(biāo)志。就在這次會議后不久登刺,麥卡錫從達特茅斯搬到了MIT籽腕。同年,明斯基也搬到了這里纸俭,之后兩人共同創(chuàng)建了世界上第一座人工智能實驗室——MIT AI LAB實驗室皇耗。
二十世紀80年代,機器學(xué)習(xí)成為一個獨立的科學(xué)領(lǐng)域揍很,各種機器學(xué)習(xí)技術(shù)百花初綻郎楼。機器學(xué)習(xí)是人工智能領(lǐng)域中最能夠體現(xiàn)智能的一個分支,也是發(fā)展最快的一個分支女轿。機器學(xué)習(xí)有兩大主流:
符號主義學(xué)習(xí):其代表包括決策樹和基于邏輯的學(xué)習(xí)(事實上箭启,機器學(xué)習(xí)在20世紀80年代正是被視為“解決公式工程瓶頸問題的關(guān)鍵”而走上人工智能主舞臺的)。
基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí):代表性技術(shù)是支持 向量機以及更一般的“核方法”蛉迹。我們目前所說的機器學(xué)習(xí)方法傅寡,一般認為是統(tǒng)計機器學(xué)習(xí)方法。
2010年前后,隨著大數(shù)據(jù)和計算機性能的提升荐操,機器學(xué)習(xí)的新方向深度學(xué)習(xí)開始爆發(fā)芜抒。
3. 機器學(xué)習(xí)工作流程
機器學(xué)習(xí)工作流程一般分為四步:
- 數(shù)據(jù)預(yù)處理
- 機器學(xué)習(xí)、訓(xùn)練模型
- 模型評估
- 預(yù)測新數(shù)據(jù)
4. 機器學(xué)習(xí)分類
?根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)注托启,機器學(xué)習(xí)問題大致劃分為監(jiān)督學(xué)習(xí)(Supervised Learning)和無監(jiān)督學(xué)習(xí)(Unsupervised Learning)兩大類:
- 監(jiān)督學(xué)習(xí):每個輸入樣本都有標(biāo)注宅倒,這些標(biāo)注就像老師的標(biāo)準(zhǔn)答案一樣”監(jiān)督“著學(xué)習(xí)的過程。而監(jiān)督學(xué)習(xí)又大致分成兩類:分類(Classification)和回歸(Regression):
- 分類問題:標(biāo)注是離散值屯耸,比如用戶”點擊“和”不點擊“拐迁。如果標(biāo)注只有兩個值,則稱為二分類疗绣,如果標(biāo)注有多個值线召,則稱為多分類。
- 回歸問題:標(biāo)注是連續(xù)值多矮,比如如果問題是預(yù)測北京市房屋的價格缓淹,價格作為標(biāo)注就是一個連續(xù)值,屬于回歸問題塔逃。
- 無監(jiān)督學(xué)習(xí):訓(xùn)練樣本沒有標(biāo)注讯壶,無監(jiān)督學(xué)習(xí)解決的典型問題是聚類(clustering)問題。比如對一個網(wǎng)站的用戶進行聚類湾盗,看看這個網(wǎng)站用戶的大致構(gòu)成伏蚊,分析下每類用戶群的特點是什么。
此外淹仑,機器學(xué)習(xí)還有其他的類別丙挽,比如半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)匀借、深度學(xué)習(xí)颜阐、增強學(xué)習(xí):
- 半監(jiān)督學(xué)習(xí):這類問題給出的訓(xùn)練數(shù)據(jù),有一部分有標(biāo)簽吓肋,有一部分沒有標(biāo)簽凳怨。我們想學(xué)習(xí)出數(shù)據(jù)組織結(jié)構(gòu)的同時,也能做相應(yīng)的預(yù)測是鬼。此類問題相對應(yīng)的機器學(xué)習(xí)算法有自訓(xùn)練(Self-Training)肤舞、直推學(xué)習(xí)(Transductive Learning)、生成式模型(Generative Model)等均蜜。
機器學(xué)習(xí)常見算法如下圖所示(詳細分類見博客:http://blog.csdn.net/han_xiaoyang/article/details/50469334):
機器學(xué)習(xí)算法選擇流程如下圖: