從機(jī)器學(xué)習(xí)談起

0.前言##

機(jī)器學(xué)習(xí)[Machine Learning]在當(dāng)今社會(huì)的火熱程度有目共睹丢早，自己也一直想寫一下自己對(duì)Machine Learning(簡(jiǎn)稱ML)的認(rèn)識(shí)宛篇，今天偶然看到一篇關(guān)于介紹機(jī)器學(xué)習(xí)的文章坦袍，自己覺得寫得非常好，于是將其重新排版放到了這里，為的是跟簡(jiǎn)書的朋友們一塊分享。

首先坐慰，給出自己對(duì)機(jī)器學(xué)習(xí)與其它領(lǐng)域之間聯(lián)系的認(rèn)識(shí)，這是我在學(xué)習(xí)的過程中逐漸一點(diǎn)點(diǎn)豐富的附井，現(xiàn)在仍然在修改完善中讨越，有不準(zhǔn)確的地方，歡迎評(píng)論中指出永毅。

個(gè)人機(jī)器學(xué)習(xí)認(rèn)識(shí)

在進(jìn)入正題前把跨，我想讀者心中可能會(huì)有一個(gè)疑惑：機(jī)器學(xué)習(xí)有什么重要性，以至于要閱讀完這篇非常長(zhǎng)的文章呢沼死？【我估算一下着逐，讀完該篇文章大約20分鐘，但絕對(duì)值得一讀】

我并不直接回答這個(gè)問題前意蛀。相反耸别，我想請(qǐng)大家看兩張圖，下圖是圖一：

圖1 機(jī)器學(xué)習(xí)界的執(zhí)牛耳者與互聯(lián)網(wǎng)界的大鱷的聯(lián)姻

這幅圖上上的三人是當(dāng)今機(jī)器學(xué)習(xí)界的執(zhí)牛耳者县钥。中間的是Geoffrey Hinton, 加拿大多倫多大學(xué)的教授秀姐，如今被聘為“Google大腦”的負(fù)責(zé)人。右邊的是Yann LeCun, 紐約大學(xué)教授若贮，如今是Facebook人工智能實(shí)驗(yàn)室的主任省有。而左邊的大家都很熟悉痒留，Andrew Ng，中文名吳恩達(dá)蠢沿，斯坦福大學(xué)副教授伸头，如今也是“百度大腦”的負(fù)責(zé)人與百度首席科學(xué)家舷蟀。這三位都是目前業(yè)界炙手可熱的大牛旬牲，被互聯(lián)網(wǎng)界大鱷求賢若渴的聘請(qǐng)晌区，足見他們的重要性。而他們的研究方向垂券，則全部都是機(jī)器學(xué)習(xí)的子類--深度學(xué)習(xí)近速。

下圖是圖二：

圖2 語(yǔ)音助手產(chǎn)品

這幅圖上描述的是什么爆袍？Windows Phone上的語(yǔ)音助手Cortana，名字來源于《光環(huán)》中士官長(zhǎng)的助手扰才。相比其他競(jìng)爭(zhēng)對(duì)手，微軟很遲才推出這個(gè)服務(wù)斥季。Cortana背后的核心技術(shù)是什么训桶，為什么它能夠聽懂人的語(yǔ)音？事實(shí)上酣倾，這個(gè)技術(shù)正是機(jī)器學(xué)習(xí)舵揭。機(jī)器學(xué)習(xí)是所有語(yǔ)音助手產(chǎn)品(包括Apple的siri與Google的Now)能夠跟人交互的關(guān)鍵技術(shù)。

通過上面兩圖躁锡，我相信大家可以看出機(jī)器學(xué)習(xí)似乎是一個(gè)很重要的午绳，有很多未知特性的技術(shù)。學(xué)習(xí)它似乎是一件有趣的任務(wù)映之。實(shí)際上拦焚，學(xué)習(xí)機(jī)器學(xué)習(xí)不僅可以幫助我們了解互聯(lián)網(wǎng)界最新的趨勢(shì)蜡坊，同時(shí)也可以知道伴隨我們的便利服務(wù)的實(shí)現(xiàn)技術(shù)。

　　機(jī)器學(xué)習(xí)是什么赎败，為什么它能有這么大的魔力秕衙，這些問題正是本文要回答的。同時(shí)僵刮，本文叫做“從機(jī)器學(xué)習(xí)談起”据忘，因此會(huì)以漫談的形式介紹跟機(jī)器學(xué)習(xí)相關(guān)的所有內(nèi)容，包括學(xué)科(如數(shù)據(jù)挖掘搞糕、計(jì)算機(jī)視覺等)勇吊，算法(神經(jīng)網(wǎng)絡(luò)，svm)等等

本文的主要目錄如下：

1.一個(gè)故事說明什么是機(jī)器學(xué)習(xí)

2.機(jī)器學(xué)習(xí)的定義

3.機(jī)器學(xué)習(xí)的范圍

4.機(jī)器學(xué)習(xí)的方法

5.機(jī)器學(xué)習(xí)的應(yīng)用--大數(shù)據(jù)

6.機(jī)器學(xué)習(xí)的子類--深度學(xué)習(xí)

7.機(jī)器學(xué)習(xí)的父類--人工智能

8.機(jī)器學(xué)習(xí)的思考--計(jì)算機(jī)的潛意識(shí)

9.總結(jié)

10.后記

1.一個(gè)故事說明什么是機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)這個(gè)詞是讓人疑惑的窍仰，首先它是英文名稱Machine Learning(簡(jiǎn)稱ML)的直譯汉规，在計(jì)算界Machine一般指計(jì)算機(jī)。這個(gè)名字使用了擬人的手法驹吮，說明了這門技術(shù)是讓機(jī)器“學(xué)習(xí)”的技術(shù)针史。但是計(jì)算機(jī)是死的，怎么可能像人類一樣“學(xué)習(xí)”呢钥屈？

傳統(tǒng)上如果我們想讓計(jì)算機(jī)工作悟民，我們給它一串指令，然后它遵照這個(gè)指令一步步執(zhí)行下去篷就。有因有果射亏，非常明確。但這樣的方式在機(jī)器學(xué)習(xí)中行不通竭业。機(jī)器學(xué)習(xí)根本不接受你輸入的指令智润，相反，它接受你輸入的數(shù)據(jù)! 也就是說未辆，機(jī)器學(xué)習(xí)是一種讓計(jì)算機(jī)利用數(shù)據(jù)而不是指令來進(jìn)行各種工作的方法窟绷。這聽起來非常不可思議，但結(jié)果上卻是非掣拦瘢可行的兼蜈。“統(tǒng)計(jì)”思想將在你學(xué)習(xí)“機(jī)器學(xué)習(xí)”相關(guān)理念時(shí)無(wú)時(shí)無(wú)刻不伴隨拙友，相關(guān)而不是因果的概念將是支撐機(jī)器學(xué)習(xí)能夠工作的核心概念为狸。你會(huì)顛覆對(duì)你以前所有程序中建立的因果無(wú)處不在的根本理念。

下面我通過一個(gè)故事來簡(jiǎn)單地闡明什么是機(jī)器學(xué)習(xí)遗契。這個(gè)故事比較適合用在知乎上作為一個(gè)概念的闡明辐棒。在這里，這個(gè)故事沒有展開，但相關(guān)內(nèi)容與核心是存在的漾根。如果你想簡(jiǎn)單的了解一下什么是機(jī)器學(xué)習(xí)泰涂，那么看完這個(gè)故事就足夠了。如果你想了解機(jī)器學(xué)習(xí)的更多知識(shí)以及與它關(guān)聯(lián)緊密的當(dāng)代技術(shù)辐怕，那么請(qǐng)你繼續(xù)往下看逼蒙，后面有更多的豐富的內(nèi)容。

這個(gè)例子來源于我真實(shí)的生活經(jīng)驗(yàn)寄疏，我在思考這個(gè)問題的時(shí)候突然發(fā)現(xiàn)它的過程可以被擴(kuò)充化為一個(gè)完整的機(jī)器學(xué)習(xí)的過程其做，因此我決定使用這個(gè)例子作為所有介紹的開始。這個(gè)故事稱為“等人問題”赁还。

我相信大家都有跟別人相約，然后等人的經(jīng)歷【匝兀現(xiàn)實(shí)中不是每個(gè)人都那么守時(shí)的艘策，于是當(dāng)你碰到一些愛遲到的人，你的時(shí)間不可避免的要浪費(fèi)渊季。我就碰到過這樣的一個(gè)例子朋蔫。

對(duì)我的一個(gè)朋友小Y而言，他就不是那么守時(shí)却汉，最常見的表現(xiàn)是他經(jīng)常遲到驯妄。當(dāng)有一次我跟他約好3點(diǎn)鐘在某個(gè)麥當(dāng)勞見面時(shí)，在我出門的那一刻我突然想到一個(gè)問題：我現(xiàn)在出發(fā)合適么合砂？我會(huì)不會(huì)又到了地點(diǎn)后青扔，花上30分鐘去等他？我決定采取一個(gè)策略解決這個(gè)問題翩伪。

要想解決這個(gè)問題微猖，有好幾種方法。第一種方法是采用知識(shí)：我搜尋能夠解決這個(gè)問題的知識(shí)缘屹。但很遺憾凛剥，沒有人會(huì)把如何等人這個(gè)問題作為知識(shí)傳授，因此我不可能找到已有的知識(shí)能夠解決這個(gè)問題轻姿。第二種方法是問他人：我去詢問他人獲得解決這個(gè)問題的能力犁珠。但是同樣的，這個(gè)問題沒有人能夠解答互亮，因?yàn)榭赡軟]人碰上跟我一樣的情況犁享。第三種方法是準(zhǔn)則法：我問自己的內(nèi)心，我有否設(shè)立過什么準(zhǔn)則去面對(duì)這個(gè)問題胳挎？例如饼疙，無(wú)論別人如何，我都會(huì)守時(shí)到達(dá)。但我不是個(gè)死板的人窑眯，我沒有設(shè)立過這樣的規(guī)則屏积。

事實(shí)上，我相信有種方法比以上三種都合適磅甩。我把過往跟小Y相約的經(jīng)歷在腦海中重現(xiàn)一下炊林，看看跟他相約的次數(shù)中，遲到占了多大的比例卷要。而我利用這來預(yù)測(cè)他這次遲到的可能性渣聚。如果這個(gè)值超出了我心里的某個(gè)界限，那我選擇等一會(huì)再出發(fā)僧叉。假設(shè)我跟小Y約過5次奕枝，他遲到的次數(shù)是1次，那么他按時(shí)到的比例為80%瓶堕，我心中的閾值為70%隘道，我認(rèn)為這次小Y應(yīng)該不會(huì)遲到，因此我按時(shí)出門郎笆。如果小Y在5次遲到的次數(shù)中占了4次谭梗，也就是他按時(shí)到達(dá)的比例為20%，由于這個(gè)值低于我的閾值宛蚓，因此我選擇推遲出門的時(shí)間激捏。這個(gè)方法從它的利用層面來看，又稱為經(jīng)驗(yàn)法凄吏。在經(jīng)驗(yàn)法的思考過程中远舅，我事實(shí)上利用了以往所有相約的數(shù)據(jù)。因此也可以稱之為依據(jù)數(shù)據(jù)做的判斷痕钢。

依據(jù)數(shù)據(jù)所做的判斷跟機(jī)器學(xué)習(xí)的思想根本上是一致的表谊。

剛才的思考過程我只考慮“頻次”這種屬性。在真實(shí)的機(jī)器學(xué)習(xí)中盖喷，這可能都不算是一個(gè)應(yīng)用爆办。一般的機(jī)器學(xué)習(xí)模型至少考慮兩個(gè)量：一個(gè)是因變量，也就是我們希望預(yù)測(cè)的結(jié)果课梳，在這個(gè)例子里就是小Y遲到與否的判斷距辆。另一個(gè)是自變量，也就是用來預(yù)測(cè)小Y是否遲到的量暮刃。假設(shè)我把時(shí)間作為自變量跨算，譬如我發(fā)現(xiàn)小Y所有遲到的日子基本都是星期五，而在非星期五情況下他基本不遲到椭懊。于是我可以建立一個(gè)模型诸蚕，來模擬小Y遲到與否跟日子是否是星期五的概率。見下圖：

圖3 決策樹模型

這樣的圖就是一個(gè)最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型，稱之為決策樹背犯。

當(dāng)我們考慮的自變量只有一個(gè)時(shí)坏瘩，情況較為簡(jiǎn)單。如果把我們的自變量再增加一個(gè)漠魏。例如小Y遲到的部分情況時(shí)是在他開車過來的時(shí)候(你可以理解為他開車水平較臭倔矾，或者路較堵)。于是我可以關(guān)聯(lián)考慮這些信息柱锹。建立一個(gè)更復(fù)雜的模型哪自，這個(gè)模型包含兩個(gè)自變量與一個(gè)因變量。

再更復(fù)雜一點(diǎn)禁熏，小Y的遲到跟天氣也有一定的原因壤巷，例如下雨的時(shí)候，這時(shí)候我需要考慮三個(gè)自變量瞧毙。

如果我希望能夠預(yù)測(cè)小Y遲到的具體時(shí)間隙笆，我可以把他每次遲到的時(shí)間跟雨量的大小以及前面考慮的自變量統(tǒng)一建立一個(gè)模型。于是我的模型可以預(yù)測(cè)值升筏，例如他大概會(huì)遲到幾分鐘。這樣可以幫助我更好的規(guī)劃我出門的時(shí)間瘸爽。在這樣的情況下您访，決策樹就無(wú)法很好地支撐了，因?yàn)闆Q策樹只能預(yù)測(cè)離散值剪决。我們可以用節(jié)2所介紹的線型回歸方法建立這個(gè)模型灵汪。

如果我把這些建立模型的過程交給電腦。比如把所有的自變量和因變量輸入柑潦，然后讓計(jì)算機(jī)幫我生成一個(gè)模型享言，同時(shí)讓計(jì)算機(jī)根據(jù)我當(dāng)前的情況，給出我是否需要遲出門渗鬼，需要遲幾分鐘的建議览露。那么計(jì)算機(jī)執(zhí)行這些輔助決策的過程就是機(jī)器學(xué)習(xí)的過程。

機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)利用已有的數(shù)據(jù)(經(jīng)驗(yàn))譬胎，得出了某種模型(遲到的規(guī)律)差牛，并利用此模型預(yù)測(cè)未來(是否遲到)的一種方法。

通過上面的分析堰乔，可以看出機(jī)器學(xué)習(xí)與人類思考的經(jīng)驗(yàn)過程是類似的偏化，不過它能考慮更多的情況，執(zhí)行更加復(fù)雜的計(jì)算镐侯。事實(shí)上侦讨，機(jī)器學(xué)習(xí)的一個(gè)主要目的就是把人類思考?xì)w納經(jīng)驗(yàn)的過程轉(zhuǎn)化為計(jì)算機(jī)通過對(duì)數(shù)據(jù)的處理計(jì)算得出模型的過程。經(jīng)過計(jì)算機(jī)得出的模型能夠以近似于人的方式解決很多靈活復(fù)雜的問題。

下面韵卤，我會(huì)開始對(duì)機(jī)器學(xué)習(xí)的正式介紹骗污，包括定義、范圍怜俐，方法身堡、應(yīng)用等等，都有所包含拍鲤。

2.機(jī)器學(xué)習(xí)的定義

從廣義上來說贴谎，機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無(wú)法完成的功能的方法。但從實(shí)踐的意義上來說季稳，機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù)擅这，訓(xùn)練出模型，然后使用模型預(yù)測(cè)的一種方法景鼠。

讓我們具體看一個(gè)例子仲翎。

圖4 房?jī)r(jià)的例子

拿國(guó)民話題的房子來說。現(xiàn)在我手里有一棟房子需要售賣铛漓，我應(yīng)該給它標(biāo)上多大的價(jià)格溯香？房子的面積是100平方米，價(jià)格是100萬(wàn)浓恶，120萬(wàn)玫坛，還是140萬(wàn)？

很顯然包晰，我希望獲得房?jī)r(jià)與面積的某種規(guī)律湿镀。那么我該如何獲得這個(gè)規(guī)律？用報(bào)紙上的房?jī)r(jià)平均數(shù)據(jù)么伐憾？還是參考別人面積相似的勉痴？無(wú)論哪種，似乎都并不是太靠譜树肃。

我現(xiàn)在希望獲得一個(gè)合理的蒸矛，并且能夠最大程度的反映面積與房?jī)r(jià)關(guān)系的規(guī)律。于是我調(diào)查了周邊與我房型類似的一些房子胸嘴，獲得一組數(shù)據(jù)莉钙。這組數(shù)據(jù)中包含了大大小小房子的面積與價(jià)格，如果我能從這組數(shù)據(jù)中找出面積與價(jià)格的規(guī)律筛谚，那么我就可以得出房子的價(jià)格磁玉。

對(duì)規(guī)律的尋找很簡(jiǎn)單，擬合出一條直線驾讲，讓它“穿過”所有的點(diǎn)蚊伞，并且與各個(gè)點(diǎn)的距離盡可能的小席赂。

通過這條直線，我獲得了一個(gè)能夠最佳反映房?jī)r(jià)與面積規(guī)律的規(guī)律时迫。這條直線同時(shí)也是一個(gè)下式所表明的函數(shù)：

　房?jī)r(jià) = 面積 * a + b

上述中的a颅停、b都是直線的參數(shù)。獲得這些參數(shù)以后掠拳，我就可以計(jì)算出房子的價(jià)格吏恭。

假設(shè)a = 0.75,b = 50辙谜，則房?jī)r(jià) = 100 * 0.75 + 50 = 125萬(wàn)。這個(gè)結(jié)果與我前面所列的100萬(wàn)，120萬(wàn)息裸，140萬(wàn)都不一樣顶滩。由于這條直線綜合考慮了大部分的情況铃诬，因此從“統(tǒng)計(jì)”意義上來說贿肩，這是一個(gè)最合理的預(yù)測(cè)。

在求解過程中透露出了兩個(gè)信息：

1.房?jī)r(jià)模型是根據(jù)擬合的函數(shù)類型決定的聂使。如果是直線壁拉，那么擬合出的就是直線方程。如果是其他類型的線柏靶，例如拋物線弃理，那么擬合出的就是拋物線方程。機(jī)器學(xué)習(xí)有眾多算法屎蜓，一些強(qiáng)力算法可以擬合出復(fù)雜的非線性模型痘昌，用來反映一些不是直線所能表達(dá)的情況。

2.如果我的數(shù)據(jù)越多梆靖，我的模型就越能夠考慮到越多的情況，由此對(duì)于新情況的預(yù)測(cè)效果可能就越好笔诵。這是機(jī)器學(xué)習(xí)界“數(shù)據(jù)為王”思想的一個(gè)體現(xiàn)返吻。一般來說(不是絕對(duì))，數(shù)據(jù)越多乎婿，最后機(jī)器學(xué)習(xí)生成的模型預(yù)測(cè)的效果越好测僵。

通過我擬合直線的過程，我們可以對(duì)機(jī)器學(xué)習(xí)過程做一個(gè)完整的回顧谢翎。首先捍靠，我們需要在計(jì)算機(jī)中存儲(chǔ)歷史的數(shù)據(jù)。接著森逮，我們將這些數(shù)據(jù)通過機(jī)器學(xué)習(xí)算法進(jìn)行處理榨婆，這個(gè)過程在機(jī)器學(xué)習(xí)中叫做“訓(xùn)練”，處理的結(jié)果可以被我們用來對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)褒侧，這個(gè)結(jié)果一般稱之為“模型”良风。對(duì)新數(shù)據(jù) 的預(yù)測(cè)過程在機(jī)器學(xué)習(xí)中叫做“預(yù)測(cè)”谊迄。“訓(xùn)練”與“預(yù)測(cè)”是機(jī)器學(xué)習(xí)的兩個(gè)過程烟央，“模型”則是過程的中間輸出結(jié)果统诺，“訓(xùn)練”產(chǎn)生“模型”，“模型”指導(dǎo) “預(yù)測(cè)”疑俭。

讓我們把機(jī)器學(xué)習(xí)的過程與人類對(duì)歷史經(jīng)驗(yàn)歸納的過程做個(gè)比對(duì)粮呢。

圖5 機(jī)器學(xué)習(xí)與人類思考的類比

人類在成長(zhǎng)、生活過程中積累了很多的歷史與經(jīng)驗(yàn)钞艇。人類定期地對(duì)這些經(jīng)驗(yàn)進(jìn)行“歸納”啄寡，獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問題或者需要對(duì)未來進(jìn)行“推測(cè)”的時(shí)候香璃，人類使用這些“規(guī)律”这难，對(duì)未知問題與未來進(jìn)行“推測(cè)”，從而指導(dǎo)自己的生活和工作葡秒。

機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過程可以對(duì)應(yīng)到人類的“歸納”和“推測(cè)”過程姻乓。通過這樣的對(duì)應(yīng)，我們可以發(fā)現(xiàn)眯牧，機(jī)器學(xué)習(xí)的思想并不復(fù)雜蹋岩，僅僅是對(duì)人類在生活中學(xué)習(xí)成長(zhǎng)的一個(gè)模擬。由于機(jī)器學(xué)習(xí)不是基于編程形成的結(jié)果学少，因此它的處理過程不是因果的邏輯剪个，而是通過歸納思想得出的相關(guān)性結(jié)論。

這也可以聯(lián)想到人類為什么要學(xué)習(xí)歷史版确，歷史實(shí)際上是人類過往經(jīng)驗(yàn)的總結(jié)扣囊。有句話說得很好，“歷史往往不一樣绒疗，但歷史總是驚人的相似”侵歇。通過學(xué)習(xí)歷史，我們從歷史中歸納出人生與國(guó)家的規(guī)律吓蘑，從而指導(dǎo)我們的下一步工作惕虑，這是具有莫大價(jià)值的。當(dāng)代一些人忽視了歷史的本來價(jià)值磨镶，而是把其作為一種宣揚(yáng)功績(jī)的手段溃蔫，這其實(shí)是對(duì)歷史真實(shí)價(jià)值的一種誤用。

3.機(jī)器學(xué)習(xí)的范圍

上文雖然說明了機(jī)器學(xué)習(xí)是什么琳猫，但是并沒有給出機(jī)器學(xué)習(xí)的范圍伟叛。

其實(shí)，機(jī)器學(xué)習(xí)跟模式識(shí)別脐嫂，統(tǒng)計(jì)學(xué)習(xí)痪伦，數(shù)據(jù)挖掘侄榴，計(jì)算機(jī)視覺，語(yǔ)音識(shí)別网沾，自然語(yǔ)言處理等領(lǐng)域有著很深的聯(lián)系癞蚕。

從范圍上來說，機(jī)器學(xué)習(xí)跟模式識(shí)別辉哥，統(tǒng)計(jì)學(xué)習(xí)桦山，數(shù)據(jù)挖掘是類似的，同時(shí)醋旦，機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合恒水，形成了計(jì)算機(jī)視覺、語(yǔ)音識(shí)別饲齐、自然語(yǔ)言處理等交叉學(xué)科钉凌。因此，一般說數(shù)據(jù)挖掘時(shí)捂人，可以等同于說機(jī)器學(xué)習(xí)御雕。同時(shí)，我們平常所說的機(jī)器學(xué)習(xí)應(yīng)用滥搭，應(yīng)該是通用的酸纲，不僅僅局限在結(jié)構(gòu)化數(shù)據(jù)，還有圖像瑟匆，音頻等應(yīng)用闽坡。　　在這節(jié)對(duì)機(jī)器學(xué)習(xí)這些相關(guān)領(lǐng)域的介紹有助于我們理清機(jī)器學(xué)習(xí)的應(yīng)用場(chǎng)景與研究范圍愁溜，更好的理解后面的算法與應(yīng)用層次疾嗅。

下圖是機(jī)器學(xué)習(xí)所牽扯的一些相關(guān)范圍的學(xué)科與研究領(lǐng)域。

圖6 機(jī)器學(xué)習(xí)與相關(guān)學(xué)科

模式識(shí)別

模式識(shí)別=機(jī)器學(xué)習(xí)冕象。兩者的主要區(qū)別在于前者是從工業(yè)界發(fā)展起來的概念代承，后者則主要源自計(jì)算機(jī)學(xué)科。在著名的《Pattern Recognition And Machine Learning》這本書中交惯，Christopher M. Bishop在開頭是這樣說的“模式識(shí)別源自工業(yè)界次泽，而機(jī)器學(xué)習(xí)來自于計(jì)算機(jī)學(xué)科穿仪。不過席爽，它們中的活動(dòng)可以被視為同一個(gè)領(lǐng)域的兩個(gè)方面，同時(shí)在過去的10年間啊片，它們都有了長(zhǎng)足的發(fā)展”只锻。

數(shù)據(jù)挖掘

數(shù)據(jù)挖掘=機(jī)器學(xué)習(xí)+數(shù)據(jù)庫(kù)。這幾年數(shù)據(jù)挖掘的概念實(shí)在是太耳熟能詳紫谷。幾乎等同于炒作齐饮。但凡說數(shù)據(jù)挖掘都會(huì)吹噓數(shù)據(jù)挖掘如何如何捐寥，例如從數(shù)據(jù)中挖出金子，以及將廢棄的數(shù)據(jù)轉(zhuǎn)化為價(jià)值等等祖驱。但是握恳，我盡管可能會(huì)挖出金子，但我也可能挖的是“石頭”啊捺僻。這個(gè)說法的意思是乡洼，數(shù)據(jù)挖掘僅僅是一種思考方式，告訴我們應(yīng)該嘗試從數(shù)據(jù)中挖掘出知識(shí)匕坯，但不是每個(gè)數(shù)據(jù)都能挖掘出金子的束昵，所以不要神話它。一個(gè)系統(tǒng)絕對(duì)不會(huì)因?yàn)樯狭艘粋€(gè)數(shù)據(jù)挖掘模塊就變得無(wú)所不能(這是IBM最喜歡吹噓的)葛峻，恰恰相反锹雏，一個(gè)擁有數(shù)據(jù)挖掘思維的人員才是關(guān)鍵，而且他還必須對(duì)數(shù)據(jù)有深刻的認(rèn)識(shí)术奖，這樣才可能從數(shù)據(jù)中導(dǎo)出模式指引業(yè)務(wù)的改善礁遵。大部分?jǐn)?shù)據(jù)挖掘中的算法是機(jī)器學(xué)習(xí)的算法在數(shù)據(jù)庫(kù)中的優(yōu)化。

統(tǒng)計(jì)學(xué)習(xí)

統(tǒng)計(jì)學(xué)習(xí)近似等于機(jī)器學(xué)習(xí)腰耙。統(tǒng)計(jì)學(xué)習(xí)是個(gè)與機(jī)器學(xué)習(xí)高度重疊的學(xué)科榛丢。因?yàn)闄C(jī)器學(xué)習(xí)中的大多數(shù)方法來自統(tǒng)計(jì)學(xué)，甚至可以認(rèn)為挺庞，統(tǒng)計(jì)學(xué)的發(fā)展促進(jìn)機(jī)器學(xué)習(xí)的繁榮昌盛晰赞。例如著名的支持向量機(jī)算法，就是源自統(tǒng)計(jì)學(xué)科选侨。但是在某種程度上兩者是有分別的掖鱼，這個(gè)分別在于：統(tǒng)計(jì)學(xué)習(xí)者重點(diǎn)關(guān)注的是統(tǒng)計(jì)模型的發(fā)展與優(yōu)化，偏數(shù)學(xué)援制，而機(jī)器學(xué)習(xí)者更關(guān)注的是能夠解決問題戏挡，偏實(shí)踐，因此機(jī)器學(xué)習(xí)研究者會(huì)重點(diǎn)研究學(xué)習(xí)算法在計(jì)算機(jī)上執(zhí)行的效率與準(zhǔn)確性的提升晨仑。

計(jì)算機(jī)視覺

計(jì)算機(jī)視覺=圖像處理+機(jī)器學(xué)習(xí)褐墅。圖像處理技術(shù)用于將圖像處理為適合進(jìn)入機(jī)器學(xué)習(xí)模型中的輸入，機(jī)器學(xué)習(xí)則負(fù)責(zé)從圖像中識(shí)別出相關(guān)的模式洪己。計(jì)算機(jī)視覺相關(guān)的應(yīng)用非常的多妥凳，例如百度識(shí)圖、手寫字符識(shí)別答捕、車牌識(shí)別等等應(yīng)用逝钥。這個(gè)領(lǐng)域是應(yīng)用前景非常火熱的拱镐，同時(shí)也是研究的熱門方向艘款。隨著機(jī)器學(xué)習(xí)的新領(lǐng)域深度學(xué)習(xí)的發(fā)展持际，大大促進(jìn)了計(jì)算機(jī)圖像識(shí)別的效果，因此未來計(jì)算機(jī)視覺界的發(fā)展前景不可估量哗咆。

語(yǔ)音識(shí)別

語(yǔ)音識(shí)別=語(yǔ)音處理+機(jī)器學(xué)習(xí)蜘欲。語(yǔ)音識(shí)別就是音頻處理技術(shù)與機(jī)器學(xué)習(xí)的結(jié)合。語(yǔ)音識(shí)別技術(shù)一般不會(huì)單獨(dú)使用晌柬，一般會(huì)結(jié)合自然語(yǔ)言處理的相關(guān)技術(shù)芒填。目前的相關(guān)應(yīng)用有蘋果的語(yǔ)音助手siri等。

自然語(yǔ)言處理

自然語(yǔ)言處理=文本處理+機(jī)器學(xué)習(xí)空繁。自然語(yǔ)言處理技術(shù)主要是讓機(jī)器理解人類的語(yǔ)言的一門領(lǐng)域殿衰。在自然語(yǔ)言處理技術(shù)中，大量使用了編譯原理相關(guān)的技術(shù)盛泡，例如詞法分析闷祥，語(yǔ)法分析等等，除此之外傲诵，在理解這個(gè)層面凯砍，則使用了語(yǔ)義理解，機(jī)器學(xué)習(xí)等技術(shù)拴竹。作為唯一由人類自身創(chuàng)造的符號(hào)悟衩，自然語(yǔ)言處理一直是機(jī)器學(xué)習(xí)界不斷研究的方向。按照百度機(jī)器學(xué)習(xí)專家余凱的說法“聽與看栓拜，說白了就是阿貓和阿狗都會(huì)的座泳，而只有語(yǔ)言才是人類獨(dú)有的”。如何利用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自然語(yǔ)言的的深度理解幕与，一直是工業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)挑势。

可以看出機(jī)器學(xué)習(xí)在眾多領(lǐng)域的外延和應(yīng)用。機(jī)器學(xué)習(xí)技術(shù)的發(fā)展促使了很多智能領(lǐng)域的進(jìn)步啦鸣，改善著我們的生活潮饱。

4.機(jī)器學(xué)習(xí)的方法

通過上節(jié)的介紹我們知曉了機(jī)器學(xué)習(xí)的大致范圍，那么機(jī)器學(xué)習(xí)里面究竟有多少經(jīng)典的算法呢诫给？在這個(gè)部分我會(huì)簡(jiǎn)要介紹一下機(jī)器學(xué)習(xí)中的經(jīng)典代表方法香拉。這部分介紹的重點(diǎn)是這些方法內(nèi)涵的思想吃型，數(shù)學(xué)與實(shí)踐細(xì)節(jié)不會(huì)在這討論僚楞。

1勤晚、回歸算法

在大部分機(jī)器學(xué)習(xí)課程中，回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè)：一.回歸算法比較簡(jiǎn)單炮赦，介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石样勃，如果不理解回歸算法吠勘，無(wú)法學(xué)習(xí)那些強(qiáng)大的算法∠靠簦回歸算法有兩個(gè)重要的子類：即線性回歸和邏輯回歸剧防。

線性回歸就是我們前面說過的房?jī)r(jià)求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)辫樱？一般使用“最小二乘法”來求解峭拘。“最小二乘法”的思想是這樣的，假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值鸡挠，而觀測(cè)到的數(shù)據(jù)代表?yè)碛姓`差的值辉饱。為了盡可能減小誤差的影響，需要求解一條直線使所有誤差的平方和最小拣展。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題彭沼。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī)备埃，可能求解不出來姓惑，也可能計(jì)算量太大。

計(jì)算機(jī)科學(xué)界專門有一個(gè)學(xué)科叫“數(shù)值計(jì)算”按脚，專門用來提升計(jì)算機(jī)進(jìn)行各類計(jì)算時(shí)的準(zhǔn)確性和效率問題于毙。例如，著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法辅搬，也非常適合來處理求解函數(shù)極值的問題望众。梯度下降法是解決回歸模型中最簡(jiǎn)單且有效的方法之一。從嚴(yán)格意義上來說伞辛，由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子烂翰，因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用。

邏輯回歸是一種與線性回歸非常類似的算法蚤氏，但是甘耿，從本質(zhì)上講，線型回歸處理的問題類型與邏輯回歸不一致竿滨。線性回歸處理的是數(shù)值問題佳恬，也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字，例如房?jī)r(jià)于游。而邏輯回歸屬于分類算法毁葱，也就是說，邏輯回歸預(yù)測(cè)結(jié)果是離散的分類贰剥，例如判斷這封郵件是否是垃圾郵件倾剿，以及用戶是否會(huì)點(diǎn)擊此廣告等等。

實(shí)現(xiàn)方面的話蚌成，邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù)前痘，將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀，你只需要理解對(duì)數(shù)值越大担忧，函數(shù)越逼近1芹缔，數(shù)值越小，函數(shù)越逼近0)瓶盛，接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè)最欠，例如概率大于0.5示罗，則這封郵件就是垃圾郵件，或者腫瘤是否是惡性的等等芝硬。從直觀上來說蚜点，邏輯回歸是畫出了一條分類線，見下圖吵取。

圖7 邏輯回歸的直觀解釋

假設(shè)我們有一組腫瘤患者的數(shù)據(jù)，這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn))锯厢，有些是惡性的(圖中的紅色點(diǎn))皮官。這里腫瘤的紅藍(lán)色可以被稱作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”：患者的年齡與腫瘤的大小实辑。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上捺氢，形成了我上圖的數(shù)據(jù)。

當(dāng)我有一個(gè)綠色的點(diǎn)時(shí)剪撬，我該判斷這個(gè)腫瘤是惡性的還是良性的呢摄乒？根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型，也就是圖中的分類線残黑。這時(shí)馍佑，根據(jù)綠點(diǎn)出現(xiàn)在分類線的左側(cè)，因此我們判斷它的標(biāo)簽應(yīng)該是紅色梨水，也就是說屬于惡性腫瘤拭荤。

邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸，不過那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)疫诽，這意味著當(dāng)兩類之間的界線不是線性時(shí)舅世，邏輯回歸的表達(dá)能力就不足。下面的兩個(gè)算法是機(jī)器學(xué)習(xí)界最強(qiáng)大且重要的算法奇徒，都可以擬合出非線性的分類線雏亚。

2、神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò)摩钙，ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法罢低，不過在90年代中途衰落。現(xiàn)在胖笛，攜著“深度學(xué)習(xí)”之勢(shì)奕短，神經(jīng)網(wǎng)絡(luò)重裝歸來，重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一匀钧。

神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究翎碑。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn)之斯，發(fā)現(xiàn)在視覺與語(yǔ)音的識(shí)別上效果都相當(dāng)好日杈。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后遣铝，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton(圖1中的中間者)莉擒。

具體說來酿炸，神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么？簡(jiǎn)單來說涨冀，就是分解與整合填硕。在著名的Hubel-Wiesel試驗(yàn)中，學(xué)者們研究貓的視覺分析機(jī)理是這樣的鹿鳖。

圖8 Hubel-Wiesel試驗(yàn)與大腦視覺機(jī)理

比方說扁眯，一個(gè)正方形，分解為四個(gè)折線進(jìn)入視覺處理的下一層中翅帜。四個(gè)神經(jīng)元分別處理一個(gè)折線姻檀。每個(gè)折線再繼續(xù)被分解為兩條直線，每條直線再被分解為黑白兩個(gè)面涝滴。于是绣版，一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元，神經(jīng)元處理以后再進(jìn)行整合歼疮，最后得出了看到的是正方形的結(jié)論杂抽。這就是大腦視覺識(shí)別的機(jī)理，也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理韩脏。

讓我們看一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)默怨。在這個(gè)網(wǎng)絡(luò)中，分成輸入層骤素，隱藏層匙睹，和輸出層。輸入層負(fù)責(zé)接收信號(hào)济竹，隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理痕檬，最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元送浊，可以認(rèn)為是模擬了一個(gè)神經(jīng)元梦谜，若干個(gè)處理單元組成了一個(gè)層，若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò)袭景，也就是"神經(jīng)網(wǎng)絡(luò)"唁桩。

圖9 神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)

在神經(jīng)網(wǎng)絡(luò)中，每個(gè)處理單元事實(shí)上就是一個(gè)邏輯回歸模型耸棒，邏輯回歸模型接收上層的輸入荒澡，把模型的預(yù)測(cè)結(jié)果作為輸出傳輸?shù)较乱粋€(gè)層次。通過這樣的過程与殃，神經(jīng)網(wǎng)絡(luò)可以完成非常復(fù)雜的非線性分類单山。

下圖會(huì)演示神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域的一個(gè)著名應(yīng)用碍现，這個(gè)程序叫做LeNet，是一個(gè)基于多個(gè)隱層構(gòu)建的神經(jīng)網(wǎng)絡(luò)米奸。通過LeNet可以識(shí)別多種手寫數(shù)字昼接，并且達(dá)到很高的識(shí)別精度與擁有較好的魯棒性。

圖10 LeNet的效果展示

右下方的方形中顯示的是輸入計(jì)算機(jī)的圖像悴晰，方形上方的紅色字樣“answer”后面顯示的是計(jì)算機(jī)的輸出慢睡。左邊的三條豎直的圖像列顯示的是神經(jīng)網(wǎng)絡(luò)中三個(gè)隱藏層的輸出，可以看出铡溪，隨著層次的不斷深入漂辐，越深的層次處理的細(xì)節(jié)越低，例如層3基本處理的都已經(jīng)是線的細(xì)節(jié)了佃却。LeNet的發(fā)明人就是前文介紹過的機(jī)器學(xué)習(xí)的大牛Yann LeCun(圖1右者)者吁。

進(jìn)入90年代窘俺，神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)瓶頸期饲帅。其主要原因是盡管有BP算法的加速，神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程仍然很困難瘤泪。因此90年代后期支持向量機(jī)(SVM)算法取代了神經(jīng)網(wǎng)絡(luò)的地位灶泵。

3、SVM（支持向量機(jī)）

支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界对途，同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法赦邻。

支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化：通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件，支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線实檀。但是如果沒有某類函數(shù)技術(shù)惶洲，則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。

但是膳犹，通過跟高斯“核”的結(jié)合恬吕，支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線，從而達(dá)成很好的的分類效果须床☆砹希“核”事實(shí)上就是一種特殊的函數(shù)，最典型的特征就是可以將低維的空間映射到高維的空間豺旬。

例如下圖所示：

圖11 支持向量機(jī)圖例

我們?nèi)绾卧诙S平面劃分出一個(gè)圓形的分類界線钠惩？在二維平面可能會(huì)很困難，但是通過“核”可以將二維空間映射到三維空間族阅，然后使用一個(gè)線性平面就可以達(dá)成類似效果篓跛。也就是說，二維平面劃分出的非線性分類界線可以等價(jià)于三維平面的線性分類界線坦刀。于是举塔，我們可以通過在三維空間中進(jìn)行簡(jiǎn)單的線性劃分就可以達(dá)到在二維平面中的非線性劃分效果绑警。

* *圖12 三維空間的切割

支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法（相對(duì)的，神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分）央渣。在算法的核心步驟中计盒，有一步證明，即將數(shù)據(jù)從低維映射到高維不會(huì)帶來最后計(jì)算復(fù)雜性的提升芽丹。于是北启，通過支持向量機(jī)算法，既可以保持計(jì)算效率拔第，又可以獲得非常好的分類效果咕村。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位，基本取代了神經(jīng)網(wǎng)絡(luò)算法蚊俺。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起懈涛，兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變耍铜。

4沛鸵、聚類算法

前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽，訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽怠苔。在下面的算法中得封，訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的埋心，而算法的目的則是通過訓(xùn)練，推測(cè)出這些數(shù)據(jù)的標(biāo)簽忙上。這類算法有一個(gè)統(tǒng)稱拷呆，即無(wú)監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無(wú)監(jiān)督算法中最典型的代表就是聚類算法疫粥。

讓我們還是拿一個(gè)二維的數(shù)據(jù)來說茬斧，某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望通過聚類算法梗逮，給他們中不同的種類打上標(biāo)簽项秉，我該怎么做呢？簡(jiǎn)單來說库糠，聚類算法就是計(jì)算種群中的距離伙狐，根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。

聚類算法中最典型的代表就是K-Means算法瞬欧。

5贷屎、降維算法

降維算法也是一種無(wú)監(jiān)督學(xué)習(xí)算法，其主要特征是將數(shù)據(jù)從高維降低到低維層次艘虎。在這里唉侄，維度其實(shí)表示的是數(shù)據(jù)的特征量的大小，例如野建，房?jī)r(jià)包含房子的長(zhǎng)属划、寬恬叹、面積與房間數(shù)量四個(gè)特征，也就是維度為4維的數(shù)據(jù)同眯≌乐纾可以看出來，長(zhǎng)與寬事實(shí)上與面積表示的信息重疊了须蜗，例如面積=長(zhǎng) × 寬硅确。通過降維算法我們就可以去除冗余信息，將特征減少為面積與房間數(shù)量?jī)蓚€(gè)特征明肮，即從4維的數(shù)據(jù)壓縮到2維菱农。于是我們將數(shù)據(jù)從高維降低到低維，不僅利于表示柿估，同時(shí)在計(jì)算上也能帶來加速循未。

剛才說的降維過程中減少的維度屬于肉眼可視的層次，同時(shí)壓縮也不會(huì)帶來信息的損失(因?yàn)樾畔⑷哂嗔?秫舌。如果肉眼不可視的妖，或者沒有冗余的特征，降維算法也能工作舅巷，不過這樣會(huì)帶來一些信息的損失羔味。但是河咽，降維算法可以從數(shù)學(xué)上證明钠右，從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此忘蟹，使用降維算法仍然有很多的好處飒房。

降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過降維算法媚值，可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征狠毯。另外，降維算法的另一個(gè)好處是數(shù)據(jù)的可視化褥芒，例如將5維的數(shù)據(jù)壓縮至2維嚼松，然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)锰扶。

6献酗、推薦算法

推薦算法是目前業(yè)界非常火的一種算法坷牛，在電商界罕偎，如亞馬遜，天貓京闰，京東等得到了廣泛的運(yùn)用颜及。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西甩苛，從而增加購(gòu)買率，提升效益俏站。推薦算法有兩個(gè)主要的類別：

一類是基于物品內(nèi)容的推薦讯蒲，是將與用戶購(gòu)買的內(nèi)容近似的物品推薦給用戶，這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽肄扎，因此才可以找出與用戶購(gòu)買物品類似的物品爱葵，這樣推薦的好處是關(guān)聯(lián)程度較大，但是由于每個(gè)物品都需要貼標(biāo)簽反浓，因此工作量較大萌丈。

另一類是基于用戶相似度的推薦，則是將與目標(biāo)用戶興趣相同的其他用戶購(gòu)買的東西推薦給目標(biāo)用戶雷则，例如小A歷史上買了物品B和C辆雾，經(jīng)過算法分析，發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購(gòu)買了物品E月劈，于是將物品E推薦給小A度迂。

兩類推薦都有各自的優(yōu)缺點(diǎn)，在一般的電商應(yīng)用中猜揪，一般是兩類混合使用惭墓。推薦算法中最有名的算法就是協(xié)同過濾算法。

7而姐、其他

除了以上算法之外腊凶，機(jī)器學(xué)習(xí)界還有其他的如高斯判別，樸素貝葉斯拴念，決策樹等等算法钧萍。但是上面列的六個(gè)算法是使用最多，影響最廣政鼠，種類最全的典型风瘦。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多，發(fā)展百花齊放公般。

下面做一個(gè)總結(jié)万搔，按照訓(xùn)練的數(shù)據(jù)有無(wú)標(biāo)簽，可以將上面算法分為監(jiān)督學(xué)習(xí)算法和無(wú)監(jiān)督學(xué)習(xí)算法官帘，但推薦算法較為特殊瞬雹，既不屬于監(jiān)督學(xué)習(xí)，也不屬于非監(jiān)督學(xué)習(xí)遏佣，是單獨(dú)的一類挖炬。

監(jiān)督學(xué)習(xí)算法：線性回歸，邏輯回歸，神經(jīng)網(wǎng)絡(luò)意敛，SVM

無(wú)監(jiān)督學(xué)習(xí)算法：聚類算法馅巷，降維算法

特殊算法：推薦算法

除了這些算法以外，有一些算法的名字在機(jī)器學(xué)習(xí)領(lǐng)域中也經(jīng)常出現(xiàn)草姻。但他們本身并不算是一個(gè)機(jī)器學(xué)習(xí)算法钓猬，而是為了解決某個(gè)子問題而誕生的。你可以理解他們?yōu)橐陨纤惴ǖ淖铀惴枚溃糜诖蠓忍岣哂?xùn)練過程敞曹。其中的代表有：梯度下降法，主要運(yùn)用在線型回歸综膀，邏輯回歸澳迫，神經(jīng)網(wǎng)絡(luò)，推薦算法中剧劝；牛頓法橄登，主要運(yùn)用在線型回歸中；BP算法讥此，主要運(yùn)用在神經(jīng)網(wǎng)絡(luò)中拢锹；SMO算法，主要運(yùn)用在SVM中萄喳。

5.機(jī)器學(xué)習(xí)的應(yīng)用--大數(shù)據(jù)

說完機(jī)器學(xué)習(xí)的方法卒稳，下面要談一談機(jī)器學(xué)習(xí)的應(yīng)用了。無(wú)疑他巨，在2010年以前充坑，機(jī)器學(xué)習(xí)的應(yīng)用在某些特定領(lǐng)域發(fā)揮了巨大的作用，如車牌識(shí)別闻蛀，網(wǎng)絡(luò)攻擊防范匪傍，手寫字符識(shí)別等等您市。但是觉痛，從2010年以后，隨著大數(shù)據(jù)概念的興起茵休，機(jī)器學(xué)習(xí)大量的應(yīng)用都與大數(shù)據(jù)高度耦合薪棒，幾乎可以認(rèn)為大數(shù)據(jù)是機(jī)器學(xué)習(xí)應(yīng)用的最佳場(chǎng)景。

譬如榕莺，但凡你能找到的介紹大數(shù)據(jù)魔力的文章俐芯，都會(huì)說大數(shù)據(jù)如何準(zhǔn)確準(zhǔn)確預(yù)測(cè)到了某些事。例如經(jīng)典的Google利用大數(shù)據(jù)預(yù)測(cè)了H1N1在美國(guó)某小鎮(zhèn)的爆發(fā)钉鸯。

圖13 Google成功預(yù)測(cè)H1N1

百度預(yù)測(cè)2014年世界杯吧史，從淘汰賽到?jīng)Q賽全部預(yù)測(cè)正確。

圖14 百度世界杯成功預(yù)測(cè)了所有比賽結(jié)果

這些實(shí)在太神奇了唠雕，那么究竟是什么原因?qū)е麓髷?shù)據(jù)具有這些魔力的呢贸营？簡(jiǎn)單來說吨述，就是機(jī)器學(xué)習(xí)技術(shù)。正是基于機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用钞脂，數(shù)據(jù)才能發(fā)揮其魔力揣云。

大數(shù)據(jù)的核心是利用數(shù)據(jù)的價(jià)值，機(jī)器學(xué)習(xí)是利用數(shù)據(jù)價(jià)值的關(guān)鍵技術(shù)冰啃，對(duì)于大數(shù)據(jù)而言邓夕，機(jī)器學(xué)習(xí)是不可或缺的。相反阎毅，對(duì)于機(jī)器學(xué)習(xí)而言焚刚，越多的數(shù)據(jù)會(huì)越可能提升模型的精確性，同時(shí)扇调，復(fù)雜的機(jī)器學(xué)習(xí)算法的計(jì)算時(shí)間也迫切需要分布式計(jì)算與內(nèi)存計(jì)算這樣的關(guān)鍵技術(shù)汪榔。因此，機(jī)器學(xué)習(xí)的興盛也離不開大數(shù)據(jù)的幫助肃拜。大數(shù)據(jù)與機(jī)器學(xué)習(xí)兩者是互相促進(jìn)痴腌，相依相存的關(guān)系。

機(jī)器學(xué)習(xí)與大數(shù)據(jù)緊密聯(lián)系燃领。但是士聪，必須清醒的認(rèn)識(shí)到，大數(shù)據(jù)并不等同于機(jī)器學(xué)習(xí)猛蔽，同理剥悟，機(jī)器學(xué)習(xí)也不等同于大數(shù)據(jù)。大數(shù)據(jù)中包含有分布式計(jì)算曼库，內(nèi)存數(shù)據(jù)庫(kù)区岗，多維分析等等多種技術(shù)。單從分析方法來看毁枯，大數(shù)據(jù)也包含以下四種分析方法：

1.大數(shù)據(jù)慈缔，小分析：即數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的OLAP分析思路，也就是多維分析思想种玛。

2.大數(shù)據(jù)藐鹤，大分析：這個(gè)代表的就是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)分析法。

3.流式分析：這個(gè)主要指的是事件驅(qū)動(dòng)架構(gòu)赂韵。

4.查詢分析：經(jīng)典代表是NoSQL數(shù)據(jù)庫(kù)娱节。

也就是說，機(jī)器學(xué)習(xí)僅僅是大數(shù)據(jù)分析中的一種而已祭示。盡管機(jī)器學(xué)習(xí)的一些結(jié)果具有很大的魔力肄满，在某種場(chǎng)合下是大數(shù)據(jù)價(jià)值最好的說明。但這并不代表機(jī)器學(xué)習(xí)是大數(shù)據(jù)下的唯一的分析方法。

機(jī)器學(xué)習(xí)與大數(shù)據(jù)的結(jié)合產(chǎn)生了巨大的價(jià)值稠歉〖サ纾基于機(jī)器學(xué)習(xí)技術(shù)的發(fā)展，數(shù)據(jù)能夠“預(yù)測(cè)”轧抗。對(duì)人類而言恩敌，積累的經(jīng)驗(yàn)越豐富，閱歷也廣泛横媚，對(duì)未來的判斷越準(zhǔn)確纠炮。例如常說的“經(jīng)驗(yàn)豐富”的人比“初出茅廬”的小伙子更有工作上的優(yōu)勢(shì)，就在于經(jīng)驗(yàn)豐富的人獲得的規(guī)律比他人更準(zhǔn)確灯蝴。而在機(jī)器學(xué)習(xí)領(lǐng)域恢口，根據(jù)著名的一個(gè)實(shí)驗(yàn)，有效的證實(shí)了機(jī)器學(xué)習(xí)界一個(gè)理論：即機(jī)器學(xué)習(xí)模型的數(shù)據(jù)越多穷躁，機(jī)器學(xué)習(xí)的預(yù)測(cè)的效率就越好耕肩。見下圖：

圖15 機(jī)器學(xué)習(xí)準(zhǔn)確率與數(shù)據(jù)的關(guān)系

通過這張圖可以看出，各種不同算法在輸入的數(shù)據(jù)量達(dá)到一定級(jí)數(shù)后问潭，都有相近的高準(zhǔn)確度猿诸。于是誕生了機(jī)器學(xué)習(xí)界的名言：成功的機(jī)器學(xué)習(xí)應(yīng)用不是擁有最好的算法，而是擁有最多的數(shù)據(jù)狡忙！

在大數(shù)據(jù)的時(shí)代梳虽，有好多優(yōu)勢(shì)促使機(jī)器學(xué)習(xí)能夠應(yīng)用更廣泛。例如隨著物聯(lián)網(wǎng)和移動(dòng)設(shè)備的發(fā)展灾茁，我們擁有的數(shù)據(jù)越來越多窜觉，種類也包括圖片、文本北专、視頻等非結(jié)構(gòu)化數(shù)據(jù)禀挫，這使得機(jī)器學(xué)習(xí)模型可以獲得越來越多的數(shù)據(jù)。同時(shí)大數(shù)據(jù)技術(shù)中的分布式計(jì)算Map-Reduce使得機(jī)器學(xué)習(xí)的速度越來越快拓颓，可以更方便的使用语婴。種種優(yōu)勢(shì)使得在大數(shù)據(jù)時(shí)代，機(jī)器學(xué)習(xí)的優(yōu)勢(shì)可以得到最佳的發(fā)揮录粱。

6.機(jī)器學(xué)習(xí)的子類--深度學(xué)習(xí)

近來腻格，機(jī)器學(xué)習(xí)的發(fā)展產(chǎn)生了一個(gè)新的方向，即“深度學(xué)習(xí)”啥繁。

雖然深度學(xué)習(xí)這四字聽起來頗為高大上，但其理念卻非常簡(jiǎn)單青抛，就是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)發(fā)展到了多隱藏層的情況旗闽。

在上文介紹過，自從90年代以后，神經(jīng)網(wǎng)絡(luò)已經(jīng)消寂了一段時(shí)間适室。但是BP算法的發(fā)明人Geoffrey Hinton一直沒有放棄對(duì)神經(jīng)網(wǎng)絡(luò)的研究嫡意。由于神經(jīng)網(wǎng)絡(luò)在隱藏層擴(kuò)大到兩個(gè)以上，其訓(xùn)練速度就會(huì)非常慢捣辆，因此實(shí)用性一直低于支持向量機(jī)蔬螟。2006年，Geoffrey Hinton在科學(xué)雜志《Science》上發(fā)表了一篇文章汽畴，論證了兩個(gè)觀點(diǎn)：

　　1.多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力旧巾，學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫，從而有利于可視化或分類忍些；

　　2.深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度鲁猩，可以通過“逐層初始化” 來有效克服。

圖16 Geoffrey Hinton與他的學(xué)生在Science上發(fā)表文章

通過這樣的發(fā)現(xiàn)罢坝，不僅解決了神經(jīng)網(wǎng)絡(luò)在計(jì)算上的難度廓握，同時(shí)也說明了深層神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)上的優(yōu)異性。從此嘁酿，神經(jīng)網(wǎng)絡(luò)重新成為了機(jī)器學(xué)習(xí)界中的主流強(qiáng)大學(xué)習(xí)技術(shù)隙券。同時(shí)，具有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)被稱為深度神經(jīng)網(wǎng)絡(luò)闹司，基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)研究稱之為深度學(xué)習(xí)是尔。

由于深度學(xué)習(xí)的重要性質(zhì)，在各方面都取得極大的關(guān)注开仰，按照時(shí)間軸排序拟枚，有以下四個(gè)標(biāo)志性事件值得一說：

2012年6月，《紐約時(shí)報(bào)》披露了Google Brain項(xiàng)目众弓，這個(gè)項(xiàng)目是由Andrew Ng和Map-Reduce發(fā)明人Jeff Dean共同主導(dǎo)恩溅，用16000個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱為“深層神經(jīng)網(wǎng)絡(luò)”的機(jī)器學(xué)習(xí)模型，在語(yǔ)音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功谓娃。Andrew Ng就是文章開始所介紹的機(jī)器學(xué)習(xí)的大牛(圖1中左者)脚乡。

2012年11月，微軟在中國(guó)天津的一次活動(dòng)上公開演示了一個(gè)全自動(dòng)的同聲傳譯系統(tǒng)滨达，講演者用英文演講奶稠，后臺(tái)的計(jì)算機(jī)一氣呵成自動(dòng)完成語(yǔ)音識(shí)別、英中機(jī)器翻譯捡遍，以及中文語(yǔ)音合成锌订，效果非常流暢，其中支撐的關(guān)鍵技術(shù)是深度學(xué)習(xí)画株；

2013年1月辆飘，在百度的年會(huì)上啦辐，創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院，其中第一個(gè)重點(diǎn)方向就是深度學(xué)習(xí)蜈项，并為此而成立深度學(xué)習(xí)研究院(IDL)芹关。

2013年4月，《麻省理工學(xué)院技術(shù)評(píng)論》雜志將深度學(xué)習(xí)列為2013年十大突破性技術(shù)(Breakthrough Technology)之首紧卒。

圖17 深度學(xué)習(xí)的發(fā)展熱潮

文章開頭所列的三位機(jī)器學(xué)習(xí)的大牛侥衬，不僅都是機(jī)器學(xué)習(xí)界的專家，更是深度學(xué)習(xí)研究領(lǐng)域的先驅(qū)跑芳。因此轴总，使他們擔(dān)任各個(gè)大型互聯(lián)網(wǎng)公司技術(shù)掌舵者的原因不僅在于他們的技術(shù)實(shí)力，更在于他們研究的領(lǐng)域是前景無(wú)限的深度學(xué)習(xí)技術(shù)聋亡。

目前業(yè)界許多的圖像識(shí)別技術(shù)與語(yǔ)音識(shí)別技術(shù)的進(jìn)步都源于深度學(xué)習(xí)的發(fā)展肘习，除了本文開頭所提的Cortana等語(yǔ)音助手，還包括一些圖像識(shí)別應(yīng)用坡倔，其中典型的代表就是下圖的百度識(shí)圖功能漂佩。

圖18 百度識(shí)圖

深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的子類∽锼基于深度學(xué)習(xí)的發(fā)展極大的促進(jìn)了機(jī)器學(xué)習(xí)的地位提高投蝉，更進(jìn)一步地，推動(dòng)了業(yè)界對(duì)機(jī)器學(xué)習(xí)父類人工智能夢(mèng)想的再次重視征堪。

7.機(jī)器學(xué)習(xí)的父類--人工智能

人工智能是機(jī)器學(xué)習(xí)的父類瘩缆。深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的子類。如果把三者的關(guān)系用圖來表明的話佃蚜，則是下圖：

圖19 深度學(xué)習(xí)庸娱、機(jī)器學(xué)習(xí)、人工智能三者關(guān)系

毫無(wú)疑問谐算，人工智能(AI)是人類所能想象的科技界最突破性的發(fā)明了熟尉，某種意義上來說，人工智能就像游戲最終幻想的名字一樣洲脂，是人類對(duì)于科技界的最終夢(mèng)想斤儿。從50年代提出人工智能的理念以后，科技界恐锦，產(chǎn)業(yè)界不斷在探索往果，研究。這段時(shí)間各種小說一铅、電影都在以各種方式展現(xiàn)對(duì)于人工智能的想象陕贮。人類可以發(fā)明類似于人類的機(jī)器，這是多么偉大的一種理念馅闽！但事實(shí)上飘蚯，自從50年代以后馍迄，人工智能的發(fā)展就磕磕碰碰福也，未有見到足夠震撼的科學(xué)技術(shù)的進(jìn)步局骤。

總結(jié)起來，人工智能的發(fā)展經(jīng)歷了如下若干階段暴凑，從早期的邏輯推理峦甩，到中期的專家系統(tǒng)，這些科研進(jìn)步確實(shí)使我們離機(jī)器的智能有點(diǎn)接近了现喳，但還有一大段距離凯傲。直到機(jī)器學(xué)習(xí)誕生以后，人工智能界感覺終于找對(duì)了方向嗦篱”ィ基于機(jī)器學(xué)習(xí)的圖像識(shí)別和語(yǔ)音識(shí)別在某些垂直領(lǐng)域達(dá)到了跟人相媲美的程度。機(jī)器學(xué)習(xí)使人類第一次如此接近人工智能的夢(mèng)想灸促。

事實(shí)上诫欠，如果我們把人工智能相關(guān)的技術(shù)以及其他業(yè)界的技術(shù)做一個(gè)類比，就可以發(fā)現(xiàn)機(jī)器學(xué)習(xí)在人工智能中的重要地位不是沒有理由的浴栽。

人類區(qū)別于其他物體荒叼，植物，動(dòng)物的最主要區(qū)別典鸡，作者認(rèn)為是“智慧”被廓。而智慧的最佳體現(xiàn)是什么？

是計(jì)算能力么萝玷，應(yīng)該不是嫁乘，心算速度快的人我們一般稱之為天才。

是反應(yīng)能力么球碉，也不是蜓斧，反應(yīng)快的人我們稱之為靈敏。

是記憶能力么汁尺，也不是法精，記憶好的人我們一般稱之為過目不忘。

是推理能力么痴突，這樣的人我也許會(huì)稱他智力很高搂蜓，類似“福爾摩斯”，但不會(huì)稱他擁有智慧辽装。

是知識(shí)能力么帮碰，這樣的人我們稱之為博聞廣，也不會(huì)稱他擁有智慧拾积。

想想看我們一般形容誰(shuí)有大智慧殉挽？圣人丰涉，諸如莊子，老子等斯碌。智慧是對(duì)生活的感悟一死，是對(duì)人生的積淀與思考，這與我們機(jī)器學(xué)習(xí)的思想何其相似傻唾？通過經(jīng)驗(yàn)獲取規(guī)律投慈，指導(dǎo)人生與未來。沒有經(jīng)驗(yàn)就沒有智慧冠骄。

圖20 機(jī)器學(xué)習(xí)與智慧

那么伪煤，從計(jì)算機(jī)來看，以上的種種能力都有種種技術(shù)去應(yīng)對(duì)凛辣。

例如計(jì)算能力我們有分布式計(jì)算抱既，反應(yīng)能力我們有事件驅(qū)動(dòng)架構(gòu)，檢索能力我們有搜索引擎扁誓，知識(shí)存儲(chǔ)能力我們有數(shù)據(jù)倉(cāng)庫(kù)防泵，邏輯推理能力我們有專家系統(tǒng)，但是跋理，唯有對(duì)應(yīng)智慧中最顯著特征的歸納與感悟能力择克，只有機(jī)器學(xué)習(xí)與之對(duì)應(yīng)。這也是機(jī)器學(xué)習(xí)能力最能表征智慧的根本原因前普。

讓我們?cè)倏匆幌聶C(jī)器人的制造肚邢，在我們具有了強(qiáng)大的計(jì)算，海量的存儲(chǔ)拭卿，快速的檢索骡湖，迅速的反應(yīng)，優(yōu)秀的邏輯推理后我們?nèi)绻倥浜仙弦粋€(gè)強(qiáng)大的智慧大腦峻厚，一個(gè)真正意義上的人工智能也許就會(huì)誕生响蕴，這也是為什么說在機(jī)器學(xué)習(xí)快速發(fā)展的現(xiàn)在，人工智能可能不再是夢(mèng)想的原因惠桃。

人工智能的發(fā)展可能不僅取決于機(jī)器學(xué)習(xí)浦夷，更取決于前面所介紹的深度學(xué)習(xí)，深度學(xué)習(xí)技術(shù)由于深度模擬了人類大腦的構(gòu)成辜王，在視覺識(shí)別與語(yǔ)音識(shí)別上顯著性的突破了原有機(jī)器學(xué)習(xí)技術(shù)的界限劈狐，因此極有可能是真正實(shí)現(xiàn)人工智能夢(mèng)想的關(guān)鍵技術(shù)。無(wú)論是谷歌大腦還是百度大腦呐馆，都是通過海量層次的深度學(xué)習(xí)網(wǎng)絡(luò)所構(gòu)成的肥缔。也許借助于深度學(xué)習(xí)技術(shù)，在不遠(yuǎn)的將來汹来，一個(gè)具有人類智能的計(jì)算機(jī)真的有可能實(shí)現(xiàn)续膳。

最后再說一下題外話改艇，由于人工智能借助于深度學(xué)習(xí)技術(shù)的快速發(fā)展，已經(jīng)在某些地方引起了傳統(tǒng)技術(shù)界達(dá)人的擔(dān)憂坟岔。真實(shí)世界的“鋼鐵俠”谒兄，特斯拉CEO馬斯克就是其中之一。最近馬斯克在參加MIT討論會(huì)時(shí)炮车，就表達(dá)了對(duì)于人工智能的擔(dān)憂舵变『ɡ＃“人工智能的研究就類似于召喚惡魔瘦穆，我們必須在某些地方加強(qiáng)注意∩尥悖”

圖21 馬斯克與人工智能

盡管馬斯克的擔(dān)心有些危言聳聽扛或，但是馬斯克的推理不無(wú)道理〉獗“如果人工智能想要消除垃圾郵件的話熙兔，可能它最后的決定就是消滅人類“眨”馬斯克認(rèn)為預(yù)防此類現(xiàn)象的方法是引入政府的監(jiān)管住涉。在這里作者的觀點(diǎn)與馬斯克類似，在人工智能誕生之初就給其加上若干規(guī)則限制可能有效钠绍，也就是不應(yīng)該使用單純的機(jī)器學(xué)習(xí)舆声，而應(yīng)該是機(jī)器學(xué)習(xí)與規(guī)則引擎等系統(tǒng)的綜合能夠較好的解決這類問題。因?yàn)槿绻麑W(xué)習(xí)沒有限制柳爽，極有可能進(jìn)入某個(gè)誤區(qū)媳握，必須要加上某些引導(dǎo)。正如人類社會(huì)中磷脯，法律就是一個(gè)最好的規(guī)則蛾找，殺人者死就是對(duì)于人類在探索提高生產(chǎn)力時(shí)不可逾越的界限。

在這里赵誓，必須提一下這里的規(guī)則與機(jī)器學(xué)習(xí)引出的規(guī)律的不同打毛，規(guī)律不是一個(gè)嚴(yán)格意義的準(zhǔn)則，其代表的更多是概率上的指導(dǎo)俩功，而規(guī)則則是神圣不可侵犯幻枉，不可修改的。規(guī)律可以調(diào)整绑雄，但規(guī)則是不能改變的展辞。有效的結(jié)合規(guī)律與規(guī)則的特點(diǎn)，可以引導(dǎo)出一個(gè)合理的万牺，可控的學(xué)習(xí)型人工智能罗珍。

8.機(jī)器學(xué)習(xí)的思考--計(jì)算機(jī)的潛意識(shí)

最后洽腺，作者想談一談關(guān)于機(jī)器學(xué)習(xí)的一些思考。主要是作者在日常生活總結(jié)出來的一些感悟覆旱。

回想一下我在節(jié)1里所說的故事蘸朋，我把小Y過往跟我相約的經(jīng)歷做了一個(gè)羅列。但是這種羅列以往所有經(jīng)歷的方法只有少數(shù)人會(huì)這么做扣唱，大部分的人采用的是更直接的方法藕坯，即利用直覺宇驾。那么宝穗，直覺是什么？其實(shí)直覺也是你在潛意識(shí)狀態(tài)下思考經(jīng)驗(yàn)后得出的規(guī)律请梢。就像你通過機(jī)器學(xué)習(xí)算法正歼，得到了一個(gè)模型辐马，那么你下次只要直接使用就行了。那么這個(gè)規(guī)律你是什么時(shí)候思考的局义？可能是在你無(wú)意識(shí)的情況下喜爷，例如睡覺，走路等情況萄唇。這種時(shí)候檩帐，大腦其實(shí)也在默默地做一些你察覺不到的工作。

這種直覺與潛意識(shí)另萤，我把它與另一種人類思考經(jīng)驗(yàn)的方式做了區(qū)分湃密。如果一個(gè)人勤于思考，例如他會(huì)每天做一個(gè)小結(jié)仲墨，譬如“吾日三省吾身”勾缭，或者他經(jīng)常與同伴討論最近工作的得失，那么他這種訓(xùn)練模型的方式是直接的目养，明意識(shí)的思考與歸納俩由。這樣的效果很好，記憶性強(qiáng)癌蚁，并且更能得出有效反應(yīng)現(xiàn)實(shí)的規(guī)律幻梯。但是大部分的人可能很少做這樣的總結(jié)，那么他們得出生活中規(guī)律的方法使用的就是潛意識(shí)法努释。

舉一個(gè)作者本人關(guān)于潛意識(shí)的例子碘梢。作者本人以前沒開過車，最近一段時(shí)間買了車后伐蒂，天天開車上班煞躬。我每天都走固定的路線。有趣的是，在一開始的幾天恩沛，我非常緊張的注意著前方的路況在扰，而現(xiàn)在我已經(jīng)在無(wú)意識(shí)中就把車開到了目標(biāo)。這個(gè)過程中我的眼睛是注視著前方的雷客，我的大腦是沒有思考芒珠，但是我手握著的方向盤會(huì)自動(dòng)的調(diào)整方向。也就是說搅裙。隨著我開車次數(shù)的增多皱卓，我已經(jīng)把我開車的動(dòng)作交給了潛意識(shí)。這是非常有趣的一件事部逮。在這段過程中娜汁，我的大腦將前方路況的圖像記錄了下來，同時(shí)大腦也記憶了我轉(zhuǎn)動(dòng)方向盤的動(dòng)作甥啄。經(jīng)過大腦自己的潛意識(shí)思考存炮，最后生成的潛意識(shí)可以直接根據(jù)前方的圖像調(diào)整我手的動(dòng)作。假設(shè)我們將前方的錄像交給計(jì)算機(jī)蜈漓，然后讓計(jì)算機(jī)記錄與圖像對(duì)應(yīng)的駕駛員的動(dòng)作。經(jīng)過一段時(shí)間的學(xué)習(xí)宫盔，計(jì)算機(jī)生成的機(jī)器學(xué)習(xí)模型就可以進(jìn)行自動(dòng)駕駛了融虽。這很神奇，不是么灼芭。其實(shí)包括Google有额、特斯拉在內(nèi)的自動(dòng)駕駛汽車技術(shù)的原理就是這樣。

除了自動(dòng)駕駛汽車以外彼绷，潛意識(shí)的思想還可以擴(kuò)展到人的交際巍佑。譬如說服別人，一個(gè)最佳的方法就是給他展示一些信息寄悯，然后讓他自己去歸納得出我們想要的結(jié)論萤衰。這就好比在闡述一個(gè)觀點(diǎn)時(shí)，用一個(gè)事實(shí)猜旬，或者一個(gè)故事脆栋，比大段的道理要好很多。古往今來洒擦，但凡優(yōu)秀的說客椿争，無(wú)不采用的是這種方法。春秋戰(zhàn)國(guó)時(shí)期熟嫩，各國(guó)合縱連橫秦踪，經(jīng)常有各種說客去跟一國(guó)之君交流，直接告訴君主該做什么，無(wú)異于自尋死路椅邓，但是跟君主講故事舍扰，通過這些故事讓君主恍然大悟，就是一種正確的過程希坚。這里面有許多杰出的代表边苹，如墨子，蘇秦等等裁僧。

基本上所有的交流過程个束，使用故事說明的效果都要遠(yuǎn)勝于闡述道義之類的效果好很多。為什么用故事的方法比道理或者其他的方法好很多聊疲，這是因?yàn)樵谌顺砷L(zhǎng)的過程茬底，經(jīng)過自己的思考，已經(jīng)形成了很多規(guī)律與潛意識(shí)获洲。如果你告訴的規(guī)律與對(duì)方的不相符阱表，很有可能出于保護(hù)，他們會(huì)本能的拒絕你的新規(guī)律贡珊，但是如果你跟他講一個(gè)故事最爬，傳遞一些信息，輸送一些數(shù)據(jù)給他门岔，他會(huì)思考并自我改變爱致。他的思考過程實(shí)際上就是機(jī)器學(xué)習(xí)的過程，他把新的數(shù)據(jù)納入到他的舊有的記憶與數(shù)據(jù)中寒随，經(jīng)過重新訓(xùn)練糠悯。如果你給出的數(shù)據(jù)的信息量非常大，大到調(diào)整了他的模型妻往，那么他就會(huì)按照你希望的規(guī)律去做事互艾。有的時(shí)候，他會(huì)本能的拒絕執(zhí)行這個(gè)思考過程讯泣，但是數(shù)據(jù)一旦輸入纫普，無(wú)論他希望與否，他的大腦都會(huì)在潛意識(shí)狀態(tài)下思考判帮，并且可能改變他的看法局嘁。

如果計(jì)算機(jī)也擁有潛意識(shí)(正如本博客的名稱一樣)，那么會(huì)怎么樣晦墙？譬如讓計(jì)算機(jī)在工作的過程中悦昵，逐漸產(chǎn)生了自身的潛意識(shí)，于是甚至可以在你不需要告訴它做什么時(shí)它就會(huì)完成那件事晌畅。這是個(gè)非常有意思的設(shè)想但指，這里留給各位讀者去發(fā)散思考吧。

9.總結(jié)

本文首先介紹了互聯(lián)網(wǎng)界與機(jī)器學(xué)習(xí)大牛結(jié)合的趨勢(shì)，以及使用機(jī)器學(xué)習(xí)的相關(guān)應(yīng)用棋凳，接著以一個(gè)“等人故事”展開對(duì)機(jī)器學(xué)習(xí)的介紹拦坠。介紹中首先是機(jī)器學(xué)習(xí)的概念與定義，然后是機(jī)器學(xué)習(xí)的相關(guān)學(xué)科剩岳，機(jī)器學(xué)習(xí)中包含的各類學(xué)習(xí)算法贞滨，接著介紹機(jī)器學(xué)習(xí)與大數(shù)據(jù)的關(guān)系，機(jī)器學(xué)習(xí)的新子類深度學(xué)習(xí)拍棕，最后探討了一下機(jī)器學(xué)習(xí)與人工智能發(fā)展的聯(lián)系以及機(jī)器學(xué)習(xí)與潛意識(shí)的關(guān)聯(lián)晓铆。經(jīng)過本文的介紹，相信大家對(duì)機(jī)器學(xué)習(xí)技術(shù)有一定的了解绰播，例如機(jī)器學(xué)習(xí)是什么骄噪，它的內(nèi)核思想是什么(即統(tǒng)計(jì)和歸納)，通過了解機(jī)器學(xué)習(xí)與人類思考的近似聯(lián)系可以知曉機(jī)器學(xué)習(xí)為什么具有智慧能力的原因等等蠢箩。其次链蕊，本文漫談了機(jī)器學(xué)習(xí)與外延學(xué)科的關(guān)系，機(jī)器學(xué)習(xí)與大數(shù)據(jù)相互促進(jìn)相得益彰的聯(lián)系谬泌，機(jī)器學(xué)習(xí)界最新的深度學(xué)習(xí)的迅猛發(fā)展滔韵，以及對(duì)于人類基于機(jī)器學(xué)習(xí)開發(fā)智能機(jī)器人的一種展望與思考，最后作者簡(jiǎn)單談了一點(diǎn)關(guān)于讓計(jì)算機(jī)擁有潛意識(shí)的設(shè)想呵萨。

機(jī)器學(xué)習(xí)是目前業(yè)界最為Amazing與火熱的一項(xiàng)技術(shù)奏属，從網(wǎng)上的每一次淘寶的購(gòu)買東西，到自動(dòng)駕駛汽車技術(shù)潮峦，以及網(wǎng)絡(luò)攻擊抵御系統(tǒng)等等，都有機(jī)器學(xué)習(xí)的因子在內(nèi)勇婴，同時(shí)機(jī)器學(xué)習(xí)也是最有可能使人類完成AI dream的一項(xiàng)技術(shù)忱嘹，各種人工智能目前的應(yīng)用，如微軟小冰聊天機(jī)器人耕渴，到計(jì)算機(jī)視覺技術(shù)的進(jìn)步拘悦，都有機(jī)器學(xué)習(xí)努力的成分。作為一名當(dāng)代的計(jì)算機(jī)領(lǐng)域的開發(fā)或管理人員橱脸，以及身處這個(gè)世界础米，使用者IT技術(shù)帶來便利的人們，最好都應(yīng)該了解一些機(jī)器學(xué)習(xí)的相關(guān)知識(shí)與概念添诉，因?yàn)檫@可以幫你更好的理解為你帶來莫大便利技術(shù)的背后原理屁桑，以及讓你更好的理解當(dāng)代科技的進(jìn)程。

　最后栏赴，作者很感謝能夠閱讀到這里的讀者蘑斧。如果看完覺得好的話，還請(qǐng)輕輕點(diǎn)一下贊，你們的鼓勵(lì)就是作者繼續(xù)行文的動(dòng)力竖瘾。

介紹一個(gè)開源的視覺識(shí)別系統(tǒng)EasyPR：EasyPR沟突，一個(gè)開源的中文車牌識(shí)別系統(tǒng)，代碼托管在github捕传。詳細(xì)的介紹惠拭，包含EasyPR至今的開發(fā)文檔可以參考文檔與介紹。

10.拓展

看完這篇介紹機(jī)器學(xué)習(xí)的文章之后庸论，您是否已經(jīng)蠢蠢欲動(dòng)职辅？想投身到機(jī)器學(xué)習(xí)的懷抱？那么您可以繼續(xù)移步這一篇文章普通程序員如何轉(zhuǎn)向AI方向葡公，希望您可以在這篇文章里找到未來的方向罐农。

閱讀原文

參考文獻(xiàn)：

1.Andrew Ng Courera Machine Learning

2.LeNet Homepage

3.pluskid svm

作者：流川楓AI

鏈接：http://www.reibang.com/p/5650b8e805ff

來源：簡(jiǎn)書

簡(jiǎn)書著作權(quán)歸作者所有，任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處催什。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末涵亏，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子蒲凶，更是在濱河造成了極大的恐慌气筋，老刑警劉巖，帶你破解...
沈念sama閱讀 218,858評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件旋圆，死亡現(xiàn)場(chǎng)離奇詭異宠默，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)灵巧，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門搀矫，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人刻肄，你說我怎么就攤上這事瓤球。” “怎么了敏弃？”我有些...
開封第一講書人閱讀 165,282評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵卦羡，是天一觀的道長(zhǎng)。經(jīng)常有香客問我麦到，道長(zhǎng)绿饵，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,842評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任瓶颠，我火速辦了婚禮拟赊，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘步清。我一直安慰自己要门，他們只是感情好虏肾，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著欢搜，像睡著了一般封豪。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上炒瘟，一...
開封第一講書人閱讀 51,679評(píng)論 1贊 305
城市分裂傳說
那天吹埠，我揣著相機(jī)與錄音，去河邊找鬼疮装。笑死缘琅，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的廓推。我是一名探鬼主播刷袍，決...
沈念sama閱讀 40,406評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼樊展！你這毒婦竟也來了呻纹？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,311評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤专缠，失蹤者是張志新（化名）和其女友劉穎雷酪，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體涝婉，經(jīng)...
沈念sama閱讀 45,767評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡哥力，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了墩弯。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吩跋。...
茶點(diǎn)故事閱讀 40,090評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖渔工，靈堂內(nèi)的尸體忽然破棺而出钞澳，到底是詐尸還是另有隱情，我是刑警寧澤涨缚，帶...
沈念sama閱讀 35,785評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站策治，受9級(jí)特大地震影響脓魏，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜通惫，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評(píng)論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一茂翔、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧履腋，春花似錦珊燎、人聲如沸惭嚣。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評(píng)論 0贊 22
一樁弒父案悔政，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)晚吞。三九已至，卻和暖如春谋国，著一層夾襖步出監(jiān)牢的瞬間槽地，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,101評(píng)論 1贊 271
情欲美人皮
我被黑心中介騙來泰國(guó)打工芦瘾，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留捌蚊，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,298評(píng)論 3贊 372
代替公主和親
正文我出身青樓近弟，卻偏偏與公主長(zhǎng)得像缅糟，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子祷愉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評(píng)論 2贊 355

從機(jī)器學(xué)習(xí)談起

推薦閱讀更多精彩內(nèi)容