介紹
在過去的幾年里,人們對機器學習產(chǎn)生了新的興趣勃蜘。這種復蘇似乎是由強大的基本因素推動的 - 全球各地的終端都在釋放出的大量數(shù)據(jù)硕噩,并且這些數(shù)據(jù)的成本非常低廉,計算成本是有史以來是最低的缭贡!
然而炉擅,并非每個人都了解機器學習是什么辉懒。這里有幾個例子:
什么是機器學習?它與大數(shù)據(jù)和業(yè)務分析有何不同坑资?
機器學習耗帕,數(shù)據(jù)分析,數(shù)據(jù)挖掘袱贮,數(shù)據(jù)科學和AI之間有什么區(qū)別?
最近体啰,我們發(fā)布了一個有趣的(但非常真實的)主題攒巍。
說道這一點,考慮到這個話題上的混亂程度荒勇,我們打算寫一篇關(guān)于機器學習的介紹性文章柒莉。這個想法是去掉所有可能在嚇唬人的術(shù)語,創(chuàng)造一些可以被5歲的孩子輕松了解的東西(emmmmmmm............好吧,對不起沽翔,可能需要高中畢業(yè))兢孝!
機器學習究竟什么是?我的一個小實驗......
為了確保我不會高估(或低估)目標受眾的能力仅偎,我找到了10個對分析完全陌生的人跨蟹。他們之前都沒有聽說過機器學習(是的,真的有這樣的人i倭ぁ4靶!W亍A∫铡)。他們是這樣說的:
我不知道這是什么東西介陶,可能是向機器中學習堤舒?
讓機器學習一些東西,也就是編程機器軟件
借助計算機幫助我學習哺呜?
通過在線課程學習(!!!)
這很有趣舌缤!完美的解釋了他們認為的機器學習。以下是我向這些人解釋機器學習的概念:
- 機器學習是指以最智能的方式處理大量數(shù)據(jù)(通過開發(fā)算法)以獲得可操作的見解的技術(shù)弦牡。
這時友驮,他們看著我,就好像我是火星人一樣對他們說話驾锰!所以卸留,我停止了愚蠢的術(shù)語講解,然后反過來問他們問題椭豫,方便他們可以更深入的了解:
KJ(作者):當你在谷歌搜索某些東西時耻瑟,你認為會發(fā)生什么旨指?
組員:Google會顯示與該搜索相關(guān)的網(wǎng)頁。
KJ:那很好喳整!但究竟是什么讓Google可以向你顯示這些相關(guān)頁面呢谆构?
這次看起來他們想的比較多。然后組內(nèi)的一些人開始發(fā)言
- 組員:Google會查看用戶過去的點擊次數(shù)框都,了解哪些網(wǎng)頁與這些搜索更相關(guān)搬素,然后在搜索結(jié)果上提供這些結(jié)果。
這是一個很好的開始魏保。但我還必須控制住自己的沖動熬尺,告訴他們Google做到這一點要比他們這個簡單的概念復雜的多。但是谓罗,我想我有一個更好的方法來解釋機器學習粱哼。所以,我繼續(xù)說:
KJ:好的檩咱,這聽起來不錯揭措。但是,Google會定期處理多少次搜索以及所有搜索的類型刻蚯?
組員:這一定是一個很大的數(shù)字 - 可能每年是一萬億次搜索
KJ:那么绊含,你們認為Google如何準確地滿足如此多的請求?你們是不是認為有人坐在Google辦公室并不斷處理哪些搜索結(jié)果是跟搜索的問題是相關(guān)的呢?
組員:我還沒有想過芦倒,但是不會有人去處理這些艺挪,因為這好像聽起來不像是人類可以處理的。
KJ:你是對的兵扬。這是機器學習發(fā)揮作用的地方麻裳。機器學習是一組技術(shù),以最智能的方式處理大量數(shù)據(jù)(通過開發(fā)算法或一組邏輯規(guī)則)器钟, 來獲得可操作的結(jié)果(在我們討論的問題中是為用戶提供搜索)津坑。
這個時候小組成員們按照意料之中的點了點頭,看起來像我已經(jīng)完成任務......耶傲霸!可是總覺得哪里不對呢…
現(xiàn)在有一些常見的問題 - 比如機器學習與X有什么不同疆瑰?
你開始學習有關(guān)機器學習的那一刻,你會看到各種知識好像火箭一樣在高速的轟炸著你昙啄。這些是術(shù)語在行業(yè)內(nèi)使用的比較多穆役。以下是其中一些:人工智能,深度學習梳凛,數(shù)據(jù)挖掘和統(tǒng)計耿币。
為了讓你更加清楚理解,我以簡單的方式解釋了這些術(shù)語韧拒。你還會了解到這些術(shù)語在機器學習中的重要性:
什么是人工智能(AI):
它指的是一臺計算機(機器)進行編程使得自己變得合理的程序淹接。啊! 什么是理性的十性?理性是做出決定的基礎(chǔ)。
我提到“理性”而不是理智(如預期的那樣)塑悼,因為我們?nèi)祟悆A向于做出高度理性和可行的決策而不是明確的智慧劲适。這是因為所有智能決策都不需要理性和可行(我的假設(shè))。因此厢蒜,使用人工智能背后的核心動機是以一種時髦的方式實現(xiàn)計算機(機器)的行為霞势,而不是由愚蠢的人類指導!
人工智能可以包括用于檢查程序中的某些參數(shù)是否正常運行的程序斑鸦。例如支示,如果參數(shù)說“X”超過某個閾值,機器可能會發(fā)出警報鄙才,而該閾值反過來可能又會影響相關(guān)過程的結(jié)果。
人工智能在機器學習中的應用
機器學習是人工智能的一個子集促绵,其中機器經(jīng)過培訓攒庵,可以從中學習過去的經(jīng)驗。過去的經(jīng)驗是通過收集的數(shù)據(jù)制定的败晴。然后它結(jié)合樸素貝葉斯浓冒,支持向量機等算法來提供最終結(jié)果。
什么是統(tǒng)計:
在這個高水平的階段尖坤,我假設(shè)你已經(jīng)了解了統(tǒng)計學稳懒。如果沒有的話,這里有一個可以讓你快速了解統(tǒng)計學的定義慢味,統(tǒng)計學是數(shù)學的一個分支场梆,它利用數(shù)據(jù),或者是整個群體的數(shù)據(jù)纯路,或者從群體中抽取一個樣本或油,來進行分析并給出推論。使用的技術(shù)統(tǒng)計有回歸驰唬、方差顶岸、標準差、條件概率等等叫编。
在機器學習中使用統(tǒng)計學
讓我們理解這一點辖佣,首先需要假設(shè),我需要將收件箱中的郵件分為兩類:“垃圾郵件”和“重要郵件”搓逾。為了識別垃圾郵件卷谈,我可以使用稱為樸素貝葉斯的機器學習算法,該算法將檢查過去垃圾郵件的頻率恃逻,從而將新郵件識別為垃圾郵件雏搂。樸素貝葉斯使用統(tǒng)計技術(shù)貝葉斯定理(通常稱為條件概率)藕施。因此,我們可以說機器學習算法使用統(tǒng)計概念來執(zhí)行機器學習凸郑。
PS:機器學習和統(tǒng)計模型之間的主要區(qū)別來自它們的發(fā)源地裳食。機器學習起源于計算機科學系,統(tǒng)計建模來自數(shù)學系芙沥。此外诲祸,任何統(tǒng)計建模都假設(shè)許多分布,而機器學習算法通常不知道所有屬性的分布而昨。
什么是深度學習:
深度學習與機器學習算法(人工神經(jīng)網(wǎng)絡救氯,ANN)相關(guān)聯(lián)的,該算法使用人腦的概念來促進任意函數(shù)的建模歌憨。神經(jīng)網(wǎng)絡需要大量數(shù)據(jù)着憨,并且該算法在同時對多個輸出進行建模時具有高度靈活性。神經(jīng)網(wǎng)絡是一個更復雜的主題务嫡,我們可以在完全獨立的文章中對其進行討論甲抖。
什么是數(shù)據(jù)挖掘:
在我剛開始做數(shù)據(jù)分析師的日子里,我總是習慣于混淆兩個術(shù)語:機器學習和數(shù)據(jù)挖掘心铃。但是准谚,后來我了解到,數(shù)據(jù)挖掘處理的是搜索特定信息去扣。機器學習專注于完成一項特定的任務柱衔。讓我舉一個幫助我記住差異的例子; 教別人如何跳舞是機器學習。利用某人在城市中尋找最佳的舞蹈中心是數(shù)據(jù)挖掘愉棱。是不是超級簡單唆铐!
但是,我們究竟如何教機器學習羽氮?
教機器涉及到一個結(jié)構(gòu)化過程或链,這個過程中,每個階段都可以構(gòu)建更好的機器版本档押。為簡化起見澳盐,教學機器的過程可分為三個部分:
我將在隨后的文章中詳細介紹這3個步驟中的每一個。到目前為止令宿,你應該明白叼耙,這3個步驟確保機器的整體學習能夠同等重要地執(zhí)行給定的任務。機器的成功取決于兩個因素:
抽象數(shù)據(jù)的泛化效果如何粒没。
這臺機器如何把它的學習應用到預測未來的實際應用中筛婉。
機器學習的步驟是什么?
有5個基本步驟用于執(zhí)行機器學習任務:
收集數(shù)據(jù):無論是來自excel,access爽撒,文本文件等的原始數(shù)據(jù)入蛆,這一步(收集過去的數(shù)據(jù))構(gòu)成了未來學習的基礎(chǔ)。相關(guān)數(shù)據(jù)的種類硕勿,密度和數(shù)量越多哨毁,機器的學習前景就越好。
準備數(shù)據(jù):任何分析過程都會依賴于使用的數(shù)據(jù)質(zhì)量如何源武。人們需要花時間確定數(shù)據(jù)質(zhì)量扼褪,然后采取措施解決諸如缺失的數(shù)據(jù)和異常值的處理等問題。探索性分析可能是一種詳細研究數(shù)據(jù)細微差別的方法粱栖,從而使數(shù)據(jù)的質(zhì)量迅速提高话浇。
訓練模型:此步驟涉及以模型的形式選擇適當?shù)乃惴ê蛿?shù)據(jù)表示。清理后的數(shù)據(jù)分為兩部分 - 訓練和測試(比例視前提確定); 第一部分(訓練數(shù)據(jù))用于開發(fā)模型闹究。第二部分(測試數(shù)據(jù))用作參考依據(jù)幔崖。
評估模型:為了測試準確性,使用數(shù)據(jù)的第二部分(保持/測試數(shù)據(jù))渣淤。此步驟根據(jù)結(jié)果確定算法選擇的精度岖瑰。檢查模型準確性的更好測試是查看其在模型構(gòu)建期間根本未使用的數(shù)據(jù)的性能。
提高性能:此步驟可能涉及選擇完全不同的模型或引入更多變量來提高效率砂代。這就是為什么需要花費大量時間進行數(shù)據(jù)收集和準備的原因。
無論是任何模型率挣,這5個步驟都可用于構(gòu)建技術(shù)刻伊,當我們討論算法時,您將找到這五個步驟如何出現(xiàn)在每個模型中椒功!
機器學習算法有哪些類型捶箱?
監(jiān)督學習/預測模型:
顧名思義,預測模型用于根據(jù)歷史數(shù)據(jù)預測未來結(jié)果。預測模型通常從一開始就給出明確的指示动漾,如需要學習的內(nèi)容以及如何學習丁屎。這類學習算法被稱為監(jiān)督學習。
例如:當營銷公司試圖找出哪些客戶可能會流失時旱眯,就會使用監(jiān)督學習晨川。我們還可以用它來預測地震,龍卷風等危險發(fā)生的可能性删豺,目的是確定總保險價值共虑。使用的算法的一些示例是:最近鄰算法,樸素貝葉斯算法呀页,決策樹算法妈拌,回歸算法等。
無監(jiān)督學習/描述性模型:
它用于訓練描述模型蓬蝶,其中沒有設(shè)置目標尘分,并且沒有一個特征比另一個重要猜惋。無監(jiān)督學習的情況可以是:當零售商希望找出產(chǎn)品組合時,顧客往往會更頻繁地購買培愁。此外著摔,在制藥工業(yè)中,可以使用無監(jiān)督學習來預測哪些疾病可能與糖尿病一起發(fā)生竭钝。這里使用的算法示例是:K-均值聚類算法
強化學習(RL):
這是機器學習的一個例子梨撞,其中機器被訓練根據(jù)業(yè)務需求做出特定的決定,唯一的座右銘是最大化效率(性能)香罐。強化學習所涉及的理念是:機器/軟件代理根據(jù)其所處的環(huán)境不斷地自我訓練卧波,并應用它豐富的知識來解決業(yè)務問題。這種持續(xù)的學習過程可以減少人類專業(yè)知識的參與庇茫,從而節(jié)省大量時間港粱!
RL中使用的算法的示例是馬爾可夫決策過程。
PS:監(jiān)督學習和強化學習(RL)之間存在細微差別旦签。RL主要涉及通過與環(huán)境交互來學習查坪。RL代理從其過去的經(jīng)驗中學習,而不是從其持續(xù)的試驗和錯誤學習過程中學習宁炫,而是外部主管提供示例的監(jiān)督學習中學習偿曙。
了解差異的一個很好的例子是無人駕駛汽車。自駕車使用強化學習來不斷做出決策 - 走哪條路羔巢?速度是是多少望忆?這些問題都是與環(huán)境互動后決定的。監(jiān)督學習的一個簡單表現(xiàn)是預測出租車從一個地方到另一個地方的車費竿秆。
機器學習有哪些應用启摄?
了解機器學習的應用是非常有趣的。Google和Facebook廣泛使用ML將其各自的廣告推送給相關(guān)用戶幽钢。以下是你應該了解的一些ML應用:
銀行和金融服務:ML可用于預測可能違約支付貸款或信用卡賬單的客戶歉备。這是至關(guān)重要的,因為機器學習將幫助銀行識別那些是可以獲得貸款和信用卡的客戶匪燕。
醫(yī)療保健:它用于根據(jù)患者的癥狀診斷致命疾怖傺颉(例如癌癥),并根據(jù)類似患者的過去數(shù)據(jù)對其進行統(tǒng)計帽驯。
零售:它用于識別銷售頻繁(快速移動)的產(chǎn)品和緩慢移動的產(chǎn)品肚豺,幫助零售商決定從貨架上引入或移除哪種產(chǎn)品。此外界拦,機器學習算法可用于查找哪兩個/三個或更多產(chǎn)品一起銷售吸申。這樣做是為了設(shè)計客戶忠誠度計劃,從而幫助零售商開發(fā)和維護忠誠的客戶。
這些例子只是冰山一角截碴。機器學習在每個領(lǐng)域都有廣泛的應用梳侨。可以查看一些Kaggle問題以獲得更多知識日丹,上面包含的例子很容易理解走哺,至少可以體驗機器學習的無所不能。
隨著人工智能的熱潮哲虾,人們開始逐漸的對機器學習產(chǎn)生了興趣丙躏,而這種興趣也是全球化,雖然人們對機器學習有很大的興趣束凑,但是人們對機器學習似乎并沒有真正的了解晒旅,而文章的作者借由向一些非數(shù)據(jù)科學行業(yè)內(nèi)的小白科普機器學習的過程中,用非常白話的語言向我們介紹了什么是機器學習汪诉,一些機器學習中的專業(yè)術(shù)語废恋,機器學習的步驟和機器學習的類型與應用。并且通過一些小案例向我們解釋了各種算法的作用扒寄,在我認為鱼鼓,機器學習是進入人工智能領(lǐng)域一塊很好的墊腳石,至少不會再未來的浪潮中使我們迷失了方向该编。
文章翻譯自:Machine Learning basics for a newbie
原文鏈接:https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics/