http://smart.huanqiu.com/roll/2016-12/9846047.html?agt=56
機(jī)器學(xué)習(xí)算法可以分為三個(gè)大類——有監(jiān)督學(xué)習(xí)舒憾、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)掰吕。
有監(jiān)督學(xué)習(xí),對(duì)訓(xùn)練有標(biāo)簽的數(shù)據(jù)有用氯迂,但是對(duì)于其他沒有標(biāo)簽的數(shù)據(jù),則需要預(yù)估。
無(wú)監(jiān)督學(xué)習(xí),用于對(duì)無(wú)標(biāo)簽的數(shù)據(jù)集(數(shù)據(jù)沒有預(yù)處理)的處理荆忍,需要發(fā)掘其內(nèi)在關(guān)系的時(shí)候。
強(qiáng)化學(xué)習(xí)撤缴,介于兩者之間刹枉,雖然沒有精準(zhǔn)的標(biāo)簽或者錯(cuò)誤信息,但是對(duì)于每個(gè)可預(yù)測(cè)的步驟或者行為屈呕,會(huì)有某種形式的反饋微宝。
由于我上的是入門課程,我并沒有學(xué)習(xí)強(qiáng)化學(xué)習(xí)虎眨,但是下面10個(gè)有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法已經(jīng)足以讓你對(duì)機(jī)器學(xué)習(xí)產(chǎn)生興趣蟋软。
監(jiān)督學(xué)習(xí)
1.決策樹 (Decision Trees)
決策樹是一個(gè)決策支持工具镶摘,它用樹形的圖或者模型表示決策及其可能的后果,包括隨機(jī)事件的影響岳守、資源消耗钉稍、以及用途。請(qǐng)看下圖棺耍,隨意感受一下決策樹長(zhǎng)這樣的:
從商業(yè)角度看,決策樹就是用最少的Yes/No問題种樱,盡可能地做出一個(gè)正確的決策蒙袍。它讓我們通過一種結(jié)構(gòu)化、系統(tǒng)化的方式解決問題嫩挤,得到一個(gè)有邏輯的結(jié)論害幅。
2.樸素貝葉斯分類(Naive Bayes Classification)
樸素貝葉斯分類器是一類簡(jiǎn)單概率分類器,它基于把貝葉斯定理運(yùn)用在特征之間關(guān)系的強(qiáng)獨(dú)立性假設(shè)上岂昭。下圖是貝葉斯公式——P(A|B)表示后驗(yàn)概率以现,P(B|A)表示似然度,P(A)表示類別的先驗(yàn)概率(class prior probability)约啊,P(B)表示做出預(yù)測(cè)的先驗(yàn)概率(predictor prior probability)邑遏。
現(xiàn)實(shí)生活中的應(yīng)用例子:
一封電子郵件是否是垃圾郵件
一篇文章應(yīng)該分到科技、政治恰矩,還是體育類
一段文字表達(dá)的是積極的情緒還是消極的情緒记盒?
人臉識(shí)別
3.普通最小二乘回歸(Ordinary Least Squares Regression)
如果你學(xué)過統(tǒng)計(jì)學(xué),你可能聽過線性回歸外傅。至少最小二乘是一種進(jìn)行線性回歸的方法纪吮。你可以認(rèn)為線性回歸就是讓一條直線用最適合的姿勢(shì)穿過一組點(diǎn)。有很多方法可以這樣做萎胰,普通最小二乘法就像這樣——你可以畫一條線碾盟,測(cè)量每個(gè)點(diǎn)到這條線的距離,然后加起來(lái)技竟。最好的線應(yīng)該是所有距離加起來(lái)最小的那根冰肴。
線性法表示你去建模線性模型,而最小二乘法可以最小化該線性模型的誤差灵奖。
4.邏輯回歸(Logistic Regression)
邏輯回歸是一種非常強(qiáng)大的統(tǒng)計(jì)方法嚼沿,可以把有一個(gè)或者多個(gè)解釋變量的數(shù)據(jù),建立為二項(xiàng)式類型的模型瓷患,通過用累積邏輯分布的邏輯函數(shù)估計(jì)概率骡尽,測(cè)量分類因變量和一個(gè)或多個(gè)獨(dú)立變量之間的關(guān)系。
通常擅编,回歸在現(xiàn)實(shí)生活中的用途如下:
信用評(píng)估
測(cè)量市場(chǎng)營(yíng)銷的成功度
預(yù)測(cè)某個(gè)產(chǎn)品的收益
特定的某天是否會(huì)發(fā)生地震
5.支持向量機(jī)(Support Vector Machines)
SVM是一種二分算法攀细。假設(shè)在N維空間箫踩,有一組點(diǎn),包含兩種類型谭贪,SVM生成a(N-1) 維的超平面境钟,把這些點(diǎn)分成兩組。比如你有一些點(diǎn)在紙上面俭识,這些點(diǎn)是線性分離的慨削。SVM會(huì)找到一個(gè)直線,把這些點(diǎn)分成兩類套媚,并且會(huì)盡可能遠(yuǎn)離這些點(diǎn)缚态。
從規(guī)模看來(lái)堤瘤,SVM(包括適當(dāng)調(diào)整過的)解決的一些特大的問題有:廣告玫芦、人類基因剪接位點(diǎn)識(shí)別、基于圖片的性別檢測(cè)本辐、大規(guī)模圖片分類…
6.集成方法(Ensemble Methods)
集成方法吸納了很多算法桥帆,構(gòu)建一個(gè)分類器集合,然后給它們的預(yù)測(cè)帶權(quán)重的進(jìn)行投票慎皱,從而進(jìn)行分類老虫。最初的集成方法是貝葉斯平均法(Bayesian averaging),但是最近的算法集還包括了糾錯(cuò)輸出編碼(error-correcting output coding) 茫多,bagging和boosting
那么集成方法如何工作的张遭?為什么它們比單獨(dú)的模型更好?
它們均衡了偏差:就像如果你均衡了大量的傾向民主黨的投票和大量?jī)A向共和黨的投票地梨,你總會(huì)得到一個(gè)不那么偏頗的結(jié)果菊卷。
它們降低了方差:集合大量模型的參考結(jié)果,噪音會(huì)小于單個(gè)模型的單個(gè)結(jié)果宝剖。在金融上洁闰,這叫投資分散原則(diversification)——一個(gè)混搭很多種股票的投資組合,比單獨(dú)的股票更少變故万细。
它們不太可能過度擬合:如果你有單獨(dú)的模型不是完全擬合扑眉,你結(jié)合每個(gè)簡(jiǎn)單方法建模,就不會(huì)發(fā)生過度擬合(over-fitting)
無(wú)監(jiān)督學(xué)習(xí)
7. 聚類算法(Clustering Algorithms)
聚類就是把一組對(duì)象分組化的任務(wù)赖钞,使得在同一組的對(duì)象比起其它組的對(duì)象腰素,它們彼此更加相似。
每種聚類算法都不同雪营,下面是其中一些:
基于圖心(Centroid)的算法
基于連接的算法
基于密集度的算法
概率論
降維
神經(jīng)網(wǎng)絡(luò) / 深度學(xué)習(xí)
8.主成分分析(Principal Component Analysis)
PCA是一種統(tǒng)計(jì)過程弓千,它通過正交變換把一組可能相關(guān)聯(lián)的變量觀察,轉(zhuǎn)換成一組線性非相關(guān)的變量的值献起,這些非相關(guān)的變量就是主成分洋访。
PCA的應(yīng)用包括壓縮镣陕、簡(jiǎn)化數(shù)據(jù)使之易于學(xué)習(xí),可視化姻政。需要注意的是呆抑,當(dāng)決定是否用PCA的時(shí)候,領(lǐng)域知識(shí)特別重要汁展。它不適用于噪音多的數(shù)據(jù)(所有成分的方差要很高才行)
9.奇異值分解(Singular Value Decomposition)
線性代數(shù)中鹊碍,SVD是對(duì)一個(gè)特別復(fù)雜的矩陣做因式分解。比如一個(gè)m*n的矩陣M食绿,存在一個(gè)分解如M = UΣV妹萨,其中U和V是酉矩陣,Σ是一個(gè)對(duì)角矩陣炫欺。
PCA其實(shí)是種簡(jiǎn)單的SVD。在計(jì)算機(jī)圖形領(lǐng)域熏兄,第一個(gè)臉部識(shí)別算法就用了PCA和SVD品洛,用特征臉(eigenfaces)的線性結(jié)合表達(dá)臉部圖像,然后降維摩桶,用簡(jiǎn)單的方法把臉部和人匹配起來(lái)桥状。盡管如今的方法更加復(fù)雜,依然有很多是依靠類似這樣的技術(shù)硝清。
10.獨(dú)立成分分析(Independent Component Analysis)
[圖片上傳失敗...(image-e0c998-1545226372826)]
ICA是一種統(tǒng)計(jì)技術(shù)辅斟。它發(fā)掘隨機(jī)變量、測(cè)量數(shù)據(jù)或者信號(hào)的集合中隱含的因素芦拿。ICA定義了一種通用模型士飒,用于觀測(cè)到的多變量數(shù)據(jù),通常是一個(gè)巨大的樣本數(shù)據(jù)庫(kù)蔗崎。在這一模型中酵幕,假設(shè)數(shù)據(jù)變量是一些未知的、潛在的變量的線性組合缓苛,而組合方式也是未知的芳撒。同時(shí)假設(shè),潛在的變量是非高斯分布且相互獨(dú)立的未桥,我們稱之為觀測(cè)數(shù)據(jù)的獨(dú)立成分(Independent components)笔刹。
ICA與PCA有一定關(guān)聯(lián),但是一種更加有用的技術(shù)冬耿,在經(jīng)典方法完全失效的時(shí)候舌菜,可以發(fā)現(xiàn)數(shù)據(jù)源中的潛在因素。它的應(yīng)用包括數(shù)字圖片亦镶,文件數(shù)據(jù)庫(kù)酷师,經(jīng)濟(jì)指數(shù)和心理測(cè)量讶凉。
現(xiàn)在可以開始用你對(duì)這些算法的理解,去創(chuàng)建機(jī)器學(xué)習(xí)應(yīng)用山孔,給大家?guī)?lái)更好的體驗(yàn)懂讯。
原文鏈接:
http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html
相關(guān)資料鏈接:
Peter Norvig’s Artificial Intelligence?—?A Modern Approach
Intro to Machine Learning:
https://www.udacity.com/course/intro-to-machine-learning--ud120