十大機(jī)器學(xué)習(xí)算法及其應(yīng)用體驗(yàn)成重中之重

http://smart.huanqiu.com/roll/2016-12/9846047.html?agt=56

機(jī)器學(xué)習(xí)算法可以分為三個(gè)大類——有監(jiān)督學(xué)習(xí)舒憾、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)掰吕。

有監(jiān)督學(xué)習(xí)，對(duì)訓(xùn)練有標(biāo)簽的數(shù)據(jù)有用氯迂，但是對(duì)于其他沒有標(biāo)簽的數(shù)據(jù)，則需要預(yù)估。

無(wú)監(jiān)督學(xué)習(xí)，用于對(duì)無(wú)標(biāo)簽的數(shù)據(jù)集（數(shù)據(jù)沒有預(yù)處理）的處理荆忍，需要發(fā)掘其內(nèi)在關(guān)系的時(shí)候。

強(qiáng)化學(xué)習(xí)撤缴，介于兩者之間刹枉，雖然沒有精準(zhǔn)的標(biāo)簽或者錯(cuò)誤信息，但是對(duì)于每個(gè)可預(yù)測(cè)的步驟或者行為屈呕，會(huì)有某種形式的反饋微宝。

由于我上的是入門課程，我并沒有學(xué)習(xí)強(qiáng)化學(xué)習(xí)虎眨，但是下面10個(gè)有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法已經(jīng)足以讓你對(duì)機(jī)器學(xué)習(xí)產(chǎn)生興趣蟋软。

監(jiān)督學(xué)習(xí)

1.決策樹 (Decision Trees)

決策樹是一個(gè)決策支持工具镶摘，它用樹形的圖或者模型表示決策及其可能的后果，包括隨機(jī)事件的影響岳守、資源消耗钉稍、以及用途。請(qǐng)看下圖棺耍，隨意感受一下決策樹長(zhǎng)這樣的：

image

從商業(yè)角度看，決策樹就是用最少的Yes/No問題种樱，盡可能地做出一個(gè)正確的決策蒙袍。它讓我們通過一種結(jié)構(gòu)化、系統(tǒng)化的方式解決問題嫩挤，得到一個(gè)有邏輯的結(jié)論害幅。

2.樸素貝葉斯分類(Naive Bayes Classification)

樸素貝葉斯分類器是一類簡(jiǎn)單概率分類器，它基于把貝葉斯定理運(yùn)用在特征之間關(guān)系的強(qiáng)獨(dú)立性假設(shè)上岂昭。下圖是貝葉斯公式——P(A|B)表示后驗(yàn)概率以现，P(B|A)表示似然度，P(A)表示類別的先驗(yàn)概率(class prior probability)约啊，P(B)表示做出預(yù)測(cè)的先驗(yàn)概率(predictor prior probability)邑遏。

image

現(xiàn)實(shí)生活中的應(yīng)用例子：

一封電子郵件是否是垃圾郵件

一篇文章應(yīng)該分到科技、政治恰矩，還是體育類

一段文字表達(dá)的是積極的情緒還是消極的情緒记盒？

人臉識(shí)別

3.普通最小二乘回歸(Ordinary Least Squares Regression)

image

如果你學(xué)過統(tǒng)計(jì)學(xué)，你可能聽過線性回歸外傅。至少最小二乘是一種進(jìn)行線性回歸的方法纪吮。你可以認(rèn)為線性回歸就是讓一條直線用最適合的姿勢(shì)穿過一組點(diǎn)。有很多方法可以這樣做萎胰，普通最小二乘法就像這樣——你可以畫一條線碾盟，測(cè)量每個(gè)點(diǎn)到這條線的距離，然后加起來(lái)技竟。最好的線應(yīng)該是所有距離加起來(lái)最小的那根冰肴。

線性法表示你去建模線性模型，而最小二乘法可以最小化該線性模型的誤差灵奖。

4.邏輯回歸(Logistic Regression)

image

邏輯回歸是一種非常強(qiáng)大的統(tǒng)計(jì)方法嚼沿，可以把有一個(gè)或者多個(gè)解釋變量的數(shù)據(jù)，建立為二項(xiàng)式類型的模型瓷患，通過用累積邏輯分布的邏輯函數(shù)估計(jì)概率骡尽，測(cè)量分類因變量和一個(gè)或多個(gè)獨(dú)立變量之間的關(guān)系。

通常擅编，回歸在現(xiàn)實(shí)生活中的用途如下：

信用評(píng)估

測(cè)量市場(chǎng)營(yíng)銷的成功度

預(yù)測(cè)某個(gè)產(chǎn)品的收益

特定的某天是否會(huì)發(fā)生地震

5.支持向量機(jī)(Support Vector Machines)

image

SVM是一種二分算法攀细。假設(shè)在N維空間箫踩，有一組點(diǎn)，包含兩種類型谭贪，SVM生成a(N-1) 維的超平面境钟，把這些點(diǎn)分成兩組。比如你有一些點(diǎn)在紙上面俭识，這些點(diǎn)是線性分離的慨削。SVM會(huì)找到一個(gè)直線，把這些點(diǎn)分成兩類套媚，并且會(huì)盡可能遠(yuǎn)離這些點(diǎn)缚态。

從規(guī)模看來(lái)堤瘤，SVM（包括適當(dāng)調(diào)整過的）解決的一些特大的問題有：廣告玫芦、人類基因剪接位點(diǎn)識(shí)別、基于圖片的性別檢測(cè)本辐、大規(guī)模圖片分類…

6.集成方法(Ensemble Methods)

image

集成方法吸納了很多算法桥帆，構(gòu)建一個(gè)分類器集合，然后給它們的預(yù)測(cè)帶權(quán)重的進(jìn)行投票慎皱，從而進(jìn)行分類老虫。最初的集成方法是貝葉斯平均法(Bayesian averaging)，但是最近的算法集還包括了糾錯(cuò)輸出編碼(error-correcting output coding) 茫多，bagging和boosting

那么集成方法如何工作的张遭？為什么它們比單獨(dú)的模型更好？

它們均衡了偏差：就像如果你均衡了大量的傾向民主黨的投票和大量?jī)A向共和黨的投票地梨，你總會(huì)得到一個(gè)不那么偏頗的結(jié)果菊卷。

它們降低了方差：集合大量模型的參考結(jié)果，噪音會(huì)小于單個(gè)模型的單個(gè)結(jié)果宝剖。在金融上洁闰，這叫投資分散原則(diversification)——一個(gè)混搭很多種股票的投資組合，比單獨(dú)的股票更少變故万细。

它們不太可能過度擬合：如果你有單獨(dú)的模型不是完全擬合扑眉，你結(jié)合每個(gè)簡(jiǎn)單方法建模，就不會(huì)發(fā)生過度擬合(over-fitting)

無(wú)監(jiān)督學(xué)習(xí)

7. 聚類算法(Clustering Algorithms)

image

聚類就是把一組對(duì)象分組化的任務(wù)赖钞，使得在同一組的對(duì)象比起其它組的對(duì)象腰素，它們彼此更加相似。

每種聚類算法都不同雪营，下面是其中一些：

基于圖心（Centroid）的算法

基于連接的算法

基于密集度的算法

概率論

降維

神經(jīng)網(wǎng)絡(luò) / 深度學(xué)習(xí)

8.主成分分析(Principal Component Analysis)

image

PCA是一種統(tǒng)計(jì)過程弓千，它通過正交變換把一組可能相關(guān)聯(lián)的變量觀察，轉(zhuǎn)換成一組線性非相關(guān)的變量的值献起，這些非相關(guān)的變量就是主成分洋访。

PCA的應(yīng)用包括壓縮镣陕、簡(jiǎn)化數(shù)據(jù)使之易于學(xué)習(xí)，可視化姻政。需要注意的是呆抑，當(dāng)決定是否用PCA的時(shí)候，領(lǐng)域知識(shí)特別重要汁展。它不適用于噪音多的數(shù)據(jù)（所有成分的方差要很高才行）

9.奇異值分解(Singular Value Decomposition)

image

線性代數(shù)中鹊碍，SVD是對(duì)一個(gè)特別復(fù)雜的矩陣做因式分解。比如一個(gè)m*n的矩陣M食绿，存在一個(gè)分解如M = UΣV妹萨，其中U和V是酉矩陣，Σ是一個(gè)對(duì)角矩陣炫欺。

PCA其實(shí)是種簡(jiǎn)單的SVD。在計(jì)算機(jī)圖形領(lǐng)域熏兄，第一個(gè)臉部識(shí)別算法就用了PCA和SVD品洛，用特征臉(eigenfaces)的線性結(jié)合表達(dá)臉部圖像，然后降維摩桶，用簡(jiǎn)單的方法把臉部和人匹配起來(lái)桥状。盡管如今的方法更加復(fù)雜，依然有很多是依靠類似這樣的技術(shù)硝清。

10.獨(dú)立成分分析(Independent Component Analysis)

[圖片上傳失敗...(image-e0c998-1545226372826)]

ICA是一種統(tǒng)計(jì)技術(shù)辅斟。它發(fā)掘隨機(jī)變量、測(cè)量數(shù)據(jù)或者信號(hào)的集合中隱含的因素芦拿。ICA定義了一種通用模型士飒，用于觀測(cè)到的多變量數(shù)據(jù)，通常是一個(gè)巨大的樣本數(shù)據(jù)庫(kù)蔗崎。在這一模型中酵幕，假設(shè)數(shù)據(jù)變量是一些未知的、潛在的變量的線性組合缓苛，而組合方式也是未知的芳撒。同時(shí)假設(shè)，潛在的變量是非高斯分布且相互獨(dú)立的未桥，我們稱之為觀測(cè)數(shù)據(jù)的獨(dú)立成分(Independent components)笔刹。

ICA與PCA有一定關(guān)聯(lián)，但是一種更加有用的技術(shù)冬耿，在經(jīng)典方法完全失效的時(shí)候舌菜，可以發(fā)現(xiàn)數(shù)據(jù)源中的潛在因素。它的應(yīng)用包括數(shù)字圖片亦镶，文件數(shù)據(jù)庫(kù)酷师，經(jīng)濟(jì)指數(shù)和心理測(cè)量讶凉。

現(xiàn)在可以開始用你對(duì)這些算法的理解，去創(chuàng)建機(jī)器學(xué)習(xí)應(yīng)用山孔，給大家?guī)?lái)更好的體驗(yàn)懂讯。

原文鏈接：

http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html

相關(guān)資料鏈接：

Peter Norvig’s Artificial Intelligence?—?A Modern Approach

Intro to Machine Learning：

https://www.udacity.com/course/intro-to-machine-learning--ud120

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市台颠，隨后出現(xiàn)的幾起案子褐望，更是在濱河造成了極大的恐慌，老刑警劉巖串前，帶你破解...
沈念sama閱讀 217,509評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件瘫里，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡荡碾，警方通過查閱死者的電腦和手機(jī)谨读，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,806評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坛吁，“玉大人劳殖，你說我怎么就攤上這事〔β觯” “怎么了哆姻？”我有些...
開封第一講書人閱讀 163,875評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)玫膀。經(jīng)常有香客問我矛缨，道長(zhǎng)，這世上最難降的妖魔是什么帖旨？我笑而不...
開封第一講書人閱讀 58,441評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任箕昭，我火速辦了婚禮，結(jié)果婚禮上解阅，老公的妹妹穿的比我還像新娘盟广。我一直安慰自己，他們只是感情好瓮钥，可當(dāng)我...
茶點(diǎn)故事閱讀 67,488評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布筋量。她就那樣靜靜地躺著，像睡著了一般碉熄。火紅的嫁衣襯著肌膚如雪桨武。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,365評(píng)論 1贊 302
城市分裂傳說
那天锈津，我揣著相機(jī)與錄音呀酸，去河邊找鬼。笑死琼梆，一個(gè)胖子當(dāng)著我的面吹牛性誉，可吹牛的內(nèi)容都是我干的窿吩。我是一名探鬼主播，決...
沈念sama閱讀 40,190評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼错览，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼纫雁！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起倾哺，我...
開封第一講書人閱讀 39,062評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤轧邪，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后羞海，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忌愚，經(jīng)...
沈念sama閱讀 45,500評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,706評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年却邓，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了硕糊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,834評(píng)論 1贊 347
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡腊徙，死狀恐怖简十，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情昧穿，我是刑警寧澤，帶...
沈念sama閱讀 35,559評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布橙喘，位于F島的核電站时鸵，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏厅瞎。R本人自食惡果不足惜饰潜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,167評(píng)論 3贊 328
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望和簸。院中可真熱鬧彭雾，春花似錦、人聲如沸锁保。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,779評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)爽柒。三九已至吴菠，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間浩村，已是汗流浹背做葵。一陣腳步聲響...
開封第一講書人閱讀 32,912評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留心墅，地道東北人酿矢。一個(gè)月前我還...
沈念sama閱讀 47,958評(píng)論 2贊 370
代替公主和親
正文我出身青樓榨乎，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親瘫筐。傳聞我的和親對(duì)象是個(gè)殘疾皇子蜜暑，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,779評(píng)論 2贊 354

十大機(jī)器學(xué)習(xí)算法及其應(yīng)用 體驗(yàn)成重中之重

推薦閱讀更多精彩內(nèi)容

十大機(jī)器學(xué)習(xí)算法及其應(yīng)用體驗(yàn)成重中之重