十大機(jī)器學(xué)習(xí)算法及其應(yīng)用 體驗(yàn)成重中之重

http://smart.huanqiu.com/roll/2016-12/9846047.html?agt=56

機(jī)器學(xué)習(xí)算法可以分為三個(gè)大類——有監(jiān)督學(xué)習(xí)舒憾、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)掰吕。

有監(jiān)督學(xué)習(xí),對(duì)訓(xùn)練有標(biāo)簽的數(shù)據(jù)有用氯迂,但是對(duì)于其他沒有標(biāo)簽的數(shù)據(jù),則需要預(yù)估。

無(wú)監(jiān)督學(xué)習(xí),用于對(duì)無(wú)標(biāo)簽的數(shù)據(jù)集(數(shù)據(jù)沒有預(yù)處理)的處理荆忍,需要發(fā)掘其內(nèi)在關(guān)系的時(shí)候。

強(qiáng)化學(xué)習(xí)撤缴,介于兩者之間刹枉,雖然沒有精準(zhǔn)的標(biāo)簽或者錯(cuò)誤信息,但是對(duì)于每個(gè)可預(yù)測(cè)的步驟或者行為屈呕,會(huì)有某種形式的反饋微宝。

由于我上的是入門課程,我并沒有學(xué)習(xí)強(qiáng)化學(xué)習(xí)虎眨,但是下面10個(gè)有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)算法已經(jīng)足以讓你對(duì)機(jī)器學(xué)習(xí)產(chǎn)生興趣蟋软。

監(jiān)督學(xué)習(xí)

1.決策樹 (Decision Trees)

決策樹是一個(gè)決策支持工具镶摘,它用樹形的圖或者模型表示決策及其可能的后果,包括隨機(jī)事件的影響岳守、資源消耗钉稍、以及用途。請(qǐng)看下圖棺耍,隨意感受一下決策樹長(zhǎng)這樣的:

image

從商業(yè)角度看,決策樹就是用最少的Yes/No問題种樱,盡可能地做出一個(gè)正確的決策蒙袍。它讓我們通過一種結(jié)構(gòu)化、系統(tǒng)化的方式解決問題嫩挤,得到一個(gè)有邏輯的結(jié)論害幅。

2.樸素貝葉斯分類(Naive Bayes Classification)

樸素貝葉斯分類器是一類簡(jiǎn)單概率分類器,它基于把貝葉斯定理運(yùn)用在特征之間關(guān)系的強(qiáng)獨(dú)立性假設(shè)上岂昭。下圖是貝葉斯公式——P(A|B)表示后驗(yàn)概率以现,P(B|A)表示似然度,P(A)表示類別的先驗(yàn)概率(class prior probability)约啊,P(B)表示做出預(yù)測(cè)的先驗(yàn)概率(predictor prior probability)邑遏。

image

現(xiàn)實(shí)生活中的應(yīng)用例子:

一封電子郵件是否是垃圾郵件

一篇文章應(yīng)該分到科技、政治恰矩,還是體育類

一段文字表達(dá)的是積極的情緒還是消極的情緒记盒?

人臉識(shí)別

3.普通最小二乘回歸(Ordinary Least Squares Regression)

image

如果你學(xué)過統(tǒng)計(jì)學(xué),你可能聽過線性回歸外傅。至少最小二乘是一種進(jìn)行線性回歸的方法纪吮。你可以認(rèn)為線性回歸就是讓一條直線用最適合的姿勢(shì)穿過一組點(diǎn)。有很多方法可以這樣做萎胰,普通最小二乘法就像這樣——你可以畫一條線碾盟,測(cè)量每個(gè)點(diǎn)到這條線的距離,然后加起來(lái)技竟。最好的線應(yīng)該是所有距離加起來(lái)最小的那根冰肴。

線性法表示你去建模線性模型,而最小二乘法可以最小化該線性模型的誤差灵奖。

4.邏輯回歸(Logistic Regression)

image

邏輯回歸是一種非常強(qiáng)大的統(tǒng)計(jì)方法嚼沿,可以把有一個(gè)或者多個(gè)解釋變量的數(shù)據(jù),建立為二項(xiàng)式類型的模型瓷患,通過用累積邏輯分布的邏輯函數(shù)估計(jì)概率骡尽,測(cè)量分類因變量和一個(gè)或多個(gè)獨(dú)立變量之間的關(guān)系。

通常擅编,回歸在現(xiàn)實(shí)生活中的用途如下:

信用評(píng)估

測(cè)量市場(chǎng)營(yíng)銷的成功度

預(yù)測(cè)某個(gè)產(chǎn)品的收益

特定的某天是否會(huì)發(fā)生地震

5.支持向量機(jī)(Support Vector Machines)

image

SVM是一種二分算法攀细。假設(shè)在N維空間箫踩,有一組點(diǎn),包含兩種類型谭贪,SVM生成a(N-1) 維的超平面境钟,把這些點(diǎn)分成兩組。比如你有一些點(diǎn)在紙上面俭识,這些點(diǎn)是線性分離的慨削。SVM會(huì)找到一個(gè)直線,把這些點(diǎn)分成兩類套媚,并且會(huì)盡可能遠(yuǎn)離這些點(diǎn)缚态。

從規(guī)模看來(lái)堤瘤,SVM(包括適當(dāng)調(diào)整過的)解決的一些特大的問題有:廣告玫芦、人類基因剪接位點(diǎn)識(shí)別、基于圖片的性別檢測(cè)本辐、大規(guī)模圖片分類…

6.集成方法(Ensemble Methods)

image

集成方法吸納了很多算法桥帆,構(gòu)建一個(gè)分類器集合,然后給它們的預(yù)測(cè)帶權(quán)重的進(jìn)行投票慎皱,從而進(jìn)行分類老虫。最初的集成方法是貝葉斯平均法(Bayesian averaging),但是最近的算法集還包括了糾錯(cuò)輸出編碼(error-correcting output coding) 茫多,bagging和boosting

那么集成方法如何工作的张遭?為什么它們比單獨(dú)的模型更好?

它們均衡了偏差:就像如果你均衡了大量的傾向民主黨的投票和大量?jī)A向共和黨的投票地梨,你總會(huì)得到一個(gè)不那么偏頗的結(jié)果菊卷。

它們降低了方差:集合大量模型的參考結(jié)果,噪音會(huì)小于單個(gè)模型的單個(gè)結(jié)果宝剖。在金融上洁闰,這叫投資分散原則(diversification)——一個(gè)混搭很多種股票的投資組合,比單獨(dú)的股票更少變故万细。

它們不太可能過度擬合:如果你有單獨(dú)的模型不是完全擬合扑眉,你結(jié)合每個(gè)簡(jiǎn)單方法建模,就不會(huì)發(fā)生過度擬合(over-fitting)

無(wú)監(jiān)督學(xué)習(xí)

7. 聚類算法(Clustering Algorithms)

image
image

聚類就是把一組對(duì)象分組化的任務(wù)赖钞,使得在同一組的對(duì)象比起其它組的對(duì)象腰素,它們彼此更加相似。

每種聚類算法都不同雪营,下面是其中一些:

基于圖心(Centroid)的算法

基于連接的算法

基于密集度的算法

概率論

降維

神經(jīng)網(wǎng)絡(luò) / 深度學(xué)習(xí)

8.主成分分析(Principal Component Analysis)

image

PCA是一種統(tǒng)計(jì)過程弓千,它通過正交變換把一組可能相關(guān)聯(lián)的變量觀察,轉(zhuǎn)換成一組線性非相關(guān)的變量的值献起,這些非相關(guān)的變量就是主成分洋访。

PCA的應(yīng)用包括壓縮镣陕、簡(jiǎn)化數(shù)據(jù)使之易于學(xué)習(xí),可視化姻政。需要注意的是呆抑,當(dāng)決定是否用PCA的時(shí)候,領(lǐng)域知識(shí)特別重要汁展。它不適用于噪音多的數(shù)據(jù)(所有成分的方差要很高才行)

9.奇異值分解(Singular Value Decomposition)

image

線性代數(shù)中鹊碍,SVD是對(duì)一個(gè)特別復(fù)雜的矩陣做因式分解。比如一個(gè)m*n的矩陣M食绿,存在一個(gè)分解如M = UΣV妹萨,其中U和V是酉矩陣,Σ是一個(gè)對(duì)角矩陣炫欺。

PCA其實(shí)是種簡(jiǎn)單的SVD。在計(jì)算機(jī)圖形領(lǐng)域熏兄,第一個(gè)臉部識(shí)別算法就用了PCA和SVD品洛,用特征臉(eigenfaces)的線性結(jié)合表達(dá)臉部圖像,然后降維摩桶,用簡(jiǎn)單的方法把臉部和人匹配起來(lái)桥状。盡管如今的方法更加復(fù)雜,依然有很多是依靠類似這樣的技術(shù)硝清。

10.獨(dú)立成分分析(Independent Component Analysis)

[圖片上傳失敗...(image-e0c998-1545226372826)]

ICA是一種統(tǒng)計(jì)技術(shù)辅斟。它發(fā)掘隨機(jī)變量、測(cè)量數(shù)據(jù)或者信號(hào)的集合中隱含的因素芦拿。ICA定義了一種通用模型士飒,用于觀測(cè)到的多變量數(shù)據(jù),通常是一個(gè)巨大的樣本數(shù)據(jù)庫(kù)蔗崎。在這一模型中酵幕,假設(shè)數(shù)據(jù)變量是一些未知的、潛在的變量的線性組合缓苛,而組合方式也是未知的芳撒。同時(shí)假設(shè),潛在的變量是非高斯分布且相互獨(dú)立的未桥,我們稱之為觀測(cè)數(shù)據(jù)的獨(dú)立成分(Independent components)笔刹。

ICA與PCA有一定關(guān)聯(lián),但是一種更加有用的技術(shù)冬耿,在經(jīng)典方法完全失效的時(shí)候舌菜,可以發(fā)現(xiàn)數(shù)據(jù)源中的潛在因素。它的應(yīng)用包括數(shù)字圖片亦镶,文件數(shù)據(jù)庫(kù)酷师,經(jīng)濟(jì)指數(shù)和心理測(cè)量讶凉。

現(xiàn)在可以開始用你對(duì)這些算法的理解,去創(chuàng)建機(jī)器學(xué)習(xí)應(yīng)用山孔,給大家?guī)?lái)更好的體驗(yàn)懂讯。

原文鏈接:

http://www.kdnuggets.com/2016/08/10-algorithms-machine-learning-engineers.html

相關(guān)資料鏈接:

Peter Norvig’s Artificial Intelligence?—?A Modern Approach

Intro to Machine Learning:

https://www.udacity.com/course/intro-to-machine-learning--ud120

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市台颠,隨后出現(xiàn)的幾起案子褐望,更是在濱河造成了極大的恐慌,老刑警劉巖串前,帶你破解...
    沈念sama閱讀 217,509評(píng)論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瘫里,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡荡碾,警方通過查閱死者的電腦和手機(jī)谨读,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,806評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坛吁,“玉大人劳殖,你說我怎么就攤上這事〔β觯” “怎么了哆姻?”我有些...
    開封第一講書人閱讀 163,875評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)玫膀。 經(jīng)常有香客問我矛缨,道長(zhǎng),這世上最難降的妖魔是什么帖旨? 我笑而不...
    開封第一講書人閱讀 58,441評(píng)論 1 293
  • 正文 為了忘掉前任箕昭,我火速辦了婚禮,結(jié)果婚禮上解阅,老公的妹妹穿的比我還像新娘盟广。我一直安慰自己,他們只是感情好瓮钥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,488評(píng)論 6 392
  • 文/花漫 我一把揭開白布筋量。 她就那樣靜靜地躺著,像睡著了一般碉熄。 火紅的嫁衣襯著肌膚如雪桨武。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,365評(píng)論 1 302
  • 那天锈津,我揣著相機(jī)與錄音呀酸,去河邊找鬼。 笑死琼梆,一個(gè)胖子當(dāng)著我的面吹牛性誉,可吹牛的內(nèi)容都是我干的窿吩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,190評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼错览,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼纫雁!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起倾哺,我...
    開封第一講書人閱讀 39,062評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤轧邪,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后羞海,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忌愚,經(jīng)...
    沈念sama閱讀 45,500評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,706評(píng)論 3 335
  • 正文 我和宋清朗相戀三年却邓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了硕糊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,834評(píng)論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡腊徙,死狀恐怖简十,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情昧穿,我是刑警寧澤,帶...
    沈念sama閱讀 35,559評(píng)論 5 345
  • 正文 年R本政府宣布橙喘,位于F島的核電站时鸵,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏厅瞎。R本人自食惡果不足惜饰潜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,167評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望和簸。 院中可真熱鬧彭雾,春花似錦、人聲如沸锁保。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,779評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)爽柒。三九已至吴菠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間浩村,已是汗流浹背做葵。 一陣腳步聲響...
    開封第一講書人閱讀 32,912評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留心墅,地道東北人酿矢。 一個(gè)月前我還...
    沈念sama閱讀 47,958評(píng)論 2 370
  • 正文 我出身青樓榨乎,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親瘫筐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蜜暑,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,779評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容