機器學(xué)習(xí)常見算法分類匯總

來源: IT經(jīng)理網(wǎng)
鏈接:www.ctocio.com/hotnews/15919.html

機器學(xué)習(xí)無疑是當(dāng)前數(shù)據(jù)分析領(lǐng)域的一個熱點內(nèi)容。很多人在平時的工作中都或多或少會用到機器學(xué)習(xí)的算法耍攘。本文為您總結(jié)一下常見的機器學(xué)習(xí)算法疤孕,以供您在工作和學(xué)習(xí)中參考机久。

機器學(xué)習(xí)的算法很多蓄愁。很多時候困惑人們都是,很多算法是一類算法蹭越,而有些算法又是從其他算法中延伸出來的拖陆。這里弛槐,我們從兩個方面來給大家介紹,第一個方面是學(xué)習(xí)的方式依啰,第二個方面是算法的類似性乎串。

學(xué)習(xí)方式

根據(jù)數(shù)據(jù)類型的不同,對一個問題的建模有不同的方式速警。在機器學(xué)習(xí)或者人工智能領(lǐng)域叹誉,人們首先會考慮算法的學(xué)習(xí)方式。在機器學(xué)習(xí)領(lǐng)域闷旧,有幾種主要的學(xué)習(xí)方式长豁。將算法按照學(xué)習(xí)方式分類是一個不錯的想法,這樣可以讓人們在建模和算法選擇的時候考慮能根據(jù)輸入數(shù)據(jù)來選擇最合適的算法來獲得最好的結(jié)果忙灼。

監(jiān)督式學(xué)習(xí):

在監(jiān)督式學(xué)習(xí)下匠襟,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)有一個明確的標(biāo)識或結(jié)果缀棍,如對防垃圾郵件系統(tǒng)中“垃圾郵件”“非垃圾郵件”宅此,對手寫數(shù)字識別中的“1“机错,”2“爬范,”3“,”4“等弱匪。在建立預(yù)測模型的時候青瀑,監(jiān)督式學(xué)習(xí)建立一個學(xué)習(xí)過程璧亮,將預(yù)測結(jié)果與“訓(xùn)練數(shù)據(jù)”的實際結(jié)果進行比較,不斷的調(diào)整預(yù)測模型斥难,直到模型的預(yù)測結(jié)果達(dá)到一個預(yù)期的準(zhǔn)確率枝嘶。監(jiān)督式學(xué)習(xí)的常見應(yīng)用場景如分類問題和回歸問題。常見算法有邏輯回歸(Logistic Regression)和反向傳遞神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network)

非監(jiān)督式學(xué)習(xí):

在非監(jiān)督式學(xué)習(xí)中哑诊,數(shù)據(jù)并不被特別標(biāo)識群扶,學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應(yīng)用場景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等镀裤。常見算法包括Apriori算法以及k-Means算法竞阐。

半監(jiān)督式學(xué)習(xí):

在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識暑劝,部分沒有被標(biāo)識骆莹,這種學(xué)習(xí)模型可以用來進行預(yù)測,但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來進行預(yù)測担猛。應(yīng)用場景包括分類和回歸幕垦,算法包括一些對常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對未標(biāo)識數(shù)據(jù)進行建模傅联,在此基礎(chǔ)上再對標(biāo)識的數(shù)據(jù)進行預(yù)測先改。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM.)等。

強化學(xué)習(xí):

在這種學(xué)習(xí)模式下蒸走,輸入數(shù)據(jù)作為對模型的反饋盏道,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個檢查模型對錯的方式载碌,在強化學(xué)習(xí)下猜嘱,輸入數(shù)據(jù)直接反饋到模型,模型必須對此立刻作出調(diào)整嫁艇。常見的應(yīng)用場景包括動態(tài)系統(tǒng)以及機器人控制等朗伶。常見算法包括Q-Learning以及時間差學(xué)習(xí)(Temporal difference learning)

在企業(yè)數(shù)據(jù)應(yīng)用的場景下, 人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)的模型步咪。 在圖像識別等領(lǐng)域论皆,由于存在大量的非標(biāo)識的數(shù)據(jù)和少量的可標(biāo)識數(shù)據(jù), 目前半監(jiān)督式學(xué)習(xí)是一個很熱的話題猾漫。 而強化學(xué)習(xí)更多的應(yīng)用在機器人控制及其他需要進行系統(tǒng)控制的領(lǐng)域点晴。

算法類似性

根據(jù)算法的功能和形式的類似性,我們可以把算法分類悯周,比如說基于樹的算法粒督,基于神經(jīng)網(wǎng)絡(luò)的算法等等。當(dāng)然禽翼,機器學(xué)習(xí)的范圍非常龐大屠橄,有些算法很難明確歸類到某一類族跛。而對于有些分類來說,同一分類的算法可以針對不同類型的問題锐墙。這里礁哄,我們盡量把常用的算法按照最容易理解的方式進行分類。

回歸算法:

回歸算法是試圖采用對誤差的衡量來探索變量之間的關(guān)系的一類算法溪北⊥┤蓿回歸算法是統(tǒng)計機器學(xué)習(xí)的利器。在機器學(xué)習(xí)領(lǐng)域之拨,人們說起回歸掏膏,有時候是指一類問題,有時候是指一類算法敦锌,這一點常常會使初學(xué)者有所困惑馒疹。常見的回歸算法包括:最小二乘法(Ordinary Least Square),邏輯回歸(Logistic Regression)乙墙,逐步式回歸(Stepwise Regression)颖变,多元自適應(yīng)回歸樣條(Multivariate Adaptive Regression Splines)以及本地散點平滑估計(Locally Estimated Scatterplot Smoothing)

基于實例的算法

基于實例的算法常常用來對決策問題建立模型,這樣的模型常常先選取一批樣本數(shù)據(jù)听想,然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進行比較腥刹。通過這種方式來尋找最佳的匹配。因此汉买,基于實例的算法常常也被稱為“贏家通吃”學(xué)習(xí)或者“基于記憶的學(xué)習(xí)”衔峰。常見的算法包括 k-Nearest Neighbor(KNN), 學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ)蛙粘,以及自組織映射算法(Self-Organizing Map 垫卤, SOM)

正則化方法

正則化方法是其他算法(通常是回歸算法)的延伸,根據(jù)算法的復(fù)雜度對算法進行調(diào)整出牧。正則化方法通常對簡單模型予以獎勵而對復(fù)雜算法予以懲罰穴肘。常見的算法包括:Ridge Regression, Least Absolute Shrinkage and Selection Operator(LASSO)舔痕,以及彈性網(wǎng)絡(luò)(Elastic Net)评抚。

決策樹學(xué)習(xí)


決策樹算法根據(jù)數(shù)據(jù)的屬性采用樹狀結(jié)構(gòu)建立決策模型, 決策樹模型常常用來解決分類和回歸問題伯复。常見的算法包括:分類及回歸樹(Classification And Regression Tree慨代, CART), ID3 (Iterative Dichotomiser 3)啸如, C4.5侍匙, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 隨機森林(Random Forest), 多元自適應(yīng)回歸樣條(MARS)以及梯度推進機(Gradient Boosting Machine组底, GBM)

貝葉斯方法

貝葉斯方法算法是基于貝葉斯定理的一類算法丈积,主要用來解決分類和回歸問題。常見算法包括:樸素貝葉斯算法债鸡,平均單依賴估計(Averaged One-Dependence Estimators江滨, AODE),以及Bayesian Belief Network(BBN)厌均。

基于核的算法

基于核的算法中最著名的莫過于支持向量機(SVM)了唬滑。 基于核的算法把輸入數(shù)據(jù)映射到一個高階的向量空間, 在這些高階向量空間里棺弊, 有些分類或者回歸問題能夠更容易的解決晶密。 常見的基于核的算法包括:支持向量機(Support Vector Machine, SVM)模她, 徑向基函數(shù)(Radial Basis Function 稻艰,RBF), 以及線性判別分析(Linear Discriminate Analysis 侈净,LDA)等

聚類算法

聚類尊勿,就像回歸一樣,有時候人們描述的是一類問題畜侦,有時候描述的是一類算法元扔。聚類算法通常按照中心點或者分層的方式對輸入數(shù)據(jù)進行歸并。所以的聚類算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)旋膳,以便按照最大的共同點將數(shù)據(jù)進行歸類澎语。常見的聚類算法包括 k-Means算法以及期望最大化算法(Expectation Maximization, EM)验懊。

關(guān)聯(lián)規(guī)則學(xué)習(xí)

關(guān)聯(lián)規(guī)則學(xué)習(xí)通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則擅羞,來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見算法包括 Apriori算法和Eclat算法等义图。

人工神經(jīng)網(wǎng)絡(luò)


人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)祟滴,是一類模式匹配算法。通常用于解決分類和回歸問題歌溉。人工神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)的一個龐大的分支垄懂,有幾百種不同的算法。(其中深度學(xué)習(xí)就是其中的一類算法痛垛,我們會單獨討論)草慧,重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(Perceptron Neural Network), 反向傳遞(Back Propagation), Hopfield網(wǎng)絡(luò)匙头,自組織映射(Self-Organizing Map, SOM)漫谷。學(xué)習(xí)矢量量化(Learning Vector Quantization, LVQ)

深度學(xué)習(xí)

深度學(xué)習(xí)算法是對人工神經(jīng)網(wǎng)絡(luò)的發(fā)展蹂析。 在近期贏得了很多關(guān)注舔示, 特別是百度也開始發(fā)力深度學(xué)習(xí)后碟婆, 更是在國內(nèi)引起了很多關(guān)注。 在計算能力變得日益廉價的今天惕稻,深度學(xué)習(xí)試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)竖共。很多深度學(xué)習(xí)的算法是半監(jiān)督式學(xué)習(xí)算法,用來處理存在少量未標(biāo)識數(shù)據(jù)的大數(shù)據(jù)集俺祠。常見的深度學(xué)習(xí)算法包括:受限波爾茲曼機(Restricted Boltzmann Machine公给, RBN), Deep Belief Networks(DBN)蜘渣,卷積網(wǎng)絡(luò)(Convolutional Network), 堆棧式自動編碼器(Stacked Auto-encoders)淌铐。

降低維度算法

像聚類算法一樣,降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)蔫缸,不過降低維度算法是以非監(jiān)督學(xué)習(xí)的方式試圖利用較少的信息來歸納或者解釋數(shù)據(jù)腿准。這類算法可以用于高維數(shù)據(jù)的可視化或者用來簡化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用。常見的算法包括:主成份分析(Principle Component Analysis拾碌, PCA)释涛,偏最小二乘回歸(Partial Least Square Regression,PLS)倦沧, Sammon映射唇撬,多維尺度(Multi-Dimensional Scaling, MDS), 投影追蹤(Projection Pursuit)等。

集成算法:


集成算法用一些相對較弱的學(xué)習(xí)模型獨立地就同樣的樣本進行訓(xùn)練展融,然后把結(jié)果整合起來進行整體預(yù)測窖认。集成算法的主要難點在于究竟集成哪些獨立的較弱的學(xué)習(xí)模型以及如何把學(xué)習(xí)結(jié)果整合起來。這是一類非常強大的算法告希,同時也非常流行扑浸。常見的算法包括:Boosting, Bootstrapped Aggregation(Bagging)燕偶, AdaBoost喝噪,堆疊泛化(Stacked Generalization, Blending)指么,梯度推進機(Gradient Boosting Machine, GBM)酝惧,隨機森林(Random Forest)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末伯诬,一起剝皮案震驚了整個濱河市晚唇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌盗似,老刑警劉巖哩陕,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡悍及,警方通過查閱死者的電腦和手機闽瓢,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來心赶,“玉大人扣讼,你說我怎么就攤上這事≡暗#” “怎么了届谈?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵枯夜,是天一觀的道長弯汰。 經(jīng)常有香客問我,道長湖雹,這世上最難降的妖魔是什么咏闪? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮摔吏,結(jié)果婚禮上鸽嫂,老公的妹妹穿的比我還像新娘。我一直安慰自己征讲,他們只是感情好据某,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著诗箍,像睡著了一般癣籽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上滤祖,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天筷狼,我揣著相機與錄音,去河邊找鬼匠童。 笑死埂材,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汤求。 我是一名探鬼主播俏险,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼扬绪!你這毒婦竟也來了寡喝?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤勒奇,失蹤者是張志新(化名)和其女友劉穎预鬓,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡格二,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年劈彪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片顶猜。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡沧奴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出长窄,到底是詐尸還是另有隱情滔吠,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布挠日,位于F島的核電站疮绷,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏嚣潜。R本人自食惡果不足惜冬骚,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望懂算。 院中可真熱鬧只冻,春花似錦、人聲如沸计技。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽垮媒。三九已至舍悯,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間涣澡,已是汗流浹背贱呐。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留入桂,地道東北人奄薇。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像抗愁,于是被迫代替她去往敵國和親馁蒂。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容