轉(zhuǎn)載于:KDnuggets
目的:初學(xué)者悟衩,共同學(xué)習(xí)
具體網(wǎng)址為:https://www.kdnuggets.com/2017/10/top-10-machine-learning-algorithms-beginners.html/2
一幻枉,導(dǎo)言
“
哈佛商業(yè)評論”這篇文章稱“數(shù)據(jù)科學(xué)家”是“21世紀(jì)最性感的工作”,對ML算法的研究已經(jīng)獲得了巨大的推動较性。所以,對于那些ML開始的人來說,我們決定重啟一下我們非常流行的Gold博客10算法機器學(xué)習(xí)工程師需要知道-?盡管這篇文章是針對初學(xué)者包颁。
ML算法是那些可以從數(shù)據(jù)中學(xué)習(xí)并從經(jīng)驗中改進(jìn)的算法嚷那,無需人工干預(yù)胞枕。學(xué)習(xí)任務(wù)可能包括學(xué)習(xí)將輸入映射到輸出的函數(shù),在未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)隱藏的結(jié)構(gòu);?或者“基于實例的學(xué)習(xí)”魏宽,其中通過將新實例(行)與來自存儲在存儲器中的訓(xùn)練數(shù)據(jù)的實例進(jìn)行比較來為新實例生成類標(biāo)簽腐泻。“基于實例的學(xué)習(xí)”不會創(chuàng)建具體實例的抽象队询。
II派桩。ML算法的類型
有三種ML算法:
1.監(jiān)督學(xué)習(xí):
監(jiān)督學(xué)習(xí)可以解釋如下:使用標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)從輸入變量(X)到輸出變量(Y)的映射函數(shù)。
Y = f(X)
監(jiān)督學(xué)習(xí)問題可以有兩種類型:
一個蚌斩。分類:預(yù)測輸出變量處于類別形式的給定樣本的結(jié)果铆惑。例子包括男性和女性,病態(tài)和健康等標(biāo)簽。
灣?回歸:預(yù)測輸出變量為實值形式的給定樣本的結(jié)果员魏。例子包括表示降雨量和人的身高的實值標(biāo)簽丑蛤。
我們在這篇博客中介紹的前5個算法?-?線性回歸,Logistic回歸逆趋,CART盏阶,樸素貝葉斯,KNN是監(jiān)督學(xué)習(xí)的例子闻书。
合奏是一種監(jiān)督學(xué)習(xí)名斟。這意味著結(jié)合多個不同弱ML模型的預(yù)測來預(yù)測新的樣本。我們覆蓋的算法9-10 -?隨機森林套袋魄眉,XGBoost增強是集合技術(shù)的例子砰盐。
2.無監(jiān)督學(xué)習(xí):
無監(jiān)督學(xué)習(xí)問題只有輸入變量(X),但沒有相應(yīng)的輸出變量坑律。它使用無標(biāo)簽的訓(xùn)練數(shù)據(jù)來模擬數(shù)據(jù)的基本結(jié)構(gòu)岩梳。
無監(jiān)督學(xué)習(xí)問題可以有兩種類型:
一個。關(guān)聯(lián):發(fā)現(xiàn)集合中項目共現(xiàn)的概率晃择。它廣泛用于市場籃子分析冀值。例如:如果顧客購買面包,他有80%的可能購買雞蛋宫屠。
灣?群集:對樣本進(jìn)行分組列疗,使得同一個群集內(nèi)的對象彼此之間的關(guān)系比來自另一個群集中的對象更為相似。
C浪蹂。維度降低:正如其名稱抵栈,維度降低意味著減少數(shù)據(jù)集的變量數(shù)量,同時確保重要的信息仍然傳達(dá)坤次」啪ⅲ可以使用特征提取方法和特征選擇方法來完成維度降低。特征選擇選擇原始變量的一個子集缰猴。特征提取執(zhí)行從高維空間到低維空間的數(shù)據(jù)轉(zhuǎn)換产艾。例如:PCA算法是一種特征提取方法。
我們在這里介紹的算法6-8是Apriori滑绒,K-means闷堡,PCA是無監(jiān)督學(xué)習(xí)的例子。
3.強化學(xué)習(xí):
強化學(xué)習(xí)是一種機器學(xué)習(xí)算法蹬挤,它允許代理根據(jù)其當(dāng)前狀態(tài)決定最佳的下一個動作,通過學(xué)習(xí)將最大化獎勵的行為棘幸。
強化算法通常通過反復(fù)試驗來學(xué)習(xí)最佳行為焰扳。它們通常用于機器人?-?機器人可以通過在碰到障礙物后接收負(fù)面反饋來學(xué)習(xí)避免碰撞,以及在視頻游戲中?-?反復(fù)試驗顯示特定動作可以激發(fā)玩家的獎勵。代理人然后可以使用這些獎勵來了解游戲的最佳狀態(tài)并選擇下一個動作吨悍。
III扫茅。量化ML算法的流行度
調(diào)查報告對10種最流行的數(shù)據(jù)挖掘算法進(jìn)行了量化。但是育瓜,這樣的清單是主觀的葫隙,就像在引用的文件中那樣,被調(diào)查參與者的樣本規(guī)模非常狹窄躏仇,由數(shù)據(jù)挖掘的高級從業(yè)人員組成恋脚。受訪者是ACM KDD創(chuàng)新獎,IEEE ICDM研究貢獻(xiàn)獎的獲獎?wù)??KDD-06焰手,ICDM'06和SDM'06的計劃委員會成員;?和ICDM'06的145名與會者糟描。
本博客中排名前十的算法適用于初學(xué)者,主要是我在孟買大學(xué)計算機工程學(xué)士學(xué)位期間從“數(shù)據(jù)倉庫與挖掘”(DWM)課程中學(xué)到的书妻。DWM課程是對ML算法領(lǐng)域的一個很好的介紹船响。我特別把最后兩個算法(集合方法)包括在他們的流行的基礎(chǔ)上,以贏得Kaggle比賽躲履。希望你喜歡這篇文章见间!
IV。監(jiān)督學(xué)習(xí)算法
1.
線性回歸
在ML中工猜,我們有一組輸入變量(x)用于確定輸出變量(y)米诉。輸入變量和輸出變量之間存在關(guān)系。ML的目標(biāo)是量化這種關(guān)系域慷。
圖1:線性回歸表示為y = a + bx形式的線荒辕。資源
在線性回歸中,輸入變量(x)和輸出變量(y)之間的關(guān)系表示為形式為y = a + bx的方程犹褒。因此抵窒,線性回歸的目標(biāo)是找出系數(shù)a和b的值。這里叠骑,a是截距李皇,b是線的斜率。
圖1顯示了數(shù)據(jù)集的繪制的x和y值宙枷。目標(biāo)是擬合最接近大部分點的線掉房。這將減少數(shù)據(jù)點的y值和行之間的距離('錯誤')。
2. Logistic
回歸
線性回歸預(yù)測是連續(xù)的值(以cm為單位的降雨量)慰丛,邏輯回歸預(yù)測是在應(yīng)用變換函數(shù)之后的離散值(不管學(xué)生是否通過/失斪壳簟)。
邏輯回歸最適用于二元分類(數(shù)據(jù)集中y = 0或1诅病,其中1表示默認(rèn)類)哪亿。例如:在預(yù)測事件是否發(fā)生時粥烁,發(fā)生的事件被分類為1.在預(yù)測人會生病或不生病,生病的實例記為1)蝇棉。它是以其中使用的變換函數(shù)命名的讨阻,稱為邏輯函數(shù)h(x)= 1 /(1 + e ^ x),它是一個S形曲線篡殷。
在邏輯回歸中钝吮,輸出是以默認(rèn)類的概率形式出現(xiàn)的(不同于直接生成輸出的線性回歸)。由于這是一個概率板辽,所以輸出位于0-1的范圍內(nèi)奇瘦。輸出(y值)通過對數(shù)轉(zhuǎn)換x值,使用對數(shù)函數(shù)h(x)= 1 /(1 + e ^ -x)來生成戳气。然后應(yīng)用閾值將該概率強制為二元分類链患。
圖2:Logistic回歸用于確定腫瘤是惡性還是良性的。如果概率h(x)> = 0.5瓶您,則分類為惡性麻捻。資源
在圖2中,為了確定腫瘤是否是惡性的呀袱,默認(rèn)變量是y = 1(腫瘤=惡性);?x變量可以是腫瘤的量度贸毕,例如腫瘤的大小。如圖所示夜赵,邏輯函數(shù)將數(shù)據(jù)集的各種實例的x值轉(zhuǎn)換為0至1的范圍明棍。如果該概率跨越閾值0.5(由水平線示出),則將腫瘤分類如惡性寇僧。
邏輯回歸方程P(x)= e ^(b0 + b1 * x)/(1 + e ^(b0 + b1 * x))可以轉(zhuǎn)化為ln(p(x)/ 1-p = b0 + b1* x摊腋。
邏輯回歸的目標(biāo)是使用訓(xùn)練數(shù)據(jù)來找到系數(shù)b0和b1的值,以使預(yù)測結(jié)果與實際結(jié)果之間的誤差最小化嘁傀。這些系數(shù)是使用最大似然估計技術(shù)估計的兴蒸。
3. CART
分類和回歸樹(CART)是決策樹的一個實現(xiàn),其中包括ID3细办,C4.5等橙凳。
非終端節(jié)點是根節(jié)點和內(nèi)部節(jié)點。終端節(jié)點是葉節(jié)點笑撞。每個非終端節(jié)點表示一個輸入變量(x)和該變量上的分裂點;?葉節(jié)點表示輸出變量(y)岛啸。該模型用于進(jìn)行預(yù)測:漫游樹的分裂以到達(dá)葉節(jié)點并輸出葉節(jié)點處存在的值。
圖3中的決策樹根據(jù)他們的年齡和婚姻狀況分類了一個人是否會購買跑車或小型貨車茴肥。如果這個人超過30年坚踩,而且還沒有結(jié)婚,我們走樹的過程如下:“超過30年瓤狐?”?- >是?- >'已婚瞬铸??- >不卧晓。因此,該模型輸出一個跑車赴捞。
另外的資料如下? 百度網(wǎng)盤下載如下
具體的資料下載如下(包含大數(shù)據(jù),證券從業(yè)郁稍,ios開發(fā)赦政,安卓開發(fā),人工智能所有領(lǐng)域):或者微信(1223231767)詢問
機器學(xué)習(xí)資料:
https://pan.baidu.com/s/1-spSLL21_wK9kEBtTjqxpA
ios開發(fā)資料:
https://pan.baidu.com/s/1-pVEJd1AbXLDjq_EL94bCg
百度網(wǎng)盤 (安卓開發(fā)下載) 密碼聯(lián)系微信:
https://pan.baidu.com/s/1paGNqCQRwQeJfT_KSc4w8g
證券從業(yè)資料:
https://pan.baidu.com/s/1gdtMW9MPrIPiaZLIcLDXyw
hadoop資料:
https://pan.baidu.com/s/1Dzyi7IrA3S1avHAacFiaMQ
面試資料說明 (圖片說明):
https://pan.baidu.com/s/1E4ndCVrW7EyNxf1ybX7Jkw
ios 資料
https://pan.baidu.com/s/1IjHxLnBePEdDQZiKkhjpDQ
前端資料:
https://github.com/guojiajia09/MobileDev/tree/master/GitForH5
所有面試資料c++耀怜,數(shù)據(jù)結(jié)構(gòu)
https://pan.baidu.com/s/1DfcSIEYx0_miHTA4nt9G8Q
github網(wǎng)址:
https://github.com/guojiajia09/MobileDev/blob/master/ml
并且有其他資料(機器學(xué)習(xí)恢着,證券從業(yè),安卓開發(fā)财破,大數(shù)據(jù))聯(lián)系微信1223231767