機器學(xué)習(xí)和書籍入門

轉(zhuǎn)載于:KDnuggets

目的:初學(xué)者悟衩,共同學(xué)習(xí)

具體網(wǎng)址為:https://www.kdnuggets.com/2017/10/top-10-machine-learning-algorithms-beginners.html/2

一幻枉,導(dǎo)言

哈佛商業(yè)評論”這篇文章稱“數(shù)據(jù)科學(xué)家”是“21世紀(jì)最性感的工作”,對ML算法的研究已經(jīng)獲得了巨大的推動较性。所以,對于那些ML開始的人來說,我們決定重啟一下我們非常流行的Gold博客10算法機器學(xué)習(xí)工程師需要知道-?盡管這篇文章是針對初學(xué)者包颁。

ML算法是那些可以從數(shù)據(jù)中學(xué)習(xí)并從經(jīng)驗中改進(jìn)的算法嚷那,無需人工干預(yù)胞枕。學(xué)習(xí)任務(wù)可能包括學(xué)習(xí)將輸入映射到輸出的函數(shù),在未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)隱藏的結(jié)構(gòu);?或者“基于實例的學(xué)習(xí)”魏宽,其中通過將新實例(行)與來自存儲在存儲器中的訓(xùn)練數(shù)據(jù)的實例進(jìn)行比較來為新實例生成類標(biāo)簽腐泻。“基于實例的學(xué)習(xí)”不會創(chuàng)建具體實例的抽象队询。


II派桩。ML算法的類型

有三種ML算法:

1.監(jiān)督學(xué)習(xí):

監(jiān)督學(xué)習(xí)可以解釋如下:使用標(biāo)記的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)從輸入變量(X)到輸出變量(Y)的映射函數(shù)。

Y = f(X)

監(jiān)督學(xué)習(xí)問題可以有兩種類型:

一個蚌斩。分類:預(yù)測輸出變量處于類別形式的給定樣本的結(jié)果铆惑。例子包括男性和女性,病態(tài)和健康等標(biāo)簽。

灣?回歸:預(yù)測輸出變量為實值形式的給定樣本的結(jié)果员魏。例子包括表示降雨量和人的身高的實值標(biāo)簽丑蛤。

我們在這篇博客中介紹的前5個算法?-?線性回歸,Logistic回歸逆趋,CART盏阶,樸素貝葉斯,KNN是監(jiān)督學(xué)習(xí)的例子闻书。

合奏是一種監(jiān)督學(xué)習(xí)名斟。這意味著結(jié)合多個不同弱ML模型的預(yù)測來預(yù)測新的樣本。我們覆蓋的算法9-10 -?隨機森林套袋魄眉,XGBoost增強是集合技術(shù)的例子砰盐。

2.無監(jiān)督學(xué)習(xí):

無監(jiān)督學(xué)習(xí)問題只有輸入變量(X),但沒有相應(yīng)的輸出變量坑律。它使用無標(biāo)簽的訓(xùn)練數(shù)據(jù)來模擬數(shù)據(jù)的基本結(jié)構(gòu)岩梳。

無監(jiān)督學(xué)習(xí)問題可以有兩種類型:

一個。關(guān)聯(lián):發(fā)現(xiàn)集合中項目共現(xiàn)的概率晃择。它廣泛用于市場籃子分析冀值。例如:如果顧客購買面包,他有80%的可能購買雞蛋宫屠。

灣?群集:對樣本進(jìn)行分組列疗,使得同一個群集內(nèi)的對象彼此之間的關(guān)系比來自另一個群集中的對象更為相似。

C浪蹂。維度降低:正如其名稱抵栈,維度降低意味著減少數(shù)據(jù)集的變量數(shù)量,同時確保重要的信息仍然傳達(dá)坤次」啪ⅲ可以使用特征提取方法和特征選擇方法來完成維度降低。特征選擇選擇原始變量的一個子集缰猴。特征提取執(zhí)行從高維空間到低維空間的數(shù)據(jù)轉(zhuǎn)換产艾。例如:PCA算法是一種特征提取方法。

我們在這里介紹的算法6-8是Apriori滑绒,K-means闷堡,PCA是無監(jiān)督學(xué)習(xí)的例子。

3.強化學(xué)習(xí):

強化學(xué)習(xí)是一種機器學(xué)習(xí)算法蹬挤,它允許代理根據(jù)其當(dāng)前狀態(tài)決定最佳的下一個動作,通過學(xué)習(xí)將最大化獎勵的行為棘幸。

強化算法通常通過反復(fù)試驗來學(xué)習(xí)最佳行為焰扳。它們通常用于機器人?-?機器人可以通過在碰到障礙物后接收負(fù)面反饋來學(xué)習(xí)避免碰撞,以及在視頻游戲中?-?反復(fù)試驗顯示特定動作可以激發(fā)玩家的獎勵。代理人然后可以使用這些獎勵來了解游戲的最佳狀態(tài)并選擇下一個動作吨悍。


III扫茅。量化ML算法的流行度

這些

調(diào)查報告對10種最流行的數(shù)據(jù)挖掘算法進(jìn)行了量化。但是育瓜,這樣的清單是主觀的葫隙,就像在引用的文件中那樣,被調(diào)查參與者的樣本規(guī)模非常狹窄躏仇,由數(shù)據(jù)挖掘的高級從業(yè)人員組成恋脚。受訪者是ACM KDD創(chuàng)新獎,IEEE ICDM研究貢獻(xiàn)獎的獲獎?wù)??KDD-06焰手,ICDM'06和SDM'06的計劃委員會成員;?和ICDM'06的145名與會者糟描。

本博客中排名前十的算法適用于初學(xué)者,主要是我在孟買大學(xué)計算機工程學(xué)士學(xué)位期間從“數(shù)據(jù)倉庫與挖掘”(DWM)課程中學(xué)到的书妻。DWM課程是對ML算法領(lǐng)域的一個很好的介紹船响。我特別把最后兩個算法(集合方法)包括在他們的流行的基礎(chǔ)上,以贏得Kaggle比賽躲履。希望你喜歡這篇文章见间!


IV。監(jiān)督學(xué)習(xí)算法

1.

線性回歸

在ML中工猜,我們有一組輸入變量(x)用于確定輸出變量(y)米诉。輸入變量和輸出變量之間存在關(guān)系。ML的目標(biāo)是量化這種關(guān)系域慷。

圖1:線性回歸表示為y = a + bx形式的線荒辕。資源

在線性回歸中,輸入變量(x)和輸出變量(y)之間的關(guān)系表示為形式為y = a + bx的方程犹褒。因此抵窒,線性回歸的目標(biāo)是找出系數(shù)a和b的值。這里叠骑,a是截距李皇,b是線的斜率。

圖1顯示了數(shù)據(jù)集的繪制的x和y值宙枷。目標(biāo)是擬合最接近大部分點的線掉房。這將減少數(shù)據(jù)點的y值和行之間的距離('錯誤')。

2. Logistic

回歸

線性回歸預(yù)測是連續(xù)的值(以cm為單位的降雨量)慰丛,邏輯回歸預(yù)測是在應(yīng)用變換函數(shù)之后的離散值(不管學(xué)生是否通過/失斪壳簟)。

邏輯回歸最適用于二元分類(數(shù)據(jù)集中y = 0或1诅病,其中1表示默認(rèn)類)哪亿。例如:在預(yù)測事件是否發(fā)生時粥烁,發(fā)生的事件被分類為1.在預(yù)測人會生病或不生病,生病的實例記為1)蝇棉。它是以其中使用的變換函數(shù)命名的讨阻,稱為邏輯函數(shù)h(x)= 1 /(1 + e ^ x),它是一個S形曲線篡殷。

在邏輯回歸中钝吮,輸出是以默認(rèn)類的概率形式出現(xiàn)的(不同于直接生成輸出的線性回歸)。由于這是一個概率板辽,所以輸出位于0-1的范圍內(nèi)奇瘦。輸出(y值)通過對數(shù)轉(zhuǎn)換x值,使用對數(shù)函數(shù)h(x)= 1 /(1 + e ^ -x)來生成戳气。然后應(yīng)用閾值將該概率強制為二元分類链患。

圖2:Logistic回歸用于確定腫瘤是惡性還是良性的。如果概率h(x)> = 0.5瓶您,則分類為惡性麻捻。資源

在圖2中,為了確定腫瘤是否是惡性的呀袱,默認(rèn)變量是y = 1(腫瘤=惡性);?x變量可以是腫瘤的量度贸毕,例如腫瘤的大小。如圖所示夜赵,邏輯函數(shù)將數(shù)據(jù)集的各種實例的x值轉(zhuǎn)換為0至1的范圍明棍。如果該概率跨越閾值0.5(由水平線示出),則將腫瘤分類如惡性寇僧。

邏輯回歸方程P(x)= e ^(b0 + b1 * x)/(1 + e ^(b0 + b1 * x))可以轉(zhuǎn)化為ln(p(x)/ 1-p = b0 + b1* x摊腋。

邏輯回歸的目標(biāo)是使用訓(xùn)練數(shù)據(jù)來找到系數(shù)b0和b1的值,以使預(yù)測結(jié)果與實際結(jié)果之間的誤差最小化嘁傀。這些系數(shù)是使用最大似然估計技術(shù)估計的兴蒸。

3. CART

分類和回歸樹(CART)是決策樹的一個實現(xiàn),其中包括ID3细办,C4.5等橙凳。

非終端節(jié)點是根節(jié)點和內(nèi)部節(jié)點。終端節(jié)點是葉節(jié)點笑撞。每個非終端節(jié)點表示一個輸入變量(x)和該變量上的分裂點;?葉節(jié)點表示輸出變量(y)岛啸。該模型用于進(jìn)行預(yù)測:漫游樹的分裂以到達(dá)葉節(jié)點并輸出葉節(jié)點處存在的值。

圖3中的決策樹根據(jù)他們的年齡和婚姻狀況分類了一個人是否會購買跑車或小型貨車茴肥。如果這個人超過30年坚踩,而且還沒有結(jié)婚,我們走樹的過程如下:“超過30年瓤狐?”?- >是?- >'已婚瞬铸??- >不卧晓。因此,該模型輸出一個跑車赴捞。


另外的資料如下? 百度網(wǎng)盤下載如下

具體的資料下載如下(包含大數(shù)據(jù),證券從業(yè)郁稍,ios開發(fā)赦政,安卓開發(fā),人工智能所有領(lǐng)域):或者微信(1223231767)詢問


機器學(xué)習(xí)資料:

https://pan.baidu.com/s/1-spSLL21_wK9kEBtTjqxpA

ios開發(fā)資料:

https://pan.baidu.com/s/1-pVEJd1AbXLDjq_EL94bCg

百度網(wǎng)盤 (安卓開發(fā)下載) 密碼聯(lián)系微信:

https://pan.baidu.com/s/1paGNqCQRwQeJfT_KSc4w8g

證券從業(yè)資料:

https://pan.baidu.com/s/1gdtMW9MPrIPiaZLIcLDXyw

hadoop資料:

https://pan.baidu.com/s/1Dzyi7IrA3S1avHAacFiaMQ

面試資料說明 (圖片說明):

https://pan.baidu.com/s/1E4ndCVrW7EyNxf1ybX7Jkw

ios 資料

https://pan.baidu.com/s/1IjHxLnBePEdDQZiKkhjpDQ

前端資料:

https://github.com/guojiajia09/MobileDev/tree/master/GitForH5

所有面試資料c++耀怜,數(shù)據(jù)結(jié)構(gòu)

https://pan.baidu.com/s/1DfcSIEYx0_miHTA4nt9G8Q

github網(wǎng)址:

https://github.com/guojiajia09/MobileDev/blob/master/ml


并且有其他資料(機器學(xué)習(xí)恢着,證券從業(yè),安卓開發(fā)财破,大數(shù)據(jù))聯(lián)系微信1223231767

具體
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末掰派,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子左痢,更是在濱河造成了極大的恐慌靡羡,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件俊性,死亡現(xiàn)場離奇詭異略步,居然都是意外死亡,警方通過查閱死者的電腦和手機定页,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門趟薄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人典徊,你說我怎么就攤上這事杭煎。” “怎么了卒落?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵羡铲,是天一觀的道長。 經(jīng)常有香客問我导绷,道長犀勒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任妥曲,我火速辦了婚禮贾费,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘檐盟。我一直安慰自己褂萧,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布葵萎。 她就那樣靜靜地躺著导犹,像睡著了一般唱凯。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上谎痢,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天磕昼,我揣著相機與錄音,去河邊找鬼节猿。 笑死票从,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的滨嘱。 我是一名探鬼主播峰鄙,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼太雨!你這毒婦竟也來了吟榴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤囊扳,失蹤者是張志新(化名)和其女友劉穎吩翻,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體锥咸,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡仿野,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了她君。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片脚作。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖缔刹,靈堂內(nèi)的尸體忽然破棺而出球涛,到底是詐尸還是另有隱情,我是刑警寧澤校镐,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布亿扁,位于F島的核電站,受9級特大地震影響鸟廓,放射性物質(zhì)發(fā)生泄漏从祝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一引谜、第九天 我趴在偏房一處隱蔽的房頂上張望牍陌。 院中可真熱鬧,春花似錦员咽、人聲如沸毒涧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽契讲。三九已至仿吞,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捡偏,已是汗流浹背唤冈。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留银伟,地道東北人务傲。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像枣申,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子看杭,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容