2020機器學(xué)習(xí)隨機森林(上)

machine_learning.jpg

隨機森林

今天的分享內(nèi)容是隨機森林捏肢,在集成學(xué)習(xí)中雖然相對簡單,但是簡單不等于其不使用饥侵,其實簡單以為便于解釋和穩(wěn)定鸵赫。既然叫做隨機森林,又是集成模型躏升,那么他基礎(chǔ)當(dāng)然就是決策樹辩棒。決策樹好處就是易于構(gòu)建、易于使用和解釋膨疏。但是因為決策樹的精準(zhǔn)度不高這個問題一睁,所以我們通常首選的預(yù)測工具不會考慮決策樹。精準(zhǔn)度問題主要反映在決策樹可以在訓(xùn)練數(shù)據(jù)集有良好表現(xiàn)佃却,因其泛化能力不強而在測試集上表現(xiàn)一般者吁。

所以才有了隨機森林隨機森林通過靈活方式將簡單決策樹組合在一起饲帅,這樣做好處就是可以大大提供決策樹的精準(zhǔn)度复凳。

  • 構(gòu)建隨機深林
  • 如何使用隨機深林
  • 評估隨機深林精準(zhǔn)度

構(gòu)建自提升數(shù)據(jù)集

這里要簡答說一下 bootstrap 這個詞,通常在集成學(xué)習(xí)中翻譯成自提升灶泵,翻譯是依靠自己力量的育八;自己做的∩饬冢可以理解為利用現(xiàn)有資源來進行改善優(yōu)化髓棋。

Chest Pain Good Blood Circ. Blocked Arteries Weight Heart Diseas
No No No 125 No
Yes Yes Yes 180 Yes
Yes Yes No 210 No
Yes No Yes 167 Yes

今天我們用數(shù)據(jù)集有點過小,但是我們目的是將隨機森林講清楚,介于這個目的也夠用了按声。

要創(chuàng)建與原始數(shù)據(jù)集樣本數(shù)量相同的(自提升)數(shù)據(jù)集膳犹,只需從原始數(shù)據(jù)集中隨機選擇樣本。值得注意的是我們隨機選取是允許重復(fù)選取同一樣本數(shù)據(jù)的儒喊。

Chest Pain Good Blood Circ. Blocked Arteries Weight Heart Diseas
Yes Yes Yes 180 Yes
No No No 125 No
Yes No Yes 167 Yes
Yes No Yes 167 Yes

上面數(shù)據(jù)就是我們從原有數(shù)據(jù)集中隨機地有放回地抽取數(shù)據(jù)組成數(shù)據(jù)集镣奋,注意最后兩個樣本是一樣的。這樣就創(chuàng)建了自提升數(shù)據(jù)集怀愧,是不是很簡單侨颈。

隨機選取特征

這樣我們就通過隨機選取樣本得到了一個新的數(shù)據(jù)集。那么現(xiàn)在就可以以使用自提升數(shù)據(jù)集來創(chuàng)建決策樹芯义,但在每個步驟中哈垢,也是通過隨機一定數(shù)量數(shù)據(jù)的特征(也就是表的列)進行訓(xùn)練決策樹。

在這個例子中扛拨,暫時只考慮兩特征(列)數(shù)據(jù)作為耘分,在構(gòu)建決策樹根節(jié)點時,我們通常做法是會考慮數(shù)據(jù)所有特征來計算他們的信息增益率或 Gini 指數(shù)的大小來作為選取哪個節(jié)點作為根節(jié)點依據(jù)绑警。

而在隨機森林中求泰,我們不會考慮所有特征,只是先隨機選取Good Blood Circ.Blocked Arteries 作為根節(jié)點的候選特征计盒,我們假設(shè) Good Blood Circulation 這個特征可以很好完成數(shù)據(jù)分類渴频。

Chest Pain Good Blood Circ. Blocked Arteries Weight Heart Diseas
Yes Yes Yes 180 Yes
No No No 125 No
Yes No Yes 167 Yes
Yes Yes No 210 No

首先根根節(jié)點選擇 good circ。發(fā)現(xiàn)這個特征可以很好將數(shù)據(jù)集進行分類得到很好的精準(zhǔn)度,然后去掉已經(jīng)使用過特征北启,在剩余的特征進行隨機選取作為下一步的創(chuàng)建分支卜朗。

到現(xiàn)在大家已經(jīng)看出來所謂隨機就是

  • 隨機選取數(shù)據(jù)樣
  • 隨機選取數(shù)據(jù)特征

來構(gòu)建決策樹分類器

重復(fù)之前步驟,基于在原有數(shù)據(jù)集上隨機選取來創(chuàng)建一個新的自提升數(shù)據(jù)集咕村,并在隨機選取特征來構(gòu)建新的決策樹场钉。

通過自提升樣本,和隨機選取特征的方法懈涛,我們可以創(chuàng)檢很多不同的決策樹逛万。這樣從另一方面我們可以通過不同數(shù)據(jù)增加了決策樹的見識,也可以說是一種數(shù)據(jù)增強的方式批钠。

隨機森林的使用

我們得到新的樣本宇植,然后將數(shù)據(jù)丟到我們構(gòu)建第一顆決策樹,然后第一顆決策樹給出 yes 的估計价匠。然后重復(fù)上面步驟,每一個構(gòu)建的決策樹都會給出數(shù)據(jù)的估計呛每。

Chest Pain Good Blood Circ. Blocked Arteries Weight Heart Diseas
Yes No No 168 ???

假設(shè)最終我們得到結(jié)果踩窖,就是每顆決策樹給出估計如下表

Yes No
5 1

隨機林中的所有決策樹會對新的樣本進行預(yù)測,最后通過隨機森林對分類進行投票晨横,投票最多的預(yù)測可以作為隨機森林做出的預(yù)測結(jié)果洋腮。

這樣集成基于自提升數(shù)據(jù)創(chuàng)建分類器來以投票方式給出估計的模型叫做裝袋算法(Bagging) ,Bagging 詞源于 Boostrapping 和 aggregate

typically about 1/3 of the original data does not end up in the bootstrapped dataset

通常箫柳,大約1/3的原始數(shù)據(jù)不會在引導(dǎo)數(shù)據(jù)集中結(jié)束

Chest Pain Good Blood Circ. Blocked Arteries Weight Heart Diseas
Yes Yes No 210 No

這條數(shù)據(jù)就沒有出現(xiàn)在之前數(shù)據(jù)集中,那么這些沒有被選中的樣本叫做袋外數(shù)據(jù)(Out-Of-Bag),正是因為這些數(shù)據(jù)沒有加入新數(shù)據(jù)集啥供,我們便可以利用這些數(shù)據(jù)來驗證剛剛創(chuàng)建好的決策樹悯恍,也就是驗證數(shù)據(jù)集?

最終我們可以通過是否正確估計這些袋外數(shù)據(jù)的分類的比例來作為衡量隨機森林的精確度的一個依據(jù),也叫做袋外誤差(Out-Of-Bag Errro)

那么這些袋外誤差僅是告訴隨機森林預(yù)測的好壞還是不夠的伙狐,我們希望這些數(shù)據(jù)有助于構(gòu)建出精準(zhǔn)度高決策樹涮毫,所以我們可以通過通過袋外誤差來決定我們隨機選擇特征數(shù)量,具體地說如何我們先隨機選取 2 特征來構(gòu)建決策樹看一看袋外誤差怎么樣贷屎,然后再選取 3 特征來構(gòu)建隨機森林看看其袋外誤差怎么樣罢防,最后根據(jù)結(jié)果來調(diào)整選取的數(shù)量。

參考 StatQuest

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末唉侄,一起剝皮案震驚了整個濱河市咒吐,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌属划,老刑警劉巖恬叹,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異同眯,居然都是意外死亡绽昼,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門嗽测,熙熙樓的掌柜王于貴愁眉苦臉地迎上來绪励,“玉大人,你說我怎么就攤上這事唠粥∈栉海” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵晤愧,是天一觀的道長大莫。 經(jīng)常有香客問我,道長官份,這世上最難降的妖魔是什么只厘? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮舅巷,結(jié)果婚禮上羔味,老公的妹妹穿的比我還像新娘。我一直安慰自己钠右,他們只是感情好赋元,可當(dāng)我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般搁凸。 火紅的嫁衣襯著肌膚如雪媚值。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天护糖,我揣著相機與錄音褥芒,去河邊找鬼。 笑死嫡良,一個胖子當(dāng)著我的面吹牛锰扶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播皆刺,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼少辣,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了羡蛾?” 一聲冷哼從身側(cè)響起漓帅,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎痴怨,沒想到半個月后忙干,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡浪藻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年捐迫,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片爱葵。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡施戴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出萌丈,到底是詐尸還是另有隱情赞哗,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布辆雾,位于F島的核電站肪笋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏度迂。R本人自食惡果不足惜藤乙,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惭墓。 院中可真熱鬧坛梁,春花似錦、人聲如沸腊凶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至尖殃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間划煮,已是汗流浹背送丰。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留弛秋,地道東北人器躏。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像蟹略,于是被迫代替她去往敵國和親登失。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容