決策樹(shù)算法之隨機(jī)森林

在 CART 分類回歸樹(shù)的基礎(chǔ)之上兼吓,我們可以很容易的掌握隨機(jī)森林算法,它們之間的區(qū)別在于从隆,CART 決策樹(shù)較容易過(guò)擬合腹尖,而隨機(jī)森林可以在一定程度上解決該問(wèn)題根资。

隨機(jī)森林的主要思想是:使用隨機(jī)性產(chǎn)生出一系列簡(jiǎn)單的決策樹(shù)盼樟,并組合它們的預(yù)測(cè)結(jié)果為最終的結(jié)果,可謂三個(gè)臭皮匠賽過(guò)一個(gè)諸葛亮惕艳,下面我們就來(lái)具體了解一下搞隐。

產(chǎn)生隨機(jī)森林的具體步驟

產(chǎn)生隨機(jī)森林的步驟大致為三步

  1. 準(zhǔn)備樣本
  2. 產(chǎn)生決策樹(shù)
  3. 循環(huán)第 1 、2 步远搪,直到產(chǎn)生足夠的決策樹(shù)劣纲,一般為上百個(gè)

在第 1 步,它是一個(gè)可放回抽樣终娃,即所產(chǎn)生的樣本是允許重復(fù)的味廊,這種抽樣又被稱為 Bootstrap蒸甜,例如我們有以下 dummy 數(shù)據(jù)

胸口疼痛 血液循環(huán)正常 血管堵塞 體重 患心臟病
No No No 125 No
Yes Yes Yes 180 Yes
Yes Yes No 210 No
Yes No Yes 167 Yes

在做完 Bootstrap 之后棠耕,可能的樣本數(shù)據(jù)如下

胸口疼痛 血液循環(huán)正常 血管堵塞 體重 患心臟病
Yes Yes Yes 180 Yes
No No No 125 No
Yes No Yes 167 Yes
Yes No Yes 167 Yes

可見(jiàn)余佛,樣本數(shù)據(jù)中,第 3 條和第 4 條樣本是一樣的窍荧,都對(duì)應(yīng)的是原始數(shù)據(jù)中的第 4 條辉巡。

接下來(lái),就是要使用上面的樣本數(shù)據(jù)來(lái)產(chǎn)生決策樹(shù)了蕊退,產(chǎn)生決策樹(shù)的方法和 CART 基本一致郊楣,唯一的不同地方在于,節(jié)點(diǎn)的構(gòu)建不是來(lái)自于全部的候選特征瓤荔,而是先從中隨機(jī)的選擇 n 個(gè)特征净蚤,在這 n 個(gè)特征中找出一個(gè)作為最佳節(jié)點(diǎn)。

舉個(gè)例子输硝,假設(shè) n = 2今瀑,且我們隨機(jī)選擇了「血液循環(huán)正常」和「血管堵塞」這兩個(gè)特征來(lái)產(chǎn)生根節(jié)點(diǎn)点把,如下:

血液循環(huán)正常 血管堵塞 患心臟病
Yes Yes Yes
No No No
No Yes Yes
No Yes Yes

我們將在上述兩個(gè)特征中選擇一個(gè)合適的特征作為根節(jié)點(diǎn)橘荠,假設(shè)在計(jì)算完 Gini 不純度之后,「血液循環(huán)正忱商樱」這個(gè)特征勝出哥童,那么我們的根節(jié)點(diǎn)便是「血液循環(huán)正常」褒翰,如下圖所示

接下來(lái)我們還需要構(gòu)建根節(jié)點(diǎn)下面的節(jié)點(diǎn)贮懈,下一個(gè)節(jié)點(diǎn)將會(huì)在剩下的「胸口疼痛」、「血管堵塞」和「體重」三個(gè)特征中產(chǎn)生优训,但我們依然不會(huì)計(jì)算所有這 3 個(gè)特征的 Gini 不純度错邦,而是從中隨機(jī)選擇 2 個(gè)特征,取這 2 個(gè)特征中的 Gini 不純度較低者作為節(jié)點(diǎn)型宙。

例如我們隨機(jī)選到了「胸口疼痛」和「體重」這兩列撬呢,如下:

胸口疼痛 體重 患心臟病
Yes 180 Yes
No 125 No
Yes 167 Yes
Yes 167 Yes

假設(shè)此時(shí)「體重」的 Gini 不純度更低,那么第 2 個(gè)節(jié)點(diǎn)便是「體重」妆兑,如下圖:

繼續(xù)下去魂拦,我們便產(chǎn)生了一棵決策樹(shù)。

隨機(jī)森林是多棵決策樹(shù)搁嗓,在產(chǎn)生完一棵決策樹(shù)后芯勘,接著會(huì)循環(huán)執(zhí)行上述過(guò)程:Bootstrap 出訓(xùn)練樣本,訓(xùn)練決策樹(shù)腺逛,直到樹(shù)的數(shù)量達(dá)到設(shè)置值——通常為幾百棵樹(shù)荷愕。

隨機(jī)森林的預(yù)測(cè)

現(xiàn)在我們產(chǎn)生了幾百棵樹(shù)的隨機(jī)森林,當(dāng)我們要預(yù)測(cè)一條數(shù)據(jù)時(shí),該怎么做呢安疗?我們會(huì)聚合這些樹(shù)的結(jié)果抛杨,選擇預(yù)測(cè)結(jié)果最多的那個(gè)分類作為最終的預(yù)測(cè)結(jié)果。

例如我們現(xiàn)在有一條數(shù)據(jù):

胸口疼痛 血液循環(huán)正常 血管堵塞 體重 患心臟病
Yes No No 168

該條數(shù)據(jù)被所有樹(shù)預(yù)測(cè)的結(jié)果如下:

第幾顆樹(shù) 預(yù)測(cè)結(jié)果
1 Yes
2 Yes
... ...
100 No

上述結(jié)果聚合后為:

預(yù)測(cè)結(jié)果 次數(shù)
Yes 82
No 18

取最多的那項(xiàng)為最終的預(yù)測(cè)結(jié)果荐类,即 Yes——該病人被診斷為患有心臟病怖现。

以上,隨機(jī)森林的兩個(gè)過(guò)程:Bootstrap 和 Aggregate 又被稱為 Bagging玉罐。

總結(jié)

本文我們一起學(xué)習(xí)了隨機(jī)森林的算法屈嗤,和 CART 決策樹(shù)比起來(lái),它主要被用來(lái)解決過(guò)擬合問(wèn)題吊输,其主要的思想為 Bagging饶号,即隨機(jī)性有助于增強(qiáng)模型的泛化(Variance) 能力。

參考:

相關(guān)文章:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末季蚂,一起剝皮案震驚了整個(gè)濱河市茫船,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌癣蟋,老刑警劉巖透硝,帶你破解...
    沈念sama閱讀 216,919評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異疯搅,居然都是意外死亡濒生,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,567評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)幔欧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)罪治,“玉大人,你說(shuō)我怎么就攤上這事礁蔗【跻澹” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,316評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵浴井,是天一觀的道長(zhǎng)晒骇。 經(jīng)常有香客問(wèn)我,道長(zhǎng)磺浙,這世上最難降的妖魔是什么洪囤? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,294評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮撕氧,結(jié)果婚禮上瘤缩,老公的妹妹穿的比我還像新娘。我一直安慰自己伦泥,他們只是感情好剥啤,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,318評(píng)論 6 390
  • 文/花漫 我一把揭開(kāi)白布锦溪。 她就那樣靜靜地躺著,像睡著了一般府怯。 火紅的嫁衣襯著肌膚如雪刻诊。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,245評(píng)論 1 299
  • 那天富腊,我揣著相機(jī)與錄音坏逢,去河邊找鬼域帐。 笑死赘被,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的肖揣。 我是一名探鬼主播民假,決...
    沈念sama閱讀 40,120評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼龙优!你這毒婦竟也來(lái)了羊异?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,964評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤彤断,失蹤者是張志新(化名)和其女友劉穎野舶,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體宰衙,經(jīng)...
    沈念sama閱讀 45,376評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡平道,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,592評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了供炼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片一屋。...
    茶點(diǎn)故事閱讀 39,764評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖袋哼,靈堂內(nèi)的尸體忽然破棺而出冀墨,到底是詐尸還是另有隱情,我是刑警寧澤涛贯,帶...
    沈念sama閱讀 35,460評(píng)論 5 344
  • 正文 年R本政府宣布诽嘉,位于F島的核電站,受9級(jí)特大地震影響弟翘,放射性物質(zhì)發(fā)生泄漏虫腋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,070評(píng)論 3 327
  • 文/蒙蒙 一衅胀、第九天 我趴在偏房一處隱蔽的房頂上張望岔乔。 院中可真熱鬧,春花似錦滚躯、人聲如沸雏门。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,697評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)茁影。三九已至宙帝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間募闲,已是汗流浹背步脓。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,846評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留浩螺,地道東北人靴患。 一個(gè)月前我還...
    沈念sama閱讀 47,819評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像要出,于是被迫代替她去往敵國(guó)和親鸳君。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,665評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 基于樹(shù)(Tree based)的學(xué)習(xí)算法在數(shù)據(jù)科學(xué)競(jìng)賽中是相當(dāng)常見(jiàn)的患蹂。這些算法給預(yù)測(cè)模型賦予了準(zhǔn)確性或颊、穩(wěn)定性以及易...
    TechTalker閱讀 883評(píng)論 0 3
  • 分類算法-決策樹(shù)囱挑、隨機(jī)森林 決策樹(shù)思想的來(lái)源非常樸素,程序設(shè)計(jì)中的條件分支結(jié)構(gòu)就是if-then結(jié)構(gòu)沼溜,最早的決策樹(shù)...
    butters001閱讀 251評(píng)論 0 0
  • 決策樹(shù) 認(rèn)識(shí)決策樹(shù) 信息論基礎(chǔ)-銀行貸款分析 決策樹(shù)的生成 泰坦尼克號(hào)乘客生存分類 認(rèn)識(shí)決策樹(shù) 決策樹(shù)思想的來(lái)源非...
    MacsenChu閱讀 431評(píng)論 0 0
  • 久違的晴天盛末,家長(zhǎng)會(huì)弹惦。 家長(zhǎng)大會(huì)開(kāi)好到教室時(shí),離放學(xué)已經(jīng)沒(méi)多少時(shí)間了悄但。班主任說(shuō)已經(jīng)安排了三個(gè)家長(zhǎng)分享經(jīng)驗(yàn)棠隐。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,523評(píng)論 16 22
  • 今天感恩節(jié)哎,感謝一直在我身邊的親朋好友檐嚣。感恩相遇助泽!感恩不離不棄。 中午開(kāi)了第一次的黨會(huì)嚎京,身份的轉(zhuǎn)變要...
    迷月閃星情閱讀 10,564評(píng)論 0 11