隨機(jī)森林與決策樹(shù)

概述

隨機(jī)森林 (Random Forests) 是一種利用決策樹(shù)作為基學(xué)習(xí)器的Bagging 集成學(xué)習(xí)算法蓄氧。

集成學(xué)習(xí)

集成學(xué)習(xí)歸屬于機(jī)器學(xué)習(xí)函似,他是一種訓(xùn)練思路,并不是某種具體的方法或者算法匀们。集成學(xué)習(xí)的核心思路就是人多力量大缴淋,它并沒(méi)有創(chuàng)造出新的算法,而是把已有的算法進(jìn)行結(jié)合泄朴,從而得到更好的效果重抖。

bagging

  1. 每次采用有放回的抽樣從訓(xùn)練集中取出 n 個(gè)訓(xùn)練樣本組成新的訓(xùn)練集。
  2. 利用新的訓(xùn)練集祖灰,訓(xùn)練得到 M 個(gè)子模型 {h1,h2,...,hM}钟沛。
  3. 對(duì)于分類問(wèn)題,采用投票的方法局扶,得票最多子模型的分類類別為最終的類別恨统;對(duì)于回歸問(wèn)題,采用簡(jiǎn)單的平均方法得到預(yù)測(cè)值三妈。

特點(diǎn):
所有基礎(chǔ)模型都一致對(duì)待畜埋,每個(gè)基礎(chǔ)模型手里都只有一票。然后使用投票的方式得到最終的結(jié)果畴蒲。

boosting

  1. 利用初始訓(xùn)練樣本集訓(xùn)練得到一個(gè)基學(xué)習(xí)器悠鞍。
  2. 提高被基學(xué)習(xí)器誤分的樣本的權(quán)重,使被錯(cuò)誤分類的樣本在下輪訓(xùn)練中得到更大的關(guān)注模燥,利用調(diào)整后的樣本訓(xùn)練得到下一個(gè)基學(xué)習(xí)器咖祭。
  3. 重復(fù)上述步驟,得到 M 個(gè)學(xué)習(xí)器蔫骂。
  4. 對(duì)于分類問(wèn)題么翰,采用有權(quán)重(根據(jù)誤差)的投票方式;對(duì)于回歸問(wèn)題辽旋,采用加權(quán)平均得到預(yù)測(cè)值浩嫌。

特點(diǎn):
對(duì)基礎(chǔ)模型不是一致對(duì)待的,而是經(jīng)過(guò)不停的考驗(yàn)和篩選來(lái)挑選出「精英」补胚,然后給精英更多的投票權(quán)码耐,表現(xiàn)不好的基礎(chǔ)模型則給較少的投票權(quán),然后綜合所有人的投票得到最終結(jié)果

決策樹(shù)

image.png

決策樹(shù)是一種很簡(jiǎn)單的算法糖儡,具有很強(qiáng)的解釋性伐坏,符合人類的直觀思維。是一種基于if-then-else規(guī)則的有監(jiān)督學(xué)習(xí)算法握联,上面的圖片可以直觀的表達(dá)決策樹(shù)的邏輯桦沉。

我們以鳶尾花數(shù)據(jù)為例每瞒,在構(gòu)建決策樹(shù)的構(gòu)建過(guò)程中,我們需要關(guān)注的是這兩個(gè)點(diǎn):


image.png

信息熵

為了計(jì)算劃分的節(jié)點(diǎn)以及維度纯露,我們需要引入信息熵的概念:

熵在信息論中代表隨機(jī)變量不確定度的度量剿骨。
熵越大,數(shù)據(jù)的不確定性越高埠褪。
熵越小浓利,數(shù)據(jù)的不確定性越低。
信息熵的公式如下:


image.png

對(duì)于一個(gè)系統(tǒng)钞速,假設(shè)有k類信息贷掖,每類信息占的比例就是pi 渴语。
對(duì)于二分類問(wèn)題驾凶,信息熵的共識(shí)可以變化為:


image.png

x即其中一類的概率牙甫,我們畫(huà)出圖像:
image.png

可以看到调违,當(dāng)x的取值趨近于0或者趨近于1的時(shí)候窟哺,求出的熵值會(huì)趨近于0。

由此,我們可以通過(guò)劃分?jǐn)?shù)據(jù)集的方式阿蝶,每劃分一次玷过,計(jì)算一次系統(tǒng)的信息熵真仲,對(duì)應(yīng)在鳶尾花數(shù)據(jù)虑凛,某次劃分的信息熵計(jì)算如圖:


image.png

我們可以遍歷每個(gè)維度的每個(gè)值锣披,多次劃分钓葫,通過(guò)這樣的過(guò)程,來(lái)求出決策樹(shù)每次劃分的維度以及最好的值。至此鸭廷,我們了解了決策樹(shù)的大體流程桅狠。上面的方式也被稱為CERT讼载,在決策樹(shù)中,還有更多的方式咪鲜,比如ID3鸟雏,C4.5等等享郊。在CERT中,大部分情況也不會(huì)使用信息熵作為尋找最優(yōu)劃分的依據(jù)孝鹊,而是使用基尼系數(shù)炊琉,基尼系數(shù)有跟信息熵差不多的性質(zhì),有興趣的可以自己了解又活。
分析鳶尾花數(shù)據(jù)代碼如下:

image.png

決策樹(shù)的超參數(shù)

  • max_depth 樹(shù)的最大深度
  • min_samples_split 節(jié)點(diǎn)再劃分所需最少樣本數(shù)
  • min_samples_leaf 葉子節(jié)點(diǎn)所需最少樣本數(shù)
    更多超參數(shù)可以參看scikit-learn decision tree中決策樹(shù)部分

隨機(jī)森林

隨機(jī)森林是由很多決策樹(shù)構(gòu)成的苔咪,不同決策樹(shù)之間沒(méi)有關(guān)聯(lián)。

當(dāng)我們進(jìn)行分類任務(wù)時(shí)柳骄,新的輸入樣本進(jìn)入团赏,就讓森林中的每一棵決策樹(shù)分別進(jìn)行判斷和分類,每個(gè)決策樹(shù)會(huì)得到一個(gè)自己的分類結(jié)果耐薯,決策樹(shù)的分類結(jié)果中哪一個(gè)分類最多舔清,那么隨機(jī)森林就會(huì)把這個(gè)結(jié)果當(dāng)做最終的結(jié)果。

關(guān)于隨機(jī)森林的更多細(xì)節(jié)曲初,可以參看scikit-learn random froest

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末体谒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子臼婆,更是在濱河造成了極大的恐慌抒痒,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件目锭,死亡現(xiàn)場(chǎng)離奇詭異评汰,居然都是意外死亡纷捞,警方通過(guò)查閱死者的電腦和手機(jī)痢虹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)主儡,“玉大人奖唯,你說(shuō)我怎么就攤上這事∶又担” “怎么了丰捷?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵坯墨,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我病往,道長(zhǎng)捣染,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任停巷,我火速辦了婚禮耍攘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘畔勤。我一直安慰自己蕾各,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布庆揪。 她就那樣靜靜地躺著式曲,像睡著了一般。 火紅的嫁衣襯著肌膚如雪缸榛。 梳的紋絲不亂的頭發(fā)上吝羞,一...
    開(kāi)封第一講書(shū)人閱讀 49,185評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音内颗,去河邊找鬼脆贵。 笑死,一個(gè)胖子當(dāng)著我的面吹牛起暮,可吹牛的內(nèi)容都是我干的卖氨。 我是一名探鬼主播,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼负懦,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼筒捺!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起纸厉,我...
    開(kāi)封第一講書(shū)人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤系吭,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后颗品,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體肯尺,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年躯枢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了则吟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锄蹂,死狀恐怖氓仲,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤敬扛,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布晰洒,位于F島的核電站,受9級(jí)特大地震影響啥箭,放射性物質(zhì)發(fā)生泄漏谍珊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一急侥、第九天 我趴在偏房一處隱蔽的房頂上張望抬驴。 院中可真熱鬧,春花似錦缆巧、人聲如沸布持。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)题暖。三九已至,卻和暖如春捉超,著一層夾襖步出監(jiān)牢的瞬間胧卤,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工拼岳, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留枝誊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓惜纸,卻偏偏與公主長(zhǎng)得像叶撒,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子耐版,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容