決策樹與隨機森林

原文
決策樹是一種樹形結(jié)構(gòu)捣鲸,其中每一個內(nèi)部節(jié)點表示在一個特征(屬性)上的測試特漩,每個分支代表一個測試輸出,每個葉子節(jié)點代表一種類別糯而。
決策樹學(xué)習(xí)是一種歸納學(xué)習(xí),從一堆數(shù)據(jù)中歸納出一個學(xué)習(xí)模型出來泊窘。決策樹學(xué)習(xí)采用的是自頂向下的遞歸學(xué)習(xí)熄驼,其基本思想是以信息熵為度量構(gòu)造一棵熵值下降最快的樹,樹不斷構(gòu)建的過程也就是熵不斷下降的過程烘豹。而其中節(jié)點的具體特征選擇取決于哪個特征在當前節(jié)點的熵下降最快(如在構(gòu)建根節(jié)點的時候瓜贾,比較了年齡、長相吴叶、收入、是否公務(wù)員這些特征序臂,發(fā)現(xiàn)選擇年齡這一特征會導(dǎo)致熵下降最快蚌卤,于是選擇年齡作為根節(jié)點)。以此類推奥秆,到了葉子節(jié)點處的熵值即為零逊彭。至于說具體如何比較及計算熵下降的程度,稍后會給出构订。

決策樹的優(yōu)缺點

決策樹算法的最大優(yōu)點是:它可以自學(xué)習(xí)侮叮。在學(xué)習(xí)的過程中,不需要使用者了解過多背景知識悼瘾,只需要對訓(xùn)練實例進行較好的標注囊榜,就能夠進行學(xué)習(xí)。像之前的”是否出去玩”例子亥宿,只要給定一個表格卸勺,并且每一列(最后一列是標注列)都給定(并不需要知道每一列表示的含義),那么決策樹就會自己構(gòu)造出一種基于規(guī)則的決策算法烫扼。
決策樹缺點:可以看出曙求,決策樹的決策過程實質(zhì)上是貪心法,在每一步的時候都選擇當前狀態(tài)下的最優(yōu)解,一直走下去悟狱。我們知道貪心法并不能保證得到的最終結(jié)果是全局最優(yōu)的静浴,這也是決策樹的缺陷之一,有可能會導(dǎo)致過擬合的問題.

知識點補充:

經(jīng)驗熵與經(jīng)驗條件熵
只要給定一個隨機變量P挤渐,我們就可以求得該隨機變量的熵苹享。但是實踐中,我們得到的并不是真正的隨機變量p挣菲,得到的只是p的若干采樣富稻,那么我們實踐中得到的熵就不一定是真正的隨機變量p的熵,于是白胀,我們稱實踐中得到的熵為經(jīng)驗熵椭赋,類似地也就有了經(jīng)驗條件熵的概念。教科書上的表述:當熵和條件熵中的概率是由數(shù)據(jù)估計得到時或杠,所對應(yīng)的熵和條件熵分別稱為經(jīng)驗熵和經(jīng)驗條件熵哪怔。

決策樹的生成算法--ID3、C4.5向抢、CART

建立決策樹的關(guān)鍵认境,是在當前狀態(tài)下選擇哪個特征(即屬性)作為節(jié)點。之前已經(jīng)講過挟鸠,選擇節(jié)點的依據(jù)取決于哪個特征在當前節(jié)點的熵下降最快叉信。那么給出了一堆數(shù)據(jù),那么如何求每個特征的熵(或熵下降的程度)呢艘希?根據(jù)不同的目標函數(shù)硼身,決策樹算法主要有三種算法:ID3、C4.5覆享、CART佳遂。



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市撒顿,隨后出現(xiàn)的幾起案子丑罪,更是在濱河造成了極大的恐慌,老刑警劉巖凤壁,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件吩屹,死亡現(xiàn)場離奇詭異,居然都是意外死亡拧抖,警方通過查閱死者的電腦和手機祟峦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來徙鱼,“玉大人宅楞,你說我怎么就攤上這事针姿。” “怎么了厌衙?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵距淫,是天一觀的道長。 經(jīng)常有香客問我婶希,道長榕暇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任喻杈,我火速辦了婚禮彤枢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘筒饰。我一直安慰自己缴啡,他們只是感情好,可當我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布瓷们。 她就那樣靜靜地躺著业栅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谬晕。 梳的紋絲不亂的頭發(fā)上碘裕,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天,我揣著相機與錄音攒钳,去河邊找鬼帮孔。 笑死,一個胖子當著我的面吹牛不撑,可吹牛的內(nèi)容都是我干的文兢。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼燎孟,長吁一口氣:“原來是場噩夢啊……” “哼禽作!你這毒婦竟也來了尸昧?” 一聲冷哼從身側(cè)響起揩页,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎烹俗,沒想到半個月后爆侣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡幢妄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年兔仰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蕉鸳。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡乎赴,死狀恐怖忍法,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情榕吼,我是刑警寧澤饿序,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站羹蚣,受9級特大地震影響原探,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜顽素,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一咽弦、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧胁出,春花似錦型型、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至裸诽,卻和暖如春嫂用,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丈冬。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工嘱函, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人埂蕊。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓往弓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蓄氧。 傳聞我的和親對象是個殘疾皇子函似,可洞房花燭夜當晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容