第5章 決策樹

內容

一、決策樹內容簡介

二掺喻、決策樹的模型與學習

三着绷、特征選擇

四蛔钙、決策樹生成

五、決策樹剪枝

六荠医、CART算法

#############################################################################

一吁脱、決策樹內容簡介

1.決策樹是一種基本的分類與回歸算法。

2.優(yōu)點:模型具有可讀性和分類速度快彬向。

3.學習時兼贡,利用訓練數(shù)據,根據損失函數(shù)最小化原則建立決策樹模型娃胆;

? ? 預測時遍希,對新的數(shù)據利用決策樹模型進行分類。

4.決策樹的學習3個步驟:特征選擇里烦、決策樹生成凿蒜、決策樹修剪。

二招驴、決策樹的模型與學習

? ? ? ?1. 決策樹由結點和有向邊組成篙程,其中結點有兩種類型。類型一內部節(jié)點:表示特征和屬性别厘;類型二葉節(jié)點:表示一個類別虱饿。

? ? ? ? 2.決策樹可以看做是if-then規(guī)則的集合。

? ? ? ? 3.決策樹的一條路徑對應于劃分中的一個單元(就是一個類)触趴。

? ? ? ? 4.決策樹的本質上是從訓練數(shù)據集中歸納出一組分類規(guī)則氮发。??

? ? ? ? 5.決策樹學習的目標:一個與訓練數(shù)據矛盾較小的決策樹同時具有很好的泛化能力,模型不僅對? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?訓練數(shù)據有很好的擬合冗懦,而且對未來的數(shù)據也有很好的擬合爽冕。

? ? ? ? 6.決策樹學習的策略:以損失函數(shù)為目標函數(shù)的最小化。當損失函數(shù)確定后披蕉,學習問題就變? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?成在損失函數(shù)意義下選擇最優(yōu)決策樹的問題颈畸。

三乌奇、特征選擇

? ? ? ? 1.特征選擇在于選取對訓練數(shù)據具有分類能力的特征。通常特征選擇的準則是信息增益和信息增? ? ? ? ? 益比眯娱。

? ? ? ?????2. 熵:表示隨機變量不確定性的度量礁苗,熵的值越大,隨機變量的不確定性越大徙缴。

? ? ? ? ? ? ? ?公式表示:

? ? ? ? ? ?????熵隨概率的變化曲線:

? ? ? ? ? ?3. 條件熵:H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性试伙。

? ? ? ? ????????公式表示:

? ? ? ? ? ? 4.當熵和條件熵中的概率由數(shù)據估計(特別是極大似然估計)得到時,所對應的熵和條件熵? ? ? ? ? ? ? ? ?分別稱為經驗熵和經驗條件熵于样。

? ? ? ? ? ? *5.信息增益

6.

? ? ? ? ? ? ? ? 注:信息增益表示由于特征A而使得對數(shù)據集D的分類的不確定性減少的程度疏叨。?

? ? ? ? ? ? ?6.信息增益的算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ?7.信息增益比

????????????四、決策樹生成

? ? ? ? ? ? ? ? ? ? 1.ID3通過信息增益選擇特征建立決策樹穿剖;

? ? ? ? ? ? ? ? ? ? ?2.C4.5通過信息增益比選擇特征建立決策樹蚤蔓;

? ? ? ? ? ? 五、決策樹的剪枝

? ? ? ? ? ? ? ? ? ? 1.為什么要剪枝携御?

? ? ? ? ? ? ? ? ? ? ?決策樹生成算法遞歸地產生決策樹昌粤,直到不能繼續(xù)下去為止。這樣產生的決策樹對訓? ? ? ? ? ? ? ? ? ? ? ? ?練數(shù)據的分類很準確啄刹,但是對未知的測試數(shù)據確沒有那么準確。這樣會出現(xiàn)過擬合的? ? ? ? ? ? ? ? ? ? ? ? ?現(xiàn)象凄贩。剪枝是為了降低決策樹的復雜度誓军,對生成的樹進行簡化。

? ? ? ? ? ? ? ? ? ? ?2.什么是過擬合疲扎?

? ? ? ? ? ? ? ? ? ? ? 原因在于在學習決策樹模型的過程中昵时,過多的考慮如何提高對訓練數(shù)據的正確分? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 類,從而構建出復雜的決策樹椒丧。

? ? ? ? ? ? ? ? ? ? ?3.怎樣進行剪枝壹甥?

? ? ? ? ? ? ? ? ? ? ? ?決策樹的剪枝通過極小化決策樹整體的損失函數(shù)或者代價函數(shù)來實現(xiàn)。因為損失函數(shù)? ? ? ? ? ? ? ? ? ? ? ? ?里包含懲罰項壶熏,可以降低決策樹的復雜度句柠,來達到剪枝的目的。

? ? ? ? ? ? ? ? ? ? ? 4.決策樹的損失函數(shù):

? ? ? ? ? ? ? ? ? ? ? ? ? ?經驗熵:

? ? ? ? ? ? ? ? ? ? ? ? ? ?損失函數(shù)的變形:

? ? ? ? ? ? ? ? ? ? ? 4.決策樹的剪枝算法(參看書66頁)

? ? ? ? ? ? 六棒假、CART算法

? ? ? ? ? ? ? ? ? ? 1.CART算法的全稱分類與回歸樹(classification and regression tree),是廣泛的決策? ? ? ? ? ? ? ? ? ? ? ?樹學習方法溯职。CART同樣由特征選擇、樹的生成帽哑、剪枝組成谜酒。

? ? ? ? ? ? ? ? ? ? 2.CART算法由以下兩部組成:

????????????????????????(1)決策樹的生成:基于訓練數(shù)據集生成決策樹,生成的決策樹要盡量大妻枕;

? ? ? ? ? ? ? ? ? ? ? ? (2)決策樹的剪枝:用驗證數(shù)據集對已生成的樹進行剪枝并選擇最優(yōu)子樹僻族,這時? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?用損失函數(shù)最小作為剪枝的標準粘驰。

? ? ? ? ? ? ? ? ? ? 3.CART生成

? ? ? ? ? ? ? ? ? ? ? ? ?(1)回歸樹的生成

? ? ? ? ? ? ? ? ? ? ? ? ?(2)分類樹的生成

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? a.分類樹用基尼指數(shù)選擇最優(yōu)特征,同時決定該特征的最優(yōu)二值切分點述么。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?b.基尼指數(shù)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?c.分類樹的生成算法

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?*d.CART剪枝

????????????????????????????????????????1.剪枝晴氨,形成一個子樹序列。

????????????????????????????????????????2.在剪枝得到的子樹序列T0碉输,T1籽前,T3,...,Tn中通過交叉驗證選取最優(yōu)子? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 樹T敷钾。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末枝哄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子阻荒,更是在濱河造成了極大的恐慌挠锥,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件侨赡,死亡現(xiàn)場離奇詭異蓖租,居然都是意外死亡,警方通過查閱死者的電腦和手機羊壹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門蓖宦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人油猫,你說我怎么就攤上這事稠茂。” “怎么了情妖?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵睬关,是天一觀的道長。 經常有香客問我毡证,道長电爹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任料睛,我火速辦了婚禮丐箩,結果婚禮上,老公的妹妹穿的比我還像新娘秦效。我一直安慰自己雏蛮,他們只是感情好,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布阱州。 她就那樣靜靜地躺著挑秉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪苔货。 梳的紋絲不亂的頭發(fā)上犀概,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天立哑,我揣著相機與錄音,去河邊找鬼姻灶。 笑死铛绰,一個胖子當著我的面吹牛,可吹牛的內容都是我干的产喉。 我是一名探鬼主播捂掰,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼曾沈!你這毒婦竟也來了舔示?” 一聲冷哼從身側響起餐抢,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蹋订,沒想到半個月后淌铐,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體祈搜,經...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡纵朋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年乔宿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唯蝶。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡九秀,死狀恐怖,靈堂內的尸體忽然破棺而出生棍,到底是詐尸還是另有隱情颤霎,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布涂滴,位于F島的核電站,受9級特大地震影響晴音,放射性物質發(fā)生泄漏柔纵。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一锤躁、第九天 我趴在偏房一處隱蔽的房頂上張望搁料。 院中可真熱鬧,春花似錦系羞、人聲如沸郭计。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽昭伸。三九已至,卻和暖如春澎迎,著一層夾襖步出監(jiān)牢的瞬間庐杨,已是汗流浹背选调。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留灵份,地道東北人仁堪。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像填渠,于是被迫代替她去往敵國和親弦聂。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內容

  • 決策樹的學習算法包特征選擇氛什、決策樹的生成與決策樹的剪枝過程莺葫。決策樹學習應用信息增益準則選擇特征。信息增益大的特征具...
    瘦長的豐一禾閱讀 1,076評論 0 0
  • 決策樹理論在決策樹理論中屉更,有這樣一句話徙融,“用較少的東西,照樣可以做很好的事情瑰谜。越是小的決策樹欺冀,越優(yōu)于大的決策樹”。...
    制杖灶灶閱讀 5,839評論 0 25
  • 接觸機器學習時間也不短了, 趁國慶放假, 做一下深度整理. 1. 大綱 若想在企業(yè)勝任算法相關崗位知識, 除了掌握...
    婉妃閱讀 3,400評論 2 92
  • Decision Trees (DTs) 是一種用來classification和regression的無參監(jiān)督學...
    婉妃閱讀 6,077評論 0 8
  • 看舌便別濕氣 承山穴是最有效的祛除人體濕氣的穴位萨脑。它在足太陽膀胱經上隐轩,膀胱經主人體一身之陽氣,所以渤早,刺激它能通過振...
    秀紅外匯經紀人閱讀 196評論 0 0