內容
一、決策樹內容簡介
二掺喻、決策樹的模型與學習
三着绷、特征選擇
四蛔钙、決策樹生成
五、決策樹剪枝
六荠医、CART算法
#############################################################################
一吁脱、決策樹內容簡介
1.決策樹是一種基本的分類與回歸算法。
2.優(yōu)點:模型具有可讀性和分類速度快彬向。
3.學習時兼贡,利用訓練數(shù)據,根據損失函數(shù)最小化原則建立決策樹模型娃胆;
? ? 預測時遍希,對新的數(shù)據利用決策樹模型進行分類。
4.決策樹的學習3個步驟:特征選擇里烦、決策樹生成凿蒜、決策樹修剪。
二招驴、決策樹的模型與學習
? ? ? ?1. 決策樹由結點和有向邊組成篙程,其中結點有兩種類型。類型一內部節(jié)點:表示特征和屬性别厘;類型二葉節(jié)點:表示一個類別虱饿。
? ? ? ? 2.決策樹可以看做是if-then規(guī)則的集合。
? ? ? ? 3.決策樹的一條路徑對應于劃分中的一個單元(就是一個類)触趴。
? ? ? ? 4.決策樹的本質上是從訓練數(shù)據集中歸納出一組分類規(guī)則氮发。??
? ? ? ? 5.決策樹學習的目標:一個與訓練數(shù)據矛盾較小的決策樹同時具有很好的泛化能力,模型不僅對? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?訓練數(shù)據有很好的擬合冗懦,而且對未來的數(shù)據也有很好的擬合爽冕。
? ? ? ? 6.決策樹學習的策略:以損失函數(shù)為目標函數(shù)的最小化。當損失函數(shù)確定后披蕉,學習問題就變? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?成在損失函數(shù)意義下選擇最優(yōu)決策樹的問題颈畸。
三乌奇、特征選擇
? ? ? ? 1.特征選擇在于選取對訓練數(shù)據具有分類能力的特征。通常特征選擇的準則是信息增益和信息增? ? ? ? ? 益比眯娱。
? ? ? ?????2. 熵:表示隨機變量不確定性的度量礁苗,熵的值越大,隨機變量的不確定性越大徙缴。
? ? ? ? ? ? ? ?公式表示:
? ? ? ? ? ?????熵隨概率的變化曲線:
? ? ? ? ? ?3. 條件熵:H(Y|X)表示在已知隨機變量X的條件下隨機變量Y的不確定性试伙。
? ? ? ? ????????公式表示:
? ? ? ? ? ? 4.當熵和條件熵中的概率由數(shù)據估計(特別是極大似然估計)得到時,所對應的熵和條件熵? ? ? ? ? ? ? ? ?分別稱為經驗熵和經驗條件熵于样。
? ? ? ? ? ? *5.信息增益
? ? ? ? ? ? ? ? 注:信息增益表示由于特征A而使得對數(shù)據集D的分類的不確定性減少的程度疏叨。?
? ? ? ? ? ? ?6.信息增益的算法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ?7.信息增益比
????????????四、決策樹生成
? ? ? ? ? ? ? ? ? ? 1.ID3通過信息增益選擇特征建立決策樹穿剖;
? ? ? ? ? ? ? ? ? ? ?2.C4.5通過信息增益比選擇特征建立決策樹蚤蔓;
? ? ? ? ? ? 五、決策樹的剪枝
? ? ? ? ? ? ? ? ? ? 1.為什么要剪枝携御?
? ? ? ? ? ? ? ? ? ? ?決策樹生成算法遞歸地產生決策樹昌粤,直到不能繼續(xù)下去為止。這樣產生的決策樹對訓? ? ? ? ? ? ? ? ? ? ? ? ?練數(shù)據的分類很準確啄刹,但是對未知的測試數(shù)據確沒有那么準確。這樣會出現(xiàn)過擬合的? ? ? ? ? ? ? ? ? ? ? ? ?現(xiàn)象凄贩。剪枝是為了降低決策樹的復雜度誓军,對生成的樹進行簡化。
? ? ? ? ? ? ? ? ? ? ?2.什么是過擬合疲扎?
? ? ? ? ? ? ? ? ? ? ? 原因在于在學習決策樹模型的過程中昵时,過多的考慮如何提高對訓練數(shù)據的正確分? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 類,從而構建出復雜的決策樹椒丧。
? ? ? ? ? ? ? ? ? ? ?3.怎樣進行剪枝壹甥?
? ? ? ? ? ? ? ? ? ? ? ?決策樹的剪枝通過極小化決策樹整體的損失函數(shù)或者代價函數(shù)來實現(xiàn)。因為損失函數(shù)? ? ? ? ? ? ? ? ? ? ? ? ?里包含懲罰項壶熏,可以降低決策樹的復雜度句柠,來達到剪枝的目的。
? ? ? ? ? ? ? ? ? ? ? 4.決策樹的損失函數(shù):
? ? ? ? ? ? ? ? ? ? ? ? ? ?經驗熵:
? ? ? ? ? ? ? ? ? ? ? ? ? ?損失函數(shù)的變形:
? ? ? ? ? ? ? ? ? ? ? 4.決策樹的剪枝算法(參看書66頁)
? ? ? ? ? ? 六棒假、CART算法
? ? ? ? ? ? ? ? ? ? 1.CART算法的全稱分類與回歸樹(classification and regression tree),是廣泛的決策? ? ? ? ? ? ? ? ? ? ? ?樹學習方法溯职。CART同樣由特征選擇、樹的生成帽哑、剪枝組成谜酒。
? ? ? ? ? ? ? ? ? ? 2.CART算法由以下兩部組成:
????????????????????????(1)決策樹的生成:基于訓練數(shù)據集生成決策樹,生成的決策樹要盡量大妻枕;
? ? ? ? ? ? ? ? ? ? ? ? (2)決策樹的剪枝:用驗證數(shù)據集對已生成的樹進行剪枝并選擇最優(yōu)子樹僻族,這時? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?用損失函數(shù)最小作為剪枝的標準粘驰。
? ? ? ? ? ? ? ? ? ? 3.CART生成
? ? ? ? ? ? ? ? ? ? ? ? ?(1)回歸樹的生成
? ? ? ? ? ? ? ? ? ? ? ? ?(2)分類樹的生成
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? a.分類樹用基尼指數(shù)選擇最優(yōu)特征,同時決定該特征的最優(yōu)二值切分點述么。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?b.基尼指數(shù)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?c.分類樹的生成算法
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?*d.CART剪枝
????????????????????????????????????????1.剪枝晴氨,形成一個子樹序列。
????????????????????????????????????????2.在剪枝得到的子樹序列T0碉输,T1籽前,T3,...,Tn中通過交叉驗證選取最優(yōu)子? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 樹T敷钾。