16課 決策樹——既能分類又能回歸的模型
決策樹
一棵決策樹(Decision Tree)是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)菲嘴,每個非葉節(jié)點對應(yīng)一個特征想虎,該節(jié)點的每個分支代表這個特征的一個取值窝革,而每個葉節(jié)點存放一個類別或一個回歸函數(shù)姻蚓。決策的過程就是從根節(jié)點開始,提取出待分類項中相應(yīng)的特征堆生,按照其值選擇輸出分支专缠,依次向下,直到到達葉子節(jié)點淑仆,將葉子節(jié)點存放的類別或者回歸函數(shù)的運算結(jié)果作為輸出(決策)結(jié)果涝婉。
這三個非葉子節(jié)點(含根節(jié)點),統(tǒng)稱決策節(jié)點蔗怠,每個節(jié)點對應(yīng)一個條件判斷墩弯,這個條件判斷的條件,我們叫做特征寞射。上例是一個有三個特征的分類樹渔工。
訓(xùn)練決策樹
- 準備若干的訓(xùn)練數(shù)據(jù)(假設(shè) m 個樣本);
- 標明每個樣本預(yù)期的類別桥温;
- 人為選取一些特征(即決策條件)引矩;
- 為每個訓(xùn)練樣本對應(yīng)所有需要的特征生成相應(yīng)值——數(shù)值化特征;
- 將通過上面的1-4步獲得的訓(xùn)練數(shù)據(jù)輸入給訓(xùn)練算法侵浸,訓(xùn)練算法通過一定的原則旺韭,決定各個特征的重要性程度,然后按照決策重要性從高到底掏觉,生成決策樹区端。
常用算法
ID3 缺點:ID3一般會優(yōu)先選擇取值種類較多的特征作為分裂特征。
C4.5 問題:當某個 |Sv| 的大小跟 |S| 的大小接近的時候,GainRatio接近無窮澳腹,導(dǎo)致某個其實無關(guān)緊要的特征占據(jù)根節(jié)點(可以采用啟發(fā)式的思路织盼,對每個特征先計算信息增益量杨何,在其信息增益量較高的情況下,才應(yīng)用信息增益率作為分裂標準悔政。)
CART 基尼系數(shù)晚吞,嚴格二分
基尼指數(shù)(Gini Index)其實就是系數(shù)的100%表示。
17課 決策樹——告訴你 Hello Kitty 是人是貓
構(gòu)建決策樹谋国,剪枝優(yōu)化
代碼實現(xiàn)