分類與回歸樹(Classification and Regression Trees, CART)
不同于ID3, C4.5, CART本質(zhì)是對(duì)特征空間進(jìn)行二元?jiǎng)澐郑碈ART生成的決策樹是一棵二叉樹, C4.5是多個(gè)分支), 并能夠?qū)?biāo)量屬性(nominal attribute)與連續(xù)屬性(continuous attribute)進(jìn)行分裂。
標(biāo)量屬性分叉: = 和 !=
連續(xù)屬性分叉:閾值ε取屬性相鄰值的平均值验靡,找到Gini指數(shù)最大的ε值(Gini越大嚎卫,說明這個(gè)臨界點(diǎn)越有區(qū)分度)
流程:
- 若滿足停止分裂條件(樣本個(gè)數(shù)小于預(yù)定閾值絮宁,或Gini指數(shù)小于預(yù)定閾值(樣本基本屬于同一類倒信,或沒有特征可供分裂)钳踊,則停止分裂晤愧;
- 否則大莫,選擇最小Gini指數(shù)進(jìn)行分裂;
- 遞歸執(zhí)行1-2步驟官份,直至停止分裂只厘。
剪枝:
CART剪枝與C4.5的剪枝策略相似烙丛,均以極小化整體損失函數(shù)實(shí)現(xiàn)。同理羔味,定義決策樹T的損失函數(shù)為: