算法 | 適用場景 | 樹形 | 損失函數(shù) | 特征要求 | 特征取用 | 其他特點(diǎn) |
---|---|---|---|---|---|---|
ID3 | 分類 | 多叉樹 | 信息增益(缺點(diǎn):偏向選擇取值較多的特征) | 離散 | 單次 | |
C4.5 | 分類 | 多叉樹 | 信息增益率(先從候選劃分屬性中找出信息增益高于平均水平的屬性,再從中選擇增益率最高的) | 離散灵汪、連續(xù)(處理連續(xù)特征是先將特征取值排序檀训,以連續(xù)兩個值中間值作為劃分標(biāo)準(zhǔn),嘗試每一種劃分) | 單次 | 缺失值享言、剪枝防止過擬合 |
CART | 分類峻凫、回歸 | 二叉樹 | 分類:基尼系數(shù)(選擇基尼系數(shù)最小的屬性作為劃分屬性;與信息熵相比览露,基尼系數(shù)不需要對數(shù)運(yùn)算荧琼,更加高效;基尼系數(shù)更偏向于連續(xù)屬性,信息熵更偏向于離散屬性)命锄;回歸:mse | 離散堰乔、連續(xù) | 多次 | 缺失值、剪枝防止過擬合 |
- 從樣本量考慮的話脐恩,小樣本建議 C4.5镐侯、大樣本建議 CART。C4.5 處理過程中需對數(shù)據(jù)集進(jìn)行多次掃描排序驶冒,處理成本耗時較高苟翻,而 CART 本身是一種大樣本的統(tǒng)計方法,小樣本處理下泛化誤差較大
- 信息增益:劃分后各子集信息熵 - 劃分前信息熵骗污,其中p為分類的比例
- 信息增益率:信息增益 / 劃分前該劃分特征的信息熵崇猫,其中分母中的p為特征取值的比例
- 基尼系數(shù):其中p為分類的比例