簡(jiǎn)述決策樹的原理
決策樹的實(shí)質(zhì)就是一系列的if-else堰燎,根據(jù)決策條件链嘀,從根節(jié)點(diǎn)走到葉子節(jié)點(diǎn)。對(duì)于分類問題潭千,根據(jù)葉子結(jié)點(diǎn)的標(biāo)簽進(jìn)行投票決定;對(duì)于回歸問題是根據(jù)葉子節(jié)點(diǎn)的均值作為預(yù)測(cè)值信息量
- 發(fā)生概率越低的事件信息量越大
- 信息量必須大于0
- 信息量的累加性
基于上述三個(gè)特性借尿,一個(gè)事件的信息量公式定義為h(x)= -log p(x)
-
信息熵
信息熵是度量信息“純度”的指標(biāo)刨晴。信息熵越大,越不純路翻。例如一張二維表狈癞,學(xué)號(hào)字段相比性別字段,信息熵要大得多
-
決策樹結(jié)點(diǎn)劃分
-
ID3
ID3是基于信息增益作為節(jié)點(diǎn)劃分的標(biāo)準(zhǔn)帚桩,選擇信息增益最大進(jìn)行劃分亿驾。
-
C4.5
由于ID3只考慮了信息增益,沒有考慮分裂字段本身的“信息熵”账嚎。假如有一個(gè)字段“學(xué)號(hào)”莫瞬,每個(gè)學(xué)號(hào)對(duì)應(yīng)唯一的label,那么根據(jù)信息增益公式郭蕉,這個(gè)字段的信息增益一定是最大的疼邀,但是這個(gè)字段真的適合分裂嗎?肯定不是的召锈。C4.5相比ID3旁振,優(yōu)化了分裂傾向選擇類別多的字段,選擇信息增益率最大進(jìn)行劃分
-
CART
cart是基于基尼系數(shù)進(jìn)行劃分,分別計(jì)算各字段的基尼系數(shù)拐袜,選擇最小的字段進(jìn)行分裂吉嚣,公式如下
-
-
ID3,C4.5蹬铺,CART對(duì)比
樹的剪枝
通過剪枝可以防止樹節(jié)點(diǎn)過擬合尝哆,提高模型的泛化能力。剪枝方式分兩種甜攀,預(yù)剪枝和后剪枝秋泄。根據(jù)周志華老師在西瓜書中的剪枝內(nèi)容,思想是類似于XGBoost中的early stopping规阀,如果在驗(yàn)證集效果不再提升恒序,那么就不再進(jìn)行分裂
- 預(yù)剪枝
在節(jié)點(diǎn)進(jìn)行分裂時(shí),計(jì)算驗(yàn)證集分裂前后精度是否降低谁撼。如果提高歧胁,繼續(xù)分裂;否則停止分裂 -
后剪枝
先構(gòu)建完整的決策樹彤敛,自下向上進(jìn)行查找与帆,如果合并葉子節(jié)點(diǎn)后的精度相比合并前有提升了赌,那么進(jìn)行剪枝墨榄,將葉子節(jié)點(diǎn)的樣本進(jìn)行合并,并刪除葉子節(jié)點(diǎn)
連續(xù)值處理
對(duì)于連續(xù)型特征勿她,假設(shè)有n個(gè)樣本的特征x取值為{x1,x2,...xn}袄秩,那么將x1,x2,...xn從小到大排序,取兩兩值的中點(diǎn)作為分割點(diǎn)逢并,依次遍歷每個(gè)分割點(diǎn)并計(jì)算信息增益(率)或基尼系數(shù)之剧,選擇對(duì)應(yīng)的分割點(diǎn)作為最終的分割條件
注:對(duì)于連續(xù)型特征,特征選擇后是可以繼續(xù)作為后續(xù)的節(jié)點(diǎn)的分裂條件-
缺失值處理
根據(jù)是否缺失給樣本賦予不同的權(quán)重砍聊,無缺失是1背稼,缺失是0。當(dāng)計(jì)算信息增益時(shí)玻蝌,只考慮非缺失的樣本蟹肘,將最終結(jié)果乘以(1-缺失率)作為修正后的增益率