為何要剪枝
決策樹遞歸地構(gòu)建樹享潜,直到不能繼續(xù)分裂下去為止,這樣的樹對于訓(xùn)練集可能擬合的較好狼电,但對于訓(xùn)練集可能產(chǎn)生過擬合現(xiàn)象遏弱,原因是過多的考慮對訓(xùn)練集的劃分精確度盆均,從而構(gòu)建出了復(fù)雜的決策樹,緩解過擬合的方法是通過剪枝漱逸。
剪枝的思想
剪枝是通過極小化決策樹整體的損失函數(shù)或代價函數(shù)來實現(xiàn)的
剪枝的過程即在構(gòu)建新的模型泪姨,因此游沿,可以將剪枝看作是模型選擇的一種方法。
預(yù)剪枝
通過提前停止樹的構(gòu)造來對決策樹進(jìn)行剪枝
一旦停止該節(jié)點下樹的繼續(xù)構(gòu)造肮砾,該節(jié)點就成了葉節(jié)點
該葉節(jié)點持有其數(shù)據(jù)集中樣本最多的類或者其概率分布诀黍。
后剪枝
先構(gòu)建完整的決策樹,允許決策樹過度擬合訓(xùn)練數(shù)據(jù)仗处。
然后對那些置信度不夠的節(jié)點的子樹用葉節(jié)點來替代
該葉節(jié)點持有其子樹的數(shù)據(jù)集中樣本最多的類或者其概率分布眯勾。
后剪枝CCP
目前在CART、gbdt等集成樹模型中的剪枝方法是后剪枝婆誓,重點關(guān)注CCP剪枝的流程吃环。
計算時,之所以選擇min(a, g(t))是因為a=g(t)旷档,同時g(t)又表達(dá)每一個葉節(jié)點能帶來的誤差減小量模叙,那么每次迭代選擇誤差減少量最少的那一個進(jìn)行剪枝歇拆,因為誤差減少量很少鞋屈,則代表決策樹此時沒必要花力氣向下生長。
轉(zhuǎn)載注明:http://www.reibang.com/p/ff73374ebe6a