簡書:決策樹會有哪些特性睬魂?
知乎:決策樹是如何處理不完整數(shù)據(jù)的终吼?
1. 連續(xù)值如何劃分?
- C4.5:Information Gain (Ratio) based Threshold
- CART:遍歷所有輸入變量j 和切分點(diǎn)s氯哮,根據(jù)最小化平方誤差準(zhǔn)則選认畏濉;
2. 是否能夠處理Missing值蛙粘? 如果能, 是如何處理的威彰?
- 不能處理: --
- 插值法(Imputation): QUEST, CRUISE
- 替代法(Alternate/Surrogate Splits):CART出牧, CRUISE
- 缺失值單獨(dú)分支(Missing value branch):CHAID, GUIDE
- 概率權(quán)重(Probability weights): C4.5
3.決策樹是如何處理不完整數(shù)據(jù)的歇盼?
- 采用拋棄缺失值
拋棄極少量的缺失值的樣本對決策樹的創(chuàng)建影響不是太大舔痕。但是如果屬性缺失值較多或是關(guān)鍵屬性值缺失,創(chuàng)建的決策樹將是不完全的,同時(shí)可能給用戶造成知識上的大量錯誤信息,所以拋棄缺失值一般不采用。只有在數(shù)據(jù)庫具有極少量的缺失值同時(shí)缺失值不是關(guān)鍵的屬性值時(shí),且為了加快創(chuàng)建決策樹的速度,才采用拋棄屬性缺失值的方式創(chuàng)建決策樹豹缀。 - 補(bǔ)充缺失值
缺失值較少時(shí)按照我們上面的補(bǔ)充規(guī)則是可行的伯复。但如果數(shù)據(jù)庫的數(shù)據(jù)較大,缺失值較多(當(dāng)然,這樣獲取的數(shù)據(jù)庫在現(xiàn)實(shí)中使用的意義已不大,同時(shí)在信息獲取方面基本不會出現(xiàn)這樣的數(shù)據(jù)庫),這樣根據(jù)填充后的數(shù)據(jù)庫創(chuàng)建的決策樹可能和根據(jù)正確值創(chuàng)建的決策樹有很大變化。 - 概率化缺失值
對缺失值的樣本賦予該屬性所有屬性值的概率分布,即將缺失值按照其所在屬性已知值的相對概率分布來創(chuàng)建決策樹邢笙。用系數(shù)F進(jìn)行合理的修正計(jì)算的信息量,F=數(shù)據(jù)庫中缺失值所在的屬性值樣本數(shù)量去掉缺失值樣本數(shù)量/數(shù)據(jù)庫中樣本數(shù)量的總和,即F表示所給屬性具有已知值樣本的概率啸如。 - 缺失值單獨(dú)分支