本篇文章來總結(jié)一下樹模型缺失值處理的方法
1、決策樹
對(duì)普通的決策樹來說查邢,缺失值需要注意三個(gè)方面的問題:
- 在選擇分裂屬性的時(shí)候,訓(xùn)練樣本存在缺失值变汪,如何處理侠坎?
- 在建樹過程中,給定劃分屬性裙盾,若樣本在該屬性上的值是缺失的实胸,那么該如何對(duì)這個(gè)樣本進(jìn)行劃分?
- 訓(xùn)練完成番官,給測(cè)試集樣本分類庐完,有缺失值怎么辦?
針對(duì)前兩個(gè)問題徘熔,可以參考文獻(xiàn):https://blog.csdn.net/u012328159/article/details/79413610
針對(duì)第三個(gè)問題门躯,通常選擇樣本數(shù)最多的特征值方向。
2酷师、XGBoost
XGBoost處理缺失值讶凉,是將所有有缺失值的數(shù)據(jù)捆綁在一起,比較將這些數(shù)據(jù)都放入左子樹 和都放入右子樹時(shí)的損失大小山孔。
參考文獻(xiàn)
1懂讯、決策樹(decision tree)(四)——缺失值處理:https://blog.csdn.net/u012328159/article/details/79413610
2、怎么理解決策樹台颠、xgboost能處理缺失值褐望?而有的模型(svm)對(duì)缺失值比較敏感呢?:https://www.zhihu.com/question/58230411