1為什么CART能回歸
主要用均方差代替了基尼系數(shù)
2缺失值處理
當(dāng)處理缺失值的時(shí)候沮榜,一般需要考慮這樣兩個(gè)問(wèn)題:
1.有缺失值得特征應(yīng)該在什么時(shí)候被選擇
2.當(dāng)被選擇的特征有缺失值的時(shí)候仲义,我們應(yīng)該如何對(duì)樣本進(jìn)行劃分
解決第一個(gè)問(wèn)題:由于C4.5是通過(guò)選擇信息增益最大的值從而選擇特征的,因此我們做的處理就很簡(jiǎn)單了旧巾,只用將在該特征下無(wú)缺失值的樣本的比例乘上信息增益就可以了。比如得到的信息增益為,在a特征下有
個(gè)缺失值,總樣本數(shù)為
穴张,所以最終的信息增益就是
。
解決第二個(gè)問(wèn)題:如果該樣本是缺失值两曼,則以不同的權(quán)重分給每個(gè)子節(jié)點(diǎn)皂甘。比如現(xiàn)在有兩個(gè)子節(jié)點(diǎn),無(wú)缺失的樣本為悼凑,分別給第一個(gè)子節(jié)點(diǎn)
偿枕,第二個(gè)子節(jié)點(diǎn)
,還有缺失樣本
户辫,把
號(hào)子節(jié)點(diǎn)分別加入這兩個(gè)子節(jié)點(diǎn)得到
和
渐夸。但是7號(hào)在第一類中的權(quán)重為
,在第二類中權(quán)重為