序
RF中有相應(yīng)的缺失值處理方法家坎,本次記錄其兩種缺失值處理技巧
暴力填補(bǔ)
Python中的na.roughfix
包提供簡單的缺失值填補(bǔ)策略:
對于訓(xùn)練集中處于同一個類別下的數(shù)據(jù)梗脾,如果是類別變量缺失,則用眾數(shù)補(bǔ)全淀衣,如果是連續(xù)變量,則用中位數(shù)乌逐。
相似度矩陣填補(bǔ)
RF的Python實現(xiàn)中竭讳,有一個rfImpute
包,可以提供更加高層的缺失值填補(bǔ)浙踢。
- 首先先用暴力填補(bǔ)法進(jìn)行粗粒度填充绢慢。
- 然后使用上述填補(bǔ)后的訓(xùn)練集來訓(xùn)練隨機(jī)森林模型,并統(tǒng)計相似度矩陣(proximity matrix)洛波,然后再看之前缺失值的地方胰舆,如果是分類變量,則用沒有缺失的觀測實例的相似度中的權(quán)重進(jìn)行投票奋岁;如果是連續(xù)性變量,則用相似度矩陣進(jìn)行加權(quán)求均值荸百。
- 上述投票方案迭代進(jìn)行4~6次闻伶。
解釋相似度矩陣:
相似度矩陣就是任意兩個觀測實例間的相似度矩陣,原理是如果兩個觀測實例落在同一棵樹的相同節(jié)點次數(shù)越多够话,則這兩個觀測實例的相似度越高蓝翰。
詳細(xì)來說:
Proximity 用來衡量兩個樣本之間的相似性。原理就是如果兩個樣本落在樹的同一個葉子節(jié)點的次數(shù)越多女嘲,則這兩個樣本的相似度越高畜份。當(dāng)一棵樹生成后,讓數(shù)據(jù)集通過這棵樹欣尼,落在同一個葉子節(jié)點的”樣本對(xi,xj)” proximity 值 P(i,j) 加 1 爆雹。所有的樹生成之后,利用樹的數(shù)量來歸一化 proximity matrix愕鼓。繼而钙态,我們得到缺失值所在樣本的權(quán)重值,權(quán)重值相近的可以用于缺失值的填補(bǔ)參考菇晃。
轉(zhuǎn)載注明:http://www.reibang.com/p/a4bf9224d66c