1举塔、數(shù)據(jù)簡(jiǎn)單查看參考
1.1绑警、 查看數(shù)據(jù)描述性統(tǒng)計(jì):describe()
1.2、 查看數(shù)據(jù)字段名:columns()
1.3央渣、查看數(shù)據(jù)的類型以及缺失值情況info()
1.4查看前幾行數(shù)據(jù):head()
注:有一些算法计盒,比如組合算法,要求分類變量為因子行變量芽丹;層次聚類北启,要求是一個(gè)距
離矩陣,可以通過str函數(shù)進(jìn)行查看數(shù)據(jù)類型要求拔第,有些算法對(duì)
注:可以初步觀察是不是有量綱的差異咕村,為后續(xù)的分析做準(zhǔn)備
- 查看因子型變量占比情況:table/prop.table
注:可以為后續(xù)數(shù)據(jù)抽樣做準(zhǔn)備,看是否產(chǎn)生類不平衡的問題
2.數(shù)據(jù)缺失值處理
2.1 info()函數(shù)進(jìn)行簡(jiǎn)單查看
2.2 isnull查看數(shù)據(jù)缺失值的情況蚊俺,
2.3mean()懈涛、modain函數(shù),可以進(jìn)行缺失值的插補(bǔ)工作還有有knn、袋裝泳猬、中位數(shù)方法
2.4missFores包中misssForest函數(shù)批钠,可以進(jìn)行隨即森林方法插補(bǔ)
2.5可以用回歸分析的方法完成缺失值插補(bǔ)工作
2.6如果樣本量很多,缺失值數(shù)據(jù)很少得封,可以選擇直接剔除的方法
3.數(shù)據(jù)異常值處理
3.1describe()函數(shù)進(jìn)行簡(jiǎn)單的查看埋心,比如最大值、最小值
3.2boxplot函數(shù)繪制箱線圖
4.數(shù)據(jù)的抽樣
sample函數(shù)進(jìn)行隨機(jī)抽樣
caret包中的createDataPartition()函數(shù)對(duì)訓(xùn)練樣本和測(cè)試樣本進(jìn)行等比抽樣
caret包中createFold函數(shù)根據(jù)某一個(gè)指標(biāo)進(jìn)行等比抽樣
DMrR包中的SMOTR函數(shù)可以解決處理不平衡分類問題
注:比如決策樹算法中呛每,如果樣本嚴(yán)重不平衡踩窖,那么模型會(huì)出現(xiàn)欠擬合現(xiàn)象
5.變量的多重共線性處理
結(jié)合業(yè)務(wù),先刪除哪些和分析無關(guān)的指標(biāo)
corrgram包的corrgram函數(shù)查看相關(guān)系數(shù)矩陣
caret包的findCorrelation函數(shù)查看多重共線性
如果相關(guān)性太大晨横,可以考慮刪除變量洋腮;如果變量比較重要,可以考慮主成分/因子分析進(jìn)行降維處理
確定多種共線性的方法手形,一般相關(guān)系數(shù)>0.7,且P<0.05(F檢驗(yàn)的顯著性)時(shí)變量之間存在共線性
1啥供、處理:變量剔除
2、 改變解釋變量的形式库糠、如log轉(zhuǎn)換伙狐,時(shí)間序列采用增量型變量
3涮毫、 主成份分析
4、嶺回歸(目標(biāo)函數(shù)后加上懲罰項(xiàng))
5贷屎、增加樣本容量
6罢防、逐步回歸法