數(shù)據(jù)清洗原理
利用有關(guān)技術(shù)如數(shù)理統(tǒng)計、數(shù)據(jù)挖掘或預(yù)定義的清理規(guī)則將臟數(shù)據(jù)轉(zhuǎn)化為滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)噩翠。簡單來說思喊,數(shù)據(jù)清理是將數(shù)據(jù)庫精簡以除去重復(fù)記錄,并使剩余部分轉(zhuǎn)換成標(biāo)準(zhǔn)可接收格式的過程望浩。
數(shù)據(jù)缺失
1)定范圍:了解數(shù)據(jù)庫哪些字段缺失辖所,缺失比例如何?重要性如何磨德?是補充還是去掉缘回?
2)刪字段:刪除沒用的、難以補齊的
3)補數(shù)據(jù):多數(shù)情況下剖张,缺失的值要手工填入(即手工清理)切诀,靠業(yè)務(wù)知識/經(jīng)驗填充或從本數(shù)據(jù)源/其他數(shù)據(jù)源推導(dǎo)出來
數(shù)據(jù)異常
1)格式:如時間/時期統(tǒng)一方式去規(guī)整等
2)字符:如半角/圓角;數(shù)據(jù)與字段對應(yīng)等
3)合理性:如年齡輸入200搔弄,則為不合理數(shù)據(jù)
4)一致性:如年齡或出生年月要與身份證字段相互印證
歸一化
1)含義:把絕對的數(shù)量改變成相對的數(shù)量幅虑,本質(zhì)是將帶有單位的絕對數(shù)量換成沒有單位的相對數(shù)量,純粹對比大小和比例關(guān)系
2)歸一化原因:① 去量綱操作 ② 避免極值問題
3)歸一化方法:
① 最值歸一化:使用一組數(shù)據(jù)中最大值和最小值進行歸一化策略顾犹,適用于有限定范圍的數(shù)據(jù)
② 均值方差歸一化:無明顯邊界的數(shù)據(jù)倒庵,正態(tài)分布數(shù)據(jù)為優(yōu)
③ 非線性歸一化:處理極值情況