1.刪除冗余重復(fù)數(shù)據(jù)挽拔;
2.修復(fù)結(jié)構(gòu)性錯誤(類別名稱之類的);
3.管理不需要的離群值(很離譜不真實的數(shù)據(jù))但校;
4.缺失數(shù)據(jù)的處理:
? ?缺失數(shù)據(jù)類別:連續(xù)變量或特征螃诅、分類變量或特征;
? ?處理方法為替換缺失值/擬合缺失值/虛擬變量/刪除:(1)均值状囱、中值术裸、眾數(shù)替換(2)隨機樣本估算(3)用新特性獲取NAN值(4)使用KNN填充
數(shù)據(jù)清理在機器學(xué)習(xí)中的優(yōu)勢:
改進的模型性能:數(shù)據(jù)清理通過刪除錯誤、不一致和不相關(guān)的數(shù)據(jù)來幫助提高ML模型的性能亭枷,這可以幫助模型更好地從數(shù)據(jù)中學(xué)習(xí)穗椅。
提高準確性:數(shù)據(jù)清理有助于確保數(shù)據(jù)準確、一致且沒有錯誤奶栖,這有助于提高ML模型的準確性匹表。
更好地表示數(shù)據(jù):數(shù)據(jù)清理允許將數(shù)據(jù)轉(zhuǎn)換為更好地表示數(shù)據(jù)中的底層關(guān)系和模式的格式,從而使ML模型更容易從數(shù)據(jù)中學(xué)習(xí)宣鄙。
機器學(xué)習(xí)中數(shù)據(jù)清理的缺點:
耗時:數(shù)據(jù)清理可能是一項耗時的任務(wù)袍镀,尤其是對于大型且復(fù)雜的數(shù)據(jù)集。
容易出錯:數(shù)據(jù)清理很容易出錯冻晤,因為它涉及數(shù)據(jù)的轉(zhuǎn)換和清理苇羡,這可能會導(dǎo)致重要信息丟失或引入新的錯誤。
對數(shù)據(jù)的了解有限:數(shù)據(jù)清理可能會導(dǎo)致對數(shù)據(jù)的了解有限鼻弧,因為轉(zhuǎn)換后的數(shù)據(jù)可能不能代表數(shù)據(jù)中的底層關(guān)系和模式设江。