數(shù)據(jù)預(yù)處理
1. 去除唯一屬性
- 唯一屬性通常是一些id屬性萍肆,這些屬性并不能刻畫樣本自身的分布規(guī)律,所以簡單地刪除這些屬性即可尤泽。
2. 處理缺失值
缺失值處理的三種方法:
- 直接使用含有缺失值的特征霎桅;
- 刪除含有缺失值的特征(該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的);
- 缺失值補(bǔ)全滤淳。
常見的缺失值補(bǔ)全方法:均值插補(bǔ)、同類均值插補(bǔ)砌左、建模預(yù)測脖咐、高維映射、多重插補(bǔ)汇歹、極大似然估計屁擅、壓縮感知和矩陣補(bǔ)全。
3. 特征編碼
- 特征二元化
特征二元化的過程是將數(shù)值型的屬性轉(zhuǎn)換為布爾值的屬性产弹,設(shè)定一個閾值作為劃分屬性值為0和1的分隔點派歌。 - 獨熱編碼(One-HotEncoding)
獨熱編碼采用N位狀態(tài)寄存器來對N個可能的取值進(jìn)行編碼,每個狀態(tài)都由獨立的寄存器來表示痰哨,并且在任意時刻只有其中一位有效胶果。
獨熱編碼的優(yōu)點:能夠處理非數(shù)值屬性;在一定程度上擴(kuò)充了特征斤斧;編碼后的屬性是稀疏的早抠,存在大量的零元分量。
4. 數(shù)據(jù)標(biāo)準(zhǔn)化撬讽、正則化
- 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)標(biāo)準(zhǔn)化是將樣本的屬性縮放到某個指定的范圍蕊连。 - 正則化
數(shù)據(jù)正則化是將樣本的某個范數(shù)(如L1范數(shù))縮放到到位1,正則化的過程是針對單個樣本的游昼,對于每個樣本將樣本縮放到單位范數(shù)甘苍。
5. 特征選擇(降維)
- 從給定的特征集合中選出相關(guān)特征子集的過程稱為特征選擇。
- 進(jìn)行特征選擇的兩個主要原因是:減輕維數(shù)災(zāi)難問題烘豌;降低學(xué)習(xí)任務(wù)的難度载庭。
6. 稀疏表示和字典學(xué)習(xí)
- 字典學(xué)習(xí):學(xué)習(xí)一個字典,通過該字典將樣本轉(zhuǎn)化為合適的稀疏表示形式廊佩。
- 稀疏編碼:獲取樣本的稀疏表達(dá)囚聚。