特征預(yù)處理:對數(shù)據(jù)進(jìn)行處理 通過特定的統(tǒng)計方法 (數(shù)學(xué)方法) 將數(shù)據(jù)轉(zhuǎn)換成算法要求的數(shù)據(jù)旺拉。
數(shù)值型數(shù)據(jù):標(biāo)準(zhǔn)縮放:1. 歸一化。2. 標(biāo)準(zhǔn)化棵磷。3. 缺失值
類別型數(shù)據(jù):one-hot編碼
時間類型:時間的切分
sklearn特征預(yù)處理api
sklearn.preprocessing
(1)歸一化
歸一化特點(diǎn):通過對原始數(shù)據(jù)進(jìn)行變換把數(shù)據(jù)映射到(默認(rèn)為[0,1])之間
歸一化缺點(diǎn):最大值與最小值非常容易受異常點(diǎn)影響蛾狗,魯棒性較差。使用較少
Sklearn歸一化api仪媒。 多個特征同等重要時
sklearn.preprocessing.MinMaxScaler
MinMaxScaler(feature_range=(0,1))
每個特征縮放到給定范圍(默認(rèn)[0,1])
- MinMaxScaler.fit_transform(x)
X: numpy array格式的數(shù)據(jù) [n_samples, n_features]
返回值:轉(zhuǎn)換后的形式相同的array
(2)標(biāo)準(zhǔn)化 用的比歸一化多
特點(diǎn):通過對原始數(shù)據(jù)進(jìn)行變換把數(shù)據(jù)變換為均值為0沉桌,標(biāo)準(zhǔn)差為1范圍內(nèi)。
和歸一化一樣算吩,公式作用于每一列
sklearn.preprocessing.StandardScaler()
- StandardScaler.fit_transform(x)
StandardScaler.mean_ 原始數(shù)據(jù)中每列特征的平均值
StandardScaler.std_ 原始數(shù)據(jù)每列特征的標(biāo)準(zhǔn)差
(3)缺失值 得是np.nan模式
sklearn.preprocessing.Imputer
Imputer(missing_values=’NaN’, strategy=‘mean’, axis=0)
0是列1是行
- Imputer.fit_transform(x)