數(shù)據(jù)特征預處理枝嘶,數(shù)據(jù)降維
處理方法:? ? ?1哈恰,數(shù)值型數(shù)據(jù)? ? ?:? ?標準縮放? ? ? (1)歸一化
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)標準化
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)缺失值?
? ? ? ? ? ? ? ? ? ? ? ?2, 類別型數(shù)據(jù)? ? :? ? one-hot 編碼
? ? ? ? ? ? ? ? ? ? ? ?3电谣,時間類型? ? ? ? ?:? ? 時間的切分
下面是歸一化浑彰,標準化恭理,缺失值,(這是小編的筆記)
歸一化:通過對原始數(shù)據(jù)進行轉(zhuǎn)換闸昨,把數(shù)據(jù)映射到蚯斯,0,1之間饵较。(其實就是把復雜的數(shù)據(jù)通過公式算法變成簡單的0~1之間拍嵌。)
標準化:通過對原始數(shù)據(jù)進行轉(zhuǎn)換,把數(shù)據(jù)轉(zhuǎn)換成均值為0循诉,方差為1的范圍横辆。(方差考量數(shù)據(jù)的穩(wěn)定數(shù)據(jù)的穩(wěn)定性,如果方差為零茄猫,表示數(shù)據(jù)的值是一樣的)
#導入包
from sklearn.preprocessingimport StandardScaler
import numpyas np
from sklearn.imputeimport SimpleImputer
def sdandar():
"""
? ? 標準化處理
? ? :return: None
"""
? ? #實例化
? ? bzh = StandardScaler()
data = bzh.fit_transform([[1,-1,3],[2,4,2],[4,6,-1]])
print(data)
return None
def inputer():
"""
? ? 標準化處理
? ? :return: None
"""
? ? #實例化
? ? qsz = SimpleImputer(strategy='mean')
data = qsz.fit_transform([[1,-1,3],[np.nan,4,2],[4,6,-1]])
print(data)
return None
if __name__ =="__main__":
inputer()
數(shù)據(jù)的降維:(改變特征的數(shù)量)
特征選擇的原因:冗余——部分特征的相關度高狈蚤,容易消耗計算機性能
? ? ? ? ? ? ? ? ? ? ? ? ? ? ?噪聲——部分特征對與預測結果有影響
特征選擇的主要方法:Filter過濾式,Embedded嵌入式划纽,Wrapper包裹式
PCA:本質(zhì)——PCA是一種分析脆侮,簡化數(shù)據(jù)集的技術
? ? ? ? ? ?目的——是數(shù)據(jù)維數(shù)壓縮,盡可能降低數(shù)據(jù)的維數(shù)勇劣,這樣會損失少量的信息
? ? ? ? ? ?作用——可以削減回歸分析或聚類分析中的特征數(shù)量
簡而言之:小編的理解是靖避,數(shù)據(jù)特征預處理和降維的核心是提煉數(shù)據(jù)潭枣,去除水分,提高計算機性能的利用幻捏。