sklearn中的數(shù)據(jù)預(yù)處理

在sklearn中有這么幾個(gè)常用的預(yù)處理方法帖汞。另外為了將數(shù)據(jù)預(yù)處理的各個(gè)階段連接起來還可以使用pipeline涨冀。

功能 說明
StandardScaler 無量綱化 標(biāo)準(zhǔn)化鹿鳖,基于特征矩陣的列壮莹,將特征值轉(zhuǎn)換至服從標(biāo)準(zhǔn)正態(tài)分布
MinMaxScaler 無量綱化 區(qū)間縮放命满,基于最大最小值,將特征值轉(zhuǎn)換到[0, 1]區(qū)間上
Normalizer 歸一化 基于特征矩陣的行杂抽,將樣本向量轉(zhuǎn)換為“單位向量”
Binarizer 二值化 基于給定閾值缩麸,將定量特征按閾值劃分
OneHotEncoder 啞編碼 將定性數(shù)據(jù)編碼為定量數(shù)據(jù)
Imputer 缺失值計(jì)算 計(jì)算缺失值赡矢,缺失值可填充為均值等
PolynomialFeatures 多項(xiàng)式數(shù)據(jù)轉(zhuǎn)換 多項(xiàng)式數(shù)據(jù)轉(zhuǎn)換
FunctionTransformer 自定義單元數(shù)據(jù)轉(zhuǎn)換 使用單變?cè)暮瘮?shù)來轉(zhuǎn)換數(shù)據(jù)函數(shù)來轉(zhuǎn)換數(shù)據(jù)

具體代碼實(shí)現(xiàn)

首先準(zhǔn)備數(shù)據(jù)

from sklearn.datasets import load_iris
iris = load_iris()
train_data = iris.data 
target_data = iris.target

然后是sklearn的具體實(shí)現(xiàn)

"""
        缺失值計(jì)算
"""
#缺失值計(jì)算杭朱,返回值為計(jì)算缺失值后的數(shù)據(jù)
#參數(shù)missing_value為缺失值的表示形式,默認(rèn)為NaN
#參數(shù)strategy為缺失值填充方式吹散,默認(rèn)為mean(均值)
from sklearn.preprocessing import Imputer
Imputer().fit_transform(train_data)


"""
        無量綱化
"""
#1.標(biāo)準(zhǔn)化
#根據(jù)【均值】和【標(biāo)準(zhǔn)差】調(diào)整
from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(train_data)


#2.區(qū)間縮放
#利用最大最小值縮放
#區(qū)間縮放弧械,返回值為縮放到[0, 1]區(qū)間的數(shù)據(jù)
from sklearn.preprocessing import MinMaxScaler
MinMaxScaler().fit_transform(train_data)

#3.正則化
#正則化和標(biāo)準(zhǔn)化的區(qū)別是正則化是根據(jù)【特征均值】和【特征值標(biāo)準(zhǔn)差】調(diào)整
from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(train_data)


"""
        對(duì)定量特征二值化
"""
#主要是閾值設(shè)定 threshold=n
#閾值設(shè)置為3,返回值為二值化后的數(shù)據(jù)
from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform(train_data)

"""
        對(duì)定性特征啞編碼
        TODO iris數(shù)據(jù)都是定量的空民,沒必要做
"""
#啞編碼刃唐,對(duì)IRIS數(shù)據(jù)集的目標(biāo)值,返回值為啞編碼后的數(shù)據(jù)
from sklearn.preprocessing import OneHotEncoder
OneHotEncoder().fit_transform(target_data.reshape((1,-1)))

"""
        數(shù)據(jù)變換
"""
#1.多項(xiàng)式轉(zhuǎn)換
#參數(shù)degree為度界轩,默認(rèn)值為2
from sklearn.preprocessing import PolynomialFeatures
PolynomialFeatures().fit_transform(train_data)

#2.自定義轉(zhuǎn)換函數(shù)
#第一個(gè)參數(shù)是單變?cè)瘮?shù)
#本例為對(duì)數(shù)函數(shù)的數(shù)據(jù)變換
from numpy import log1p
from sklearn.preprocessing import FunctionTransformer
FunctionTransformer(log1p).fit_transform(train_data)

注:
基于樹的方法是不需要進(jìn)行特征的歸一化画饥,例如隨機(jī)森林,bagging 和 boosting等耸棒。
基于參數(shù)的模型或基于距離的模型荒澡,都是要進(jìn)行特征的歸一化。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子悴晰,更是在濱河造成了極大的恐慌,老刑警劉巖棕硫,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡靶庙,警方通過查閱死者的電腦和手機(jī)膳犹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人篓跛,你說我怎么就攤上這事°逅拢” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵厨诸,是天一觀的道長(zhǎng)泳猬。 經(jīng)常有香客問我埋心,道長(zhǎng)疫粥,這世上最難降的妖魔是什么梗逮? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任底哗,我火速辦了婚禮涕癣,結(jié)果婚禮上候生,老公的妹妹穿的比我還像新娘须蜗。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著嫂粟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上卸亮,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼颜及。 笑死肄扎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播痰娱,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼而姐,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼政鼠!你這毒婦竟也來了官帘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卒稳,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年也榄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了囚霸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情碳柱,我是刑警寧澤瑞侮,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布藐鹤,位于F島的核電站祭示,受9級(jí)特大地震影響怒炸,放射性物質(zhì)發(fā)生泄漏教寂。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拓颓,春花似錦场航、人聲如沸孩饼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽牲迫。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背谓传。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工直颅, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盆佣,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓佃蚜,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親熟尉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容