2022-01-11處理數(shù)值型數(shù)據(jù)

from sklearn import preprocessing?

縮放:preprocessing.MinMaxScaler(feature_range=(0, 1)) #在神經(jīng)網(wǎng)絡(luò)中則更推薦使用 min-max 縮放

-1到1:preprocessing.MaxAbsScaler()

標(biāo)準(zhǔn)化:preprocessing.StandardScaler() #在主成分分析中標(biāo)準(zhǔn)化方法更有用

中值:preprocessing.RobustScaler()? #有極端異常值時(shí)拓萌,使用中位數(shù)、四分位數(shù)縮放

歸一化:preprocessing.Normalizer() #norm='l2'??對觀察值每一個(gè)特征進(jìn)行縮放升略,使其擁有一致的范數(shù)(總長度是 1)主要應(yīng)用于文本分類和聚類中


生成多項(xiàng)式特征和交叉項(xiàng)

1.當(dāng)特征和目標(biāo)值(預(yù)測值)之間存在非線性關(guān)系時(shí)微王,就需要?jiǎng)?chuàng)建多項(xiàng)式特征屡限。

2.這兩個(gè)特征對目標(biāo)值的作用是相互依賴的。生成一個(gè)交互特征(將兩個(gè)特征相乘)

polynomial_interaction = preprocessing.PolynomialFeatures(degree=2, include_bias=False) #階數(shù)炕倘,是否包含偏差

#interaction_only 為 True囚霸,可以強(qiáng)制創(chuàng)建出來的特征只包含交互特征


特征轉(zhuǎn)換? 等價(jià)于apply()

def add_ten(x):

? ? return x + 10

ten_transformer =preprocessing.FunctionTransformer(add_ten)

ten_transformer.transform(features)


異常值處理

識(shí)別:

法一:按比例識(shí)別

from sklearn.covariance import EllipticEnvelope?

outlier_detector = EllipticEnvelope(contamination=.1) #contamination異常值比例

outlier_detector.fit(features)

outlier_detector.predict(features)

法二:按中位數(shù)識(shí)別

IQR 是數(shù)據(jù)集的第 1 個(gè)四分位數(shù)和第 3 個(gè)四分位數(shù)之差

異常值常常被定義為比第 1 個(gè)四分位數(shù)小 1.5 IQR(即 IQR 的 1.5 倍)的值,或比第 3 個(gè)四分位數(shù)大 1.5 IQR的值激才。

# 創(chuàng)建一個(gè)函數(shù)來返回異常值的下標(biāo)

def indicies_of_outliers(x):

? ? q1, q3 = np.percentile(x, [25, 75])

? ? iqr = q3 - q1

? ? lower_bound = q1 - (iqr * 1.5)

? ? upper_bound = q3 + (iqr * 1.5)

? ? return np.where((x > upper_bound) | (x < lower_bound))

處理

1.刪除

2.標(biāo)記

houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

3.轉(zhuǎn)換

houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]


數(shù)據(jù)離散化

二元離散

binarizer = preprocessing.Binarizer(18)

binarizer.fit_transform(age)

多元離散

np.digitize(age, bins=[20,30,64]) #每個(gè)區(qū)間的左邊界(左閉右開)


聚類

from sklearn.cluster import KMeans #聚類

clusterer = KMeans(3, random_state=0)


缺失值處理

刪除

features[~np.isnan(features).any(axis=1)] #刪除帶有缺失值的觀察值

dataframe.dropna()

填充缺失值(平均、中值额嘿、眾數(shù)等)

from sklearn.preprocessing import Imputer

mean_imputer = Imputer(strategy="mean", axis=0)

features_mean_imputed = mean_imputer.fit_transform(features)

預(yù)測缺失值

features_knn_imputed = KNN(k=5, verbose=0).complete(standardized_features)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瘸恼,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子册养,更是在濱河造成了極大的恐慌东帅,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,084評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件球拦,死亡現(xiàn)場離奇詭異靠闭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)坎炼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,623評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門愧膀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人谣光,你說我怎么就攤上這事檩淋。” “怎么了萄金?”我有些...
    開封第一講書人閱讀 163,450評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵蟀悦,是天一觀的道長。 經(jīng)常有香客問我氧敢,道長日戈,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,322評(píng)論 1 293
  • 正文 為了忘掉前任孙乖,我火速辦了婚禮浙炼,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘唯袄。我一直安慰自己鼓拧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,370評(píng)論 6 390
  • 文/花漫 我一把揭開白布越妈。 她就那樣靜靜地躺著季俩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪梅掠。 梳的紋絲不亂的頭發(fā)上酌住,一...
    開封第一講書人閱讀 51,274評(píng)論 1 300
  • 那天店归,我揣著相機(jī)與錄音,去河邊找鬼酪我。 笑死消痛,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的都哭。 我是一名探鬼主播秩伞,決...
    沈念sama閱讀 40,126評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼欺矫!你這毒婦竟也來了纱新?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,980評(píng)論 0 275
  • 序言:老撾萬榮一對情侶失蹤穆趴,失蹤者是張志新(化名)和其女友劉穎脸爱,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體未妹,經(jīng)...
    沈念sama閱讀 45,414評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡簿废,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,599評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了络它。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片族檬。...
    茶點(diǎn)故事閱讀 39,773評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖化戳,靈堂內(nèi)的尸體忽然破棺而出导梆,到底是詐尸還是另有隱情,我是刑警寧澤迂烁,帶...
    沈念sama閱讀 35,470評(píng)論 5 344
  • 正文 年R本政府宣布看尼,位于F島的核電站,受9級(jí)特大地震影響盟步,放射性物質(zhì)發(fā)生泄漏藏斩。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,080評(píng)論 3 327
  • 文/蒙蒙 一却盘、第九天 我趴在偏房一處隱蔽的房頂上張望狰域。 院中可真熱鬧,春花似錦黄橘、人聲如沸兆览。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,713評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽抬探。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間小压,已是汗流浹背线梗。 一陣腳步聲響...
    開封第一講書人閱讀 32,852評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留怠益,地道東北人仪搔。 一個(gè)月前我還...
    沈念sama閱讀 47,865評(píng)論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像蜻牢,于是被迫代替她去往敵國和親烤咧。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,689評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容