2022-01-11處理數(shù)值型數(shù)據(jù)

from sklearn import preprocessing?

縮放：preprocessing.MinMaxScaler(feature_range=(0, 1)) #在神經(jīng)網(wǎng)絡(luò)中則更推薦使用 min-max 縮放

-1到1：preprocessing.MaxAbsScaler()

標(biāo)準(zhǔn)化：preprocessing.StandardScaler() #在主成分分析中標(biāo)準(zhǔn)化方法更有用

中值：preprocessing.RobustScaler()? #有極端異常值時(shí)拓萌，使用中位數(shù)、四分位數(shù)縮放

歸一化：preprocessing.Normalizer() #norm='l2'??對觀察值每一個(gè)特征進(jìn)行縮放升略，使其擁有一致的范數(shù)（總長度是 1）主要應(yīng)用于文本分類和聚類中

生成多項(xiàng)式特征和交叉項(xiàng)

1.當(dāng)特征和目標(biāo)值（預(yù)測值）之間存在非線性關(guān)系時(shí)微王，就需要?jiǎng)?chuàng)建多項(xiàng)式特征屡限。

2.這兩個(gè)特征對目標(biāo)值的作用是相互依賴的。生成一個(gè)交互特征（將兩個(gè)特征相乘）

polynomial_interaction = preprocessing.PolynomialFeatures(degree=2, include_bias=False) #階數(shù)炕倘，是否包含偏差

#interaction_only 為 True囚霸，可以強(qiáng)制創(chuàng)建出來的特征只包含交互特征

特征轉(zhuǎn)換? 等價(jià)于apply（）

def add_ten(x):

? ? return x + 10

ten_transformer =preprocessing.FunctionTransformer(add_ten)

ten_transformer.transform(features)

異常值處理

識(shí)別：

法一：按比例識(shí)別

from sklearn.covariance import EllipticEnvelope?

outlier_detector = EllipticEnvelope(contamination=.1) #contamination異常值比例

outlier_detector.fit(features)

outlier_detector.predict(features)

法二：按中位數(shù)識(shí)別

IQR 是數(shù)據(jù)集的第 1 個(gè)四分位數(shù)和第 3 個(gè)四分位數(shù)之差

異常值常常被定義為比第 1 個(gè)四分位數(shù)小 1.5 IQR（即 IQR 的 1.5 倍）的值，或比第 3 個(gè)四分位數(shù)大 1.5 IQR的值激才。

# 創(chuàng)建一個(gè)函數(shù)來返回異常值的下標(biāo)

def indicies_of_outliers(x):

? ? q1, q3 = np.percentile(x, [25, 75])

? ? iqr = q3 - q1

? ? lower_bound = q1 - (iqr * 1.5)

? ? upper_bound = q3 + (iqr * 1.5)

? ? return np.where((x > upper_bound) | (x < lower_bound))

處理

1.刪除

2.標(biāo)記

houses["Outlier"] = np.where(houses["Bathrooms"] < 20, 0, 1)

3.轉(zhuǎn)換

houses["Log_Of_Square_Feet"] = [np.log(x) for x in houses["Square_Feet"]]

數(shù)據(jù)離散化

二元離散

binarizer = preprocessing.Binarizer(18)

binarizer.fit_transform(age)

多元離散

np.digitize(age, bins=[20,30,64]) #每個(gè)區(qū)間的左邊界（左閉右開）

聚類

from sklearn.cluster import KMeans #聚類

clusterer = KMeans(3, random_state=0)

缺失值處理

刪除

features[~np.isnan(features).any(axis=1)] #刪除帶有缺失值的觀察值

dataframe.dropna()

填充缺失值（平均、中值额嘿、眾數(shù)等）

from sklearn.preprocessing import Imputer

mean_imputer = Imputer(strategy="mean", axis=0)

features_mean_imputed = mean_imputer.fit_transform(features)

預(yù)測缺失值

features_knn_imputed = KNN(k=5, verbose=0).complete(standardized_features)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末瘸恼，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子册养，更是在濱河造成了極大的恐慌东帅，老刑警劉巖，帶你破解...
沈念sama閱讀 217,084評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件球拦，死亡現(xiàn)場離奇詭異靠闭，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)坎炼，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,623評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門愧膀，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人谣光，你說我怎么就攤上這事檩淋。” “怎么了萄金？”我有些...
開封第一講書人閱讀 163,450評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵蟀悦，是天一觀的道長。經(jīng)常有香客問我氧敢，道長日戈，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,322評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任孙乖，我火速辦了婚禮浙炼，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘唯袄。我一直安慰自己鼓拧，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,370評(píng)論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布越妈。她就那樣靜靜地躺著季俩，像睡著了一般。火紅的嫁衣襯著肌膚如雪梅掠。梳的紋絲不亂的頭發(fā)上酌住，一...
開封第一講書人閱讀 51,274評(píng)論 1贊 300
城市分裂傳說
那天店归，我揣著相機(jī)與錄音，去河邊找鬼酪我。笑死消痛，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的都哭。我是一名探鬼主播秩伞，決...
沈念sama閱讀 40,126評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼欺矫！你這毒婦竟也來了纱新？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,980評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤穆趴，失蹤者是張志新（化名）和其女友劉穎脸爱，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體未妹，經(jīng)...
沈念sama閱讀 45,414評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡簿废，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,599評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了络它。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片族檬。...
茶點(diǎn)故事閱讀 39,773評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖化戳，靈堂內(nèi)的尸體忽然破棺而出导梆，到底是詐尸還是另有隱情，我是刑警寧澤迂烁，帶...
沈念sama閱讀 35,470評(píng)論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布看尼，位于F島的核電站，受9級(jí)特大地震影響盟步，放射性物質(zhì)發(fā)生泄漏藏斩。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,080評(píng)論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一却盘、第九天我趴在偏房一處隱蔽的房頂上張望狰域。院中可真熱鬧，春花似錦黄橘、人聲如沸兆览。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,713評(píng)論 0贊 22
一樁弒父案塞关，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽抬探。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間小压，已是汗流浹背线梗。一陣腳步聲響...
開封第一講書人閱讀 32,852評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留怠益，地道東北人仪搔。一個(gè)月前我還...
沈念sama閱讀 47,865評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長得像蜻牢，于是被迫代替她去往敵國和親烤咧。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,689評(píng)論 2贊 354

2022-01-11處理數(shù)值型數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容