數(shù)據(jù)預(yù)處理方法

數(shù)據(jù)預(yù)處理在眾多深度學(xué)習(xí)算法中都起著重要作用,實際上降狠,對數(shù)據(jù)進(jìn)行適當(dāng)處理后对竣,很多算法能夠發(fā)揮最佳效果。然而面對各種各樣的數(shù)據(jù)榜配,很多時候我們不知道怎么樣才能針對性進(jìn)行處理否纬。本文介紹了Python下的機(jī)器學(xué)習(xí)工具scikit-learn。其中蛋褥,“sklearn.preprocessing”模塊提供了幾種常見的函數(shù)和轉(zhuǎn)換類临燃,把原始的特征向量變得更適合估計器使用。

一、標(biāo)準(zhǔn)化膜廊,即減去平均值再用方差調(diào)整

在scikit-learn中乏沸,數(shù)據(jù)的標(biāo)準(zhǔn)化是很多機(jī)器學(xué)習(xí)估計器的常見要求;如果單個特征看起來不符合標(biāo)準(zhǔn)正態(tài)分布(平均值為0爪瓜,方差為1)的話蹬跃,數(shù)據(jù)之后可能會有很差的表現(xiàn)。

實際上我們通常忽略分布的具體形態(tài)铆铆,數(shù)據(jù)轉(zhuǎn)換僅指: 減去每個特征的平均值炬转,再除以他們的標(biāo)準(zhǔn)差。

例如算灸,學(xué)習(xí)算法中目標(biāo)函數(shù)的很多成分都假設(shè),所有的特征都是圍繞著0的驻啤,并且擁有相同算數(shù)級別的方差(比如SVM中的RBF核菲驴,以及線性模型中的l1,l2正則化)。如果一個特征的方差級別高于其他的特征骑冗,它會在目標(biāo)函數(shù)中占據(jù)主導(dǎo)地位赊瞬,并使得估計器不能按照預(yù)期很好地從其他特征中學(xué)習(xí)。

scale函數(shù)就提供了一個快速且簡便的方法贼涩,對一個數(shù)組型數(shù)據(jù)執(zhí)行這個操作:

調(diào)整后的數(shù)據(jù)平均值為0巧涧,方差為1:

preprocessing模塊還提供了一個類"StandardScaler",它能計算訓(xùn)練集的平均值和標(biāo)準(zhǔn)差遥倦,以便之后對測試集進(jìn)行相同的轉(zhuǎn)換谤绳。因此,這個類適合用于sklearn.pipeline.Pipeline的前幾個步驟:

這個scaler之后能對新的數(shù)據(jù)進(jìn)行袒哥,跟先前對訓(xùn)練集一樣的操作:


此外缩筛,也可以通過在創(chuàng)建StandardScaler時增加with_mean=False或者with_std=False語句,來阻止集中化或縮放比例堡称。

1瞎抛、把特征縮放到一個范圍內(nèi)

另一個標(biāo)準(zhǔn)化的操作,是把特征縮放到一個最小值與最大值之間(通常是0到1)却紧,或者是把每個特征的最大絕對值變到1桐臊。這分別可以通過MinMaxScaler或者M(jìn)axAbsScaler實現(xiàn)。

使用這種轉(zhuǎn)換方式是為了增加強(qiáng)健性晓殊,來解決特征的標(biāo)準(zhǔn)差非常小的問題断凶,以及在稀疏數(shù)據(jù)中保留0元素。

以下是一個把數(shù)據(jù)矩陣縮放到[0,1]范圍內(nèi)的一個例子:

相同的轉(zhuǎn)換器可以用到新的測試集上:相同的縮放巫俺、平移操作會與之前對訓(xùn)練數(shù)據(jù)的操作保持一致:

我們也可以找出從訓(xùn)練數(shù)據(jù)中學(xué)到的轉(zhuǎn)換的具體特性:

如果MinMaxScaler被給予一個明確的feature_range=(min,max)懒浮,完整的公式是:

MaxAbsScaler的功能很類似,但是它把訓(xùn)練數(shù)據(jù)縮放到了[-1,1]范圍內(nèi)。這對已經(jīng)圍繞著0的數(shù)據(jù)或者稀疏數(shù)據(jù)來說是很有意義的砚著。

這里用了這個scaler把之前例子的數(shù)據(jù)進(jìn)行了轉(zhuǎn)換:

與scale一樣次伶,這個模塊也提供了比較簡便的函數(shù)minmax_scale以及maxabs_scale,如果你不想創(chuàng)建一個對象稽穆。

2冠王、轉(zhuǎn)換稀疏數(shù)據(jù)

把稀疏數(shù)據(jù)集中化會破壞數(shù)據(jù)中的稀疏性結(jié)構(gòu),因此不是一個理想的做法舌镶。但是柱彻,對稀疏的輸入轉(zhuǎn)換測度是有道理的,特別是當(dāng)特征具有不同的測度的時候餐胀。

MaxAbsScaler以及maxabs_scale是特別為轉(zhuǎn)換稀疏數(shù)據(jù)設(shè)計的哟楷,并且我們建議使用他們。然而否灾,scale和StandardScaler可以接受scipy.sparse矩陣作為輸入卖擅,只要在創(chuàng)建時說明with_mean=False。否則會產(chǎn)生ValueError墨技,因為默認(rèn)的集中化會破壞稀疏性惩阶,并且會分配過多的內(nèi)存從而導(dǎo)致運行崩潰。RobustScaler不能用于稀疏輸入扣汪,但你可以對稀疏輸入使用transform方法断楷。

注意,scalers同時接受Compressed Sparse Rows以及Compressed Sparse Columns形式崭别。其他類型的稀疏輸入會被轉(zhuǎn)換為Compressed Sparse Rows的形式冬筒。為了避免不必要的內(nèi)存復(fù)制,建議選擇CSR或者CSC的表達(dá)形式茅主。

最后账千,如果集中化后的數(shù)據(jù)預(yù)期非常小,使用toarray方法把稀疏輸入轉(zhuǎn)換為數(shù)組是另一個選擇暗膜。

3匀奏、轉(zhuǎn)換具有異常值的數(shù)據(jù)

如果你的數(shù)據(jù)有很多異常值,使用平均值和方差來進(jìn)行轉(zhuǎn)換可能表現(xiàn)不會很好学搜。在這些情況下娃善,你可以使用robust_scale以及RobustScaler。他們對數(shù)據(jù)的中心和范圍采用更健壯的估計瑞佩。

參考資料:關(guān)于集中化和縮放比例重要性更多的討論:Should I normalize/standardize/resclae the data?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末聚磺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子炬丸,更是在濱河造成了極大的恐慌瘫寝,老刑警劉巖蜒蕾,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異焕阿,居然都是意外死亡咪啡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進(jìn)店門暮屡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來撤摸,“玉大人,你說我怎么就攤上這事褒纲∽家模” “怎么了?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵莺掠,是天一觀的道長衫嵌。 經(jīng)常有香客問我,道長彻秆,這世上最難降的妖魔是什么楔绞? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮掖棉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘膀估。我一直安慰自己幔亥,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布察纯。 她就那樣靜靜地躺著帕棉,像睡著了一般。 火紅的嫁衣襯著肌膚如雪饼记。 梳的紋絲不亂的頭發(fā)上香伴,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天,我揣著相機(jī)與錄音具则,去河邊找鬼即纲。 笑死,一個胖子當(dāng)著我的面吹牛博肋,可吹牛的內(nèi)容都是我干的低斋。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼匪凡,長吁一口氣:“原來是場噩夢啊……” “哼膊畴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起病游,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤唇跨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體买猖,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡改橘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了政勃。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片唧龄。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖奸远,靈堂內(nèi)的尸體忽然破棺而出既棺,到底是詐尸還是另有隱情,我是刑警寧澤懒叛,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布丸冕,位于F島的核電站,受9級特大地震影響薛窥,放射性物質(zhì)發(fā)生泄漏胖烛。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一诅迷、第九天 我趴在偏房一處隱蔽的房頂上張望佩番。 院中可真熱鬧,春花似錦罢杉、人聲如沸趟畏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽赋秀。三九已至,卻和暖如春律想,著一層夾襖步出監(jiān)牢的瞬間猎莲,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工技即, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留著洼,地道東北人。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓而叼,卻偏偏與公主長得像郭脂,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子澈歉,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內(nèi)容