歸一化、標(biāo)準(zhǔn)化和正則化及代碼實現(xiàn)

歸一化栗柒、標(biāo)準(zhǔn)化和正則化都是對數(shù)據(jù)進(jìn)行處理的礁扮,那么這三種有什么區(qū)別呢?

歸一化(normalization)

歸一化有兩個作用:

  • 把數(shù)據(jù)映射到(0傍衡,1)之間方便處理
  • 把有量綱表達(dá)式變換為無量綱表達(dá)式深员,成為純量。經(jīng)過歸一化處理的數(shù)據(jù)蛙埂,處于同一數(shù)量級倦畅,可以消除指標(biāo)之間的量綱和量綱單位的影響,提高不同數(shù)據(jù)指標(biāo)之間的可比性绣的。

歸一化的主要方法
1.線性轉(zhuǎn)換叠赐,即min-max歸一化:
y = \frac{x-min}{max-min}
2.對數(shù)函數(shù)轉(zhuǎn)換:
y=\log_{10}(x)
3.反余切函數(shù)轉(zhuǎn)換:
y=atan(x)*2/PI

可實現(xiàn)代碼

'''MinMaxScaler方法'''
from sklearn import preprocessing
scaler = preprocessing.MinMaxScaler(feature_range=(0,1), copy=True)
scaler.fit_transform(data)

分別對每一列做做最小最大化歸一化,特征范圍默認(rèn)為(0屡江,1)之間芭概,原理比較簡單,不再累述惩嘉,詳見官方文檔

標(biāo)準(zhǔn)化(Standardization)

數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放讓數(shù)據(jù)落入某一特定區(qū)間內(nèi)罢洲,使均值為0。公式為:(x-mean)/std
與歸一化相比,標(biāo)準(zhǔn)化更為常見惹苗,原因如下:

  • 標(biāo)準(zhǔn)化更好的保持了樣本間的距離殿较,當(dāng)樣本中存在異常點時,歸一化有可能將正常值擠到一起桩蓉,而標(biāo)準(zhǔn)化則不會淋纲,例如[1, 2, 10000],假設(shè)10000是異常值院究,那么歸一化之后就會變成[0, 0.0001, 1]洽瞬,正常值1和2就被擠到了一塊。如果不幸的是业汰,1和2不是同一標(biāo)簽伙窃,那么我們在用梯度下降做模型訓(xùn)練時,模型會花更長的時間收斂蔬胯,但標(biāo)準(zhǔn)化的結(jié)果是[-0.70721286,0.7070007,1.41421356]对供,不會將樣本“擠到”一起去;
  • 標(biāo)準(zhǔn)化更符合統(tǒng)計學(xué)假設(shè)氛濒。對于一個數(shù)值特征來說产场,很大可能它是服從正太分布的,而標(biāo)準(zhǔn)化是基于這個假設(shè)舞竿,將正態(tài)分布調(diào)整為標(biāo)準(zhǔn)正態(tài)分布京景。

主要方法
標(biāo)準(zhǔn)化最常用的方法是Z-Score方法,

'''StandardScaler方法'''
from sklearn import preprocessing
scaler = preprocessing.StandardScaler(copy=True, with_mean=True,with_std=True)
scaler.fit_transform(data)

計算公式為:
z=(x-u)/s
u為每列訓(xùn)練樣本均值骗奖,s為每列標(biāo)準(zhǔn)差确徙,詳見官方文檔

正則化(Regularization)

'''normalize方法'''
from sklearn import preprocessing
scaler = preprocessing.normalize(data,norm='l2',axis=1,return_norm=False)

norm='l1','l2'或'max',默認(rèn)為‘l2’
官方文檔

參考博客:
數(shù)據(jù)歸一化执桌、標(biāo)準(zhǔn)化和正則化
歸一化鄙皇,標(biāo)準(zhǔn)化,正則化的概念和區(qū)別
sklearn.preprocessing官方文檔

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末仰挣,一起剝皮案震驚了整個濱河市伴逸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌膘壶,老刑警劉巖错蝴,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異颓芭,居然都是意外死亡顷锰,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門亡问,熙熙樓的掌柜王于貴愁眉苦臉地迎上來官紫,“玉大人,你說我怎么就攤上這事∈溃” “怎么了悼吱?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長良狈。 經(jīng)常有香客問我,道長笨枯,這世上最難降的妖魔是什么薪丁? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮馅精,結(jié)果婚禮上严嗜,老公的妹妹穿的比我還像新娘。我一直安慰自己洲敢,他們只是感情好漫玄,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著压彭,像睡著了一般睦优。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上壮不,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天汗盘,我揣著相機(jī)與錄音,去河邊找鬼询一。 笑死隐孽,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的健蕊。 我是一名探鬼主播菱阵,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼缩功!你這毒婦竟也來了晴及?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤掂之,失蹤者是張志新(化名)和其女友劉穎抗俄,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體世舰,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡动雹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了跟压。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰蝠。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出茸塞,到底是詐尸還是另有隱情躲庄,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布钾虐,位于F島的核電站噪窘,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏效扫。R本人自食惡果不足惜倔监,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望菌仁。 院中可真熱鬧浩习,春花似錦、人聲如沸济丘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽摹迷。三九已至疟赊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間泪掀,已是汗流浹背听绳。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留异赫,地道東北人椅挣。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像塔拳,于是被迫代替她去往敵國和親鼠证。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容