scikit_learn學習筆記八——scikit_learn標準化/歸一化操作

數(shù)據(jù)標準化(Standardization)與 歸一化(Normalization)

在機器學習領(lǐng)域中,不同評價指標(即特征向量中的不同特征就是所述的不同評價指標)往往具有不同的量綱和量綱單位何荚,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果煤率,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理蜕依,以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后琉雳,各指標處于同一數(shù)量級样眠,適合進行綜合對比評價。

一般涉及到梯度下降和距離的計算需要進行標準化或正則化翠肘。

  • 數(shù)據(jù)的標準化(Standardization)是將數(shù)據(jù)按比例縮放檐束,使之落入一個小的特定區(qū)間。因而標準化的數(shù)據(jù)可正可負束倍。

  • 歸一化(Normalization)其實就是標準化的一種方式被丧,只不過歸一化是將數(shù)據(jù)映射到了[0,1]這個區(qū)間中。

歸一化的目的就是使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍內(nèi)(比如[0,1]或者[-1,1])绪妹,從而消除奇異樣本數(shù)據(jù)導(dǎo)致的不良影響甥桂。

線性歸一化(min-max normalization)

{x}' = \frac{x-min(x)} {max(x) - min(x)}

從公式中可看出,這種歸一化適合數(shù)值比較集中的情況邮旷,缺陷就是如果max和min不穩(wěn)定黄选,很容易使得歸一化結(jié)果不穩(wěn)定,使得后續(xù)的效果不穩(wěn)定婶肩。

# 使用scikit-learn函數(shù)
min_max_scaler = preprocessing.MinMaxScaler()
feature_scaled = min_max_scaler.fit_transform(feature)
# 使用numpy自定義函數(shù)
def min_max_norm(x):
    x = np.array(x)
    x_norm = (x-np.min(x))/(np.max(x)-np.min(x))
    return x_norm

標準差標準化 Z-Score Standardization

{x}' = \frac{x- \mu }{\delta } , μ為總體平均值办陷,X-μ為離均差,σ表示總體標準偏差

Z-Score即零-均值標準化律歼, 即先求出全部數(shù)據(jù)的均值和方差民镜,再進行計算。數(shù)據(jù)符合標準正態(tài)分布苗膝,均值為0殃恒,標準差為1。

sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)
"""
參數(shù)解釋:
X:數(shù)組或者矩陣
axis:int類型辱揭,初始值為0离唐,axis用來計算均值 means 和標準方差 standard deviations. 如果是0,則單獨的標準化每個特征(列)问窃,如果是1亥鬓,則標準化每個觀測樣本(行)。
with_mean: boolean類型域庇,默認為True嵌戈,表示將數(shù)據(jù)均值規(guī)范到0
with_std: boolean類型覆积,默認為True,表示將數(shù)據(jù)方差規(guī)范到1
"""
StandardScaler.png
# 使用scikit-learn函數(shù)
standar_scaler = preprocessing.StandardScaler()
feature_scaled = standar_scaler.fit_transform(feature)
# 使用numpy自定義函數(shù)
def min_max_norm(x):
    x = np.array(x)
    x_norm = (x-np.mean(x))/np.std(x)
    return x_norm

非線性歸一化

在數(shù)據(jù)分化較大的場景熟呛,有些數(shù)值大宽档,有些很小。通過一些數(shù)學函數(shù)庵朝,將原始值進行映射吗冤。該方法包括log、指數(shù)九府、反正切等椎瘟。需要根據(jù)數(shù)據(jù)分布的情況,決定非線性函數(shù)的曲線侄旬。

log函數(shù):x = lg(x)/lg(max)

反正切函數(shù):x = atan(x)*2/pi

歸一化處理的好處

  1. 加快梯度下降的求解速度肺蔚,即提升模型的收斂速度


    image.png

    如上圖所示,兩個特征區(qū)間相差非常大時儡羔,如左圖中的x1[0-2000]和x2[1-5]宣羊,形成的等高線偏橢圓,迭代時很有可能走“之字型”路線(垂直長軸)笔链,從而導(dǎo)致需要迭代很多次才能收斂段只。
    而右圖對兩個特征進行了歸一化,對應(yīng)的等高線就會變圓鉴扫,在梯度下降進行求解時能較快的收斂。

  2. 有可能提高模型的精度
    一些分類器需要計算樣本之間的距離澈缺,如果一個特征的值域范圍非常大坪创,那么距離計算就會主要取決于這個特征,有時就會偏離實際情況姐赡。

正則化(Regularization)

用一組與原不適定問題相“鄰近”的適定問題的解莱预,去逼近原問題的解,這種方法稱為正則化方法项滑。

正則化的過程是將每個樣本縮放到單位范數(shù)(每個樣本的范數(shù)為1)依沮,如果后面要使用如二次型(點積)或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

image.png

【總結(jié)】
歸一化是為了消除不同數(shù)據(jù)之間的量綱枪狂,方便數(shù)據(jù)比較和共同處理危喉,比如在神經(jīng)網(wǎng)絡(luò)中,歸一化可以加快訓(xùn)練網(wǎng)絡(luò)的收斂性州疾;標準化是為了方便數(shù)據(jù)的下一步處理辜限,而進行的數(shù)據(jù)縮放等變換,并不是為了方便與其他數(shù)據(jù)一同處理或比較严蓖,比如數(shù)據(jù)經(jīng)過零-均值標準化后薄嫡,更利于使用標準正態(tài)分布的性質(zhì)氧急,進行處理;正則化而是利用先驗知識毫深,在處理過程中引入正則化因子(regulator)吩坝,增加引導(dǎo)約束的作用,比如在邏輯回歸中使用正則化哑蔫,可有效降低過擬合的現(xiàn)象钉寝。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鸳址,隨后出現(xiàn)的幾起案子瘩蚪,更是在濱河造成了極大的恐慌,老刑警劉巖稿黍,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件疹瘦,死亡現(xiàn)場離奇詭異,居然都是意外死亡巡球,警方通過查閱死者的電腦和手機言沐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來酣栈,“玉大人险胰,你說我怎么就攤上這事】篌荩” “怎么了起便?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長窖维。 經(jīng)常有香客問我榆综,道長,這世上最難降的妖魔是什么铸史? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任鼻疮,我火速辦了婚禮,結(jié)果婚禮上琳轿,老公的妹妹穿的比我還像新娘判沟。我一直安慰自己,他們只是感情好崭篡,可當我...
    茶點故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布挪哄。 她就那樣靜靜地躺著,像睡著了一般媚送。 火紅的嫁衣襯著肌膚如雪中燥。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天塘偎,我揣著相機與錄音疗涉,去河邊找鬼拿霉。 笑死,一個胖子當著我的面吹牛咱扣,可吹牛的內(nèi)容都是我干的绽淘。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼闹伪,長吁一口氣:“原來是場噩夢啊……” “哼沪铭!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起偏瓤,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤杀怠,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后厅克,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赔退,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年证舟,在試婚紗的時候發(fā)現(xiàn)自己被綠了硕旗。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,731評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡女责,死狀恐怖漆枚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抵知,我是刑警寧澤墙基,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站刷喜,受9級特大地震影響碘橘,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吱肌,卻給世界環(huán)境...
    茶點故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望仰禽。 院中可真熱鬧氮墨,春花似錦、人聲如沸吐葵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽温峭。三九已至猛铅,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間凤藏,已是汗流浹背奸忽。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工堕伪, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人栗菜。 一個月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓欠雌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親疙筹。 傳聞我的和親對象是個殘疾皇子富俄,可洞房花燭夜當晚...
    茶點故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容