歸一化和標準化的一些理解

很多的時候我發(fā)現(xiàn)很多人和我一樣我對機器學習的基本概念一知半解兑宇,比如我經(jīng)常會聽到歸一化及標準化碍侦,傻傻分不清楚。最近看了一篇文章清楚的闡述了歸一化和標準化的定義隶糕、適用場景瓷产、物理意義及使用意義。經(jīng)過原作者授權(quán)以后枚驻,我想進行轉(zhuǎn)發(fā)并加上我的一些理解濒旦,和更多的人一起學習進步。

在機器學習和數(shù)據(jù)挖掘中再登,經(jīng)常會聽到兩個名詞:歸一化(Normalization)與標準化(Standardization)尔邓。它們具體是什么晾剖?帶來什么益處?具體怎么用梯嗽?本文來具體討論這些問題齿尽。

一、是什么

1. 歸一化

常用的方法是通過對原始數(shù)據(jù)進行線性變換把數(shù)據(jù)映射到[0,1]之間灯节,變換函數(shù)為:


其中minmin是樣本中最小值循头,maxmax是樣本中最大值,注意在數(shù)據(jù)流場景下最大值與最小值是變化的炎疆。另外卡骂,最大值與最小值非常容易受異常點影響,所以這種方法魯棒性較差形入,只適合傳統(tǒng)精確小數(shù)據(jù)場景偿警。

2. 標準化

常用的方法是z-score標準化,經(jīng)過處理后的數(shù)據(jù)均值為0唯笙,標準差為1,處理方法是:


其中μμ是樣本的均值盒使,σσ是樣本的標準差崩掘,它們可以通過現(xiàn)有樣本進行估計。在已有樣本足夠多的情況下比較穩(wěn)定少办,適合現(xiàn)代嘈雜大數(shù)據(jù)場景苞慢。

二、帶來什么

歸一化的依據(jù)非常簡單英妓,不同變量往往量綱不同挽放,歸一化可以消除量綱對最終結(jié)果的影響,使不同變量具有可比性蔓纠。比如兩個人體重差10KG辑畦,身高差0.02M,在衡量兩個人的差別時體重的差距會把身高的差距完全掩蓋腿倚,歸一化之后就不會有這樣的問題纯出。

標準化的原理比較復(fù)雜,它表示的是原始值與均值之間差多少個標準差敷燎,是一個相對值暂筝,所以也有去除量綱的功效。同時硬贯,它還帶來兩個附加的好處:均值為0焕襟,標準差為1。

均值為0有什么好處呢饭豹?它可以使數(shù)據(jù)以0為中心左右分布(這不是廢話嘛)鸵赖,而數(shù)據(jù)以0為中心左右分布會帶來很多便利务漩。比如在去中心化的數(shù)據(jù)上做SVD分解等價于在原始數(shù)據(jù)上做PCA;機器學習中很多函數(shù)如Sigmoid卫漫、Tanh菲饼、Softmax等都以0為中心左右分布(不一定對稱)。

標準差為1有什么好處呢列赎?這個更復(fù)雜一些宏悦。對于xixi與xi′xi′兩點間距離,往往表示為


其中dj(xij,xi′j)dj(xij,xi′j)是屬性jj兩個點之間的距離包吝,wjwj是該屬性間距離在總距離中的權(quán)重饼煞,注意設(shè)wj=1,?jwj=1,?j并不能實現(xiàn)每個屬性對最后的結(jié)果貢獻度相同。對于給定的數(shù)據(jù)集诗越,所有點對間距離的平均值是個定值砖瞧,即


是個常數(shù),其中


可見第jj個變量對最終整體平均距離的影響是wj?ˉdjwj?dˉj嚷狞,所以設(shè)wj~1/ˉdjwj~1/dˉj可以使所有屬性對全數(shù)據(jù)集平均距離的貢獻相同】榇伲現(xiàn)在設(shè)djdj為歐式距離(或稱為二范數(shù))的平方,它是最常用的距離衡量方法之一床未,則有


其中varjvarj是Var(Xj)Var(Xj)的樣本估計竭翠,也就是說每個變量的重要程度正比于這個變量在這個數(shù)據(jù)集上的方差。如果我們讓每一維變量的標準差都為1(即方差都為1)薇搁,每維變量在計算距離的時候重要程度相同斋扰。

三、怎么用

在涉及到計算點與點之間的距離時啃洋,使用歸一化或標準化都會對最后的結(jié)果有所提升传货,甚至會有質(zhì)的區(qū)別。那在歸一化與標準化之間應(yīng)該如何選擇呢宏娄?根據(jù)上一節(jié)我們看到问裕,如果把所有維度的變量一視同仁,在最后計算距離中發(fā)揮相同的作用應(yīng)該選擇標準化孵坚,如果想保留原始數(shù)據(jù)中由標準差所反映的潛在權(quán)重關(guān)系應(yīng)該選擇歸一化僻澎。另外,標準化更適合現(xiàn)代嘈雜大數(shù)據(jù)場景十饥。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末窟勃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子逗堵,更是在濱河造成了極大的恐慌秉氧,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蜒秤,死亡現(xiàn)場離奇詭異汁咏,居然都是意外死亡亚斋,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門攘滩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來帅刊,“玉大人,你說我怎么就攤上這事漂问±德鳎” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵蚤假,是天一觀的道長栏饮。 經(jīng)常有香客問我,道長磷仰,這世上最難降的妖魔是什么袍嬉? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮灶平,結(jié)果婚禮上伺通,老公的妹妹穿的比我還像新娘。我一直安慰自己逢享,他們只是感情好泵殴,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拼苍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪调缨。 梳的紋絲不亂的頭發(fā)上疮鲫,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機與錄音弦叶,去河邊找鬼俊犯。 笑死,一個胖子當著我的面吹牛伤哺,可吹牛的內(nèi)容都是我干的燕侠。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼立莉,長吁一口氣:“原來是場噩夢啊……” “哼绢彤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蜓耻,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤茫舶,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后刹淌,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饶氏,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡讥耗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了疹启。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片古程。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖喊崖,靈堂內(nèi)的尸體忽然破棺而出挣磨,到底是詐尸還是另有隱情,我是刑警寧澤贷祈,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布趋急,位于F島的核電站,受9級特大地震影響势誊,放射性物質(zhì)發(fā)生泄漏呜达。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一粟耻、第九天 我趴在偏房一處隱蔽的房頂上張望查近。 院中可真熱鬧,春花似錦挤忙、人聲如沸霜威。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戈泼。三九已至,卻和暖如春赏僧,著一層夾襖步出監(jiān)牢的瞬間大猛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工淀零, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挽绩,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓驾中,卻偏偏與公主長得像唉堪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子肩民,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容