不要把歸一化和標(biāo)準(zhǔn)化混為一談

長期以來一直沒有清楚的弄明白標(biāo)準(zhǔn)化和歸一化的問題,都當(dāng)作同一件事情對待辛藻。知道是數(shù)據(jù)特征在進(jìn)行模型運算之前去量綱碘橘、轉(zhuǎn)換到小區(qū)間的一種Feature scaling(特征縮放)方法。

本文將更進(jìn)一步了解歸一化吱肌、標(biāo)準(zhǔn)化痘拆,解答以下問題:

  • 標(biāo)準(zhǔn)化和歸一化的差異
  • 為什么要歸一化/標(biāo)準(zhǔn)化
  • 歸一化和標(biāo)準(zhǔn)化的處理公式分別是什么
  • 什么場景使用哪種歸一化方法
  • 什么時候用標(biāo)準(zhǔn)化?什么時候用歸一化
  • 不是所有模型都要求輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化/歸一化處理

一氮墨、標(biāo)準(zhǔn)化和歸一化的差異

大的層面而言纺蛆,歸一化和標(biāo)準(zhǔn)化是差不多的,都是模型運算器對數(shù)據(jù)進(jìn)行處理规揪,從而使數(shù)值都落入到統(tǒng)一的數(shù)值范圍桥氏,從而在建模過程中,各個特征量沒差別對待猛铅。

但歸一化和標(biāo)準(zhǔn)化并不是同一個東西字支,存在以下差異:

(1)轉(zhuǎn)換區(qū)間

歸一化(Normalization):把數(shù)據(jù)轉(zhuǎn)換到(0,1)或者(-1,1)區(qū)間的數(shù)據(jù)映射方式
標(biāo)準(zhǔn)化(Standardization):把數(shù)據(jù)轉(zhuǎn)換到均值為0,標(biāo)準(zhǔn)差為1的數(shù)據(jù)映射方式

(2)數(shù)據(jù)分布

歸一化:對數(shù)據(jù)的數(shù)值范圍進(jìn)行特定縮放奸忽,但不改變其數(shù)據(jù)分布的一種特征變換堕伪。



標(biāo)準(zhǔn)化:對數(shù)據(jù)的分布的進(jìn)行轉(zhuǎn)換,使其符合某種分布(比如正態(tài)分布)的一種特征變換栗菜。


(3)處理方式

歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定)欠雌;
而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動態(tài)”的,和整體樣本的分布有很大的關(guān)系[3]疙筹。

二富俄、為什么要歸一化/標(biāo)準(zhǔn)化禁炒?

(1)梯度下降的需要,加速算法收斂速度

在使用梯度下降的方法求解最優(yōu)化問題時霍比, 歸一化/標(biāo)準(zhǔn)化后可以加快梯度下降的求解速度幕袱,即提升模型的收斂速度。

所以像之前提到的線性回歸悠瞬、邏輯回歸凹蜂、神經(jīng)網(wǎng)絡(luò)等使用梯度下降法求解最優(yōu)參數(shù)的算法蚜点,輸入數(shù)據(jù)需要做歸一化/標(biāo)準(zhǔn)化處理覆醇,提升模型收斂速度。

(2)距離計算的需要毫胜,保障算法準(zhǔn)確度

一些算法需要計算樣本之間的距離(如歐氏距離)狂打,例如KNN擂煞、kmeans等聚類算法。如果一個特征值域范圍非常大趴乡,那么距離計算就主要取決于這個特征对省,從而與實際情況相悖。

(3)消除量綱和數(shù)量級影響

各個指標(biāo)之間由于計量單位和數(shù)量級不盡相同晾捏,從而使得各指標(biāo)間不具有綜合性蒿涎,不能直接進(jìn)行綜合分析,這時就必須采用某種方法對各指標(biāo)數(shù)值進(jìn)行無量綱化處理惦辛,解決各指標(biāo)數(shù)值不可綜合性問題劳秋。

什么是量綱?

物理量按照其屬性分為兩類:
1.物理量的大小與度量所選用的單位有關(guān)胖齐,稱為有量綱量
2.物理量的大小與度量所選的單位無關(guān)玻淑,稱為無量綱量

去量綱指的的去除數(shù)據(jù)單位之間的不統(tǒng)一,將數(shù)據(jù)統(tǒng)一變換為無單位(統(tǒng)一單位)的數(shù)據(jù)集呀伙。

三补履、歸一化和標(biāo)準(zhǔn)化的處理公式

(1)常見的歸一化方法

rescaling(極值歸一化)

x' = \frac{x-min(x)}{max(x)-min(x)}

mean normalization(平均歸一化)

x' = \frac{x-mean(x)}{max(x)-min(x)}

線性比例縮放法

x' = \frac{x_i}{max(x)}

對數(shù)函數(shù)轉(zhuǎn)換

x'=\frac{log_{10}(x)}{log_{10}(xmax)}
處理后數(shù)據(jù)范圍為[0,1]

sigmoid法

x' = \frac{1}{1 +e^{-x}}

(2) 標(biāo)準(zhǔn)化方法

standardization(Z-score規(guī)范化/標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化)

x' = \frac{x-E(x)}{\sigma}

四、什么場景使用哪種歸一化方法剿另?

在閱讀《基于神經(jīng)網(wǎng)絡(luò)的個人信用評分模型研究》一文的時候發(fā)現(xiàn)文章對定性指標(biāo)使用極值歸一化方法箫锤,對定量指標(biāo)使用線性比例縮放法。因此提出問題:什么場景使用哪種歸一化方法雨女?畢竟我們有那么多種歸一化的方法谚攒。

目前沒找到解答該疑問的相關(guān)資料(暫放)

五、什么時候用標(biāo)準(zhǔn)化戚篙?什么時候用歸一化五鲫?

(1)一般建議優(yōu)先使用標(biāo)準(zhǔn)化溺职,在機(jī)器學(xué)習(xí)中岔擂,標(biāo)準(zhǔn)化是更常用的手段位喂,歸一化的應(yīng)用場景是有限的。
(2)如果數(shù)據(jù)不為穩(wěn)定乱灵,存在極端的最大最小值塑崖,不要用歸一化。
(3)在分類痛倚、聚類算法中规婆,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進(jìn)行降維的時候蝉稳,標(biāo)準(zhǔn)化(Z-score standardization)表現(xiàn)更好[6]抒蚜。
(4)在不涉及距離度量、協(xié)方差計算耘戚、數(shù)據(jù)不符合正太分布的時候嗡髓,可以使用歸一化方法。比如圖像處理中收津,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在[0 255]的范圍[6]饿这。

標(biāo)準(zhǔn)化的隱含假設(shè)是數(shù)據(jù)符合正態(tài)分布的

六、不是所有模型都要求輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化/歸一化處理

不是所有的模型都需要做歸一的撞秋,比如模型算法里面有沒關(guān)于對距離的衡量长捧,沒有關(guān)于對變量間標(biāo)準(zhǔn)差的衡量。

(1)比如decision tree 決策樹吻贿,他采用算法里面沒有涉及到任何和距離等有關(guān)的串结,所以在做決策樹模型時,通常是不需要將變量做標(biāo)準(zhǔn)化的[7]舅列。

(2)概率模型不需要歸一化奉芦,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率剧蹂。

參考資料

寫本文是為了解答一些疑問声功,參考并整理了各種資料,感謝各種簡友宠叼、知友先巴、博主的分享。

[1] 歸一化冒冬、標(biāo)準(zhǔn)化和中心化/零均值化:http://www.reibang.com/p/95a8f035c86c
[2] 知乎-標(biāo)準(zhǔn)化和歸一化的差別:https://www.zhihu.com/question/20467170
[3] https://www.zhihu.com/question/20455227/answer/370658612
[4] https://maristie.com/blog/differences-between-normalization-standardization-and-regularization/
[5] 如何理解Normalization伸蚯,Regularization 和 standardization?https://www.zhihu.com/question/59939602
[6] 歸一化方法總結(jié):https://blog.csdn.net/young951023/article/details/78389445
[7] https://blog.csdn.net/u010947534/article/details/86632819

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末简烤,一起剝皮案震驚了整個濱河市剂邮,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌横侦,老刑警劉巖挥萌,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绰姻,死亡現(xiàn)場離奇詭異,居然都是意外死亡引瀑,警方通過查閱死者的電腦和手機(jī)狂芋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來憨栽,“玉大人帜矾,你說我怎么就攤上這事⌒既幔” “怎么了屡萤?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長掸宛。 經(jīng)常有香客問我灭衷,道長,這世上最難降的妖魔是什么旁涤? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任翔曲,我火速辦了婚禮,結(jié)果婚禮上劈愚,老公的妹妹穿的比我還像新娘瞳遍。我一直安慰自己,他們只是感情好菌羽,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布掠械。 她就那樣靜靜地躺著,像睡著了一般注祖。 火紅的嫁衣襯著肌膚如雪猾蒂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天是晨,我揣著相機(jī)與錄音肚菠,去河邊找鬼。 笑死罩缴,一個胖子當(dāng)著我的面吹牛蚊逢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播箫章,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼烙荷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了檬寂?” 一聲冷哼從身側(cè)響起终抽,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后昼伴,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體匾旭,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年亩码,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片野瘦。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡描沟,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出鞭光,到底是詐尸還是另有隱情吏廉,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布惰许,位于F島的核電站席覆,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏汹买。R本人自食惡果不足惜佩伤,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望晦毙。 院中可真熱鬧生巡,春花似錦、人聲如沸见妒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽须揣。三九已至盐股,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間耻卡,已是汗流浹背疯汁。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留卵酪,地道東北人涛目。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像凛澎,于是被迫代替她去往敵國和親霹肝。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容