長期以來一直沒有清楚的弄明白標(biāo)準(zhǔn)化和歸一化的問題,都當(dāng)作同一件事情對待辛藻。知道是數(shù)據(jù)特征在進(jìn)行模型運算之前去量綱碘橘、轉(zhuǎn)換到小區(qū)間的一種Feature scaling(特征縮放)方法。
本文將更進(jìn)一步了解歸一化吱肌、標(biāo)準(zhǔn)化痘拆,解答以下問題:
- 標(biāo)準(zhǔn)化和歸一化的差異
- 為什么要歸一化/標(biāo)準(zhǔn)化
- 歸一化和標(biāo)準(zhǔn)化的處理公式分別是什么
- 什么場景使用哪種歸一化方法
- 什么時候用標(biāo)準(zhǔn)化?什么時候用歸一化
- 不是所有模型都要求輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化/歸一化處理
一氮墨、標(biāo)準(zhǔn)化和歸一化的差異
大的層面而言纺蛆,歸一化和標(biāo)準(zhǔn)化是差不多的,都是模型運算器對數(shù)據(jù)進(jìn)行處理规揪,從而使數(shù)值都落入到統(tǒng)一的數(shù)值范圍桥氏,從而在建模過程中,各個特征量沒差別對待猛铅。
但歸一化和標(biāo)準(zhǔn)化并不是同一個東西字支,存在以下差異:
(1)轉(zhuǎn)換區(qū)間
歸一化(Normalization):把數(shù)據(jù)轉(zhuǎn)換到(0,1)或者(-1,1)區(qū)間的數(shù)據(jù)映射方式
標(biāo)準(zhǔn)化(Standardization):把數(shù)據(jù)轉(zhuǎn)換到均值為0,標(biāo)準(zhǔn)差為1的數(shù)據(jù)映射方式
(2)數(shù)據(jù)分布
歸一化:對數(shù)據(jù)的數(shù)值范圍進(jìn)行特定縮放奸忽,但不改變其數(shù)據(jù)分布的一種特征變換堕伪。
標(biāo)準(zhǔn)化:對數(shù)據(jù)的分布的進(jìn)行轉(zhuǎn)換,使其符合某種分布(比如正態(tài)分布)的一種特征變換栗菜。
(3)處理方式
歸一化的縮放是“拍扁”統(tǒng)一到區(qū)間(僅由極值決定)欠雌;
而標(biāo)準(zhǔn)化的縮放是更加“彈性”和“動態(tài)”的,和整體樣本的分布有很大的關(guān)系[3]疙筹。
二富俄、為什么要歸一化/標(biāo)準(zhǔn)化禁炒?
(1)梯度下降的需要,加速算法收斂速度
在使用梯度下降的方法求解最優(yōu)化問題時霍比, 歸一化/標(biāo)準(zhǔn)化后可以加快梯度下降的求解速度幕袱,即提升模型的收斂速度。
所以像之前提到的線性回歸悠瞬、邏輯回歸凹蜂、神經(jīng)網(wǎng)絡(luò)等使用梯度下降法求解最優(yōu)參數(shù)的算法蚜点,輸入數(shù)據(jù)需要做歸一化/標(biāo)準(zhǔn)化處理覆醇,提升模型收斂速度。
(2)距離計算的需要毫胜,保障算法準(zhǔn)確度
一些算法需要計算樣本之間的距離(如歐氏距離)狂打,例如KNN擂煞、kmeans等聚類算法。如果一個特征值域范圍非常大趴乡,那么距離計算就主要取決于這個特征对省,從而與實際情況相悖。
(3)消除量綱和數(shù)量級影響
各個指標(biāo)之間由于計量單位和數(shù)量級不盡相同晾捏,從而使得各指標(biāo)間不具有綜合性蒿涎,不能直接進(jìn)行綜合分析,這時就必須采用某種方法對各指標(biāo)數(shù)值進(jìn)行無量綱化處理惦辛,解決各指標(biāo)數(shù)值不可綜合性問題劳秋。
什么是量綱?
物理量按照其屬性分為兩類:
1.物理量的大小與度量所選用的單位有關(guān)胖齐,稱為有量綱量
2.物理量的大小與度量所選的單位無關(guān)玻淑,稱為無量綱量
去量綱指的的去除數(shù)據(jù)單位之間的不統(tǒng)一,將數(shù)據(jù)統(tǒng)一變換為無單位(統(tǒng)一單位)的數(shù)據(jù)集呀伙。
三补履、歸一化和標(biāo)準(zhǔn)化的處理公式
(1)常見的歸一化方法
rescaling(極值歸一化)
mean normalization(平均歸一化)
線性比例縮放法
對數(shù)函數(shù)轉(zhuǎn)換
處理后數(shù)據(jù)范圍為[0,1]
sigmoid法
(2) 標(biāo)準(zhǔn)化方法
standardization(Z-score規(guī)范化/標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化)
四、什么場景使用哪種歸一化方法剿另?
在閱讀《基于神經(jīng)網(wǎng)絡(luò)的個人信用評分模型研究》一文的時候發(fā)現(xiàn)文章對定性指標(biāo)使用極值歸一化方法箫锤,對定量指標(biāo)使用線性比例縮放法。因此提出問題:什么場景使用哪種歸一化方法雨女?畢竟我們有那么多種歸一化的方法谚攒。
目前沒找到解答該疑問的相關(guān)資料(暫放)
五、什么時候用標(biāo)準(zhǔn)化戚篙?什么時候用歸一化五鲫?
(1)一般建議優(yōu)先使用標(biāo)準(zhǔn)化溺职,在機(jī)器學(xué)習(xí)中岔擂,標(biāo)準(zhǔn)化是更常用的手段位喂,歸一化的應(yīng)用場景是有限的。
(2)如果數(shù)據(jù)不為穩(wěn)定乱灵,存在極端的最大最小值塑崖,不要用歸一化。
(3)在分類痛倚、聚類算法中规婆,需要使用距離來度量相似性的時候、或者使用PCA技術(shù)進(jìn)行降維的時候蝉稳,標(biāo)準(zhǔn)化(Z-score standardization)表現(xiàn)更好[6]抒蚜。
(4)在不涉及距離度量、協(xié)方差計算耘戚、數(shù)據(jù)不符合正太分布的時候嗡髓,可以使用歸一化方法。比如圖像處理中收津,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在[0 255]的范圍[6]饿这。
標(biāo)準(zhǔn)化的隱含假設(shè)是數(shù)據(jù)符合正態(tài)分布的
六、不是所有模型都要求輸入數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)化/歸一化處理
不是所有的模型都需要做歸一的撞秋,比如模型算法里面有沒關(guān)于對距離的衡量长捧,沒有關(guān)于對變量間標(biāo)準(zhǔn)差的衡量。
(1)比如decision tree 決策樹吻贿,他采用算法里面沒有涉及到任何和距離等有關(guān)的串结,所以在做決策樹模型時,通常是不需要將變量做標(biāo)準(zhǔn)化的[7]舅列。
(2)概率模型不需要歸一化奉芦,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率剧蹂。
參考資料
寫本文是為了解答一些疑問声功,參考并整理了各種資料,感謝各種簡友宠叼、知友先巴、博主的分享。
[1] 歸一化冒冬、標(biāo)準(zhǔn)化和中心化/零均值化:http://www.reibang.com/p/95a8f035c86c
[2] 知乎-標(biāo)準(zhǔn)化和歸一化的差別:https://www.zhihu.com/question/20467170
[3] https://www.zhihu.com/question/20455227/answer/370658612
[4] https://maristie.com/blog/differences-between-normalization-standardization-and-regularization/
[5] 如何理解Normalization伸蚯,Regularization 和 standardization?https://www.zhihu.com/question/59939602
[6] 歸一化方法總結(jié):https://blog.csdn.net/young951023/article/details/78389445
[7] https://blog.csdn.net/u010947534/article/details/86632819