［轉(zhuǎn)］數(shù)據(jù)特征:標(biāo)準(zhǔn)化和歸一化

原文鏈接：https://blog.csdn.net/zwqjoy/article/details/81182102武学，感謝作者募判。

一、標(biāo)準(zhǔn)化/歸一化定義

歸一化和標(biāo)準(zhǔn)化經(jīng)常被搞混竖般，程度還比較嚴(yán)重甚垦，非常干擾大家的理解。為了方便后續(xù)的討論，必須先明確二者的定義艰亮。

歸一化

就是將訓(xùn)練集中某一列數(shù)值特征（假設(shè)是第i列）的值縮放到0和1之間闭翩。方法如下所示：

標(biāo)準(zhǔn)化

就是將訓(xùn)練集中某一列數(shù)值特征（假設(shè)是第i列）的值縮放成均值為0，方差為1的狀態(tài)迄埃。如下所示：

進(jìn)一步明確二者含義

歸一化和標(biāo)準(zhǔn)化的相同點(diǎn)都是對(duì)某個(gè)特征（column）進(jìn)行縮放（scaling）而不是對(duì)某個(gè)樣本的特征向量（row）進(jìn)行縮放疗韵。對(duì)特征向量進(jìn)行縮放是毫無(wú)意義的**（暗坑1）** 比如三列特征：身高、體重侄非、血壓蕉汪。每一條樣本（row）就是三個(gè)這樣的值，對(duì)這個(gè)row無(wú)論是進(jìn)行標(biāo)準(zhǔn)化還是歸一化都是好笑的逞怨，因?yàn)槟悴荒軐⑸砀哒甙獭Ⅲw重和血壓混到一起去！

在線性代數(shù)中叠赦，將一個(gè)向量除以向量的長(zhǎng)度驹马，也被稱為標(biāo)準(zhǔn)化，不過(guò)這里的標(biāo)準(zhǔn)化是將向量變?yōu)殚L(zhǎng)度為1的單位向量眯搭，它和我們這里的標(biāo)準(zhǔn)化不是一回事兒窥翩，不要搞混哦**（暗坑2）**。

二鳞仙、標(biāo)準(zhǔn)化/歸一化的好處

2.1 提升模型精度

在機(jī)器學(xué)習(xí)算法的目標(biāo)函數(shù)(例如SVM的RBF內(nèi)核或線性模型的l1和l2正則化)寇蚊，許多學(xué)習(xí)算法中目標(biāo)函數(shù)的基礎(chǔ)都是假設(shè)所有的特征都是零均值并且具有同一階數(shù)上的方差。如果某個(gè)特征的方差比其他特征大幾個(gè)數(shù)量級(jí)棍好，那么它就會(huì)在學(xué)習(xí)算法中占據(jù)主導(dǎo)位置仗岸，導(dǎo)致學(xué)習(xí)器并不能像我們說(shuō)期望的那樣，從其他特征中學(xué)習(xí)借笙。

舉一個(gè)簡(jiǎn)單的例子扒怖，在KNN中，我們需要計(jì)算待分類(lèi)點(diǎn)與所有實(shí)例點(diǎn)的距離业稼。假設(shè)每個(gè)實(shí)例點(diǎn)（instance）由n個(gè)features構(gòu)成盗痒。如果我們選用的距離度量為歐式距離，如果數(shù)據(jù)預(yù)先沒(méi)有經(jīng)過(guò)歸一化低散，那么那些絕對(duì)值大的features在歐式距離計(jì)算的時(shí)候起了決定性作用俯邓。

從經(jīng)驗(yàn)上說(shuō)，歸一化是讓不同維度之間的特征在數(shù)值上有一定比較性熔号，可以大大提高分類(lèi)器的準(zhǔn)確性稽鞭。

2.2 提升收斂速度

對(duì)于線性model來(lái)說(shuō)，數(shù)據(jù)歸一化后引镊，最優(yōu)解的尋優(yōu)過(guò)程明顯會(huì)變得平緩朦蕴，更容易正確的收斂到最優(yōu)解篮条。

比較這兩個(gè)圖，前者是沒(méi)有經(jīng)過(guò)歸一化的吩抓，在梯度下降的過(guò)程中涉茧，走的路徑更加的曲折，而第二個(gè)圖明顯路徑更加平緩琴拧，收斂速度更快降瞳。對(duì)于神經(jīng)網(wǎng)絡(luò)模型嘱支，避免飽和是一個(gè)需要考慮的因素蚓胸，通常參數(shù)的選擇決定于input數(shù)據(jù)的大小范圍。

三除师、標(biāo)準(zhǔn)化/歸一化的對(duì)比分析

首先明確沛膳，在機(jī)器學(xué)習(xí)中，標(biāo)準(zhǔn)化是更常用的手段汛聚，歸一化的應(yīng)用場(chǎng)景是有限的锹安。我總結(jié)原因有兩點(diǎn)：

1、標(biāo)準(zhǔn)化更好保持了樣本間距倚舀。當(dāng)樣本中有異常點(diǎn)時(shí)叹哭，歸一化有可能將正常的樣本“擠”到一起去。比如三個(gè)樣本痕貌，某個(gè)特征的值為1,2,10000风罩，假設(shè)10000這個(gè)值是異常值，用歸一化的方法后舵稠，正常的1,2就會(huì)被“擠”到一起去超升。如果不幸的是1和2的分類(lèi)標(biāo)簽還是相反的，那么哺徊，當(dāng)我們用梯度下降來(lái)做分類(lèi)模型訓(xùn)練時(shí)室琢，模型會(huì)需要更長(zhǎng)的時(shí)間收斂，因?yàn)閷颖痉珠_(kāi)需要更大的努力落追！而標(biāo)準(zhǔn)化在這方面就做得很好盈滴，至少它不會(huì)將樣本“擠到一起”。

2轿钠、標(biāo)準(zhǔn)化更符合統(tǒng)計(jì)學(xué)假設(shè)

對(duì)一個(gè)數(shù)值特征來(lái)說(shuō)巢钓，很大可能它是服從正態(tài)分布的。標(biāo)準(zhǔn)化其實(shí)是基于這個(gè)隱含假設(shè)谣膳，只不過(guò)是略施小技竿报，將這個(gè)正態(tài)分布調(diào)整為均值為0，方差為1的標(biāo)準(zhǔn)正態(tài)分布而已继谚。

所以烈菌，下面的討論我們先集中分析標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中運(yùn)用的情況，在文章末尾，簡(jiǎn)單探討一下歸一化的使用場(chǎng)景芽世。這樣更能凸顯重點(diǎn)挚赊，又能保持內(nèi)容的完整性，暫時(shí)忘記歸一化济瓢，讓我們focus到標(biāo)準(zhǔn)化上吧荠割。

四、邏輯回歸必須要進(jìn)行標(biāo)準(zhǔn)化嗎旺矾？

我覺(jué)得蔑鹦，回答完上面的問(wèn)題，就可以很好地掌握標(biāo)準(zhǔn)化在機(jī)器學(xué)習(xí)中的運(yùn)用箕宙。

首先嚎朽，請(qǐng)嘗試自己來(lái)回答一下（暫停5秒）

無(wú)論你回答必須或者不必須，你都是錯(cuò)的柬帕！

真正的答案是哟忍，這取決于我們的邏輯回歸是不是用正則。

如果你不用正則陷寝，那么锅很，標(biāo)準(zhǔn)化并不是必須的，如果你用正則凤跑，那么標(biāo)準(zhǔn)化是必須的爆安。（暗坑3）

為什么呢？

因?yàn)椴挥谜齽t時(shí)饶火，我們的損失函數(shù)只是僅僅在度量預(yù)測(cè)與真實(shí)的差距鹏控，加上正則后，我們的損失函數(shù)除了要度量上面的差距外肤寝，還要度量參數(shù)值是否足夠小当辐。而參數(shù)值的大小程度或者說(shuō)大小的級(jí)別是與特征的數(shù)值范圍相關(guān)的。舉例來(lái)說(shuō)鲤看，我們用體重預(yù)測(cè)身高缘揪，體重用kg衡量時(shí)，訓(xùn)練出的模型是：身高 = 體重*x????????? x就是我們訓(xùn)練出來(lái)的參數(shù)义桂。

當(dāng)我們的體重用噸來(lái)衡量時(shí)找筝，x的值就會(huì)擴(kuò)大為原來(lái)的1000倍。

在上面兩種情況下慷吊，都用L1正則的話袖裕，顯然對(duì)模型的訓(xùn)練影響是不同的。

假如不同的特征的數(shù)值范圍不一樣溉瓶，有的是0到0.1急鳄，有的是100到10000谤民，那么，每個(gè)特征對(duì)應(yīng)的參數(shù)大小級(jí)別也會(huì)不一樣疾宏，在L1正則時(shí)张足，我們是簡(jiǎn)單將參數(shù)的絕對(duì)值相加，因?yàn)樗鼈兊拇笮〖?jí)別不一樣坎藐，就會(huì)導(dǎo)致L1最后只會(huì)對(duì)那些級(jí)別比較大的參數(shù)有作用为牍，那些小的參數(shù)都被忽略了。

如果你回答到這里岩馍，面試官應(yīng)該基本滿意了碉咆，但是他可能會(huì)進(jìn)一步考察你，如果不用正則兼雄，那么標(biāo)準(zhǔn)化對(duì)邏輯回歸有什么好處嗎吟逝？

答案是有好處，進(jìn)行標(biāo)準(zhǔn)化后赦肋，我們得出的參數(shù)值的大小可以反應(yīng)出不同特征對(duì)樣本label的貢獻(xiàn)度，方便我們進(jìn)行特征篩選励稳。如果不做標(biāo)準(zhǔn)化佃乘，是不能這樣來(lái)篩選特征的。

答到這里驹尼，有些厲害的面試官可能會(huì)繼續(xù)問(wèn)趣避，做標(biāo)準(zhǔn)化有什么注意事項(xiàng)嗎？

最大的注意事項(xiàng)就是先拆分出test集新翎，不要在整個(gè)數(shù)據(jù)集上做標(biāo)準(zhǔn)化程帕，因?yàn)槟菢訒?huì)將test集的信息引入到訓(xùn)練集中，這是一個(gè)非常容易犯的錯(cuò)誤地啰！

五愁拭、通過(guò)例子來(lái)說(shuō)明

我們先從簡(jiǎn)單的預(yù)測(cè)房?jī)r(jià)的線性回歸模型開(kāi)始：

有一組關(guān)于房?jī)r(jià)和房子變量的數(shù)據(jù)集，通過(guò)房子的面積亏吝，房間數(shù)量岭埠，房子的層數(shù)來(lái)預(yù)測(cè)房?jī)r(jià)。

占地面積1800尺蔚鸥，房間數(shù)量3間惜论，房子層數(shù)2層-> 房?jī)r(jià)?；

為了方便對(duì)比止喷，我們分別看一下標(biāo)準(zhǔn)化前和標(biāo)準(zhǔn)化后的模型輸出分布是怎么樣的馆类。

可以看出，標(biāo)準(zhǔn)化前后變量的系數(shù)不同弹谁，誤差不同乾巧，但是R平方技羔，和變量的t值是相同的。

5.1 解釋有區(qū)別嗎卧抗？

那標(biāo)準(zhǔn)化前后得到的公式藤滥，怎么來(lái)解釋呢？

標(biāo)準(zhǔn)化前標(biāo)準(zhǔn)化后

如果居住面積社裆，房間數(shù)拙绊，房間層數(shù)都是0的情況下，房子的價(jià)格為91830萬(wàn)如果居住面積泳秀，房間數(shù)标沪，房間層數(shù)是各自的平均數(shù)的情況下，房子的價(jià)格為539400萬(wàn)

當(dāng)一個(gè)外行人在聽(tīng)解釋的時(shí)候嗜傅，一定會(huì)問(wèn)金句，什么呀？所有東西都是0吕嘀，空氣造的房子還能賣(mài)9萬(wàn)违寞？！

接著你會(huì)問(wèn)偶房，系數(shù)不同趁曼，那預(yù)測(cè)出來(lái)的房?jī)r(jià)會(huì)相同嗎？

5.2 預(yù)測(cè)值有區(qū)別嗎棕洋？

現(xiàn)在我們來(lái)預(yù)測(cè)一個(gè)1590尺挡闰，3個(gè)臥室，3層的房屋

標(biāo)準(zhǔn)化前房?jī)r(jià)標(biāo)準(zhǔn)化后房?jī)r(jià)

$406641.02$406641.02

我們發(fā)現(xiàn)預(yù)測(cè)出來(lái)的房?jī)r(jià)是一樣的掰盘。

這時(shí)你一定會(huì)想摄悯，既然結(jié)果都一樣，做不做標(biāo)準(zhǔn)化愧捕，都一樣嘛奢驯。說(shuō)到這里，我們?cè)倏匆幌禄尾疲r(shí)尋找最優(yōu)解的時(shí)間吧叨橱。

5.3 花費(fèi)時(shí)間有區(qū)別嗎？

標(biāo)準(zhǔn)化前處理時(shí)間標(biāo)準(zhǔn)化后處理時(shí)間

0.026s0.021s

為什么標(biāo)準(zhǔn)化后的建模時(shí)間會(huì)短呢断盛？這時(shí)候就要說(shuō)起尋找系數(shù)最優(yōu)解－梯度下降法罗洗。

標(biāo)準(zhǔn)化前，由于變量的單位相差很大钢猛，導(dǎo)致了橢圓型的梯度輪廓伙菜。標(biāo)準(zhǔn)化后，把變量變成統(tǒng)一單位命迈，產(chǎn)生了圓形輪廓贩绕。由于梯度下降是按切線方向下降火的，所以導(dǎo)致了系統(tǒng)在橢圓輪廓不停迂回地尋找最優(yōu)解，而圓形輪廓就能輕松找到了淑倾。

還有一種比較極端的情況馏鹤，有時(shí)沒(méi)做標(biāo)準(zhǔn)化，模型始終找不到最優(yōu)解娇哆，一直不收斂湃累。

5.4? PCA，Kmeans碍讨，KNN需要標(biāo)準(zhǔn)化數(shù)據(jù)嗎治力？

這種情況下，可見(jiàn)標(biāo)準(zhǔn)化的重要性了吧勃黍。

我們?cè)賮?lái)看一下宵统，如果將預(yù)測(cè)房?jī)r(jià)的變量，用PCA方法來(lái)降維覆获，會(huì)不會(huì)對(duì)結(jié)果產(chǎn)生影響马澈。

我們看出在標(biāo)準(zhǔn)化前套硼，用一個(gè)成分就能解釋99%的變量變化砰左，而標(biāo)準(zhǔn)化后一個(gè)成分解釋了75%的變化。主要原因就是在沒(méi)有標(biāo)準(zhǔn)化的情況下狸涌，我們給了居住面積過(guò)大權(quán)重疑枯，造成了這個(gè)結(jié)果。

那還有什么情況下蛔六，不做歸一化會(huì)發(fā)生這么大的影響荆永？

Kmeans，KNN一些涉及到距離有關(guān)的算法国章，或者聚類(lèi)的話具钥，都是需要先做變量標(biāo)準(zhǔn)化的。

舉個(gè)例子液兽，我們將3個(gè)城市分成兩類(lèi)骂删，變量有面積和教育程度占比；三個(gè)城市分別是這樣的：

城市A四啰，面積挺大宁玫，但是整天發(fā)生偷盜搶劫，教育程度低柑晒；

城市B欧瘪，面積也挺大，治安不錯(cuò)匙赞，教育程度高佛掖；

城市C妖碉，面積中等，治安也挺好芥被，教育程度也挺高欧宜；

我們?nèi)绻蛔鰳?biāo)準(zhǔn)化，直接做聚類(lèi)模型的話拴魄，A城市和B城市分在一塊兒了冗茸，你想想，一個(gè)治安挺好的城市和一個(gè)整體偷盜搶劫城市分在一起羹铅，實(shí)在是有點(diǎn)違反常理蚀狰。

六、總結(jié)

Tree-based models doesn’t depend on scaling

Non-tree-based models hugely depend on scaling

有時(shí)候职员，我們必須要特征在0到1之間麻蹋，此時(shí)就只能用歸一化。有種svm可用來(lái)做單分類(lèi)焊切，里面就需要用到歸一化扮授，由于沒(méi)有深入研究，所以我把鏈接放上专肪，感興趣的可以自己看刹勃。

當(dāng)然，也不是所有的模型都需要做歸一的嚎尤，比如模型算法里面有沒(méi)關(guān)于對(duì)距離的衡量荔仁，沒(méi)有關(guān)于對(duì)變量間標(biāo)準(zhǔn)差的衡量。比如decision tree 決策樹(shù)芽死，他采用算法里面沒(méi)有涉及到任何和距離等有關(guān)的乏梁，所以在做決策樹(shù)模型時(shí)，通常是不需要將變量做標(biāo)準(zhǔn)化的关贵。

鏈接：

http://www.reibang.com/p/4c3081d40ca6

http://www.reibang.com/p/1e63cd2afedc

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末遇骑，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子揖曾，更是在濱河造成了極大的恐慌落萎，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件炭剪，死亡現(xiàn)場(chǎng)離奇詭異练链，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)念祭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)兑宇，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事隶糕〈刹” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵枚驻，是天一觀的道長(zhǎng)濒旦。經(jīng)常有香客問(wèn)我，道長(zhǎng)再登，這世上最難降的妖魔是什么尔邓？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮锉矢，結(jié)果婚禮上梯嗽，老公的妹妹穿的比我還像新娘。我一直安慰自己沽损，他們只是感情好灯节，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著绵估，像睡著了一般炎疆。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上国裳，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天形入，我揣著相機(jī)與錄音，去河邊找鬼缝左。笑死亿遂，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的渺杉。我是一名探鬼主播崩掘，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼少办！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起诵原，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤英妓，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后绍赛，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蔓纠，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年吗蚌，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腿倚。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蚯妇，死狀恐怖敷燎，靈堂內(nèi)的尸體忽然破棺而出暂筝，到底是詐尸還是另有隱情，我是刑警寧澤硬贯，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布焕襟，位于F島的核電站，受9級(jí)特大地震影響饭豹，放射性物質(zhì)發(fā)生泄漏鸵赖。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一拄衰、第九天我趴在偏房一處隱蔽的房頂上張望它褪。院中可真熱鬧，春花似錦翘悉、人聲如沸茫打。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案镐确，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)包吝。三九已至，卻和暖如春源葫，著一層夾襖步出監(jiān)牢的瞬間诗越，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工息堂，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嚷狞，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓荣堰，卻偏偏與公主長(zhǎng)得像床未，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子振坚，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

［轉(zhuǎn)］數(shù)據(jù)特征:標(biāo)準(zhǔn)化和歸一化

推薦閱讀更多精彩內(nèi)容