機(jī)器學(xué)習(xí)中使用的數(shù)據(jù)為啥要?dú)w一化?
不同評(píng)價(jià)指標(biāo)之間會(huì)使用不同的量綱野建。
比如属划,評(píng)價(jià)房?jī)r(jià)的量綱一般有面積、樓層等候生;預(yù)測(cè)患病率來的量綱有:身高同眯、體重、家族遺傳病史等唯鸭;
以房?jī)r(jià)來說须蜗,北京和十八線小縣城的房?jī)r(jià)雖然都有面積樓層等,但肯定沒法直接比較,因?yàn)楸本┑拿科矫谆?位數(shù)起步明肮,但十八線小縣城大概率只有4位數(shù)菱农;
落差較大勢(shì)必會(huì)影響數(shù)據(jù)分析的結(jié)論,一堆十八線城市的數(shù)據(jù)中混入一個(gè)北京市的數(shù)據(jù)會(huì)對(duì)結(jié)論產(chǎn)生很大影響柿估。
為了消除指標(biāo)之間量綱的影響循未,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性秫舌;原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后只厘,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)舅巷。
先來看一張數(shù)據(jù)分析圖:
從左至右來看:
- 第1個(gè)模型是一個(gè)線性模型,擬合度很低河咽,也稱作 欠擬合钠右;
- 第3個(gè)模型是一個(gè)高次方的模型,雖然很好的適應(yīng)了我們的訓(xùn)練數(shù)據(jù)集忘蟹,但對(duì)新輸入變量進(jìn)行預(yù)測(cè)的時(shí)候飒房,效果可能會(huì)很差,也稱作 過度擬合媚值;
- 第2個(gè)模型則是剛剛適合我們數(shù)據(jù)的模型狠毯。
如果發(fā)現(xiàn)過度擬合的情況,該如何處理呢褥芒?
- 1嚼松、人工篩選:
丟棄一些不能幫助我們正確預(yù)測(cè)的特征; - 2锰扶、歸一化處理:
保留所有特征献酗,減少參數(shù)間的大小或重要性落差,以使得不同維度之間的特征在數(shù)值上有一定可比性坷牛;
當(dāng)然還可以使用某類算法對(duì)數(shù)據(jù)預(yù)處理罕偎,本文不做詳細(xì)討論。
兩種常用的歸一化方法:
1京闰、min-max標(biāo)準(zhǔn)化(Min-Max Normalization)也稱 線性函數(shù)歸一化
定義: 也稱為離差標(biāo)準(zhǔn)化颜及,是對(duì)原始數(shù)據(jù)的線性變換,使得結(jié)果映射到0-1之間蹂楣。
本質(zhì): 把數(shù)變?yōu)椤?,1】之間的小數(shù)俏站。
轉(zhuǎn)換函數(shù):(x-min/(max-min)
如果想要將數(shù)據(jù)映射到-1,1,則將公式換成: (X-Mean) / (Max-Min)
其中: max為樣本數(shù)據(jù)的最大值捐迫,min為樣本數(shù)據(jù)的最小值乾翔,Mean表示數(shù)據(jù)的均值。
缺陷: 當(dāng)有新數(shù)據(jù)加入時(shí),可導(dǎo)致max和min的變化反浓,需要重新定義萌丈。
2、0均值標(biāo)準(zhǔn)化(Z-score standardization)
定義: 這種方法給與原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化雷则。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布辆雾,即均值為0,標(biāo)準(zhǔn)差為1月劈;
本質(zhì): 把有量綱表達(dá)式變成無量綱表達(dá)式度迂。
轉(zhuǎn)換函數(shù): (X-Mean)/(Standard-Deviation)
其中,Mean為所有樣本數(shù)據(jù)的均值猜揪。Standard Deviation為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差惭墓。
兩種歸一化方法的使用場(chǎng)景:
方法【1】的典型應(yīng)用:圖像處理;
在不涉及距離度量而姐、協(xié)方差計(jì)算腊凶、數(shù)據(jù)不符合正太分布的時(shí)候,可以使用第一種方法或其他歸一化方法拴念;
比如圖像處理中钧萍,將RGB圖像轉(zhuǎn)換為灰度圖像后將其值限定在(0 ,255)的范圍政鼠,通常有最大值法风瘦、最小值法、均值法等公般;
其歸一化原理就是分別將RGB三種顏色中的最大值万搔、最小值、平均值等重新賦值給當(dāng)前像素點(diǎn)官帘;可參考圖像二值化的原理來簡(jiǎn)單理解蟹略。
圖像二值化時(shí)的閾值選取方法常見由如下幾種:
- 雙峰法。
- P參數(shù)法遏佣。
- 最大類間方差法(Otsu挖炬、大津法)。
- 最大熵閾值法状婶。
- 迭代法(最佳閾值法)意敛。
這里選取第一種雙峰法簡(jiǎn)單介紹一下(其實(shí)吧村長(zhǎng)也只懂最簡(jiǎn)單的ε=(′ο`*)))誒),參見下圖:
可選取 Zt 谷底處的值作為二值化的閾值膛虫,大于此閾值草姻,全部改為 255;小于等于就全改為 0稍刀。
這里只需知曉原理即可撩独,很多編程語言敞曹,如 Python 中,已有現(xiàn)成的圖像二值化類庫综膀,可選擇任意一種方法進(jìn)行二值化澳迫。
注:該方法不適用于單峰圖、雙峰落差很大剧劝、谷底較長(zhǎng)(比如與峰值長(zhǎng)度相當(dāng))且平坦的情況橄登,最好是個(gè)凹字形。
方法【2】的典型應(yīng)用:分類讥此、聚類算法拢锹;
在分類、聚類算法中萄喳,當(dāng)需要使用距離來度量相似性的時(shí)候卒稳,第二種方法(Z-score standardization)表現(xiàn)更好。
因?yàn)榈谝环N方法(線性變換后)他巨,其協(xié)方差產(chǎn)生了倍數(shù)值的縮放展哭,因此這種方式無法消除量綱對(duì)方差、協(xié)方差的影響闻蛀;
同時(shí),由于量綱的存在您市,使用不同的量綱觉痛、距離的計(jì)算結(jié)果會(huì)不同。
而第二種歸一化方式中茵休,新的數(shù)據(jù)由于對(duì)方差進(jìn)行了歸一化薪棒,這時(shí)候每個(gè)維度的量綱其實(shí)已經(jīng)等價(jià)了,每個(gè)維度都服從均值為0榕莺、方差1的正態(tài)分布俐芯;
在計(jì)算距離的時(shí)候,每個(gè)維度都是去量綱化的钉鸯,避免了不同量綱的選取對(duì)距離計(jì)算產(chǎn)生的巨大影響吧史。