什么是特征縮放
特征縮放是用來標(biāo)準(zhǔn)化數(shù)據(jù)特征的范圍
機(jī)器學(xué)習(xí)為什么需要特征縮放
在處理多維特征問題的時候护奈,需要保證特征具有相近的尺度,這有助于梯度下降算法更快的收斂蕾管。
以預(yù)測房屋價格為例事镣,假設(shè)有兩個特征,房屋的尺寸和房屋的數(shù)量孩等,尺寸的值為 0-
2000 平方英尺,而房間數(shù)量的值則是 0-5采够,以兩個參數(shù)分別為橫縱坐標(biāo)瞎访,繪制代價函數(shù)的等
高線圖能,看出圖像會顯得很扁吁恍,梯度下降算法需要非常多次的迭代才能收斂。播演、
特征縮放方法
1.最大值最小值歸一化
優(yōu)點(diǎn):所有數(shù)據(jù)都能縮放到0~1之間
缺點(diǎn):當(dāng)min,max為離群值或異常值時冀瓦,縮放后數(shù)據(jù)分布不均勻
2.方差歸一化
優(yōu)點(diǎn):可減小異常值當(dāng)影響
缺點(diǎn):不一定所有數(shù)據(jù)都縮放到0~1之間
3.均值歸一化
將所有數(shù)據(jù)縮放至0兩邊
4.標(biāo)準(zhǔn)歸一化
歸一化和標(biāo)準(zhǔn)化的區(qū)別
歸一化:縮放僅僅跟最大、最小值的差別有關(guān)写烤。 輸出范圍在0-1之間
標(biāo)準(zhǔn)化:縮放和每個點(diǎn)都有關(guān)系翼闽,通過方差(variance)體現(xiàn)出來。與歸一化對比洲炊,標(biāo)準(zhǔn)化中所有數(shù)據(jù)點(diǎn)都有貢獻(xiàn)(通過均值和標(biāo)準(zhǔn)差造成影響)感局。輸出范圍是負(fù)無窮到正無窮
什么時候用歸一化?什么時候用標(biāo)準(zhǔn)化暂衡?
1.如果對輸出結(jié)果范圍有要求询微,用歸一化
2.如果數(shù)據(jù)較為穩(wěn)定(圖像或是視頻的數(shù)據(jù)值處于固定區(qū)間),不存在極端的最大最小值狂巢,用歸一化
3.如果數(shù)據(jù)存在異常值和較多噪音撑毛,用標(biāo)準(zhǔn)化,可以間接通過中心化避免異常值和極端值的影響
標(biāo)準(zhǔn)化方法
min-max標(biāo)準(zhǔn)化(Min-max normalization)
優(yōu)點(diǎn):是對原始數(shù)據(jù)的線性變換唧领,使結(jié)果落到[0,1]區(qū)間
缺點(diǎn):有新數(shù)據(jù)加入的時候可能導(dǎo)致max和min的變化藻雌,需要重新定義
log函數(shù)轉(zhuǎn)換
優(yōu)點(diǎn):使結(jié)果落在[0,1]之間
缺點(diǎn):所有數(shù)據(jù)都要大于等于1
atan函數(shù)轉(zhuǎn)換
優(yōu)點(diǎn):大于0數(shù)據(jù)被映射到[0,1]小于0被映射到[-1,1]區(qū)間上雌续。
缺點(diǎn):不是所有數(shù)據(jù)都映射到[0,1]
z-score 標(biāo)準(zhǔn)化(zero-mean normalization)
優(yōu)點(diǎn):經(jīng)過處理符合標(biāo)準(zhǔn)正太分布,其中μ為所有樣本數(shù)據(jù)的均值胯杭,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差驯杜。