Normalization-歸一化籽慢。
數(shù)據(jù)標(biāo)準(zhǔn)化(歸一化)處理是數(shù)據(jù)挖掘的一項(xiàng)基礎(chǔ)工作,不同評(píng)價(jià)指標(biāo)往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果耿导,為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理态贤,以解決數(shù)據(jù)指標(biāo)之間的可比性舱呻。原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí)悠汽,適合進(jìn)行綜合對(duì)比評(píng)價(jià)狮荔。以下是兩種常用的歸一化方法:
一胎撇、min-max標(biāo)準(zhǔn)化(Min-Max Normalization)
也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換殖氏,使結(jié)果值映射到[0 - 1]之間晚树。轉(zhuǎn)換函數(shù)如下:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值雅采。這種方法有個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí)爵憎,可能導(dǎo)致max和min的變化,需要重新定義婚瓜。
二宝鼓、Z-score標(biāo)準(zhǔn)化方法
這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過(guò)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布巴刻,即均值為0愚铡,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)為:
其中為所有樣本數(shù)據(jù)的均值胡陪,為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差沥寥。
在pytorch里有函數(shù)可以直接調(diào)用,torchvision.transforms.Normalize(mean,?std)
其中柠座,input[channel]?=?(input[channel]?-?mean[channel])?/?std[channel]
取值范圍(-1,1)