在數(shù)據(jù)分析之前锻离,我們通常需要先將數(shù)據(jù)標準化(normalization)穷躁,數(shù)據(jù)標準化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化仇让。
數(shù)據(jù)標準化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面那槽。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題蜈膨,對不同性質(zhì)指標直接加總不能正確反映不同作用力的綜合結(jié)果屿笼,須先考慮改變逆指標數(shù)據(jù)性質(zhì),使所有指標對測評方案的作用力同趨化翁巍,再加總才能得出正確結(jié)果驴一。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。
數(shù)據(jù)標準化的方法有很多種灶壶,常用的有“最小—最大標準化”肝断、“Z-score標準化”、“極大值標準化”和“總和標準化”等驰凛。經(jīng)過上述標準化處理胸懈,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標測評值,即各指標值都處于同一個數(shù)量級別上恰响,可以進行綜合測評分析趣钱。
一、Min-max 標準化
min-max標準化方法是對原始數(shù)據(jù)進行線性變換渔隶。設(shè)minA和maxA分別為屬性A的最小值和最大值羔挡,將A的一個原始值x通過min-max標準化映射成在區(qū)間[0,1]中的值x',其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-最小值)/(最大值-最小值)
二间唉、z-score 標準化
這種方法基于原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化绞灼。將A的原始值x使用z-score標準化到x'。
z-score標準化方法適用于屬性A的最大值和最小值未知的情況呈野,或有超出取值范圍的離群數(shù)據(jù)的情況低矮。
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差
spss默認的標準化方法就是z-score標準化。
用Excel進行z-score標準化的方法:在Excel中沒有現(xiàn)成的函數(shù)被冒,需要自己分步計算军掂,其實標準化的公式很簡單轮蜕。
步驟如下:
1.求出各變量(指標)的算術(shù)平均值(數(shù)學(xué)期望)xi和標準差si ;
2.進行標準化處理:
zij=(xij-xi)/si
其中:zij為標準化后的變量值蝗锥;xij為實際變量值跃洛。
3.將逆指標前的正負號對調(diào)。
標準化后的變量值圍繞0上下波動终议,大于0說明高于平均水平汇竭,小于0說明低于平均水平。
三穴张、極大值標準化
新數(shù)據(jù)=原數(shù)據(jù)/原數(shù)據(jù)中的最大值
四细燎、總和標準化
新數(shù)據(jù)=原數(shù)據(jù)/原數(shù)據(jù)之和