數(shù)據(jù)標準化的方法:“最小—最大標準化”楔脯、“Z-score標準化”
1.最小—最大標準化
原理:將某一問項的原始值x通過標準化映射成在區(qū)間[0,1]中的值 赁豆,其公式為:新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)戈钢,也稱為離差標準化荤懂,是對原始數(shù)據(jù)的線性變換倔丈,使結(jié)果值映射到[0 - 1]之間
公式:標準化結(jié)果x'=(x-min)/(max-min), 其中x表示原始數(shù)據(jù)幻枉,min表示該指標的最小值扔傅,max表示該指標的最大值
spss操作:第一步—選定該指標包含的數(shù)據(jù)耍共,點擊“分析”-“描述”—得到描述性統(tǒng)計結(jié)果,并可知道該指標的最小猎塞、最大试读、平均和標準差值 ,如下圖 荠耽;第二部钩骇,點擊“轉(zhuǎn)換”—“計算”——輸入標準化后變量的名稱,輸入 最小—最大標準化的公式铝量,如下圖——點擊確定——新的標準化結(jié)果出現(xiàn)在spss面板的指標右方
2.“Z-score標準化”
原理:通過原始數(shù)據(jù)的均值(mean)和標準差(standard deviation)進行數(shù)據(jù)的標準化倘屹,經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0慢叨,標準差為1纽匙,其標準化后的數(shù)值大小有正有負,如下圖中的標準正態(tài)分布曲線
適用范圍:問項數(shù)據(jù)的最大最小值不知道的情況下拍谐、有超出取值范圍的離群數(shù)據(jù)的情況烛缔、適用于不同量級數(shù)據(jù)的無量化處理
公式:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差
spss操作:點擊“分析”-“描述”—勾選z-score標準化處理,即可得結(jié)果
【補充說明】
數(shù)據(jù)標準化(歸一化)處理:
【專業(yè)解釋】不同評價指標往往具有不同的量綱和量綱單位轩拨,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果践瓷,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)標準化處理亡蓉,以解決數(shù)據(jù)指標之間的可比性晕翠。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后,各指標處于同一數(shù)量級砍濒,適合進行綜合對比評價淋肾。歸一化化就是要把你需要處理的數(shù)據(jù)經(jīng)過處理后(通過某種算法)限制在你需要的一定范圍內(nèi)。首先歸一化是為了后面數(shù)據(jù)處理的方便爸邢,其次是保正程序運行時收斂加快巫员。
【通俗的解釋】經(jīng)過標準化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化甲棍,數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性简识,即不同量級的數(shù)據(jù)通過標準化變?yōu)橥涣考壍臄?shù)據(jù)赶掖,如用戶的搜索次數(shù)的量級為萬級的,而下載次數(shù)為百級七扰,通俗地講奢赂,同一天內(nèi)用戶對一首歌的搜索次數(shù)有幾萬次,而下載次數(shù)只有幾十次颈走,將這兩個指標的數(shù)據(jù)標準化后膳灶,就變?yōu)橥粋€級別的數(shù),比如均為【0,1】立由,就可以通過這兩個指標來討論和計算用戶對一首歌的喜歡程度轧钓,指標測評值,即各指標值都處于同一個數(shù)量級別上锐膜,可以進行綜合測評分析毕箍。