在數(shù)據(jù)分析過程中,往往需要數(shù)據(jù)服從正態(tài)分布靴患,正態(tài)分布仍侥,也稱“常態(tài)分布”,又名高斯分布鸳君,在求二項分布的漸近公式中得到。很多方法都需要數(shù)據(jù)滿足正態(tài)分布患蹂,比如方差分析或颊、獨立t檢驗、線性回歸分析(因變量)等传于。如果說沒有這個前提可能會導(dǎo)致分析不嚴謹?shù)鹊却烟簟K赃M行數(shù)據(jù)正態(tài)性檢驗很重要。那么如何進行正態(tài)性檢驗沼溜?接下來進行說明平挑。
一、檢驗方法
SPSSAU共提供三種正態(tài)性檢驗的方法系草,分別是描述法通熄、正態(tài)性檢驗以及圖示法,其中圖示法包括直方圖以及P-P/Q-Q圖找都。
1.1描述法
理論上講唇辨,標(biāo)準(zhǔn)正態(tài)分布偏度和峰度均為0,但現(xiàn)實中數(shù)據(jù)無法滿足標(biāo)準(zhǔn)正態(tài)分布能耻,因而如果峰度絕對值小于10并且偏度絕對值小于3赏枚,則說明數(shù)據(jù)雖然不是絕對正態(tài),但基本可接受為正態(tài)分布晓猛。從上表可以看出例子中峰度為1.160絕對值小于10饿幅,偏度為-1.084絕對值小于3。說明數(shù)據(jù)基本可以接受為正態(tài)分布戒职。
1.2 正態(tài)性檢驗
SPSSAU的正態(tài)性檢驗包括三種:正態(tài)性shapro-WiIk檢驗栗恩、正態(tài)性Kolmogorov-Smirnov檢驗和Jarque-Bera檢驗。
背景簡單描述:調(diào)查一個班級的53名學(xué)生的身高帕涌,判斷搜集的數(shù)據(jù)是否滿足μ=140.79摄凡,σ=8.6的正態(tài)分布续徽。
由于n>50,所以檢驗方法選擇K-S檢驗或者J-B檢驗。如果利用K-S檢驗進行證明亲澡,步驟如下:
H0:x服從μ=140.79钦扭,σ=8.6的正態(tài)分布
H1:x不服從μ=140.79,σ=8.6的正態(tài)分布
附表如下:
(圖片來源于:網(wǎng)絡(luò)侵刪)
因為樣本超過35床绪,并且α=0.05客情,所以D約為1.36/
相應(yīng)指標(biāo)
首先計算K-S檢驗中的D統(tǒng)計量癞己,計算公式如下:
【D=max left{D^{+}, D^{-} ight}】
首先將數(shù)據(jù)按從小到大進行排序,用x進行描述膀斋,k代表次序,然后計算其標(biāo)準(zhǔn)化的數(shù)據(jù)痹雅,標(biāo)準(zhǔn)化公式為:
【x^{prime}=rac{x-mu}{sigma}】
接著算出每個數(shù)據(jù)的頻次仰担,并記錄好累積頻次,然后計算
所以可以算出D為0.218赌渣,D大于0.187魏铅,所以拒絕原假設(shè),接受備擇假設(shè)所以不滿足锡垄。
同時可以使用SPSSAU進行檢驗更為方便沦零,數(shù)據(jù)格式如下:
將數(shù)據(jù)上傳到SPSSAU進行分析,操作如下:
分析結(jié)果如下:
從上述結(jié)果得到货岭,樣本量大于50路操,所以選擇K-S檢驗,發(fā)現(xiàn)統(tǒng)計量D為0.218(和計算的一樣)千贯,p值小于0.05屯仗,所以模型顯著,拒絕原假設(shè)搔谴,數(shù)據(jù)不服從正態(tài)分布魁袜。
同時SPSSAU還提供了JB檢驗:
Jarque-Bera檢驗中,p值小于0.05,所以模型顯著峰弹,拒絕原假設(shè)店量,數(shù)據(jù)不服從正態(tài)分布(針對SPSSAU提供統(tǒng)計量為卡方值的原因:有證明顯示在正態(tài)性假定下,JB統(tǒng)計量漸近地服從自由度為2的卡方分布)鞠呈。
1.3 圖示法
直方圖
直方圖若呈現(xiàn)‘中間高融师,兩邊低,左右基本對稱的鐘形圖’則基本服從正態(tài)分析蚁吝,但是數(shù)據(jù)量過少等也可能影響結(jié)果導(dǎo)致很難呈現(xiàn)出標(biāo)準(zhǔn)的正態(tài)分布旱爆,如果是這種情況如果看見‘鐘形’也可以可以接受的。上圖可以看出窘茁,數(shù)據(jù)呈現(xiàn)的分布并不對稱怀伦,但是也出現(xiàn)近似‘鐘形’曲線,所以也可以勉強接受山林。
P-P圖
P-P圖是將觀察累積概率作為X軸房待,將正態(tài)累積概率作為Y軸,作散點圖驼抹,反映實際累積概率與理論累積概率的符合程度吴攒。如果散點分布近似‘對角線’則可以認為正態(tài)分布,從圖中可以看出數(shù)據(jù)散點分布不是很滿足要求砂蔽,但是也近似為‘對角線’所以勉強接受。
Q-Q圖
Q-Q圖和P-P圖功能一致署惯,分析上大致沒有區(qū)別左驾。
二、如何進行正態(tài)性檢驗
SPSSAU分析位置
(1)通用方法板塊
SPSSAU【通用方法】→描述/ SPSSAU【通用方法】→正態(tài)性檢驗极谊;
(2)可視化板塊
SPSSAU【可視化】→直方圖/ SPSSAU【可視化】→p-p/q-q圖诡右;
三、其它學(xué)習(xí)資料
正態(tài)性檢驗視頻學(xué)習(xí)資料:https://www.bilibili.com/video/av69017119/
直方圖分析方法視須解瀆:https://www.bilibili.com/video/av69465913/
P-P/Q-Q圖分析方法視頻解讀:https://www.bilibili.com/video/av69468707/
四轻猖、非正態(tài)數(shù)據(jù)怎么辦
針對上述幾種方法帆吻,正態(tài)性檢驗最為嚴謹,但是實際數(shù)據(jù)由于樣本量較少等原因咙边,即使數(shù)據(jù)總體正態(tài)但統(tǒng)計檢驗出來也顯示非正態(tài)猜煮,實用性沒有圖示法直觀且接受性沒有圖示法高,所以在分析中常常圖示法應(yīng)用的比較多败许,如果在分析中數(shù)據(jù)嚴重不正態(tài)應(yīng)該怎么辦呢王带?接下來進行說明。
(1)將數(shù)據(jù)取對數(shù)處理
注意:原數(shù)據(jù)需要數(shù)據(jù)大于0市殷,如果不滿足也可以取lg(x+k)等愕撰。
(2)開根號
(3)取倒數(shù)
當(dāng)數(shù)據(jù)波動較大時可以優(yōu)先考慮
(4)Johnson轉(zhuǎn)換
(5)?計量經(jīng)濟學(xué)中常用的BOX-COX變換
(6)移除可能異常值
通常情況下,數(shù)據(jù)經(jīng)過處理會變得相對“正態(tài)”一些;此步可使用SPSSAU的“生成變量”功能即可完成搞挣。
或者嚴重不符合正態(tài)分布無法進行分析也可以使用其他分析方法带迟,比如非參數(shù)檢驗等。