當(dāng)我們有了想要分析的原始數(shù)據(jù),首先需要對(duì)這些數(shù)據(jù)的基本情況有一個(gè)最初的了解和認(rèn)識(shí)捉偏,然后在這個(gè)基礎(chǔ)上進(jìn)行下一步更全面倒得,有針對(duì)性的分析。怎么了解數(shù)據(jù)的基本情況夭禽?有兩種方法霞掺,頻數(shù)分析和描述性分析。
根據(jù)數(shù)據(jù)的類型不同讹躯,可以選擇不同的方法菩彬,如果數(shù)據(jù)是定類的數(shù)據(jù),比如性別(男潮梯、女)骗灶,就可以選擇頻數(shù)分析。
而如果數(shù)據(jù)是定量數(shù)據(jù)秉馏,這時(shí)候就可以使用描述性分析來(lái)探索數(shù)據(jù)耙旦。
例如:需要研究消費(fèi)者對(duì)于某商品的購(gòu)買意愿情況,可用到描述性分析對(duì)樣本的年齡萝究、收入免都、消費(fèi)水平等各指標(biāo)進(jìn)行初步分析,以了解掌握消費(fèi)者總體的特征情況帆竹。
這篇文章主要分享描述性分析的相關(guān)指標(biāo)以及如何分析绕娘。
描述性分析就是用少數(shù)幾個(gè)數(shù)值(比如平均值、中位數(shù)等)描述一系列復(fù)雜數(shù)據(jù)所表達(dá)的信息馆揉,比如描述數(shù)據(jù)的整體分布情況业舍、波動(dòng)情況、數(shù)據(jù)異常情況升酣。
描述性統(tǒng)計(jì)指標(biāo)大致可分為三類:集中趨勢(shì)指標(biāo)舷暮、離散趨勢(shì)指標(biāo)和分布形態(tài)指標(biāo)。
(1)集中趨勢(shì)指標(biāo)
①眾數(shù)
眾數(shù)是值指出現(xiàn)次數(shù)最多的那個(gè)變量值噩茄。
比如有一組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為60 70 70 80 90 100下面,其中除了70分出現(xiàn)了兩次,其他值都只出現(xiàn)一次绩聘,那么70分就是出現(xiàn)次數(shù)最多了沥割,也就是眾數(shù)為70耗啦。
不過(guò)關(guān)于眾數(shù)還會(huì)出現(xiàn)下面的情況:
有的數(shù)據(jù)中會(huì)沒(méi)有眾數(shù)或者存在多個(gè)眾數(shù)。
沒(méi)有眾數(shù):比如這組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 70 80 ?90 100机杜,它們每個(gè)分?jǐn)?shù)值都只出現(xiàn)一次帜讲,這種情況的數(shù)據(jù)就沒(méi)有眾數(shù)。
有多個(gè)眾數(shù):比如一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 60 70 80 80 90 100椒拗,其中60分和80分這兩個(gè)值都出現(xiàn)了兩次似将,說(shuō)它們哪個(gè)是眾數(shù)呢?那就它倆都是眾數(shù)了蚀苛。
所以你要在一組數(shù)據(jù)中找眾數(shù)在验,可能會(huì)碰到三種情況,①?zèng)]有眾數(shù)堵未,②一個(gè)眾數(shù) ③兩個(gè)或多個(gè)眾數(shù)腋舌。所以它不像平均值,對(duì)一組數(shù)據(jù)求平均值渗蟹,就可以得到唯一的一個(gè)值块饺,這個(gè)算是眾數(shù)的一個(gè)特點(diǎn)——不唯一性。
②平均數(shù)
平均數(shù)又稱均值拙徽,是最常用的一個(gè)數(shù)據(jù)代表值刨沦,平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)膘怕。
根據(jù)樣本數(shù)據(jù)的不同格式,這里介紹兩種常見的算術(shù)平均數(shù)的計(jì)算方法召庞,一種是簡(jiǎn)單算術(shù)平均數(shù)岛心,另一種是加權(quán)算術(shù)平均數(shù)。
我們都知道在進(jìn)行數(shù)據(jù)分析時(shí)篮灼,通常有兩種數(shù)據(jù)格式忘古。一種是常規(guī)格式(非加權(quán)格式),另外一種是加權(quán)數(shù)據(jù)格式诅诱。分別說(shuō)明如下:
常規(guī)數(shù)據(jù)格式→簡(jiǎn)單算術(shù)平均數(shù)
第一種常規(guī)格式(非加權(quán)格式)髓堪,一行代表一個(gè)樣本,如果有100個(gè)樣本即為100行娘荡;一列代表一個(gè)屬性干旁;這類格式最為常見,而且此類數(shù)據(jù)格式可以做任何的分析炮沐。因?yàn)槠鋽y帶著所有最原始的數(shù)據(jù)信息争群。類似如下表:
此時(shí)使用簡(jiǎn)單算術(shù)平均數(shù)計(jì)算,公式:
這就是我們小學(xué)學(xué)的計(jì)算平均值的方法大年,把要算的這組數(shù)據(jù)的每個(gè)數(shù)相加换薄,然后除以樣本數(shù)玉雾。
加權(quán)數(shù)據(jù)格式→加權(quán)算術(shù)平均數(shù)
比如收集100個(gè)樣本,最終男性40名轻要,女性60名复旬,錄入的數(shù)據(jù)為匯總統(tǒng)計(jì)數(shù)據(jù),單獨(dú)一列(或多列)表示各類別的樣本數(shù)量冲泥;如下表:
這種數(shù)據(jù)格式就不是原始的數(shù)據(jù)驹碍,而是經(jīng)過(guò)分組整理了,使用加權(quán)算術(shù)平均數(shù)計(jì)算柏蘑,公式:
極端值情況
從公式可以看出幸冻,平均值的計(jì)算與樣本的每一個(gè)數(shù)值都有關(guān),所以比較有代表性咳焚,但是在數(shù)據(jù)沒(méi)有極端值的情況下洽损,如果出現(xiàn)極端值,平均數(shù)就有可能不足以代表大多數(shù)樣本個(gè)案的性質(zhì)革半。
比如碑定,一個(gè)班的五位學(xué)生考試成績(jī)分別為:10 70 80 90 100。
根據(jù)數(shù)據(jù)格式又官,算一下它的算術(shù)平均值:
M(5位學(xué)生)=(10+70+80+90+100)/5
? =70
這五位學(xué)生的算術(shù)平均值是70分延刘,觀察原始數(shù)據(jù),有四位學(xué)生的分?jǐn)?shù)大于或等于70分六敬,只有一位學(xué)生分?jǐn)?shù)低于70分碘赖,判斷出來(lái),用70分來(lái)代表這組數(shù)據(jù)的集中情形是不恰當(dāng)?shù)耐夤埂T儆^察原始數(shù)據(jù)普泡,是10這個(gè)極端值,一下拉低了整個(gè)平均分审编,所以我們?nèi)サ暨@個(gè)10分的考試成績(jī)?cè)偎阋幌率O滤奈粚W(xué)生的算術(shù)平均值:
M(四位學(xué)生)= (70+80+90+100)/4
? =85
85分就可以比較好的代表4位學(xué)生的集中趨勢(shì)了撼班,兩位同學(xué)分?jǐn)?shù)低于85,兩位高于85分垒酬。
③中位數(shù)
中位數(shù)是樣本數(shù)據(jù)升序排列后的最中間的數(shù)值砰嘁,如果數(shù)據(jù)偏離較大,一般用中位數(shù)描述整體水平情況勘究。
中位數(shù)的計(jì)算分兩種情況:
當(dāng)數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí)矮湘,中位數(shù)即最中間的數(shù),如果有N個(gè)數(shù)乱顾,則中間數(shù)的位置為(N+1)/2
比如板祝,一個(gè)班的5位學(xué)生的成績(jī)分別為:30 70 40 50 80,中位數(shù)是什么呢走净?
①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 50 70 80券时。
②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(5+1)/2=3孤里。
③所以中位數(shù)就正好是處在第三個(gè)位置的分?jǐn)?shù)值,即50橘洞。
當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí)亥宿,中位數(shù)為中間兩個(gè)數(shù)的平均值襟雷,中間位置的算法是(N+1)/2。
比如,一個(gè)班有六位學(xué)生酱讶,考試成績(jī)分別是:30 70 80 40 90 60侈咕,中位數(shù)是什么呢怜俐?
①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 60 70 80 90制圈。
②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(6+1)=3.5。
③因?yàn)槲恢帽仨毷钦麛?shù)侯养,但現(xiàn)在是小數(shù)敦跌,所以為了公平,把在3.5左右兩個(gè)位置(第三位和第四位)都拿出來(lái)逛揩。取兩個(gè)位置的分?jǐn)?shù)值的平均值作為中位數(shù):(60+70)/2=65柠傍。
從中位數(shù)的計(jì)算方法可以看出,它和每個(gè)數(shù)據(jù)的位置有關(guān)系辩稽,所以如果有極端值出現(xiàn)惧笛,無(wú)論是特別大或特別小的極端值,都會(huì)因?yàn)閷?duì)所有樣本數(shù)據(jù)排序的這個(gè)動(dòng)作逞泄,而被排列到某個(gè)數(shù)列的兩端去患整,它不會(huì)有機(jī)會(huì)被排序到中間位置,而中位數(shù)是最中間位置的數(shù)喷众,所以極端值不會(huì)影響到中位數(shù)并级,這樣當(dāng)有極端值出現(xiàn),我們無(wú)法用平均值很好的描述數(shù)據(jù)情況侮腹,就可以使用中位數(shù)。
(2)離散趨勢(shì)
①極差(全距)
極差的計(jì)算很簡(jiǎn)單稻励,極差等于最大值減最小值父阻,因?yàn)橛?jì)算簡(jiǎn)單,概念清晰望抽,所以應(yīng)用比較廣泛加矛。
比如,有一組同齡男孩的身高(cm)分別為:90 95 100 105 110煤篙,算出極差斟览。
①首先找出最大值和最小值:90,110
②極差等于最大值減去最小值:110-90=20
易受極端值影響
既然極差這個(gè)值是由一組數(shù)據(jù)中的最大值和最小值來(lái)確定的。相應(yīng)的就需要考慮一個(gè)問(wèn)題辑奈,數(shù)據(jù)的最大最小值是正常數(shù)據(jù)苛茂,算下來(lái)的極差對(duì)分析數(shù)據(jù)的離散特征的確是有意義的已烤;但假如數(shù)據(jù)存在極端值,極差會(huì)受到影響妓羊。
②四分位數(shù)
四分位數(shù)是把全部數(shù)據(jù)從小到大排列并分成四等份胯究,處于三個(gè)分割點(diǎn)位置的數(shù)值,即為四分位數(shù):
上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字躁绸,即最大的四分位數(shù))
下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字裕循,即最小的四分位數(shù))
中間的四分位數(shù)即為中位數(shù)
四分位數(shù)可以很容易地識(shí)別異常值。多應(yīng)用于統(tǒng)計(jì)圖中的箱線圖繪制净刮,箱線圖就是根據(jù)四分位數(shù)做的圖剥哑。
四分位數(shù)和中位數(shù)的計(jì)算方法一樣,不同是中位數(shù)要找的是位于排序數(shù)列被分為兩半后最中間的數(shù)淹父,四分位數(shù)要找的是數(shù)據(jù)被分為四段株婴,從左到右在1/4處的數(shù)和從右到左找在1/4處的數(shù)。
③方差與標(biāo)準(zhǔn)差
方差是每個(gè)數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)弹灭。標(biāo)準(zhǔn)差是對(duì)方差開方督暂。方差與標(biāo)準(zhǔn)方差與標(biāo)準(zhǔn)差反映一組數(shù)據(jù)的平均離散水平。方差小穷吮,表示數(shù)據(jù)集比較集中逻翁,波動(dòng)性小,方差大捡鱼,表示數(shù)據(jù)集比較分散八回,波動(dòng)性大。
方差計(jì)算公式:
標(biāo)準(zhǔn)差是方差的正平方根:
如:一組數(shù)據(jù) 2驾诈,5缠诅,8。 ?計(jì)算方差和標(biāo)準(zhǔn)差乍迄。
先求平均數(shù) (2+5+8)/3=5
然后方差:把數(shù)據(jù)帶入方差公式得到
標(biāo)準(zhǔn)差:給方差開平方
④變異系數(shù)
變異系數(shù)管引,也叫離散系數(shù),是標(biāo)準(zhǔn)差和平均值的比值闯两。用于觀察指標(biāo)單位不同時(shí)褥伴,如身高與體重的變異程度的比較:或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較漾狼。變異系數(shù)大重慢,說(shuō)明數(shù)據(jù)的離散程度大。
變異系數(shù)計(jì)算公式:
如:某地7歲男孩身高的均數(shù)為123.10cm逊躁,標(biāo)準(zhǔn)差為4.71cm似踱;體重均數(shù)為22.92kg,標(biāo)準(zhǔn)差為226kg,此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大核芽,而要考慮到兩者的單位不同囚戚,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類問(wèn)題狞洋,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo)弯淘,無(wú)單位。
上述7歲男孩身高吉懊、體重的變異系數(shù)分別為
身高:CV=(4.71/123.10)×100%=3.83%
體重:CV=(2.26/22.29)×100%=10.14%
可得7歲男孩身高比體重的變異小庐橙。
(3)分布趨勢(shì)
①峰度:描述正態(tài)分布中曲線峰頂尖哨程度的指標(biāo)。峰度系數(shù)>0借嗽,則兩側(cè)極端數(shù)據(jù)較少态鳖,比正太分布更高更瘦,呈尖哨峰分布恶导;峰度系數(shù)<0浆竭,則兩側(cè)極端數(shù)據(jù)較多,比正態(tài)分布更矮更胖惨寿,呈平闊峰分布邦泄。
②偏度:以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱性的指標(biāo)。偏度系數(shù)=0裂垦,則分布對(duì)稱顺囊;偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移蕉拢,長(zhǎng)尾向右延伸特碳,呈正偏態(tài)分布;偏度系數(shù)<0晕换,則頻數(shù)分布的高峰向右偏移午乓,長(zhǎng)尾向左延伸,呈負(fù)偏態(tài)分布闸准。
使用SPSSAU可以一鍵快速完成對(duì)數(shù)據(jù)的描述性分析益愈,得出描述性分析的結(jié)果。
(1)方法
使用【通用方法】-【描述】夷家,選擇要分析的分析項(xiàng)腕唧,【開始分析】。如下圖
SPSSAU 描述分析
(2)結(jié)果:
①自動(dòng)輸出結(jié)果表格瘾英,論文標(biāo)準(zhǔn)格式(三線表)
基礎(chǔ)指標(biāo)
深入指標(biāo)
百分位數(shù)
②自動(dòng)輸出可視化圖表。
SPSSAU目前提供常用的圖形颂暇,包括折線圖缺谴、柱形圖、條形圖、雷達(dá)圖湿蛔,方便下載使用膀曾。
折線圖
柱形圖
條形圖
雷達(dá)圖
另外圖形的樣式也可通過(guò)下方【樣式】更改:
SPSSAU數(shù)據(jù)科學(xué)分析平臺(tái)-讓數(shù)據(jù)分析非常簡(jiǎn)單,登錄SPSSAU官網(wǎng)了解更多阳啥!