數(shù)據(jù)分析之描述性分析的指標(biāo)匯總桨菜!

當(dāng)我們有了想要分析的原始數(shù)據(jù),首先需要對(duì)這些數(shù)據(jù)的基本情況有一個(gè)最初的了解和認(rèn)識(shí)捉偏,然后在這個(gè)基礎(chǔ)上進(jìn)行下一步更全面倒得,有針對(duì)性的分析。怎么了解數(shù)據(jù)的基本情況夭禽?有兩種方法霞掺,頻數(shù)分析和描述性分析。

根據(jù)數(shù)據(jù)的類型不同讹躯,可以選擇不同的方法菩彬,如果數(shù)據(jù)是定類的數(shù)據(jù),比如性別(男潮梯、女)骗灶,就可以選擇頻數(shù)分析。

而如果數(shù)據(jù)是定量數(shù)據(jù)秉馏,這時(shí)候就可以使用描述性分析來(lái)探索數(shù)據(jù)耙旦。

例如:需要研究消費(fèi)者對(duì)于某商品的購(gòu)買意愿情況,可用到描述性分析對(duì)樣本的年齡萝究、收入免都、消費(fèi)水平等各指標(biāo)進(jìn)行初步分析,以了解掌握消費(fèi)者總體的特征情況帆竹。

這篇文章主要分享描述性分析的相關(guān)指標(biāo)以及如何分析绕娘。

描述性分析就是用少數(shù)幾個(gè)數(shù)值(比如平均值、中位數(shù)等)描述一系列復(fù)雜數(shù)據(jù)所表達(dá)的信息馆揉,比如描述數(shù)據(jù)的整體分布情況业舍、波動(dòng)情況、數(shù)據(jù)異常情況升酣。

描述性統(tǒng)計(jì)指標(biāo)大致可分為三類:集中趨勢(shì)指標(biāo)舷暮、離散趨勢(shì)指標(biāo)和分布形態(tài)指標(biāo)。

(1)集中趨勢(shì)指標(biāo)

①眾數(shù)

眾數(shù)是值指出現(xiàn)次數(shù)最多的那個(gè)變量值噩茄。

比如有一組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為60 70 70 80 90 100下面,其中除了70分出現(xiàn)了兩次,其他值都只出現(xiàn)一次绩聘,那么70分就是出現(xiàn)次數(shù)最多了沥割,也就是眾數(shù)為70耗啦。

不過(guò)關(guān)于眾數(shù)還會(huì)出現(xiàn)下面的情況:

有的數(shù)據(jù)中會(huì)沒(méi)有眾數(shù)或者存在多個(gè)眾數(shù)。

沒(méi)有眾數(shù):比如這組數(shù)據(jù):一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 70 80 ?90 100机杜,它們每個(gè)分?jǐn)?shù)值都只出現(xiàn)一次帜讲,這種情況的數(shù)據(jù)就沒(méi)有眾數(shù)。

有多個(gè)眾數(shù):比如一個(gè)班學(xué)生分?jǐn)?shù)分別為:50 60 60 70 80 80 90 100椒拗,其中60分和80分這兩個(gè)值都出現(xiàn)了兩次似将,說(shuō)它們哪個(gè)是眾數(shù)呢?那就它倆都是眾數(shù)了蚀苛。

所以你要在一組數(shù)據(jù)中找眾數(shù)在验,可能會(huì)碰到三種情況,①?zèng)]有眾數(shù)堵未,②一個(gè)眾數(shù) ③兩個(gè)或多個(gè)眾數(shù)腋舌。所以它不像平均值,對(duì)一組數(shù)據(jù)求平均值渗蟹,就可以得到唯一的一個(gè)值块饺,這個(gè)算是眾數(shù)的一個(gè)特點(diǎn)——不唯一性。


②平均數(shù)

平均數(shù)又稱均值拙徽,是最常用的一個(gè)數(shù)據(jù)代表值刨沦,平均數(shù)既可以描述一組數(shù)據(jù)本身的整體平均情況,也可以用來(lái)作為不同組數(shù)據(jù)比較的一個(gè)標(biāo)準(zhǔn)膘怕。

根據(jù)樣本數(shù)據(jù)的不同格式,這里介紹兩種常見的算術(shù)平均數(shù)的計(jì)算方法召庞,一種是簡(jiǎn)單算術(shù)平均數(shù)岛心,另一種是加權(quán)算術(shù)平均數(shù)。

我們都知道在進(jìn)行數(shù)據(jù)分析時(shí)篮灼,通常有兩種數(shù)據(jù)格式忘古。一種是常規(guī)格式(非加權(quán)格式),另外一種是加權(quán)數(shù)據(jù)格式诅诱。分別說(shuō)明如下:

常規(guī)數(shù)據(jù)格式→簡(jiǎn)單算術(shù)平均數(shù)

第一種常規(guī)格式(非加權(quán)格式)髓堪,一行代表一個(gè)樣本,如果有100個(gè)樣本即為100行娘荡;一列代表一個(gè)屬性干旁;這類格式最為常見,而且此類數(shù)據(jù)格式可以做任何的分析炮沐。因?yàn)槠鋽y帶著所有最原始的數(shù)據(jù)信息争群。類似如下表:

此時(shí)使用簡(jiǎn)單算術(shù)平均數(shù)計(jì)算,公式:

這就是我們小學(xué)學(xué)的計(jì)算平均值的方法大年,把要算的這組數(shù)據(jù)的每個(gè)數(shù)相加换薄,然后除以樣本數(shù)玉雾。


加權(quán)數(shù)據(jù)格式→加權(quán)算術(shù)平均數(shù)

比如收集100個(gè)樣本,最終男性40名轻要,女性60名复旬,錄入的數(shù)據(jù)為匯總統(tǒng)計(jì)數(shù)據(jù),單獨(dú)一列(或多列)表示各類別的樣本數(shù)量冲泥;如下表:



這種數(shù)據(jù)格式就不是原始的數(shù)據(jù)驹碍,而是經(jīng)過(guò)分組整理了,使用加權(quán)算術(shù)平均數(shù)計(jì)算柏蘑,公式:


  • 極端值情況

從公式可以看出幸冻,平均值的計(jì)算與樣本的每一個(gè)數(shù)值都有關(guān),所以比較有代表性咳焚,但是在數(shù)據(jù)沒(méi)有極端值的情況下洽损,如果出現(xiàn)極端值,平均數(shù)就有可能不足以代表大多數(shù)樣本個(gè)案的性質(zhì)革半。

比如碑定,一個(gè)班的五位學(xué)生考試成績(jī)分別為:10 70 80 90 100。

根據(jù)數(shù)據(jù)格式又官,算一下它的算術(shù)平均值:

M(5位學(xué)生)=(10+70+80+90+100)/5

? =70

這五位學(xué)生的算術(shù)平均值是70分延刘,觀察原始數(shù)據(jù),有四位學(xué)生的分?jǐn)?shù)大于或等于70分六敬,只有一位學(xué)生分?jǐn)?shù)低于70分碘赖,判斷出來(lái),用70分來(lái)代表這組數(shù)據(jù)的集中情形是不恰當(dāng)?shù)耐夤埂T儆^察原始數(shù)據(jù)普泡,是10這個(gè)極端值,一下拉低了整個(gè)平均分审编,所以我們?nèi)サ暨@個(gè)10分的考試成績(jī)?cè)偎阋幌率O滤奈粚W(xué)生的算術(shù)平均值:

M(四位學(xué)生)= (70+80+90+100)/4

? =85

85分就可以比較好的代表4位學(xué)生的集中趨勢(shì)了撼班,兩位同學(xué)分?jǐn)?shù)低于85,兩位高于85分垒酬。


③中位數(shù)

中位數(shù)是樣本數(shù)據(jù)升序排列后的最中間的數(shù)值砰嘁,如果數(shù)據(jù)偏離較大,一般用中位數(shù)描述整體水平情況勘究。

中位數(shù)的計(jì)算分兩種情況:

  • 當(dāng)數(shù)據(jù)個(gè)數(shù)為奇數(shù)時(shí)矮湘,中位數(shù)即最中間的數(shù),如果有N個(gè)數(shù)乱顾,則中間數(shù)的位置為(N+1)/2

比如板祝,一個(gè)班的5位學(xué)生的成績(jī)分別為:30 70 40 50 80,中位數(shù)是什么呢走净?

①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 50 70 80券时。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(5+1)/2=3孤里。

③所以中位數(shù)就正好是處在第三個(gè)位置的分?jǐn)?shù)值,即50橘洞。

  • 當(dāng)數(shù)據(jù)個(gè)數(shù)為偶數(shù)時(shí)亥宿,中位數(shù)為中間兩個(gè)數(shù)的平均值襟雷,中間位置的算法是(N+1)/2。

比如,一個(gè)班有六位學(xué)生酱讶,考試成績(jī)分別是:30 70 80 40 90 60侈咕,中位數(shù)是什么呢怜俐?

①先把這五個(gè)分?jǐn)?shù)從小到大排序:30 40 60 70 80 90制圈。

②算出中位數(shù)應(yīng)該在排序后的數(shù)列中的位置:(6+1)=3.5。

③因?yàn)槲恢帽仨毷钦麛?shù)侯养,但現(xiàn)在是小數(shù)敦跌,所以為了公平,把在3.5左右兩個(gè)位置(第三位和第四位)都拿出來(lái)逛揩。取兩個(gè)位置的分?jǐn)?shù)值的平均值作為中位數(shù):(60+70)/2=65柠傍。

從中位數(shù)的計(jì)算方法可以看出,它和每個(gè)數(shù)據(jù)的位置有關(guān)系辩稽,所以如果有極端值出現(xiàn)惧笛,無(wú)論是特別大或特別小的極端值,都會(huì)因?yàn)閷?duì)所有樣本數(shù)據(jù)排序的這個(gè)動(dòng)作逞泄,而被排列到某個(gè)數(shù)列的兩端去患整,它不會(huì)有機(jī)會(huì)被排序到中間位置,而中位數(shù)是最中間位置的數(shù)喷众,所以極端值不會(huì)影響到中位數(shù)并级,這樣當(dāng)有極端值出現(xiàn),我們無(wú)法用平均值很好的描述數(shù)據(jù)情況侮腹,就可以使用中位數(shù)。


(2)離散趨勢(shì)

①極差(全距)

極差的計(jì)算很簡(jiǎn)單稻励,極差等于最大值減最小值父阻,因?yàn)橛?jì)算簡(jiǎn)單,概念清晰望抽,所以應(yīng)用比較廣泛加矛。

比如,有一組同齡男孩的身高(cm)分別為:90 95 100 105 110煤篙,算出極差斟览。

①首先找出最大值和最小值:90,110

②極差等于最大值減去最小值:110-90=20

  • 易受極端值影響

既然極差這個(gè)值是由一組數(shù)據(jù)中的最大值和最小值來(lái)確定的。相應(yīng)的就需要考慮一個(gè)問(wèn)題辑奈,數(shù)據(jù)的最大最小值是正常數(shù)據(jù)苛茂,算下來(lái)的極差對(duì)分析數(shù)據(jù)的離散特征的確是有意義的已烤;但假如數(shù)據(jù)存在極端值,極差會(huì)受到影響妓羊。


②四分位數(shù)

四分位數(shù)是把全部數(shù)據(jù)從小到大排列并分成四等份胯究,處于三個(gè)分割點(diǎn)位置的數(shù)值,即為四分位數(shù):

  • 上四分位數(shù)(數(shù)據(jù)從小到大排列排在第75%的數(shù)字躁绸,即最大的四分位數(shù))

  • 下四分位數(shù)(數(shù)據(jù)從小到大排列排在第25%位置的數(shù)字裕循,即最小的四分位數(shù))

  • 中間的四分位數(shù)即為中位數(shù)

四分位數(shù)可以很容易地識(shí)別異常值。多應(yīng)用于統(tǒng)計(jì)圖中的箱線圖繪制净刮,箱線圖就是根據(jù)四分位數(shù)做的圖剥哑。

四分位數(shù)和中位數(shù)的計(jì)算方法一樣,不同是中位數(shù)要找的是位于排序數(shù)列被分為兩半后最中間的數(shù)淹父,四分位數(shù)要找的是數(shù)據(jù)被分為四段株婴,從左到右在1/4處的數(shù)和從右到左找在1/4處的數(shù)。

③方差與標(biāo)準(zhǔn)差

方差是每個(gè)數(shù)據(jù)值與全體數(shù)據(jù)的平均數(shù)差的平方的平均數(shù)弹灭。標(biāo)準(zhǔn)差是對(duì)方差開方督暂。方差與標(biāo)準(zhǔn)方差與標(biāo)準(zhǔn)差反映一組數(shù)據(jù)的平均離散水平。方差小穷吮,表示數(shù)據(jù)集比較集中逻翁,波動(dòng)性小,方差大捡鱼,表示數(shù)據(jù)集比較分散八回,波動(dòng)性大。


  • 方差計(jì)算公式:


  • 標(biāo)準(zhǔn)差是方差的正平方根:




如:一組數(shù)據(jù) 2驾诈,5缠诅,8。 ?計(jì)算方差和標(biāo)準(zhǔn)差乍迄。

先求平均數(shù) (2+5+8)/3=5

然后方差:把數(shù)據(jù)帶入方差公式得到

標(biāo)準(zhǔn)差:給方差開平方

④變異系數(shù)

變異系數(shù)管引,也叫離散系數(shù),是標(biāo)準(zhǔn)差和平均值的比值闯两。用于觀察指標(biāo)單位不同時(shí)褥伴,如身高與體重的變異程度的比較:或均數(shù)相差較大時(shí),如兒童身高與成人身高變異程度的比較漾狼。變異系數(shù)大重慢,說(shuō)明數(shù)據(jù)的離散程度大。

變異系數(shù)計(jì)算公式:

如:某地7歲男孩身高的均數(shù)為123.10cm逊躁,標(biāo)準(zhǔn)差為4.71cm似踱;體重均數(shù)為22.92kg,標(biāo)準(zhǔn)差為226kg,此處不能因?yàn)?.71>2.26,就說(shuō)身高的變異比體重要大核芽,而要考慮到兩者的單位不同囚戚,無(wú)法直接比較,故采用變異系數(shù)來(lái)解決這類問(wèn)題狞洋,它實(shí)質(zhì)上是一個(gè)相對(duì)變異指標(biāo)弯淘,無(wú)單位。


上述7歲男孩身高吉懊、體重的變異系數(shù)分別為

身高:CV=(4.71/123.10)×100%=3.83%

體重:CV=(2.26/22.29)×100%=10.14%

可得7歲男孩身高比體重的變異小庐橙。


(3)分布趨勢(shì)

①峰度:描述正態(tài)分布中曲線峰頂尖哨程度的指標(biāo)。峰度系數(shù)>0借嗽,則兩側(cè)極端數(shù)據(jù)較少态鳖,比正太分布更高更瘦,呈尖哨峰分布恶导;峰度系數(shù)<0浆竭,則兩側(cè)極端數(shù)據(jù)較多,比正態(tài)分布更矮更胖惨寿,呈平闊峰分布邦泄。

②偏度:以正態(tài)分布為標(biāo)準(zhǔn)描述數(shù)據(jù)對(duì)稱性的指標(biāo)。偏度系數(shù)=0裂垦,則分布對(duì)稱顺囊;偏度系數(shù)>0,則頻數(shù)分布的高峰向左偏移蕉拢,長(zhǎng)尾向右延伸特碳,呈正偏態(tài)分布;偏度系數(shù)<0晕换,則頻數(shù)分布的高峰向右偏移午乓,長(zhǎng)尾向左延伸,呈負(fù)偏態(tài)分布闸准。

使用SPSSAU可以一鍵快速完成對(duì)數(shù)據(jù)的描述性分析益愈,得出描述性分析的結(jié)果。

(1)方法

使用【通用方法】-【描述】夷家,選擇要分析的分析項(xiàng)腕唧,【開始分析】。如下圖

SPSSAU 描述分析


(2)結(jié)果:

①自動(dòng)輸出結(jié)果表格瘾英,論文標(biāo)準(zhǔn)格式(三線表)

  • 基礎(chǔ)指標(biāo)


  • 深入指標(biāo)


  • 百分位數(shù)

②自動(dòng)輸出可視化圖表。

SPSSAU目前提供常用的圖形颂暇,包括折線圖缺谴、柱形圖、條形圖、雷達(dá)圖湿蛔,方便下載使用膀曾。

  • 折線圖

  • 柱形圖

  • 條形圖

  • 雷達(dá)圖

另外圖形的樣式也可通過(guò)下方【樣式】更改:


SPSSAU數(shù)據(jù)科學(xué)分析平臺(tái)-讓數(shù)據(jù)分析非常簡(jiǎn)單,登錄SPSSAU官網(wǎng)了解更多阳啥!


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末添谊,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子察迟,更是在濱河造成了極大的恐慌斩狱,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扎瓶,死亡現(xiàn)場(chǎng)離奇詭異所踊,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)概荷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門秕岛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人误证,你說(shuō)我怎么就攤上這事继薛。” “怎么了愈捅?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵遏考,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我改鲫,道長(zhǎng)诈皿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任像棘,我火速辦了婚禮稽亏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘缕题。我一直安慰自己截歉,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布烟零。 她就那樣靜靜地躺著瘪松,像睡著了一般。 火紅的嫁衣襯著肌膚如雪锨阿。 梳的紋絲不亂的頭發(fā)上宵睦,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音墅诡,去河邊找鬼壳嚎。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的烟馅。 我是一名探鬼主播说庭,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼郑趁!你這毒婦竟也來(lái)了刊驴?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤寡润,失蹤者是張志新(化名)和其女友劉穎捆憎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體悦穿,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡攻礼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了栗柒。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片礁扮。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瞬沦,靈堂內(nèi)的尸體忽然破棺而出太伊,到底是詐尸還是另有隱情,我是刑警寧澤逛钻,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布僚焦,位于F島的核電站,受9級(jí)特大地震影響曙痘,放射性物質(zhì)發(fā)生泄漏芳悲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一边坤、第九天 我趴在偏房一處隱蔽的房頂上張望名扛。 院中可真熱鬧,春花似錦茧痒、人聲如沸肮韧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)弄企。三九已至,卻和暖如春区拳,著一層夾襖步出監(jiān)牢的瞬間拘领,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工樱调, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留院究,地道東北人洽瞬。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像业汰,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子菩颖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 描述性統(tǒng)計(jì)描述性統(tǒng)計(jì)是用來(lái)概括样漆、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計(jì)方法晦闰。通過(guò)統(tǒng)計(jì)處理可以簡(jiǎn)潔地用幾個(gè)統(tǒng)...
    AnthRax閱讀 25,590評(píng)論 -1 5
  • 這是python數(shù)據(jù)分析系列文章放祟,從統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)到機(jī)器學(xué)習(xí),將跟隨居士的學(xué)習(xí)教程持續(xù)更新呻右。這一篇主要描述數(shù)據(jù)集中...
    數(shù)據(jù)fengheng閱讀 2,032評(píng)論 0 2
  • 統(tǒng)計(jì)學(xué)包括描述性統(tǒng)計(jì)和推論統(tǒng)計(jì)跪妥。 描述性統(tǒng)計(jì)的含義——"A descriptive statistic is a ...
    餅人閱讀 5,407評(píng)論 0 3
  • 水平的描述 平均數(shù)(mean)也稱為均值,常用的統(tǒng)計(jì)量之一声滥。消除了觀測(cè)值的隨機(jī)波動(dòng)眉撵,但易受極端值的影響。根據(jù)總體數(shù)...
    EvanForEver閱讀 2,316評(píng)論 0 0
  • 16宿命:用概率思維提高你的勝算 以前的我是風(fēng)險(xiǎn)厭惡者落塑,不喜歡去冒險(xiǎn)纽疟,但是人生放棄了冒險(xiǎn),也就放棄了無(wú)數(shù)的可能憾赁。 ...
    yichen大刀閱讀 6,052評(píng)論 0 4