導(dǎo)語:數(shù)據(jù)分析師日常工作接觸離不開數(shù)據(jù)前计,甚至大部分工作時間都會面對數(shù)據(jù)所體現(xiàn)的各種問題蔬顾,單純看數(shù)據(jù)并沒有具體作用隅居,帶著業(yè)務(wù)目的去挖掘分析才會讓數(shù)據(jù)顯得更有價值峡碉,就需要學(xué)習(xí)描述統(tǒng)計分析的一些知識须揣。
本篇內(nèi)容主要根據(jù)3大主題盐股,去深入了解一下描述統(tǒng)計分析:
1、學(xué)習(xí)統(tǒng)計對我有什么意義
(1)首當(dāng)其沖的是耻卡,轉(zhuǎn)行數(shù)據(jù)分析師必要懂統(tǒng)計學(xué)原理:描述統(tǒng)計和推斷統(tǒng)計
(2)職場疯汁、生活、娛樂卵酪、創(chuàng)業(yè)都離不開統(tǒng)計學(xué)的魅力幌蚊,例如
你工作2年了,工資處于行業(yè)的什么水平溃卡;
你一生中每年摔倒的次數(shù)分布溢豆;
手機記錄著你一天使用每個APP的分布時間(該時候提高一下學(xué)習(xí)軟件占用的時間);
人的一生中平均所遇到的失敗次數(shù)塑煎;
(3)進一步了解世界變化的原理沫换,看世界的視角會有所變化
2、描述統(tǒng)計中常用描述數(shù)據(jù)集的指標(biāo)(平均數(shù)、四分位數(shù)讯赏、標(biāo)準(zhǔn)差垮兑、標(biāo)準(zhǔn)分)
學(xué)習(xí)這些指標(biāo)前,先來了解什么是描述統(tǒng)計學(xué):
描述統(tǒng)計學(xué)是研究如何取得反映客觀現(xiàn)象的數(shù)據(jù) 漱挎,并通過圖表形式對所搜集的數(shù)據(jù)進行加工處理和顯示系枪,進而通過綜合概括與分析得出反映客觀現(xiàn)象的規(guī)律性數(shù)量特征的一門學(xué)科。描述統(tǒng)計學(xué)內(nèi)容包括統(tǒng)計數(shù)據(jù)的收集方法磕谅、數(shù)據(jù)的加工處理方法私爷、數(shù)據(jù)的顯示方法、數(shù)據(jù)分布特征的概括與分析方法等膊夹。
平均數(shù)
平均數(shù)是統(tǒng)計學(xué)中最常用的統(tǒng)計量衬浑,用來表明資料中各觀測值相對集中較多的中心位置。
優(yōu)勢:在統(tǒng)計中算術(shù)平均數(shù)常用于表示統(tǒng)計對象的一般水平放刨,它是描述數(shù)據(jù)集中位置的一個統(tǒng)計量工秩。既可以用它來反映一組數(shù)據(jù)的一般情況、和平均水平进统,也可以用它進行不同組數(shù)據(jù)的比較助币,以看出組與組之間的差別。
局限性:易受極端值的影響,這里的極端值是指偏大或偏小數(shù),當(dāng)出現(xiàn)偏大數(shù)時,平均數(shù)將會被抬高,當(dāng)出現(xiàn)偏小數(shù)時,平均數(shù)會降低螟碎,例如:一間企業(yè)里眉菱,有老板,高層掉分,中層和基層俭缓,如果算這間企業(yè)平均月薪水平在30000,高層月薪100000叉抡,而作為基層的你拿著4000月薪尔崔,直接跟企業(yè)平均工資來對比,并無太大意義褥民;同時單純看企業(yè)平均月薪,也體現(xiàn)不到一個平均水平情況
公式:
四分位數(shù)
四分位數(shù)也稱四分位點洗搂,是指在統(tǒng)計學(xué)中把所有數(shù)值由小到大排列并分成四等份消返,處于三個分割點位置的數(shù)值。多應(yīng)用于統(tǒng)計學(xué)中的箱線圖繪制耘拇。它是一組數(shù)據(jù)排序后處于25%和75%位置上的值撵颊。四分位數(shù)是通過3個點將全部數(shù)據(jù)等分為4部分,其中每部分包含25%的數(shù)據(jù)惫叛。很顯然倡勇,中間的四分位數(shù)就是中位數(shù)(Q2),因此通常所說的四分位數(shù)是指處在25%位置上的數(shù)值(稱為下四分位數(shù)嘉涌,Q1)和處在75%位置上的數(shù)值(稱為上四分位數(shù)妻熊,Q3)
優(yōu)勢:與數(shù)據(jù)的排列位置有關(guān),某些數(shù)據(jù)的變動對它沒有影響夸浅;它是一組數(shù)據(jù)中間位置上的代表值,不受數(shù)據(jù)極端值的影響,常用于比較不同類別數(shù)據(jù)的整體情況和識別出可能的異常值扔役。
局限性:作為一組數(shù)據(jù)的代表,可靠性比較差,因為它只利用了部分數(shù)據(jù)帆喇;
實例1(當(dāng)項數(shù)為奇數(shù)時)-數(shù)據(jù)總量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的結(jié)果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11項
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6亿胸, Q3的位置=(11+1) × 0.75=9
Q1 = 15坯钦,Q2 = 40,Q3 = 43
實例2(當(dāng)項數(shù)為偶數(shù)時)-數(shù)據(jù)總量: 7, 15, 36, 39, 40, 41
由小到大排列的結(jié)果: 7, 15, 36, 39, 40, 41侈玄,一共6項
數(shù)列項為偶數(shù)項時婉刀,Q2為該組數(shù)列中間兩個數(shù)字和的平均值,Q1在第一與第二個數(shù)字之間序仙, Q3在第五與第六個數(shù)字之間路星,
Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5诱桂,Q3 = 0.25*41+0.75*40 = 40.25.
實例3(當(dāng)項數(shù)為偶數(shù)時)-分析就餐人員與餐館的距離洋丐,數(shù)據(jù)單位為公里
標(biāo)準(zhǔn)差
簡單來說,標(biāo)準(zhǔn)差是一組數(shù)據(jù)平均值分散程度的一種度量挥等。一個較大的標(biāo)準(zhǔn)差友绝,代表大部分數(shù)值和其平均值之間差異較大;一個較小的標(biāo)準(zhǔn)差肝劲,代表這些數(shù)值較接近平均值迁客。
優(yōu)勢:告訴我們數(shù)據(jù)的波動性有多大,例如兩個班的學(xué)生分數(shù)辞槐,標(biāo)準(zhǔn)差的大小能說明兩個班的學(xué)生成權(quán)績誰的波動大掷漱,也就是哪個班的學(xué)生成績穩(wěn)定些,標(biāo)準(zhǔn)差大的不穩(wěn)定些榄檬,標(biāo)準(zhǔn)差小的穩(wěn)定些
局限性:如果兩個數(shù)據(jù)差別比較大卜范,那么就無法比較,這時可以用變異系數(shù)可以彌補這個缺點
什么是變異系數(shù)呢鹿榜?
當(dāng)需要比較兩組數(shù)據(jù)離散程度大小的時候海雪,如果兩組數(shù)據(jù)的測量尺度相差太大,或者數(shù)據(jù)量綱的不同舱殿,直接使用標(biāo)準(zhǔn)差來進行比較不合適奥裸,此時就應(yīng)當(dāng)消除測量尺度和量綱的影響,而變異系數(shù)可以做到這一點沪袭,它是原始數(shù)據(jù)標(biāo)準(zhǔn)差與原始數(shù)據(jù)平均數(shù)的比湾宙。
標(biāo)準(zhǔn)差計算方式:
數(shù)據(jù)集:?
平均值:?
標(biāo)準(zhǔn)差?
變異系數(shù)計算方式:
標(biāo)準(zhǔn)分
也叫z分數(shù),是一種具有相等單位的量數(shù)。它是將原始分數(shù)與團體的平均數(shù)之差除以標(biāo)準(zhǔn)差所得的商數(shù)侠鳄,是以標(biāo)準(zhǔn)差為單位度量原始分數(shù)離開其平均數(shù)的分數(shù)之上多少個標(biāo)準(zhǔn)差埠啃,或是在平均數(shù)之下多少個標(biāo)準(zhǔn)差。
數(shù)據(jù)集:?
平均值:?
標(biāo)準(zhǔn)差:?
標(biāo)準(zhǔn)分:?
?(? 為具體的某個數(shù)值)
最后一張圖總結(jié)剛才所介紹4個指標(biāo)的大致描述
3畦攘、熟悉數(shù)據(jù)集霸妹,嘗試從數(shù)據(jù)集中分析哪些業(yè)務(wù)問題?
數(shù)據(jù)集鏈接:騰訊文檔?docs.qq.com
購買信息表:
(1)每個商品一級分類下知押,哪個二級分類的商品賣得更多
(2)每個分類下叹螟,爆款商品是哪一個(購買數(shù)量越大,就是爆款)
(3)每個一級分類台盯、二級分類罢绽、商品,在不同時間段購買情況的分布
(4)每個商品一級分類下静盅,二級分類的銷售分布情況
(5)找出每個分類下的淡旺季購買情況
嬰兒信息表:
(1)嬰兒總體的男女占比
(2)嬰兒不同年齡段的數(shù)量分布情況