題目
數(shù)據(jù)背景:有A删掀、B翔冀、C、D四個地區(qū)披泪,不同地區(qū)的銷售量不一樣纤子,現(xiàn)抽取了不同時間段內(nèi)每個地區(qū)的銷售量,試解決:
1款票、每個地區(qū)間的銷售量是否相同控硼?
2、不同月份的銷售量是否相同艾少?
3卡乾、不同時間與地區(qū)的銷售量是否相同?
date A B C D
0 2019-12-01 8087 5923 9299 6287
1 2019-12-02 7851 5617 8984 6078
2 2019-12-03 4679 5481 8461 6735
3 2019-12-04 4296 6473 8407 1749
4 2019-01-04 7875 1688 5371 6377
5 2019-01-05 7271 6078 5923 6161
6 2019-01-06 9299 6735 5617 6861
7 2019-01-07 1749 2588 8407 1782
8 2019-03-08 3196 2595 9299 6820
9 2019-03-09 1220 1132 9627 6591
1缚够、每個地區(qū)間的銷售量是否相同幔妨?
用單因素方差分析鹦赎,先假設(shè),再構(gòu)造統(tǒng)計量误堡,最后進(jìn)行決策
(1)假設(shè)H0钙姊,即假設(shè)樣本A,B,C,D的均值相同,不同地區(qū)無顯著性影響埂伦。H1:樣本A,B,C,D均值不全相等煞额,有顯著性影響。
?(2)構(gòu)造統(tǒng)計量沾谜,因素為地區(qū)膊毁,水平為4,因變量為銷售量基跑。
import numpy as np
import scipy.stats as stats
import pandas as pd
#讀取數(shù)據(jù)
data=pd.read_excel("/Downloads/1銷售數(shù)據(jù).xlsx")
print(data.describe()) #統(tǒng)計數(shù)量婚温、均值、標(biāo)準(zhǔn)差媳否、上下四分位
print(data.mean().sum()/4) #輸出對應(yīng)的總體均值
A B C D
count 11.000000 11.000000 11.000000 11.000000
mean 5150.454545 4329.909091 7457.909091 5588.727273
std 3049.346368 2079.064090 2234.142809 1912.142311
min 1132.000000 1132.000000 2642.000000 1749.000000
25% 2472.500000 2591.500000 5770.000000 6056.500000
50% 4679.000000 5481.000000 8407.000000 6287.000000
75% 7863.000000 6000.500000 9141.500000 6663.000000
max 9299.000000 6735.000000 9627.000000 6861.000000
5631.75
總平方和SST=95533231.1875+61867762.1875+86597368.1875+36583242.6875
組間平方和SSA=57894573.5196352
組內(nèi)平方和SSE=222687030.727273
MSA=SSA/(4-1)=19298191.17 , MSE =SSE/(N-K)=31812432.96,
檢驗統(tǒng)計量F=MSA/MSE=0.606624184 , 在給定顯著性水平a=0.05,在F分布表中查找分子自由度df1=4-1=3,分母自由度df2=n-k=11-4=7,相應(yīng)的臨界值Fa(3,7)=4.347,F<Fa 則不拒絕原假設(shè)H0,即認(rèn)為各地區(qū)對銷售量影響不顯著栅螟。
問題2. 不同月份銷售量不同?
1)假設(shè)H0:各月的均值相等篱竭,即各個月份對銷售量無顯著影響力图;H1:各個月份均值不完全相同,即不同月份對銷售量有顯著影響掺逼。
(2)構(gòu)造和計算統(tǒng)計量
(所有數(shù)據(jù)按照月份分組,2019年3月數(shù)據(jù)少4行吃媒,因此保留前12行分析數(shù)據(jù))
1)計算總體均值:5898.5,水平為3
2)總平方和SST=205887565
3)組間平方和SSA=39687746
4)組內(nèi)平方和SSE=SST?SSA=205887565?39687746=166199819
5)MSA=SSA/(3-1)=19843873
MSE=SSE/(n-k)=SSE/(12-3)=18466646.56
6)F=MSA\MSE=1.074579131
(3)決策分析吕喘,F(xiàn)<Fa=Fa(2,9)=4.256赘那,不拒絕原假設(shè),即各個月份影響不顯著氯质。
問題3. 不同時間與地區(qū)的銷售量是否相同募舟?
這里按照無交互作用的雙因素方差分析方法
(1)假設(shè)(2)構(gòu)造統(tǒng)計量和計算(3)決策
(1)行因素:H0:假設(shè)日期對銷售量無顯著影響;H1:日期對銷售量有顯著影響;
列因素:H0:假設(shè)地區(qū)對銷售量無顯著影響H1:地區(qū)對銷售量有顯著影響列因素闻察。
(2)構(gòu)造統(tǒng)計量并計算:
(3)從上表中可以看出Fr<Fa拱礁,F(xiàn)c<Fa,分別從地區(qū)蜓陌、日期都對銷售量影響不顯著觅彰。
參考:《統(tǒng)計學(xué)(第七版)》賈俊平
https://blog.csdn.net/long636/article/details/104437179