商務與經(jīng)濟統(tǒng)計——方差分析

1. 基礎概念及其定義

1.0 方差分析

方差分析背后的邏輯是以共同總體方差 \sigma^2 的兩個獨立的估計量為基礎奉件。 \sigma^2 的一個估計量是以樣本均值它們自己之間的變異性為依據(jù), \sigma^2 的另一個估計是每個樣本內部數(shù)據(jù)的變異性為依據(jù)惭载。通過比較 \sigma^2 的這兩個估計量泊藕,我們能夠確定總體均值是否相等。

1.1 關鍵術語

  • 因子(factor):即自變量。
  • 處理(treatments):因子的不同水平胞谭。
  • 單因子試驗:只涉及有 k 個總體或處理的一個因子的試驗垃杖。
  • 響應變量:即應變量男杈。
  • 完全隨機化設計:處理被隨機地指派給實驗單元的一種試驗設計。

1.2 方差分析的假定

  • 對每個總體调俘,響應變量服從正態(tài)分布伶棒。
  • 響應變量的方差對所有總體都是相同的。
  • 觀測值必須是獨立的彩库。

1.3 完全隨機化設計的重要計算公式

假定從 k 個總體或處理中的每一個抽取一個容量為 n_j 的簡單隨機樣本肤无,對于得到的樣本數(shù)據(jù),令 x_{ij} 代表第 j 個處理的第 i 個觀測值骇钦;n_j 代表第 j 個處理的觀測值個數(shù)宛渐;\bar{x}_j 代表第 j 個處理的均值;s_j^2 代表第 j 個處理的樣本方差眯搭;s_j 代表第 j 個處理的樣本標準差窥翩。

j 個處理的樣本均值與樣本方差的計算公式如下:
\bar{x}_j = \frac{\sum_{i=1}^{n_j}x_{ij}}{n_j} \tag{1}
s_j^2 = \frac{\sum_{i=1}^{n_j}(x_{ij} - \bar{x}_j)^2}{n_j-1} \tag{2}

總樣本均值的計算公式如下:
\bar{\bar{x}} = \frac{\sum_{j=1}^{k}\sum_{i=1}^{n_j}x_{ij}}{n_T} \tag{3}
其中 n_T = n_1 + n_2 + \cdots + n_k
若每個樣本的容量是相等的,都為 n鳞仙,則 n_T = kn寇蚊,則 (3) 式簡化為
\bar{\bar{x}} = \frac{\sum_{j=1}^{k}\sum_{i=1}^{n_j}x_{ij}}{kn} = \frac{\sum_{j=1}^{k}\sum_{i=1}^{n_j}\frac{x_{ij}}{n}}{k} = \frac{\sum_{j=1}^{k}\bar{x}_j}{k} \tag{4}

均方處理(mean square due to treatment, MSTR):
MSTR = \frac{SSTR}{k-1} \tag{5}
其中,SSTR(sum of squares due to treatment)的計算公式如下:
SSTR = \sum_{j=1}^{k}n_j(\bar{x}_j - \bar{\bar{x}})^2 \tag{6}
H_0 為真棍好,則 MSTR 給出了 \sigma^2 的一個無偏估計仗岸。但是,如果 k 個總體均值不相等借笙,則 MSTR 就不是\sigma^2 的無偏估計扒怖;在這種情形下, MSTR 將會高估總體方差 \sigma^2 业稼。

均方誤差(mean square due to error, MSE
MSE = \frac{SSE}{n_T - k} \tag{7}
其中盗痒,SSE(sum of squares due to error)的計算公式如下:
SSE = \sum_{j=1}^{k}(n_j-1)s_j^2 \tag{8}
MSE 是以每個處理內部的變異性為依據(jù),它不受原假設是否為真的影響盼忌,因此积糯,MSE 永遠給出 \sigma^2 的一個無偏估計。

總平方和(SST
SST = \sum_{j=1}^{k}\sum_{i=1}^{n_j}(x_{ij} - \bar{\bar{x}})^2 \tag{9}
SST = SSTR + SSE \tag{10}

1.4 第一類錯誤概率

  • 比較方式的第 I 類錯誤概率:與單個兩兩成對比較相聯(lián)系的犯第 I 類錯誤的概率谦纱。
  • 實驗方式的第 I 類錯誤概率:若干個兩兩比較中至少有一個犯第 I 類錯誤的概率看成。
  • 控制總的犯實驗方式第 I 類錯誤概率的 Bonferroni 方法:如果我們想要檢驗 C 個成對的兩兩比較,并希望總的犯實驗方式第 I 類錯誤的最大概率為 \alpha_{EW}跨嘉,那么犯比較方式錯誤概率為 \alpha_{EW}/C川慌。

1.5 隨機化區(qū)組設計的重要計算公式

k 代表處理個數(shù),b 代表區(qū)組個數(shù),n_T 代表總樣本容量(n_T = kb)梦重, x_{ij} 代表在區(qū)組 i 中對應于處理 j 的觀測值兑燥,\bar{x}_{\cdot j} 代表第 j 個處理的樣本均值,\bar{x}_{i \cdot } 代表第 i 個區(qū)組的樣本均值琴拧,\bar{\bar{x}} 代表總樣本均值降瞳。
1 步:計算總平方和(SST
SST = \sum_{i=1}^\sum_{j=1}^{k}(x_{ij} - \bar{\bar{x}})^2
2 步:計算處理平方和(SSTR
SSTR = b \sum_{j=1}^{k}(\bar{x}_{\cdot j} - \bar{\bar{x}})^2
3 步:計算區(qū)組平方和(SSBL
SSTR = k \sum_{i=1}^蚓胸(\bar{x}_{i \cdot} - \bar{\bar{x}})^2
4 步:計算誤差平方和(SSE
SSE = SST - SSTR - SSBL

1.6 析因實驗的重要計算公式

a 代表因子 A 的水平數(shù)挣饥,b 代表因子 B 的水平數(shù),r 代表復制的個數(shù)沛膳,n_T 代表實驗中觀測值的總數(shù)(n_T = abr)扔枫,x_{ijk} 對應于因子 A 的處理 i 和因子 B 的處理 j 的第 k 次復制的觀測值,\bar{x}_{i \cdot } 代表處理 i (因子 A )的觀測值的樣本均值锹安,\bar{x}_{ \cdot j} 代表處理 j (因子 B )的觀測值的樣本均值短荐,\bar{x}_{ij} 代表處理 i (因子 A )和處理 j (因子 B )的組合的觀測值的樣本均值,\bar{\bar{x}} 代表總樣本均值叹哭。
1 步:計算總平方和(SST
SST = \sum_{i=1}^{a} \sum_{j=1}^忍宋\sum_{k=1}^{r}(x_{ijk} - \bar{\bar{x}})^2
2 步:計算因子 A 的平方和
SSA = br \sum_{i=1}^{a}(\bar{x}_{i \cdot} - \bar{\bar{x}})^2
3 步:計算因子 B 的平方和
SSB = ar \sum_{j=1}^(\bar{x}_{\cdot j} - \bar{\bar{x}})^2
4 步:計算交互作用的平方和
SSAB = r \sum_{i=1}^{a} \sum_{j=1}^话速(\bar{x}_{ij} - \bar{x}_{i \cdot } - \bar{x}_{\cdot j} + \bar{\bar{x}})^2
5 步:計算誤差平方和(SSE
SSE = SST - SSA - SSB - SSAB

2. 完全隨機化實驗的方差分析

2.1 k個總體均值相等的檢驗

建立原假設與備擇假設
H_0:\mu_1 = \mu_2 = \cdots =\mu_k \\ H_\alpha: k個總體的均值不全相等
檢驗統(tǒng)計量
F = \frac{MSTR}{MSE}
拒絕法則
p值法:如果 p\leqslant \alpha讶踪,則拒絕 H_0
臨界值法:如果 F\geqslant F_{\alpha},則拒絕 H_0
其中泊交,F_\alpha 是分子自由度為 k-1 乳讥,分母自由度為 n_T-k 時,使 F 分布的上側面積或者概率為 \alpha 時的 F 值廓俭。

2.2 方差分析表(ANOVA表)

完全隨機化設計的方差分析表

方差來源 平方和 自由度 均方 F p-值
處理 SSTR k-1 MSTR = \frac{SSTR}{k-1} \frac{MSTR}{MSE}
誤差 SSE n_T-k MSE = \frac{SSE}{n_T - k}
總計 SST n_T-1

2.3 多重比較的方法

多重比較方法是在成對的總體均值之間進行統(tǒng)計比較云石,以確定在 k 個均值之間到底哪幾個均值之間存在差異。

2.3.1 Fisher 的LSD方法

建立原假設與備擇假設
H_0:\mu_i = \mu_j \\ H_\alpha: \mu_i \neq \mu_j
檢驗統(tǒng)計量
t = \frac{\bar{x_i} - \bar{x_j}}{\sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}}
拒絕法則
p值法:如果 p\leqslant \alpha研乒,則拒絕 H_0
臨界值法:如果 t\leqslant -t_{\alpha / 2}或者t\geqslant t_{\alpha / 2}汹忠,則拒絕 H_0
其中,t_{\alpha/2} 是自由度為 n_T-k 時雹熬,使 t 分布的上側面積為 \alpha/2 時的 t 值宽菜。

2.3.2 基于檢驗統(tǒng)計量 \bar{x_i} - \bar{x_j} 的 Fisher 的LSD方法

建立原假設與備擇假設
H_0:\mu_i = \mu_j \\ H_\alpha: \mu_i \neq \mu_j
檢驗統(tǒng)計量
\bar{x_i} - \bar{x_j}
顯著性水平 \alpha 下的拒絕法則
如果 |\bar{x_i} - \bar{x_j}| > LSD,則拒絕 H_0
式中
LSD = t_{\alpha/2} \sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})} \tag{11}
其中竿报,t_{\alpha/2} 是自由度為 n_T-k 時铅乡,使 t 分布的上側面積為 \alpha/2 時的 t 值。

2.4 應用 Fisher 的LSD方法的兩個總體均值之間的置信區(qū)間估計

\bar{x_i} - \bar{x_j} \pm LSD \tag{12}
式中
LSD = t_{\alpha/2} \sqrt{MSE(\frac{1}{n_i}+\frac{1}{n_j})}
其中烈菌,t_{\alpha/2} 是自由度為 n_T-k 時阵幸,使 t 分布的上側面積為 \alpha/2 時的 t 值花履。
如果式 (12) 的置信區(qū)間包含數(shù)值 0,則我們不能拒絕兩個總體均值相等的原假設挚赊;如果式 (12) 的置信區(qū)間不包含數(shù)值 0诡壁,則我們可以得出兩個總體均值之差存在差異的結論。

3. 隨機化區(qū)組設計的方差分析

區(qū)組劃分的過程就是對所有的處理使用相同的或者相似的實驗單元的過程荠割,區(qū)組劃分的目的是從誤差項中刪除來自外部的變異妹卿,因此給出了總體或處理均值之間是否存在差異的更有力的檢驗。

3.1 k個處理涨共,b個區(qū)組的隨機化區(qū)組設計的 ANOVA 表

方差來源 平方和 自由度 均方 F p-值
處理 SSTR k-1 MSTR = \frac{SSTR}{k-1} \frac{MSTR}{MSE}
區(qū)組 SSBL b-1 MSBL = \frac{SSBL}{b-1}
誤差 SSE (k-1)(b-1) MSE = \frac{SSE}{(k-1)(b-1)}
總計 SST n_T-1

因為有 b 個區(qū)組使得自由度減少了 b-1纽帖,所以隨機化區(qū)組設計的誤差自由度小于完全隨機化設計的誤差自由度宠漩。如果 n 很小举反,因為誤差自由度的減少,區(qū)組的潛在影響可能被掩蓋扒吁;當 n 很大時火鼻,這種影響被最小化了。

4. 析因實驗的方差分析

析因實驗的實驗設計方法允許我們得到有關兩個或者兩個以上因子同時存在的統(tǒng)計結論雕崩。

4.1 有r個復制的兩因子析因實驗的的 ANOVA 表

方差來源 平方和 自由度 均方 F p-值
因子 A SSA a-1 MSA = \frac{SSA}{a-1} \frac{MSA}{MSE}
因子 B SSB b-1 MSB = \frac{SSB}{b-1} \frac{MSB}{MSE}
交互作用 SSAB (a-1)(b-1) MSAB = \frac{SSBAB}{(a-1)(b-1)} \frac{MSAB}{MSE}
誤差 SSE ab(r-1) MSE = \frac{SSE}{ab(r-1)}
總計 SST n_T-1
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末魁索,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子盼铁,更是在濱河造成了極大的恐慌粗蔚,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件饶火,死亡現(xiàn)場離奇詭異鹏控,居然都是意外死亡,警方通過查閱死者的電腦和手機肤寝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門当辐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鲤看,你說我怎么就攤上這事缘揪。” “怎么了义桂?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵找筝,是天一觀的道長。 經(jīng)常有香客問我慷吊,道長袖裕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任罢浇,我火速辦了婚禮陆赋,結果婚禮上沐祷,老公的妹妹穿的比我還像新娘。我一直安慰自己攒岛,他們只是感情好赖临,可當我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著灾锯,像睡著了一般兢榨。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上顺饮,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天吵聪,我揣著相機與錄音,去河邊找鬼兼雄。 笑死吟逝,一個胖子當著我的面吹牛,可吹牛的內容都是我干的赦肋。 我是一名探鬼主播块攒,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼佃乘!你這毒婦竟也來了囱井?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤趣避,失蹤者是張志新(化名)和其女友劉穎庞呕,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體程帕,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡住练,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了骆捧。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片澎羞。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖敛苇,靈堂內的尸體忽然破棺而出妆绞,到底是詐尸還是另有隱情,我是刑警寧澤枫攀,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布括饶,位于F島的核電站,受9級特大地震影響来涨,放射性物質發(fā)生泄漏图焰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一蹦掐、第九天 我趴在偏房一處隱蔽的房頂上張望技羔。 院中可真熱鬧僵闯,春花似錦、人聲如沸藤滥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拙绊。三九已至向图,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間标沪,已是汗流浹背榄攀。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留金句,地道東北人檩赢。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像趴梢,于是被迫代替她去往敵國和親漠畜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內容