在t檢驗的那篇文章里面蛆橡,給到了兩個樣本對比差異的案例钠右,假設(shè)我們要對比的樣本不僅僅兩個而是很多個赋元,那么這時候,我們需要一個新的方法飒房,就是方差分析搁凸,ANOVA,analysis of variance狠毯。
假設(shè)我們這里需要觀察三組樣本护糖,希望能夠分析出來這三組樣本是否來源于同一個總體,或者稱為同一分布嚼松。
我們的零假設(shè):Ho:u1=u2=u3嫡良;為了驗證H0,假設(shè)我們當(dāng)下還沒有ANOVA這個手段献酗,那么從已有t檢驗方法出發(fā)寝受,我們可以將這個驗證問題轉(zhuǎn)化為u1=u2;u2=u3罕偎;u1=u3的t檢驗很澄。然而,這樣的轉(zhuǎn)化在使用起來并不是很高效颜及,但還好我們有一個新的方法解決這個問題甩苛,也就是R.A.Fiser發(fā)明了的方差分析。不知道R.A.Fiser是否沿用了t檢驗的一些思想器予,在筆者看來兩個檢驗在本質(zhì)上是一致的浪藻。
方差分析的主要思想在于研究不同樣本的組間差異(分布)相對于組內(nèi)差異(分布)的顯著性。其中組間差異怎么算乾翔?將三個樣本打散爱葵,得到下圖中的總體分布施戴,接下來可以計算三個不同分布相對于總體分布的差異,如下圖中紅色箭頭表示萌丈。樣本組內(nèi)差異就只看自己的數(shù)據(jù)分布狀態(tài)赞哗,如下圖黃色箭頭。
接下來辆雾,我們將組間差異與組內(nèi)差異兩者相除肪笋。相除下來的結(jié)果可能有不同的情況,以下進(jìn)行三種情況的解讀度迂。
情況1: 組間差異大/組內(nèi)差異小藤乙。組間差異大說明三個樣本之間相互之間比較分隔;組內(nèi)差異小說明樣本內(nèi)部的數(shù)據(jù)分布比較集中惭墓,更加劇不同樣本之間的分布差異坛梁。此時我們拒絕原假設(shè),其中至少有一個分布不是來源于同一個總體腊凶。
情況2: 組間差異適中/組內(nèi)差異適中划咐。這說明三個樣本分布之間可能有一部分的重合。此時我們很難拒絕原假設(shè)
情況3:組間差異小/組內(nèi)差異大钧萍。說明三個樣本有很大的重合褐缠,并且組內(nèi)數(shù)據(jù)分布不集中。此時我們也很難拒絕原假設(shè)风瘦。
給兩者相除的結(jié)果起個名字队魏,就叫F,這時候大家肯定會疑問多大的F值可以拒絕原假設(shè)弛秋,我們需要一個衡量水平器躏,而這個衡量水平就是F分布。通過F值與臨界值進(jìn)行比較蟹略,推斷各樣本是否來自相同的總體登失。