方差分析(analysis of variance)基本概念

一、基本概念

方差分析(analysis of variance)用于研究一個或多個分類型自變量與一個數(shù)值型因變量的關(guān)系厂庇。
方差分析通過檢驗多個總體的均值是否相等來判斷一個或多個分類型自變量對數(shù)值型因變量是否由顯著影響渠啊。

  • 因素/因子:分類型自變量
  • 水平/處理:因素的不同表現(xiàn)
  • 觀測值:每個因子水平下得到的樣本觀測值
    例如,研究行業(yè)對被投訴次數(shù)的影響权旷,這里的行業(yè)就是因素替蛉,家電、零售拄氯、旅游等不同類別稱為水評躲查,具體樣本值為觀測值。

二坤邪、單因素方差分析

2.1 單因素方差分析的基本假定

當方差分析中只涉及一個分類型自變量時稱為單因素方差分析熙含。
1)對于因素的每一個水平,其觀測值是來自正態(tài)分布總體的簡單隨機樣本艇纺。但是當每個水平對應(yīng)的樣本量較大時怎静,對非正態(tài)性有一定容忍度邮弹。
2)因素的每一個水平,各個正態(tài)分布總體的方差σ2必須相等蚓聘。當每個水平或分組對應(yīng)的樣本數(shù)量相等或相近時腌乡,ANOVA對方差相等的要求也不是特別敏感。
3)觀測值是相互獨立的夜牡。
**注意:當滿足假設(shè)1)与纽,那么每個水平的均值[圖片上傳失敗...(image-6be2de-1634719989509)]

也服從正態(tài)分布,當同時滿足假設(shè)2)塘装,那么在進行方差分析時急迂,原假設(shè)各水平均值相等,等價于假設(shè)這些水平的均值來源于同一個正態(tài)分布蹦肴。這是構(gòu)造檢驗統(tǒng)計量的基礎(chǔ)僚碎。**

2.2 假設(shè)檢驗流程

  • 1)提出假設(shè)
    通過檢驗因素的k個水平均值是否相等,來判斷自變量與因變量是否相關(guān)阴幌。
    H0: μ1=μ2=...=μi=...μk (自變量對因變量沒有顯著影響)
    H1: μ1,μ2,....μk不全相等勺阐。(自變量對因變量有顯著影響)

  • 2)構(gòu)造檢驗統(tǒng)計量
    需要構(gòu)造三個誤差平方和,總平方和(SST)矛双、組間平方和(SSA)和組內(nèi)平方和(SSE)渊抽。且SST=SSA+SSE。其中议忽,組內(nèi)平方和SSE體現(xiàn)了隨機抽樣因素對總方差的貢獻懒闷,而組間平方和SSA體現(xiàn)了隨機因素和不同水平對總方差的貢獻。因此栈幸,如果SSA比SSE大很多毛雇,達到一定的顯著性水平,可以認為因素的不同水平對因變量影響顯著侦镇。
    SST:全部觀測值與總均值的誤差平方和灵疮,計算公式為:

    image

    SSA:各組均值與總均值的誤差平方和,反映各樣本均值之間的差異程度壳繁。公式為:

    image

    SSE:每個水平或組的樣本數(shù)據(jù)與其組均值的誤差平方和震捣。公式為:

    image
  • 3)計算統(tǒng)計量
    各平方誤差除以它們所對應(yīng)的自由度,稱為均方闹炉。
    SST的自由度為n-1蒿赢,其中n為全部觀測值個數(shù);
    SSA的自由度為k-1渣触,k為因素水平的個數(shù)
    SSE的自由度為n-k羡棵。
    MST=SST/n-1;
    MSA=SSA/k-1;
    MSE=SSE/n-k;
    則F=MSA/MSE~F(k-1,n-k)分布。

  • 4)統(tǒng)計決策
    在給定顯著性水平α下嗅钻,計算F(k-1,n-k)分布的Fα皂冰,如果F>Fα店展,則拒絕原假設(shè),表明自變量對因變量影響顯著秃流。
    注意:這里的假設(shè)檢驗是單側(cè)檢驗赂蕴!

  • 5)關(guān)系強度檢驗R2

    image

    R2越大,表明影響越顯著舶胀。

三概说、多因素方差分析

3.1 雙因素方差分析

如果存在兩個分類變量,需要分析是一個分類變量對因變量起作用嚣伐,還是兩個變量起作用糖赔,還是都不起作用。
(1)無交互作用或無重復(fù)雙因素方差分析
兩個因素是獨立的轩端,不存在聯(lián)系挂捻。

  • 1)提出假設(shè)(需要分別對行因素和列因素提出假設(shè)):
    H0: μ1=μ2=...=μi=...μk (行因素自變量對因變量沒有顯著影響)
    H1: μ1,μ2,....μk不全相等。(行因素自變量對因變量有顯著影響)
    H0: μ1=μ2=...=μi=...μr (列因素自變量對因變量沒有顯著影響)
    H1: μ1,μ2,....μr不全相等船万。(列因素自變量對因變量有顯著影響)

  • 2)構(gòu)造檢驗統(tǒng)計量
    總平方和SST是全部樣本觀測值與總樣本平均值的誤差平方和(自由度為kr-1):

    image

    其中,第一項為行因素產(chǎn)生的誤差平方和SSR(自由度為k-1):

    image

    第二項為列因素產(chǎn)生的誤差平方和SSC(自由度為r-1):

    image

    第三項為隨機誤差平方和SSE(自由度為(k-1)*(r-1)):

    image

    分別構(gòu)造行檢驗和列檢驗的F統(tǒng)計量:

    image
    image
  • 3)統(tǒng)計決策
    在給定顯著性水評α和兩個自由度值骨田,分別查詢用于行檢驗和列檢驗F表的臨界值Fα耿导。
    若FR>Fα,則拒絕原假設(shè)态贤,認為行因素對因變量有顯著影響舱呻;
    若FC>Fα,則拒絕原假設(shè)悠汽,認為列因素對因變量有顯著影響箱吕。

  • 4)關(guān)系強度度量

    image

    (2)有交互作用或可重復(fù)雙因素方差分析
    1)有交互作用的方差分解組合
    兩個因素不是獨立的,其相互組合也會對因變量產(chǎn)生影響柿冲。
    分析方法與上述無交互作用方差分析類似茬高,只不過誤差分解多了一個交互作用產(chǎn)生的誤差項。

    image

    其中假抄,k是行因素水平的個數(shù)怎栽,r為列因素水平的個數(shù),m為每一個行水平和列水平所對應(yīng)的觀測樣本的個數(shù)宿饱,n為總樣本個數(shù)熏瞄。
    總誤差SST=SSR+SSC+SSRC+SSE。

    image
    image
    image
    image
    image

    2)關(guān)于交互作用的理解
    如果不存在交互效應(yīng)谬以,那么總效應(yīng)為每個因素效應(yīng)簡單的加和强饮;或者可以說,一個因素的效應(yīng)與另一個因素的效應(yīng)無關(guān)为黎。如果以因素A為橫坐標邮丰,以效應(yīng)或結(jié)果為縱坐標男摧,繪制因素B不同水平的輪廓圖异吻,如下圖所示。如果因素A和因素B不存在交互作用,那么輪廓圖兩條線應(yīng)該相互平行惰瓜;如果存在交互作用,那么兩條線不平行临梗。

    image
    image

    對于有交互作用的因素宇挫,應(yīng)注意以下幾點:

  • 對于有交互作用的因素,主效應(yīng)不顯著吹泡,不代表主因素一定與測量值無關(guān)骤星;因為對于存在交互效應(yīng)的因素,交互效應(yīng)會遮蔽主效應(yīng)爆哑。

  • 如果有交互作用洞难,需要進行事后分析,比如采用Tukey檢驗不同條件下兩兩組合進行對比揭朝,分析具體哪些情況下測量值有顯著不同队贱。此時,所有的討論要圍繞事后檢驗測量值有顯著性差異的因素進行潭袱,而單獨討論主效應(yīng)沒有意義柱嫌。

3.2 三個及以上因素方差分析

對于三個因素的方差分析,分析方法與雙因素類似屯换,只不過交互效應(yīng)種類更多编丘,包括1個三因素交互效應(yīng),3個二因素交互效應(yīng)彤悔。對于三因素交互效應(yīng)嘉抓,比如A×B×C,可以拆解為A×(B×C)晕窑∫制可見,二因素交互作用依賴于三因素交互作用杨赤。因此蓝丙,在進行三因素方差分析時,應(yīng)該先看是否有三因素交互作用望拖,如果存在渺尘,按照某個因素(比如因素A)的不同取值拆分數(shù)據(jù)集,然后在不同數(shù)據(jù)集下分析二因素交互作用说敏;如果不存在三因素交互作用鸥跟,則對3個進行二因素方差分析,分別看是否有二因素交互作用。
而對于四個及以上的因素医咨,進行方差分析時枫匾,由于因素組合太多了,導致不同分組均值差異的影響因素也太多了拟淮,能為我們提供的信息變得模糊干茉。因此,四個因素及以上做方差分析意義不大很泊。

四角虫、成對樣本方差分析(重復(fù)測量ANOVA)

4.1 基本原理

對于一組樣本,分別在不同試驗條件下得出的多組數(shù)據(jù)委造,在觀察者多組數(shù)據(jù)平均值是否有差異時戳鹅,就需要使用重復(fù)ANOVA。
相比于常規(guī)ANOVA的方差分解昏兆,重復(fù)ANOVA的組內(nèi)平方和包含了個體間的差異的平方和及誤差兩部分枫虏,因此,在構(gòu)件統(tǒng)計量時爬虱,組內(nèi)平方和需要剔除個體間平方和隶债。原理如下圖所示。

image

因此跑筝,如果成對樣本得到的多組數(shù)據(jù)死讹,仍然利用常規(guī)的ANOVA計算方法,結(jié)果傾向于不顯著继蜡,也就是各組間無顯著性差異。
重復(fù)ANOVA的統(tǒng)計量計算公式如下:
[圖片上傳失敗...(image-c9a202-1634719989510)]

其中逛腿,s為組數(shù)稀并,m為每組個體的數(shù)量。

4.2 基本假設(shè)條件

  • 各分組數(shù)據(jù)要近似服從正態(tài)分布单默,每組數(shù)據(jù)個體間要相互獨立碘举。
  • 所有條件間來自同一個體的兩兩數(shù)據(jù)點之差的方差要近似相等,這個條件又叫球面性搁廓。
    和正態(tài)性檢驗類似引颈,有一個專門的統(tǒng)計學檢驗,稱為 Mauchly 氏球面性檢驗(Mauchly’s Test of Sphericity)境蜕,它是各大統(tǒng)計學軟件在重復(fù)測量 ANOVA 功能中的默認標配蝙场。這個檢驗的原假設(shè)是「重復(fù)測量數(shù)據(jù)具有球面性」,因此當該檢驗的 p 值小于 0.05 時粱年,我們認為數(shù)據(jù)違背了球面性假設(shè)售滤; p 值大于 0.05 時,我們則認為球面性得到了滿足。
    如果數(shù)據(jù)不滿足球面性完箩,那么我們需要對 F 統(tǒng)計量的自由度進行修正赐俗,最常用的修正方法是 Greenhouse-Geisser 校正(Greenhouse-Geisser correction)。在 SPSS 及其他統(tǒng)計學軟件中弊知,我們只需根據(jù) Mauchly 氏球面性檢驗的結(jié)果讀取相應(yīng)的 F 檢驗結(jié)果報告即可阻逮。

五、方差分析事后檢驗:Tukey-Kramer檢驗

方差分析只能告訴我們某個因素是否對結(jié)果有顯著性的影響秩彤,但不能告訴我們具體哪些水平或水平組合對結(jié)果顯著叔扼,因此需要進行事后檢驗( post-hoc test) ,最常用的方法是Turkey-Kramer檢驗呐舔。
統(tǒng)計學中有一個描述來自同一正態(tài)總體的多組數(shù)據(jù)平均值最大與最小的兩組的差值的分布币励,叫做學生范圍分布( Studentized range distribution )。Turkey-Kramer檢驗依據(jù)的就是這個分布珊拼,這個分布由樣本量食呻,組數(shù),樣本的平均方差決定澎现。給定顯著性水平α仅胞,依據(jù)這個分布可以計算出一個閾值,只要被比較的兩組數(shù)據(jù)的平均值之差大于這個閾值剑辫,就可以認為是顯著的干旧。這個閾值的計算公式如下:
[圖片上傳失敗...(image-26c27d-1634719989509)]

其中,qα;k;N-k代表給定顯著性水平妹蔽,組數(shù)椎眯,總樣本數(shù)下,通過平均值最大和最小值的兩組數(shù)據(jù)計算的學生范圍分布下的閾值胳岂,MSE代表樣本所有數(shù)據(jù)的波動情況编整,ni和nj為兩個樣本的數(shù)據(jù)量大小。
由于Turkey-Kramer檢驗的閾值是利用樣本中平均值差距最大的兩組數(shù)據(jù)計算而來的乳丰,這個閾值對于其他兩組數(shù)據(jù)的平均值差比較保守掌测,因此Turkey-Kramer檢驗犧牲了一定的統(tǒng)計功效。
此外产园,對于多個實驗組與對照組進行比較汞斧,可以利用Dunnett 檢驗。比如對于四組數(shù)據(jù)(三組試驗組什燕,一個對照組)粘勒,Dunnett 檢驗只需要比較三次,而Turkey-Kramer檢驗需要比較六次屎即, 所以Dunnett 檢驗為修正假陽性犧牲的統(tǒng)計功效更少仲义。

六、方差分析最小樣本量的確定

在功效分析中,統(tǒng)計功效埃撵,顯著性水平赵颅,效應(yīng)大小和樣本量,知道其中三個暂刘,另外一個就可以唯一確定饺谬。給定方差分析的顯著性水平,期望達到的統(tǒng)計功效和效應(yīng)值谣拣,就可以確定樣本量募寨。
在方差分析中,效應(yīng)值一般有兩種表示形式森缠,一種是Cohen氏 f 值:組間平方和與組內(nèi)平方和比值再開方:
[圖片上傳失敗...(image-8c95a2-1634719989509)]

Cohen本人在提出f值的時候也將其大約分成了小中大三個區(qū)間拔鹰,在單因素ANOVA檢驗中,小效應(yīng)對應(yīng)f值在0.1左右贵涵,中效應(yīng)對應(yīng)的f值在0.25左右列肢,大效應(yīng)在0.4左右。
另外一種是η2:組間平方和與總平方和比值再開方:
[圖片上傳失敗...(image-55026d-1634719989509)]

在重復(fù)測量ANOVA實驗設(shè)計時宾茂,采用的效應(yīng)值大小應(yīng)該考慮個體間差異瓷马,相應(yīng)的效應(yīng)值Cohen氏 f 值:
[圖片上傳失敗...(image-be9667-1634719989509)]

</article>

0人點贊

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市跨晴,隨后出現(xiàn)的幾起案子欧聘,更是在濱河造成了極大的恐慌,老刑警劉巖端盆,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件怀骤,死亡現(xiàn)場離奇詭異,居然都是意外死亡焕妙,警方通過查閱死者的電腦和手機蒋伦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來访敌,“玉大人凉敲,你說我怎么就攤上這事衣盾∷峦” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵势决,是天一觀的道長阻塑。 經(jīng)常有香客問我,道長果复,這世上最難降的妖魔是什么陈莽? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上走搁,老公的妹妹穿的比我還像新娘独柑。我一直安慰自己,他們只是感情好私植,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布忌栅。 她就那樣靜靜地躺著,像睡著了一般曲稼。 火紅的嫁衣襯著肌膚如雪索绪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天贫悄,我揣著相機與錄音瑞驱,去河邊找鬼。 笑死窄坦,一個胖子當著我的面吹牛唤反,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嫡丙,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼拴袭,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了曙博?” 一聲冷哼從身側(cè)響起拥刻,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎父泳,沒想到半個月后般哼,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡惠窄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年蒸眠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杆融。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡楞卡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出脾歇,到底是詐尸還是另有隱情蒋腮,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布藕各,位于F島的核電站池摧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏激况。R本人自食惡果不足惜作彤,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一膘魄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧竭讳,春花似錦创葡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至呐芥,卻和暖如春逻杖,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背思瘟。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工荸百, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人滨攻。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓够话,卻偏偏與公主長得像,于是被迫代替她去往敵國和親光绕。 傳聞我的和親對象是個殘疾皇子女嘲,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容