方差分析

受了新冠病毒地襲擊逆害,直到今天人類(lèi)還沒(méi)有走出陰霾拌禾×让#抗疫前線的醫(yī)學(xué)專(zhuān)家們?nèi)找岳^夜地工作,同時(shí)進(jìn)行著多種藥物的臨床試驗(yàn)色乾。那么怎么判斷哪一種藥物效果更好呢?這就要說(shuō)到一百年前問(wèn)世的方差分析领突。


1暖璧、引言:

羅森斯得農(nóng)業(yè)實(shí)驗(yàn)站很重要的一個(gè)工作就是,搞清楚施用不同的混合肥料攘须,馬鈴薯的產(chǎn)是否會(huì)不同漆撞。費(fèi)希爾的做法是在農(nóng)田中種上馬鈴薯,同部分施用不同的混合肥料( 下面是一個(gè)示意圖, 在同一塊農(nóng)田的不同排施用不同的肥料,然后插上牌子進(jìn)行區(qū)分) :

然后在收獲后對(duì)數(shù)據(jù)進(jìn)行采樣于宙,看不同實(shí)驗(yàn)組的產(chǎn)量是否不同浮驳。


2、兩個(gè)問(wèn)題

費(fèi)希爾也知道捞魁,馬鈴薯不是什么工業(yè)產(chǎn)品至会,本身產(chǎn)量就會(huì)有波動(dòng),肯定不能說(shuō)某個(gè)實(shí)驗(yàn)組產(chǎn)多了20%就說(shuō)該組施用的混合肥料有效果谱俭,至鈔需要考慮以下兩個(gè)問(wèn)題:

(1) 概率:馬鈴薯的產(chǎn)量X本身具有隨機(jī)性奉件,比如說(shuō)服從某正態(tài)分布:
X \sim N\left(\mu, \sigma^{2}\right)

根據(jù)該分布宵蛀,產(chǎn)量在 -20 %~20 % 之間波動(dòng)可能性較大, 因此如果某實(shí)驗(yàn)組產(chǎn)量多了 20 % 并沒(méi)有把握說(shuō)混合肥料產(chǎn)生了效果(因?yàn)椴豢赡苤浪旭R鈉薯的產(chǎn)量, 所以無(wú)法真正算出 \mu 也就不可能真正知道該正態(tài)分布N\left(\mu, \sigma^{2}\right)

產(chǎn)量在50%之上的波動(dòng)可能性較小,因此如果某實(shí)驗(yàn)組產(chǎn)多了50%, 那么說(shuō)明混合肥料可能真的產(chǎn)生了效果:

就此县貌,費(fèi)希爾設(shè)計(jì)了組間方差這個(gè)統(tǒng)計(jì)量,當(dāng)組間方差較大的時(shí)候,說(shuō)明發(fā)生了低概率事件,從而說(shuō)明混合肥料可能真的產(chǎn)生了效果术陶。

(2) 原因:馬鈉薯的產(chǎn)量 X 如果是隨機(jī)波動(dòng), 那么應(yīng)該是有增有減的。比如從某個(gè)實(shí)驗(yàn)組中采樣得到五株馬鈴薯煤痕,記錄每株的重量梧宫,得到五個(gè)點(diǎn)。算出該實(shí)驗(yàn)組的平均產(chǎn)量 \bar { X} 相對(duì)于 \mu 增加了 20%摆碉,并且五個(gè)點(diǎn)相對(duì)于 \mu 有增有減, 分散在 \bar {X} 的四周, 這就說(shuō)明重量變化是由于隨機(jī)波動(dòng)造成的:

如果某個(gè)實(shí)驗(yàn)組平均產(chǎn)量 \bar {X} 相對(duì)于 \mu 還是只增加了20%, 但組內(nèi)所有的馬鈉薯植株上的產(chǎn)量都是增加塘匣,緊密的圍繞在 \bar {X} 的附近,那么說(shuō)明混合肥料可能真的產(chǎn)生了效果巷帝,造成組內(nèi)所有馬鈴薯的重量都增加了:

就此忌卤,費(fèi)希爾設(shè)計(jì)了組內(nèi)方差這個(gè)統(tǒng)計(jì)量,當(dāng)組內(nèi)方差較小的時(shí),說(shuō)明該試驗(yàn)組的普遍增產(chǎn)(或減產(chǎn))楞泼,也說(shuō)明混合肥料可能真的產(chǎn)生了效果(組間方差驰徊、組內(nèi)方差這兩個(gè)統(tǒng)計(jì)量接下來(lái)會(huì)進(jìn)一步介紹)。


3现拒、假設(shè)檢驗(yàn)

綜合上面兩個(gè)問(wèn)題辣垒,費(fèi)希爾設(shè)計(jì)了一個(gè)假設(shè)檢驗(yàn):

  • 假設(shè):混合肥料沒(méi)有效果, 也就是各個(gè)實(shí)驗(yàn)組的產(chǎn)量的均值相同
  • 檢驗(yàn):設(shè)計(jì)了 \frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }} 這個(gè)統(tǒng)計(jì)量, 當(dāng)實(shí)驗(yàn)組得到的數(shù)據(jù)使得該統(tǒng)計(jì)量足夠大時(shí), 那么 就可以推翻上述假設(shè), 得到混合肥料有效果的結(jié)論

從抽樣到計(jì)算完成該假設(shè)檢驗(yàn), 就稱(chēng)為方差分析


4印蔬、實(shí)戰(zhàn)

下面用具體的數(shù)據(jù)進(jìn)行下實(shí)戰(zhàn)講解勋桶。假設(shè)有A、B侥猬、C三組馬鈴薯,每組施用不同的肥料例驹。在每組中各選五株,記錄每株產(chǎn)出的馬鈴薯的重量退唠,所表格如下(下面的重也是為了本文講解設(shè)計(jì)的鹃锈,不用較真)

根據(jù)上面表格,畫(huà)出來(lái)的圖像是這樣的:

可以看出:

  • 發(fā)生了低概率事件, 即 A 組的樣本均值 \bar{ X} _ { A } 遠(yuǎn)離 \mu
  • 原因很可能是由于混合肥料導(dǎo)致瞧预,因?yàn)?A 組內(nèi)的重量緊密?chē)@在 \bar{ X} _ { A } 附近屎债,這說(shuō)明整體都增產(chǎn)了,而不是隨機(jī)波動(dòng)

所以是很有把握認(rèn)為這三組產(chǎn)量不同垢油,并且是由于混合肥料導(dǎo)致的盆驹。當(dāng)然上面是定性分析,下面看看如何定量分析滩愁。

4.1 組間方差

首先需要知道發(fā)生了低概率事件, 即是否有某組 (在本例中是 A 組) 的樣本均值遠(yuǎn)離 \mu 躯喇。因?yàn)?\mu 是沒(méi)有辦法真正知道的, 實(shí)際計(jì)算時(shí)只能用所有樣本的均值 \bar {X} 來(lái)代替 (本例中就是15株馬鈉薯的均值),然后計(jì)算各個(gè)實(shí)驗(yàn)組的樣本均值與 \bar {X} 的距離硝枉,累加起來(lái)就得到了組間方差:

組間方差 =\frac{5(\overline{X_{A}}-\bar{X})^{2}+5(\overline{X_{B}}-\bar{X})^{2}+5(\overline{X_{C}}-\bar{X})^{2}}{3-1}

忽略其中的常數(shù)(這些常數(shù)設(shè)置是一些數(shù)學(xué)原因, 不影響本文的整體思路,感興趣的可以看下教材和證明)廉丽,可以看出倦微,組間方差較大時(shí)說(shuō)明發(fā)生了低概率事件。

4.2 組內(nèi)方差

將各個(gè)實(shí)驗(yàn)組的方差加起來(lái)就得到了組內(nèi)方差(其中也多了些常數(shù),暫時(shí)可以不用管) :

組內(nèi)方差 =\frac{\sum_{i=1}^{5}\left(x_{A i}-\overline{X_{A}}\right)^{2}+\sum_{i=1}^{5}\left(x_{B i}-\overline{X_{B}}\right)^{2}+\sum_{i=1}^{5}\left(x_{C i}-\overline{X_{C}}\right)^{2}}{15-3}

其中 x_{A i} 正压、x_{B i} 欣福、x_{C i} 是各組內(nèi)的某株馬鈉薯的重量。組內(nèi)方差越小蔑匣,說(shuō)明各個(gè)實(shí)驗(yàn)組變換越一致, 越有可能是由混合肥料導(dǎo)致的劣欢。

4.3 統(tǒng)計(jì)量構(gòu)造

費(fèi)希爾接著構(gòu)造了 \frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }} 這么一個(gè)統(tǒng)計(jì)量, 它綜合了 “概率" 和 "原因" 這兩個(gè)角度棕诵。為了說(shuō)明這點(diǎn), 我們又對(duì)之前的 A 裁良、 BC 三組進(jìn)行了多次實(shí)驗(yàn), 得到不同的組間方差校套、組內(nèi)方差:

解讀下:

  • 第一行价脾,組間方差大,說(shuō)明可能發(fā)生了低概率事件;組內(nèi)方差小,說(shuō)明組內(nèi)變化可能一致笛匙。本文的例子算出來(lái)就是該行侨把。那么有充分的理由相信,這三組中其中某組(也可能是某兩組妹孙、某三組)的產(chǎn)量有所不同,且這種不同很可能是由于混合肥料造成的

  • 第二行,組間方差一般大秋柄,組內(nèi)方差也是一般大,沒(méi)有充分的理由相信這三組是不同的,保守一點(diǎn)蠢正,我們判斷這三組是相同的

  • 第三行骇笔,組間方差足夠小,說(shuō)明可能沒(méi)有發(fā)生低概率事件;組內(nèi)方差足夠大嚣崭,說(shuō)明可能組內(nèi)的變化不一樣笨触。那么還是保守地判斷這三組是相同的

可見(jiàn)統(tǒng)計(jì)量\frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }}越大,那么三組不同的可能性越大雹舀。那具體要大到什么程度芦劣,才有把握說(shuō)三組是不同的呢?這就需要F分布進(jìn)行最后的檢驗(yàn)(F就是Fisher的首字母说榆,所以你也可以稱(chēng)之為費(fèi)希爾分布)虚吟。


5、F分布

可以證明签财,滿足某些條件的情況下(比如總體和樣本都是正態(tài)分布)串慰,統(tǒng)計(jì)量\frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }}是服從F分布的:
\frac{\text { 組間方差 }}{\text { 組內(nèi)方差 }} \sim F

此時(shí),當(dāng)\frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }}的值足夠大荠卷,大到落入F分布的右邊區(qū)域(也稱(chēng)為拒絕域)時(shí)模庐,就有把握說(shuō)三組是不同的:

至此就完成了假設(shè)檢驗(yàn),也就是完成了方差分析:

  • 假設(shè):混合肥料沒(méi)有效果油宜,也就是各個(gè)實(shí)驗(yàn)組的樣本均值相同
  • 檢驗(yàn):計(jì)算統(tǒng)計(jì)量\frac{ \text { 組間方差 } }{\text { 組內(nèi)方差 }}的值掂碱,如果所得值落入F分布的拒絕域怜姿,那么就拒絕原假設(shè),否則就接受

6疼燥、t 檢驗(yàn)

之前介紹過(guò)t檢驗(yàn)沧卢,它和方差分析的區(qū)別在于, t檢驗(yàn)是判斷兩組數(shù)據(jù)是否不同,而方差分析可以判斷三組或者更多組數(shù)據(jù)是否存在不同醉者。

從本文介紹可知但狭,差分析只是知道了這三組是否有差異,具體是到是哪組有差異,還需要?jiǎng)e的統(tǒng)計(jì)方法。比如對(duì)這三組兩兩進(jìn)行t檢驗(yàn)撬即。


轉(zhuǎn)載:https://www.zhihu.com/question/61319844/answer/1206367601

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末立磁,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子剥槐,更是在濱河造成了極大的恐慌唱歧,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件粒竖,死亡現(xiàn)場(chǎng)離奇詭異颅崩,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)蕊苗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)沿后,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人朽砰,你說(shuō)我怎么就攤上這事尖滚。” “怎么了锅移?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵熔掺,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我非剃,道長(zhǎng)置逻,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任备绽,我火速辦了婚禮券坞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘肺素。我一直安慰自己恨锚,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布倍靡。 她就那樣靜靜地躺著猴伶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上他挎,一...
    開(kāi)封第一講書(shū)人閱讀 51,115評(píng)論 1 296
  • 那天筝尾,我揣著相機(jī)與錄音,去河邊找鬼办桨。 笑死筹淫,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的呢撞。 我是一名探鬼主播损姜,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼殊霞!你這毒婦竟也來(lái)了摧阅?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤脓鹃,失蹤者是張志新(化名)和其女友劉穎逸尖,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體瘸右,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年岩齿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了太颤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡盹沈,死狀恐怖龄章,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情乞封,我是刑警寧澤做裙,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站肃晚,受9級(jí)特大地震影響锚贱,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜关串,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一拧廊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧晋修,春花似錦吧碾、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春睁本,著一層夾襖步出監(jiān)牢的瞬間山叮,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工添履, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留屁倔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓暮胧,卻偏偏與公主長(zhǎng)得像锐借,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子往衷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353