通俗統(tǒng)計(jì)之——如何計(jì)算統(tǒng)計(jì)功效
(部分內(nèi)容受教于網(wǎng)絡(luò)豪筝,經(jīng)個(gè)人理解闡述于此,不限版權(quán),盡管轉(zhuǎn)載)
1. 何為‘統(tǒng)計(jì)功效’续崖?
統(tǒng)計(jì)功效敲街,是用來描述,在你的實(shí)驗(yàn)研究中严望,你的統(tǒng)計(jì)檢驗(yàn)正確的‘拒絕’你的“零假設(shè)”(Ho)多艇,的概率(這里概率的原英文是likelihood,譯作可能性像吻,但個(gè)人決定用概率更直觀描述統(tǒng)計(jì)功效是個(gè)啥峻黍。)在這概念里又提出了些名詞,比如“零假設(shè)”拨匆,‘統(tǒng)計(jì)檢驗(yàn)’姆涩,會在下面逐一解釋。
1.1 何為“零假設(shè)”惭每?
“零假設(shè)”應(yīng)該是個(gè)被驗(yàn)證過或被大多數(shù)人接受的骨饿,保守的,結(jié)論洪鸭。它是個(gè)認(rèn)為世間大多數(shù)操作都沒啥卵用的假設(shè)样刷。比如,新藥并沒有卵用览爵;新流程并沒有卵用置鼻。嚴(yán)肅地說,就是蜓竹,假設(shè):新藥效果并不比已知舊藥好箕母;假設(shè):新流程并不比當(dāng)前流程更有效。簡言之俱济,一切“零假設(shè)”都是“然并卵”——也就那樣嘶是,并沒啥卵用。這多少也有些慣性定律的影子蛛碌,如果你沒有足夠的影響力聂喇,你即便你以為自己用了力,改變了什么蔚携,但其實(shí)也影響不了大局希太。但如何證明你有沒影響大局,就需要統(tǒng)計(jì)檢驗(yàn)——認(rèn)真地比較一下酝蜒。
1.2 何謂‘統(tǒng)計(jì)檢驗(yàn)’誊辉?
‘統(tǒng)計(jì)檢驗(yàn)’簡單說就是根據(jù)適用的統(tǒng)計(jì)理論,(比如要比較正態(tài)分布的數(shù)值得用t檢驗(yàn)亡脑;比較百分比或者計(jì)數(shù)堕澄,得用卡方邀跃,等等。很多高深理論蛙紫,真得是數(shù)學(xué)達(dá)人才能游刃有余地搞出花拍屑。普通人就根據(jù)文獻(xiàn)和參考資料重復(fù)方法吧。)坑傅,比較你的實(shí)驗(yàn)組和對照組丽涩,看你實(shí)驗(yàn)組出現(xiàn)不同于對照組結(jié)果的幾率,是否大到足夠被‘世人’承認(rèn)——“嗯裁蚁,這么多情況都出現(xiàn)了不同矢渊,那它倆確實(shí)是不一樣!”枉证。這里的‘世人’矮男,是指領(lǐng)域里傳統(tǒng)的、經(jīng)典的共識室谚。多大差異算‘足夠大’毡鉴?因研究尺度而異,有些領(lǐng)域認(rèn)為p<0.05秒赤,有些只接受p<0.01猪瞬。至于怎樣算出p<0.05,請參考標(biāo)準(zhǔn)教科書入篮。
回到怎么算統(tǒng)計(jì)功效上陈瘦。
2. 兩類無法避免的檢驗(yàn)錯誤。
統(tǒng)計(jì)檢驗(yàn)的結(jié)果潮售,比較于“零假設(shè)”痊项,會有四種情況:
2x2表 | “零假設(shè)”是對的 | “零假設(shè)”是錯的 |
---|---|---|
接受“零假設(shè)” | 2.1 接受對的(這沒毛病,1-Alpha) | 2.3 接受錯的(Type II Error酥诽,Beta Error) |
拒絕“零假設(shè)” | 2.2 拒絕對的(Type I Error鞍泉,Alpha Error) | 2.4 拒絕錯的(這也沒毛病,1-Beta) |
即:
2.1 “零假設(shè)”是對的肮帐,而你的檢驗(yàn)結(jié)果也接受“零假設(shè)”的說法咖驮;(這沒毛病)
2.2 “零假設(shè)”是對的训枢,而你的檢驗(yàn)結(jié)果卻不接受“零假設(shè)”的說法托修;
(即所謂的Type I Error,一類錯誤肮砾,Alpha錯誤)诀黍;
2.3 “零假設(shè)”是錯的袋坑,而你的檢驗(yàn)結(jié)果卻接受“零假設(shè)”的說法仗处;
(即所謂的Type II Error眯勾,二類錯誤,Beta錯誤)婆誓;
2.4 “零假設(shè)”是錯的吃环,而你的檢驗(yàn)結(jié)果也不接受“零假設(shè)”的說法;(這沒毛惭蠡谩)
統(tǒng)計(jì)結(jié)論上一向保守的態(tài)度郁轻,讓我們傾向于相信“零假設(shè)”,畢竟人家在被驗(yàn)證為錯誤之前文留,還是被廣大人民群眾所接受的好唯。所以,即便“零假設(shè)”本質(zhì)上是錯的燥翅,在被推翻之前骑篙,我們也暫時(shí)相信“零假設(shè)”,不輕信新觀點(diǎn)森书。所以我們在兩類錯誤里靶端,“寧可犯二,不爭第一凛膏⊙蠲”
其中要注意的是,雖然常用2x2表格表述猖毫,好像算sensitivity/specificity, ppv/npv的格式台谍,但其中的 Beta Error概率(Beta Probability),是在零假設(shè)本身錯誤的前提下吁断,你接受了它的概率典唇。同樣,Alpha Error概率(Alpha Probability)胯府,是在零假設(shè)本身正確的前提下介衔,你的檢驗(yàn)卻拒絕接受它的概率。
在這里骂因,Alpha + Beta 不一定等于 1(基本上除特殊情況外都不等于1炎咖,因?yàn)楦揪褪莾纱a事) ,既可以大于1寒波,也可以小于1乘盼。這個(gè)曾一度讓我混亂,總覺得a+b<=1俄烁,如果你沒有啥混亂的绸栅,就不用細(xì)究了。
有了以上概念页屠,那么粹胯,統(tǒng)計(jì)功效的本質(zhì)就是:1 - Beta 蓖柔!
就是當(dāng)“零假設(shè)”本身錯的時(shí)候,你正確地拒絕了它的概率风纠;相當(dāng)于况鸣,你的檢驗(yàn),在 1-Beta 的概率下竹观,“正確”地拒絕了零假設(shè)镐捧,正確地得到“統(tǒng)計(jì)上有顯著差異”的結(jié)論!就是這么簡單粗暴臭增!——說它粗暴懂酱,是因?yàn)槟慵幢阒懒艘陨先扛拍睿氵€是不會在具體情況中算它誊抛。下面舉個(gè)簡單例子玩焰,如何算Power:
3. 實(shí)例:
(引自網(wǎng)絡(luò)):已知常規(guī)血銅濃度平均值是:8.72 μmol/litre,標(biāo)準(zhǔn)差是:1.3825∩置現(xiàn)在昔园,有4個(gè)病人血樣,血銅濃度平均值是9.59并炮,問:有多大可能性默刚,這四個(gè)病人的血銅濃度,在統(tǒng)計(jì)意義上真的不同于常人逃魄。
這個(gè)問題中荤西,“常規(guī)血銅濃度平均值”就相當(dāng)于是你將要比較的零假設(shè):假設(shè)全人類的正常人的血銅平均值就該如此,分布在相應(yīng)的幾個(gè)標(biāo)準(zhǔn)差范圍內(nèi)伍俘。雖然沒誰能得到全人類的平均血銅濃度值邪锌。另外,計(jì)算這個(gè)問題還要涉及到:
3.1 Z-檢驗(yàn)(請暫且當(dāng)成這類問題就該用Z檢驗(yàn)癌瘾,原理上暫不在此解釋)觅丰;
3.2 單尾檢驗(yàn)還是雙尾檢驗(yàn)(這涉及到在生物上,血銅濃度是對稱分布呢(有時(shí)候只是雙向開放即可)妨退,還是非對稱分布(有時(shí)候指只是單向開放):對稱的用雙尾妇萄,不對稱用單尾);
3.3 Alpha的選擇:就是在整體分布中咬荷,出現(xiàn)某個(gè)跑偏的值冠句,通常出現(xiàn)在尾端,零假設(shè)認(rèn)為那個(gè)跑偏的值是合理的幸乒,并且零假設(shè)的這個(gè)判斷是對的懦底,而你在檢驗(yàn)的時(shí)候,卻認(rèn)為這個(gè)跑偏值是不合理值罕扎,的概率聚唐。(繞么丐重?)就比如,看到血銅濃度=1.0拱层,零假設(shè)說這是正常的血銅濃度范圍,而你說這不正逞邕郑——零假設(shè)是對的根灯,你卻在檢驗(yàn)中把血銅濃度=1.0歸結(jié)為異常,這種情況的概率掺栅,就是Alpha烙肺,是一類錯誤,我們要避免的氧卧。所以我們常把Alpha設(shè)成很小桃笙,比如0.05,即5%概率下沙绝,允許我們犯這類錯誤搏明。而且,如果是單尾分布闪檬,我們把這5%的概率都允許在一個(gè)尾巴端星著;如果是雙尾分布,我們則把這5%平均分到兩個(gè)尾巴端粗悯,即每邊尾巴允許2.5%的概率出現(xiàn)這種錯誤虚循。(常說的p<0.05,實(shí)際是說當(dāng)p<Alpha(=0.05)時(shí)样傍,統(tǒng)計(jì)結(jié)果有顯著差異横缔。)
所以,上面這個(gè)問題衫哥,在檢驗(yàn)雙尾的情況下茎刚,要這么算:
Power = P( Z > 1.96 ? (9.59 ? 8.72) / (1.3825/√4) ] + 1 ? P[ Z > ?1.96 ? (9.59 ? 8.72) / (1.3825/√4) ]
其中,P代表概率撤逢,即當(dāng)查Z值表時(shí)斗蒋,Z大于1.96 ? (9.59 ? 8.72) / (1.3825/√4)對應(yīng)的概率,加上笛质,1 減去 Z值小于 ?1.96 ? (9.59 ? 8.72) / (1.3825/√4) 的概率——即是雙尾分布下泉沾,該問題的Power。
其中妇押,1.96跷究,即在允許Alpha=0.05,數(shù)據(jù)標(biāo)準(zhǔn)正態(tài)分布時(shí)(每邊2.5%)敲霍,的Z值俊马。(它相當(dāng)于一個(gè)常數(shù)丁存,在Alpha不同,單雙尾分布不同時(shí)柴我,它會不同解寝,但基本就是那幾個(gè)數(shù),可以記住艘儒。)
所以聋伦,經(jīng)過計(jì)算和查表,上面的 Power = 0.2415 + 1 ? 0.999356 = 0.2421界睁,即觉增,有24.21%的概率,你用4個(gè)人的樣本就可以“正確”地?cái)喽ㄟ@4個(gè)人的血銅濃度是否異于常人翻斟。這個(gè)Power是很低的逾礁。所以,要增加樣本數(shù)访惜。增加至多少嘹履?如果你明白上面的原理,設(shè)定好Alpha债热,知道零假設(shè)的平均值植捎,標(biāo)準(zhǔn)差,還有你目前樣本的平均值阳柔,還有你期望的Power(比如80%)焰枢,反過去推算樣本數(shù)即可!
能力有限舌剂,時(shí)間不足(寫這么個(gè)玩意兒用了我3小時(shí)<贸),暫且寫這些霍转,懇請各方大家指正糾錯荐绝,這也是我自己學(xué)習(xí)長進(jìn)的過程。叩謝避消!