1.統(tǒng)計(jì)的ab test答姥,t test,如果統(tǒng)計(jì)顯著但是實(shí)際發(fā)現(xiàn)不顯著是什么原因,怎么驗(yàn)證。
我搜的:
https://www.sohu.com/a/138048136_698752
這一篇特別好捉兴。
在那些看起來(lái)得到了數(shù)據(jù)支持的假說(shuō)里,有多少真正是真實(shí)的呢录语?
我們可以用完全一模一樣的方法進(jìn)行分析推理倍啥。
?
這個(gè)問(wèn)題的核心是什么呢?
回到我們的例子澎埠,關(guān)鍵就在于最開(kāi)始的時(shí)候虽缕,有效的藥物(第一幅圖中的5個(gè)紅格子)比起無(wú)效的藥物(95個(gè)白格子)要少得多。
盡管通過(guò)控制顯著性水平?蒲稳,我們犯第一類錯(cuò)誤的概率并不大氮趋,但是因?yàn)榘赘褡訉?shí)在很多,總數(shù)乘以?得到的數(shù)值(假陽(yáng)性發(fā)現(xiàn)的數(shù)量)依然不小江耀。
而對(duì)于那5個(gè)白格子剩胁,即使我們有比較高的統(tǒng)計(jì)功效1-β,能夠正確識(shí)別出它們中的大多數(shù)决记,但是這幾個(gè)貨真價(jià)實(shí)的”李逵“還是淹沒(méi)在一大堆”李鬼“里頭了摧冀。
所以,我們應(yīng)該從這里學(xué)到的第一條是一句老生常談——
顯著性和統(tǒng)計(jì)功效這兩大支柱缺一不可系宫!
稍稍改變上面的計(jì)算,如果統(tǒng)計(jì)功效1-β低一些建车,或者顯著性水平?寬松一些扩借,在具有顯著性結(jié)果的藥物中真正有效的比率將會(huì)比現(xiàn)在的44.4%糟糕的多!
?
上面的例子給我們上的第二課是缤至,p值并不是原假設(shè)為真的概率潮罪,很低的p值并不能保證我們的結(jié)論就是真的。
要對(duì)我們的研究假說(shuō)的真實(shí)性做更可靠的估計(jì)领斥,我們要考慮的是嫉到,基于當(dāng)前的研究階段和知識(shí)水平,領(lǐng)域內(nèi)還有多少性質(zhì)和機(jī)理類似的其他假說(shuō)月洛,這一假說(shuō)成立的可能性有多大何恶。
就好比在一大堆化合物中尋找能夠抑制腫瘤的一種,在源源不斷的地殼運(yùn)動(dòng)中辨別地震嚼黔,在茫孟覆悖基因組中找出與某個(gè)稀有疾病相關(guān)的基因惜辑,所有這些事情本身發(fā)生的概率都太小了。
因此疫赎,即便有統(tǒng)計(jì)上顯著的結(jié)果盛撑,也很可能是假陽(yáng)性。
忽略了事件自身的小概率特性而錯(cuò)誤地將顯著的結(jié)果認(rèn)為是事件發(fā)生的證據(jù)捧搞,這在統(tǒng)計(jì)學(xué)上稱為
“基數(shù)謬誤”
(baserate fallacy)抵卫。
由此我們還可以得到一條推論:
一項(xiàng)得到顯著結(jié)果支持的發(fā)現(xiàn)的確為真的概率,取決于對(duì)這個(gè)問(wèn)題的研究發(fā)展到了什么階段胎撇。
如果對(duì)這個(gè)問(wèn)題的研究剛剛開(kāi)始陌僵,人們的認(rèn)識(shí)幾乎還是一片空白、各種假說(shuō)滿天飛的時(shí)候创坞,顯著的結(jié)果也很可能是假的碗短;
如果對(duì)該問(wèn)題的研究已經(jīng)非常深入,許多不同角度的研究都已重復(fù)了相似的結(jié)果题涨,甚至該發(fā)現(xiàn)來(lái)自于對(duì)許多大樣本隨機(jī)研究的綜合分析(比如現(xiàn)在越來(lái)越流行的“薈萃分析”meta-analysis方法)時(shí)偎谁,它為真的概率就大多了。
另外:
一般我們通過(guò)幾個(gè)因素一起來(lái)判定A/B測(cè)試的效果:
a) p-value:
判斷兩個(gè)不同版本的實(shí)驗(yàn)結(jié)果之間不存在顯著差異的概率纲堵。
通常情況下巡雨,如果“p-value < α(顯著水平)”, 表示兩個(gè)不同版本存在顯著差異席函,否則表示不存在顯著差異铐望。一般來(lái)說(shuō),我們期待并設(shè)置的最大的顯著水平為5%茂附。
b) power(統(tǒng)計(jì)功效):
當(dāng)兩個(gè)不同版本之間存在顯著差異時(shí)正蛙,實(shí)驗(yàn)?zāi)苷_做出存在差異判斷的概率。
該值越大則表示概率越大营曼、功效越充分乒验。一般來(lái)說(shuō),我們期待并設(shè)置的最低的統(tǒng)計(jì)功效值為80%蒂阱。
c) 置信區(qū)間(Confidence interval):
置信區(qū)間就是用來(lái)對(duì)一個(gè)概率樣本的總體參數(shù)的進(jìn)行區(qū)間估計(jì)的樣本均值范圍锻全。一般來(lái)說(shuō),我們使用 95% 的置信水平來(lái)進(jìn)行區(qū)間估計(jì)录煤。置信區(qū)間可以輔助確定版本間是否有存在顯著差異的可能性:如果置信區(qū)間上下限的值同為正或負(fù)鳄厌,認(rèn)為存在有顯著差異的可能性;如果同時(shí)有負(fù)值和正值妈踊,那么則認(rèn)為不存在有顯著差異的可能性了嚎。
作者:云測(cè)數(shù)據(jù)
鏈接:https://www.zhihu.com/question/58172715/answer/559248594
來(lái)源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán)响委,非商業(yè)轉(zhuǎn)載請(qǐng)注明出處新思。
統(tǒng)計(jì)意義上顯著的結(jié)果實(shí)際上可能并不顯著
統(tǒng)計(jì)顯著性本身并不意味著您的結(jié)果有實(shí)際結(jié)果窖梁。如果您使用功效非常高的檢驗(yàn),則可能會(huì)得出與假設(shè)值的較小差值在統(tǒng)計(jì)意義上顯著的結(jié)論夹囚。但是纵刘,較小的差值對(duì)于您的情形可能沒(méi)有意義。您應(yīng)當(dāng)根據(jù)自己的專業(yè)知識(shí)來(lái)確定差值實(shí)際上是否顯著荸哟。
例如假哎,假定要檢驗(yàn)在制造廠工作的小時(shí)數(shù)的總體均值 (μ) 是否等于 8。如果 μ 不等于 8鞍历,那么舵抹,當(dāng)樣本數(shù)量增加且 p 值接近 0 時(shí),檢驗(yàn)的功效將接近 1劣砍。
當(dāng)觀測(cè)值足夠多時(shí)惧蛹,假設(shè)值和實(shí)際參數(shù)值之間極小的差值也可能會(huì)變得顯著。例如刑枝,假定 mu 的實(shí)際值為 7 小時(shí) 59 分 59 秒香嗓。在樣本足夠大時(shí),您很有可能會(huì)否定原假設(shè)(即 μ 等于 8 小時(shí))装畅,即便差值沒(méi)有實(shí)際意義也是如此靠娱。
置信區(qū)間(如果適用的話)通常比假設(shè)檢驗(yàn)更有用,因?yàn)橹眯艆^(qū)間不僅能夠評(píng)估統(tǒng)計(jì)顯著性掠兄,還提供了一種評(píng)估實(shí)際顯著性的方法像云。置信區(qū)間有助于確定參數(shù)值是(而非不是)什么。
目前許多的科學(xué)判斷僅僅采用單一的顯著性P?值做為黃金標(biāo)準(zhǔn)蚂夕。然而迅诬,P?值所具有的不穩(wěn)定性與低重復(fù)性并不是個(gè)理想的標(biāo)準(zhǔn),P?值本身并不是用來(lái)估算差異是否存在的機(jī)率双抽。而在統(tǒng)計(jì)分析的假設(shè)檢驗(yàn)(hypothesis testing)?中百框,原假設(shè) (null hypothesis?H0?:?m1=m2) 的真?zhèn)尾](méi)有得到證實(shí),甚至說(shuō)牍汹,P?值僅僅只是統(tǒng)計(jì)分析過(guò)程中的一個(gè)初級(jí)產(chǎn)物,提示我們這個(gè)結(jié)果或許“值得再看一眼”柬泽。長(zhǎng)年以來(lái)慎菲,假設(shè)檢驗(yàn)被許多統(tǒng)計(jì)學(xué)家所和科學(xué)家詬病锨并;美國(guó)心理學(xué)期刊?
Basic and Applied Social Psychology?甚至禁止使用P??值對(duì)實(shí)驗(yàn)做判斷露该。美國(guó)統(tǒng)計(jì)學(xué)會(huì)也對(duì)P??值的使用進(jìn)行了討論與建議(The American Statistician?70:129-133),建議中提到規(guī)范的統(tǒng)計(jì)分析是端正科研行為的一個(gè)必要成分…沒(méi)有任何一個(gè)單一指標(biāo)能夠取代科學(xué)推論?(Good statistical practice, as an essential component of good scientific practice…No single index should substitute for scientific reasoning)第煮。那么解幼,我們?cè)撊绾胃鶕?jù)統(tǒng)計(jì)分析來(lái)輔助科學(xué)判斷呢抑党?首先,我們通過(guò)推論統(tǒng)計(jì)得到了幾個(gè)統(tǒng)計(jì)值撵摆,讓我們樣估計(jì)出本平均數(shù)的分布和離散程度底靠,也讓我們?cè)O(shè)定了置信區(qū)間(confidence interval),進(jìn)行檢驗(yàn)統(tǒng)計(jì)特铝,得到了相對(duì)的統(tǒng)計(jì)值(像是t?值暑中,F?值,卡方值鲫剿,z?值)以及對(duì)這些統(tǒng)計(jì)值進(jìn)行差異判斷(像是P??值評(píng)估在設(shè)定的置信區(qū)間內(nèi)沒(méi)有發(fā)現(xiàn)差異的機(jī)率鳄逾,評(píng)估一個(gè)真實(shí)存在顯著性可重復(fù)性的統(tǒng)計(jì)力power,以及差異量/效應(yīng)量effect size)灵莲。顯然雕凹,在一個(gè)統(tǒng)計(jì)分析過(guò)程中產(chǎn)生了這么多種統(tǒng)計(jì)指標(biāo),僅僅采用單一政冻、最不靠譜的P?值進(jìn)行科學(xué)判斷會(huì)是件極不合理的做法枚抵。典型的統(tǒng)計(jì)分析設(shè)定了5%或是1%的顯著水平,分別定義了95%和99%置信區(qū)間赠幕。要是一個(gè)測(cè)量值在置信區(qū)間之外俄精,就判定為差異顯著(statistical significance)。然而榕堰,每個(gè)實(shí)驗(yàn)或是樣本的特性本就存在不同竖慧,沒(méi)有根據(jù)這些特性就統(tǒng)一定義一個(gè)置信區(qū)間標(biāo)準(zhǔn)做為差異是否存在的判定,這種做法本身就缺乏邏輯合理性逆屡,也鼓勵(lì)盲目追求顯著性圾旨。P?值本身是用來(lái)計(jì)算某個(gè)統(tǒng)計(jì)值落在該母群統(tǒng)計(jì)值分布區(qū)間的概率,是估算沒(méi)有差異的概率魏蔗;這個(gè)概率并不能反過(guò)來(lái)相減來(lái)判斷不落在這個(gè)統(tǒng)計(jì)值區(qū)間的概率砍的。如果我們拿這個(gè)概率來(lái)判斷差異存在的概率,當(dāng)然會(huì)得到一個(gè)錯(cuò)誤的答案莺治。有這樣的報(bào)道廓鞠,當(dāng)一個(gè)顯著性P值為0.05和0.01時(shí),發(fā)生假陽(yáng)性的機(jī)率大約是29%和11%?(The American Statistician?55:62-71)谣旁;并不是想象中的5%和1%床佳。由于取樣造成的不確定性,P??值本身的不穩(wěn)定性榄审,當(dāng)我們得到一個(gè)顯著的P??值的時(shí)候砌们,需要檢驗(yàn)這個(gè)顯著P?值的可重復(fù)性。如果顯著性P??值的可重復(fù)性足夠高,那么浪感,這個(gè)差異分析的證據(jù)力就足夠強(qiáng)昔头,更能支持這項(xiàng)假設(shè)檢驗(yàn)的結(jié)果。這個(gè)檢驗(yàn)P?值的證據(jù)力稱作統(tǒng)計(jì)力Power影兽;一般認(rèn)為Power至少要在80%以上揭斧,也有人建議Power 應(yīng)該大于90%。也就是說(shuō)赢笨,如果重復(fù)100次實(shí)驗(yàn)發(fā)現(xiàn)顯著性P?值的次數(shù)要在80甚至90次以上未蝌,這個(gè)顯著P?值才可信。P?值只能告訴我們差異不存在的概率茧妒,而且原假設(shè)從未獲得證實(shí)萧吠;即使得到了一個(gè)足夠高的統(tǒng)計(jì)力,并不能告訴我們一個(gè)實(shí)驗(yàn)到底發(fā)生了什么變化桐筏,變化量有多大纸型,產(chǎn)生的實(shí)際效力有多重要。不少文獻(xiàn)在描述統(tǒng)計(jì)結(jié)果時(shí)梅忌,往往會(huì)做這么樣的注解:統(tǒng)計(jì)顯著所以差異很巨大狰腌,實(shí)驗(yàn)的發(fā)現(xiàn)很重大。英文中的significant的確可以解釋為巨大牧氮;但是琼腔,統(tǒng)計(jì)學(xué)上的significant并不是用來(lái)解釋差異很巨大,僅僅是描述相關(guān)統(tǒng)計(jì)值落點(diǎn)的概率踱葛,更沒(méi)有描述差異到底有多少丹莲。這個(gè)時(shí)候,就需要借助效應(yīng)量effect size來(lái)闡釋這些問(wèn)題尸诽。Effect size可以這么理解:兩個(gè)測(cè)量值之間差異的大小甥材,可以是簡(jiǎn)單的平均值相減,也可以通過(guò)其他不同的計(jì)算方法獲得性含。更合理的效應(yīng)量可以將差異量進(jìn)行標(biāo)準(zhǔn)化(standardize)?后呈現(xiàn)(例如Cohen’s d)洲赵;經(jīng)過(guò)標(biāo)準(zhǔn)化后的效應(yīng)量可以進(jìn)行不同實(shí)驗(yàn)結(jié)果的交互比較,也避免生物材料自身性質(zhì)不同而產(chǎn)生實(shí)際效應(yīng)量被判斷錯(cuò)誤的情況發(fā)生商蕴。此外叠萍,樣本的平均值并不能真實(shí)反映這些測(cè)量值的區(qū)間,僅僅計(jì)算平均值之間的差異來(lái)那個(gè)并不能告訴我們差異的區(qū)間范圍绪商。所以俭令,在表示差異量的時(shí)候,如果能夠?qū)⒉町悈^(qū)間顯示出來(lái)部宿,會(huì)給我們更多關(guān)于效應(yīng)量的信息。效應(yīng)量的大小是否足以解釋實(shí)驗(yàn)的效應(yīng),需要更廣泛的科學(xué)判斷理张。足夠大的效應(yīng)量更容易解釋一個(gè)生物學(xué)效應(yīng)赫蛇,但不見(jiàn)得一定會(huì)產(chǎn)生相關(guān)生物學(xué)作用;一個(gè)微小的效應(yīng)量并不見(jiàn)得沒(méi)有生物學(xué)意義雾叭,而一個(gè)有意義的生物學(xué)解釋會(huì)讓人發(fā)現(xiàn)該微小效應(yīng)所產(chǎn)生的重要性悟耘。生物個(gè)體之間原本就存在某些差異,只要樣本足夠大织狐,任何極微小的差異都能夠被顯著性P?值以及統(tǒng)計(jì)力檢測(cè)到暂幼。如果得到了很明顯的P?值與統(tǒng)計(jì)力來(lái)支持差異的存在,卻無(wú)法解釋一個(gè)極微小差異量的生物學(xué)意義移迫,那么旺嬉,只能說(shuō)是該實(shí)驗(yàn)的確造成了某些改變,但是厨埋,這樣的改變量可能并不是很重要邪媳。通過(guò)顯著性所建議的假設(shè)檢驗(yàn)(參考P值),該假設(shè)檢驗(yàn)的可重復(fù)性(參考Power)荡陷,兩個(gè)平均值的差異量(effect size)雨效,以及我們對(duì)相關(guān)科學(xué)研究的認(rèn)識(shí),判斷废赞,實(shí)驗(yàn)設(shè)計(jì)的合理性徽龟,實(shí)驗(yàn)技術(shù)本身的可靠性等內(nèi)容,我們可以進(jìn)行有知識(shí)的科學(xué)判斷與推理唉地。
2.置信度和置信區(qū)間
在假設(shè)檢驗(yàn)的過(guò)程中据悔,我們往往采用樣本數(shù)據(jù)特征來(lái)估計(jì)整體的數(shù)據(jù)特征。在中心極限定理里渣蜗,我們知道從總體中進(jìn)行N次樣本抽取屠尊,N次樣本的均值會(huì)圍繞總體均值上下波動(dòng)。因此耕拷,置信區(qū)間就是為總體的均值提供了一個(gè)可波動(dòng)的范圍讼昆,置信區(qū)間與置信度是相對(duì)應(yīng)的。例如骚烧,在95%的置信度下浸赫,置信區(qū)間為【a,b】,也就是說(shuō)赃绊,抽取100次樣本既峡,其中有95次樣本的均值能夠落在【a,b】范圍內(nèi)。