經(jīng)典單case假設(shè)檢驗(yàn)基于對(duì)統(tǒng)計(jì)量(p值)尾部的解釋闺兢。二戰(zhàn)后桥状,多重檢驗(yàn)繼續(xù)基于p值立肘,并擴(kuò)展到大規(guī)模假設(shè)檢驗(yàn)锹引,前面3和4章進(jìn)行了介紹。然而即使控制了錯(cuò)誤發(fā)現(xiàn)率,仍然與顯著性檢驗(yàn)和一類錯(cuò)誤想去甚遠(yuǎn)款慨。
對(duì)單例假設(shè)檢驗(yàn)來說,基于尾部區(qū)域是必須的,因?yàn)閦=1.96的概率是0。大規(guī)模檢驗(yàn)中蔗崎,允許進(jìn)行局部值推斷而不包含更極端值區(qū)域。這就是局部錯(cuò)誤發(fā)現(xiàn)率扰藕。
5.1 估計(jì)局部錯(cuò)誤發(fā)現(xiàn)率
由于每個(gè)case要么null要么non-null缓苛,可以用以下描述
局部錯(cuò)誤發(fā)現(xiàn)率為
其中是混合概率密度函數(shù)
本章假設(shè)已知,而且基于上章中方法估計(jì)邓深,則只剩需要估計(jì)未桥,而且已知了觀測(cè)值
基于泊松回歸方法估計(jì),假設(shè)null下z服從標(biāo)準(zhǔn)正態(tài)分布芥备,并利用中心區(qū)域?yàn)?0%估算冬耿,則可估算局部錯(cuò)誤發(fā)現(xiàn)率
ps:這個(gè)估計(jì)值可能會(huì)超過1,這是因?yàn)閷?duì)的估計(jì)離真實(shí)差太多萌壳,或者z并不服從亦镶。
對(duì)進(jìn)行積分可以得到
如果我們?nèi)?img class="math-inline" src="https://math.jianshu.com/math?formula=fdr(z)%5Cleq%200.2" alt="fdr(z)\leq 0.2" mathimg="1">,則等同于袱瓮,如果我們假設(shè)缤骨,則要求。這被稱為對(duì)抗零假設(shè)的貝葉斯因子懂讯。
5.2 的泊松回歸估計(jì)法
對(duì)的平滑估計(jì)荷憋,采用flexible exponential family models的MLE得到台颠。
例如設(shè)屬于J-parameter famlily
其中取決于褐望,以使的積分為1。當(dāng)J=2時(shí)串前,會(huì)使得為正態(tài)分布瘫里。
Lindsey’s method是一種基于離散的z值,使用標(biāo)準(zhǔn)泊松回歸方法荡碾,估算的最大似然估計(jì)的算法:
- 將的取值區(qū)間谨读,按照相等的范圍劃分為段:
- 定義為落入對(duì)應(yīng)區(qū)間中的觀測(cè)值數(shù)量
而是對(duì)應(yīng)區(qū)間的中心值,則的期望值近似為:
- 假設(shè)是來自獨(dú)立的泊松分布
然后擬合回歸模型
以上是standard Poisson generalized linear model (GLM)坛吁。
以此得到的是其模型的最大似然估計(jì)值劳殖。
5.3 統(tǒng)計(jì)推斷和局部錯(cuò)誤發(fā)現(xiàn)率
視角從切換到更符合貝葉斯習(xí)慣:從貝葉斯角度來看相對(duì)于觀測(cè)尾部概率更合適。
上圖通過非參數(shù)估計(jì)得到
然而通過區(qū)間內(nèi)的個(gè)數(shù)進(jìn)行非參數(shù)估計(jì)非常不穩(wěn)定拨脉,如果用平滑版本進(jìn)行估計(jì)
-
更普通的結(jié)構(gòu)
5.1節(jié)中的模型可以更一般化使1...N基因?qū)?yīng)的結(jié)構(gòu)不同:
如果定義
則我們又回到了5.1中的兩個(gè)分組的模型哆姻。 -
使用先驗(yàn)知識(shí)
之前我們的推斷都是基于我們不知道(第i個(gè)基因)的信息,所以只能勉強(qiáng)使用兩個(gè)分組的模型玫膀。如果我們知道的先驗(yàn)信息矛缨,則
相比于是一個(gè)更好的模型。 -
可交換性
比如取,我們會(huì)報(bào)道大于等于3.2的36個(gè)基因有較大可能確實(shí)與研究?jī)?nèi)容相關(guān)箕昭。但是它們其實(shí)顯著水平并不相同灵妨,對(duì)于數(shù)值更大的來說,它們的錯(cuò)誤發(fā)現(xiàn)率低于0.108落竹。
如果采用泌霍,則問題會(huì)小一些,比如我們會(huì)認(rèn)為[3.2, 3.3)間的錯(cuò)誤發(fā)現(xiàn)率為0.25筋量,而[3.3,3.4)間的錯(cuò)誤發(fā)現(xiàn)率為0.21烹吵。
Ps:當(dāng)然如果知道單個(gè)基因的先驗(yàn)知識(shí),可交換性就沒有意義了桨武,應(yīng)采用前一部分的方法肋拔。 -
伸縮性
如果研究的假設(shè)增加會(huì)怎么樣?比如前面N個(gè)基因擴(kuò)大為2N個(gè)呀酸。
對(duì)來說影響并不大凉蜂,基于前面的模型可知,增大為2N后只是讓均值更趨向于期望值性誉,會(huì)讓結(jié)果更精確窿吩。
然后對(duì)于傳統(tǒng)控制FWER的方法來說,會(huì)有特別大影響错览。比如對(duì)Bonferroni方法纫雁,會(huì)導(dǎo)致閾值從降低到。
那么對(duì)呢倾哺?如果是最小的值轧邪,而且其對(duì)應(yīng)的p值為,則等于羞海。如果忌愚,就會(huì)導(dǎo)致錯(cuò)誤發(fā)現(xiàn)率小于控制目標(biāo)q。
增大檢驗(yàn)基因數(shù)却邓,另一方面會(huì)有相關(guān)性上的影響硕糊。之前的研究可能選擇的是人為認(rèn)為最相關(guān)的基因集合,如果數(shù)量擴(kuò)大一倍會(huì)導(dǎo)致集合與研究問題的相關(guān)性下降腊徙。 -
更多結(jié)構(gòu)的模型
如果N個(gè)基因來自M個(gè)天然的分類简十,我們可以根據(jù)每種分類運(yùn)用locfdr算法擬合,但是在小的分類中會(huì)引入評(píng)估問題撬腾。一種更好的做法是使用以下擴(kuò)展模型:
其中m代表類別螟蝙,且。它在保持了尾部特性同時(shí)时鸵,很好的兼容了不同均值和方差的類別胶逢。會(huì)在第10章討論厅瞎。 -
結(jié)合Fdr和fdr
其實(shí)沒必要選擇使用Fdr或fdr,它們可以合并使用初坠。它們間是可以轉(zhuǎn)換的和簸。 -
貝葉斯的局限
經(jīng)驗(yàn)貝葉斯推斷的是即,不一定等同于
特別是z值有相關(guān)性的情況下碟刺。會(huì)在第9章討論锁保。 -
假陽(yáng)性和真陽(yáng)性的期望
局部錯(cuò)誤發(fā)現(xiàn)率控制下,對(duì)應(yīng)的假陽(yáng)性為“EFP”半沽,對(duì)應(yīng)的真陽(yáng)性為“ETP”爽柒。
如果我們按個(gè)體來看,如果對(duì)拒絕的閾值為者填,則
所以
其中是成為第i個(gè)的先驗(yàn)概率(可以取)浩村。
我們期望的是:通過調(diào)整閾值,在給定EFP前提下占哟,最大化ETP心墅。
由于
同樣的,應(yīng)用標(biāo)準(zhǔn)拉格朗日乘子法榨乎,對(duì)最佳的怎燥,存在常數(shù)使得
由于知道先驗(yàn)知識(shí)時(shí),則可推導(dǎo)出
因此在給定EFP前提下最大化ETP:給定fdr下蜜暑,z值等于閾值時(shí)铐姚。
5.4 power診斷
之前的討論都主要專注于控制一類錯(cuò)誤(正如fdr其名字),本節(jié)主要討論在局部錯(cuò)誤發(fā)現(xiàn)率控制下的power診斷肛捍。
定義正確發(fā)現(xiàn)率:local true discovery rate, tdr(z):
則
其中
如果代表落在第k個(gè)區(qū)間的基因隐绵,當(dāng)然我們不能直接區(qū)分開null和non-null,但是可以進(jìn)行估算
由于來自區(qū)間統(tǒng)計(jì)篇梭,會(huì)有較大波動(dòng)(histogram noise)氢橙,一個(gè)更好的版本是結(jié)合之前的評(píng)估的概率密度函數(shù):
稱為:smoothed non-null counts
上圖是前面例子的對(duì)比酝枢。
此處有一個(gè)重要的區(qū)別恬偷,中不再假設(shè)為,而是取empirical null
這會(huì)在第6章討論帘睦。
在圖中的105個(gè)smoothed non-null中袍患,只有26.8個(gè)發(fā)生在的區(qū)域中,約占26%竣付。也就是說這項(xiàng)研究的power很低诡延。
上圖中全部non-null的cdf是
圖中還有一個(gè)模擬的高power示例(虛線)。
一個(gè)簡(jiǎn)單直接的關(guān)于power的統(tǒng)計(jì)量是
值低代表power高(non-null大部分發(fā)生在fdr低的區(qū)域)古胆,反之為power低肆良。
上表展示了一個(gè)模擬筛璧,可以發(fā)現(xiàn)增加z的個(gè)數(shù)并不會(huì)明顯影響,只是會(huì)讓bias變小惹恃,真實(shí)夭谤,大部分bias會(huì)讓評(píng)估偏大,從而降低巫糙,這是因?yàn)椴捎昧?.44中的估計(jì)法導(dǎo)致的朗儒。
在這種場(chǎng)景下,研究員經(jīng)常會(huì)發(fā)現(xiàn)自己實(shí)驗(yàn)前認(rèn)為相關(guān)的基因常常不會(huì)fdr拒絕域內(nèi)参淹,這可能是因?yàn)榈蚿ower導(dǎo)致的醉锄。如前面所講的,結(jié)合先驗(yàn)知識(shí)可能會(huì)有助改善此類問題浙值。
最后值得注意的恳不,所有本節(jié)的power診斷都是基于不需要先驗(yàn)知識(shí)的前提下,這是大規(guī)模研究的優(yōu)點(diǎn)之一开呐。