The multiple testing problem, Bonferroni and FDR[多重檢驗(yàn)問題及控制]

原文摘自生物秀,經(jīng)筆者編輯修改

數(shù)據(jù)分析中常碰見多重檢驗(yàn)問題(multiple testing).Benjamini于1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設(shè)你挑選了R個(gè)差異表達(dá)的基因塑娇,其中有S個(gè)是真正有差異表達(dá)的,另外有V個(gè)其實(shí)是沒有差異表達(dá)的哨啃,是假陽性的.實(shí)踐中希望錯(cuò)誤比例Q=V/R平均而言不能超過某個(gè)預(yù)先設(shè)定的值(比如0.05),在統(tǒng)計(jì)學(xué)上拳球,這也就等價(jià)于控制FDR不能超過5%.根據(jù)Benjamini在他的文章中所證明的定理,控制fdr的步驟實(shí)際上非常簡(jiǎn)單邑跪。

設(shè)總共有m個(gè)候選基因呼猪,每個(gè)基因?qū)?yīng)的p值從小到大排列分別是p(1),p(2),...,p(m),則若想控制fdr不能超過q砸琅,則只需找到最大的正整數(shù)i,使得 p(i)<= (iq)/m.然后谚赎,挑選對(duì)應(yīng)p(1),p(2),...,p(i)的基因做為差異表達(dá)基因诱篷,這樣就能從統(tǒng)計(jì)學(xué)上保證fdr不超過q。*

  1. P-value 是 (在H0 = true的情況下)得到和試驗(yàn)數(shù)據(jù)一樣極端(或更極端)的統(tǒng)計(jì)量的概率. 它不是H1發(fā)生的概率. 假定吃蘋果的一組和不吃蘋果的一組的差異為D, P-value=0.2的意思是, pure randomly (即H0=true)的情況下, 觀察到和D一樣或比D更大的差異的概率是20%.
  2. P-value 的本質(zhì)是控制PFR (false positive rate), hypothesis test 的目的是make decision. 傳統(tǒng)上把小概率事件的概率定義為0.05或0.01, 但不總是這樣. 主要根據(jù)研究目的. 在一次試驗(yàn)中(注意:是一次試驗(yàn), 即single test), 0.05 或0.01的cutoff足夠嚴(yán)格了(想象一下, 一個(gè)口袋有100個(gè)球, 95個(gè)白的, 5個(gè)紅的, 只讓你摸一次, 你能摸到紅的可能性是多大?). 我剛才強(qiáng)調(diào)的是single test, 在multiple test中, 通常不用p-value, 而采用更加嚴(yán)格的q-value. 與p-value 不同, q-value 控制的是FDR (false discovery rate).
  3. 舉個(gè)例子.假如有一種診斷艾滋病(AIDS)的試劑, 試驗(yàn)驗(yàn)證其準(zhǔn)確性為99%(每100次診斷就有一次false positive). 對(duì)于一個(gè)被檢測(cè)的人(single test) 來說, 這種準(zhǔn)確性夠了. 但對(duì)于醫(yī)院 (multiple test) 來說, 這種準(zhǔn)確性遠(yuǎn)遠(yuǎn)不夠, 因?yàn)槊吭\斷10 000個(gè)個(gè)體, 就會(huì)有100個(gè)人被誤診為艾滋病(AIDS).
  4. 總之, 如果你很care false positive, p-value cutoff 就要很低. 如果你很care false negative (就是"寧可錯(cuò)殺一千, 也不能漏掉一個(gè)" 情況), p-value 可以適當(dāng)放松到 0.1, 0.2 都是可以的.

現(xiàn)有FDR控制方法最大的弊端在于闸盔,他們假設(shè)p-value"s under the null hypothesis是(1)independent(2)following uniform (0,1) distribution. 這兩點(diǎn)假設(shè)從實(shí)際觀察到的數(shù)據(jù)來看經(jīng)常是不合理的琳省,尤其是第二點(diǎn)。(順便提一句针贬,Storey和Leek在07年的PLOS Genetics發(fā)表了一篇文章專門解決第二個(gè)假設(shè)的合理性問題,很牛蔫巩,有興趣可以看一下)

**Bonferroni校正 *  
如果在同一數(shù)據(jù)集上同時(shí)檢驗(yàn)n個(gè)獨(dú)立的假設(shè)快压,那么用于每一假設(shè)的統(tǒng)計(jì)顯著水平,應(yīng)為僅檢驗(yàn)一個(gè) 假設(shè)時(shí)的顯著水平的1/n嗓节。舉個(gè)例子:如要在同一數(shù)據(jù)集上檢驗(yàn)兩個(gè)獨(dú)立的假設(shè)拦宣,顯著水平設(shè)為常見的0.05信姓。此時(shí)用于檢驗(yàn)該兩個(gè)假設(shè)應(yīng)使用更嚴(yán)格的 0.025绸罗。即0.05
(1/2)意推。該方法是由Carlo Emilio Bonferroni發(fā)展的,因此稱Bonferroni校正珊蟀。   這樣做的理由是基于這樣一個(gè)事實(shí):在同一數(shù)據(jù)集上進(jìn)行多個(gè)假設(shè)的檢驗(yàn)菊值,每20個(gè)假設(shè)中就有一個(gè)可能純粹由于概率,而達(dá)到0.05的顯著水平育灸。

參考文獻(xiàn):

[1].Audic, S. and J. M. Claverie (1997). The significance of digital gene expression profiles. Genome Res 7(10): 986-95.   
[2].Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. The Annals of Statistics. 29: 1165-1188.
[3]. Benjamini Y, Hochberg Y. Controlling The False Discovery Rate - A Practical And Powerful Approach To Multiple Testing[J]. Journal of the Royal Statistical Society, 1995, 57(57):289-300.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末腻窒,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子磅崭,更是在濱河造成了極大的恐慌儿子,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砸喻,死亡現(xiàn)場(chǎng)離奇詭異柔逼,居然都是意外死亡割岛,警方通過查閱死者的電腦和手機(jī)愉适,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來癣漆,“玉大人维咸,你說我怎么就攤上這事』菟” “怎么了腰湾?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)疆股。 經(jīng)常有香客問我费坊,道長(zhǎng),這世上最難降的妖魔是什么旬痹? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任附井,我火速辦了婚禮,結(jié)果婚禮上两残,老公的妹妹穿的比我還像新娘永毅。我一直安慰自己,他們只是感情好人弓,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布沼死。 她就那樣靜靜地躺著,像睡著了一般崔赌。 火紅的嫁衣襯著肌膚如雪意蛀。 梳的紋絲不亂的頭發(fā)上耸别,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音县钥,去河邊找鬼秀姐。 笑死,一個(gè)胖子當(dāng)著我的面吹牛若贮,可吹牛的內(nèi)容都是我干的省有。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼谴麦,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蠢沿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起匾效,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤搏予,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后弧轧,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡碗殷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年精绎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锌妻。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡代乃,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出仿粹,到底是詐尸還是另有隱情搁吓,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布吭历,位于F島的核電站堕仔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏晌区。R本人自食惡果不足惜摩骨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望朗若。 院中可真熱鬧恼五,春花似錦、人聲如沸哭懈。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遣总。三九已至睬罗,卻和暖如春轨功,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背傅物。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國(guó)打工夯辖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人董饰。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓蒿褂,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親卒暂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子啄栓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 看下面邊的文字之前,可以先看一下Nature Biotechnology 27, 1135 - 1137 (200...
    宇宙獨(dú)一無二的我閱讀 11,809評(píng)論 0 10
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理也祠,服務(wù)發(fā)現(xiàn)昙楚,斷路器,智...
    卡卡羅2017閱讀 134,651評(píng)論 18 139
  • 一 愛诈嘿,多半從水中開始 站在橋畔 你環(huán)住我堪旧,低聲說 秦淮河就在腳下流淌 從他眼里 我看到朱雀橋橋頭 媚眼如絲的十月...
    晞仝閱讀 407評(píng)論 6 9
  • 段落標(biāo)題既是整篇文章的骨架淳梦,又是每個(gè)層次、段落的提領(lǐng)昔字。大家都有一種體會(huì)爆袍,就是相同的內(nèi)容、材料作郭,好的標(biāo)題能給文章增色...
    huoxing02閱讀 372評(píng)論 2 2
  • 想知道生存的意義陨囊,想知道為什么要活在這個(gè)世界上,想要還好的明白一下夹攒,我現(xiàn)在到底是怎么了蜘醋。 不知道有沒有人像我一...
    無乃勿閱讀 311評(píng)論 0 0