徹底理解Benjamini-Hochberg方法原理

什么是FDR?

錯誤發(fā)現(xiàn)率FDR(False discovery rate)是在所有結(jié)果顯著的檢驗中舟陆,假陽(零假設(shè)H0為真時误澳,拒絕H0的情況)所占的比率。如下表所示秦躯,N次假設(shè)檢驗中忆谓,F(xiàn)DR定義為V/R=V/(V+S)。


而經(jīng)典的Benjamini-Hochberg (BH) 方法就是用于控制錯誤發(fā)現(xiàn)率FDR的一種方法踱承,讓FDR≤α倡缠。

Benjamini-Hochberg方法介紹

有N次假設(shè)檢驗,對每一次假設(shè)檢驗都計算其P值茎活,然后將計算出的P值按照從小到大的方式排序昙沦,接著從最小的P值開始,按照P(k)≤α*k/N進行比較载荔,然后可以找到最大的第K個滿足上述不等式的P值盾饮,最終可以認為這K個P值是顯著的,其余的P值不顯著懒熙。

我們來看一個具體例子丘损,假設(shè)需要檢驗的總體均值為6%,重復(fù)進行了30次抽樣檢驗工扎,最小的6個P值如下表所示号俐,如果使用5%的顯著性水平,僅考慮P值大小來評估的話定庵,那么我們將會拒絕最小的5個P值所對應(yīng)的檢驗(P值=0.0625>5%)吏饿,但使用Benjamini-Hochberg方法修正后,只會拒絕一個P值(下表中第一個)蔬浙。


Benjamini-Hochberg方法原理

我們將10000次假設(shè)檢驗分為2組:

1. 9000次檢驗的零假設(shè)H0:真猪落;

2. 1000次檢驗的零假設(shè)H0:假。

然后畴博,可以看到這兩組檢驗的P值分布情況如下圖所示:


H0為真時笨忌,P值均勻分布在0%-100%之間,為什么會是均勻分布呢俱病?是因為在零假設(shè)H0條件下官疲,P值有5%的可能性小于5%袱结,有10%的可能性小于10%,有20%的可能性小于20%途凫,以此類推垢夹,可以很直觀理解P值的均勻分布。而上圖之所以不是完全的均勻分布维费,是因為樣本數(shù)量還不夠大(當(dāng)樣本數(shù)量越大果元,P值也就越接近于均勻分布)。

H0為假時犀盟,P值就不再是均勻分布了而晒,而是集中在0%附近,其他區(qū)間基本沒有出現(xiàn)阅畴。這也比較好理解:H0是假倡怎,假設(shè)檢驗的功效越大,檢驗出H0為假的能力就越好贱枣,也就意味著P值越小诈胜,拒絕H0的證據(jù)越明顯。

如果將所有P值合在一起統(tǒng)計的話冯事,就如下圖所示焦匈。0%附近的第一個直方塊高度為1400次,而后面均勻分布的方塊平均高度為453次(如下圖紅線所示)昵仅,因此使用這個直方圖缓熟,我們可以大致估計出零假設(shè)H0是假,應(yīng)該被拒絕的數(shù)是:1400-453=947(和上圖中的真實值1000非常接近)摔笤。


進一步思考够滑,0%附近第一個直方塊中包含的1400個P值,按照常規(guī)假設(shè)檢驗吕世,都需要拒絕掉么彰触?通過上述分析,一個合理的拒絕數(shù)量應(yīng)該為947個命辖。

實際上况毅,按照Benjamini-Hochberg方法,從小到大的順序?qū)值進行排序尔艇,按照P(k)≤α*k/N進行比較尔许,拒絕最小的P值,其中有116個H0為真的情況终娃,也就意味著錯誤發(fā)現(xiàn)率FDR=116/947=0.12味廊。

如果要控制FDR≤α=0.1,則可重新使用Benjamini-Hochberg方法,這次我們從更加圖形可視化的角度來理解這個過程余佛。

如下圖所示柠新,橫坐標(biāo)是假設(shè)檢驗次數(shù),縱坐標(biāo)是P值辉巡。在坐標(biāo)系中我們先以α/N為斜率畫一條紅線(P=α*k/N函數(shù))恨憎,然后將所有假設(shè)檢驗的P值分布在坐標(biāo)系中,拒絕掉所有在紅線下的P值(也就是≤α*k/N的P值)红氯。


具體而言框咙,α/N為斜率的紅線和所有假設(shè)檢驗的P值相交的最大點對應(yīng)頻次為883咕痛,在883個最小P值中實際上有83個零假設(shè)H0為真的情況痢甘,也就意味著實際的FDR=83/883=0.094<0.1。

為什么Benjamini-Hochberg方法能保證FDR≤α呢茉贡?本質(zhì)是什么塞栅?

我們將上面的具體問題提煉總結(jié)一下,如下圖所示:橫坐標(biāo)是假設(shè)檢驗次數(shù)腔丧,縱坐標(biāo)是P值(0%-100%之間)放椰,先畫一條以α/N為斜率的紅線,假設(shè)L是紅線和所有假設(shè)檢驗的P值相交的最大點(L以下都是需要拒絕的P值)愉粤。而基于上文砾医,我們知道零假設(shè)H0為真時的P值是均勻分布,也就是說P值落在任意[0%-100%]區(qū)間的期望值為:k%*H0為真的假設(shè)檢驗次數(shù)衣厘,而H0為真的假設(shè)檢驗次數(shù)N0一定是小于N的如蚜。


在L個被拒絕的P值中,其中H0為真的假設(shè)檢驗個數(shù)為:h*?H0為真的假設(shè)檢驗次數(shù)=h*N0影暴。


這就是為什么Benjamini-Hochberg方法能有效控制錯誤發(fā)現(xiàn)率FDR≤α的底層邏輯错邦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市型宙,隨后出現(xiàn)的幾起案子撬呢,更是在濱河造成了極大的恐慌,老刑警劉巖妆兑,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件魂拦,死亡現(xiàn)場離奇詭異,居然都是意外死亡搁嗓,警方通過查閱死者的電腦和手機晨另,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谱姓,“玉大人借尿,你說我怎么就攤上這事。” “怎么了路翻?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵狈癞,是天一觀的道長。 經(jīng)常有香客問我茂契,道長蝶桶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任掉冶,我火速辦了婚禮真竖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘厌小。我一直安慰自己恢共,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布璧亚。 她就那樣靜靜地躺著讨韭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪癣蟋。 梳的紋絲不亂的頭發(fā)上透硝,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天,我揣著相機與錄音疯搅,去河邊找鬼濒生。 笑死,一個胖子當(dāng)著我的面吹牛幔欧,可吹牛的內(nèi)容都是我干的罪治。 我是一名探鬼主播,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼琐馆,長吁一口氣:“原來是場噩夢啊……” “哼规阀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起瘦麸,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤谁撼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后滋饲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體厉碟,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年屠缭,在試婚紗的時候發(fā)現(xiàn)自己被綠了箍鼓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡呵曹,死狀恐怖款咖,靈堂內(nèi)的尸體忽然破棺而出何暮,到底是詐尸還是另有隱情,我是刑警寧澤铐殃,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布海洼,位于F島的核電站,受9級特大地震影響富腊,放射性物質(zhì)發(fā)生泄漏坏逢。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一赘被、第九天 我趴在偏房一處隱蔽的房頂上張望是整。 院中可真熱鬧,春花似錦民假、人聲如沸浮入。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽舵盈。三九已至陋率,卻和暖如春球化,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背瓦糟。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工筒愚, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人菩浙。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓巢掺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親劲蜻。 傳聞我的和親對象是個殘疾皇子陆淀,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,647評論 2 354

推薦閱讀更多精彩內(nèi)容