在淺探富集分析中的超幾何分布中我們談到了通過p值大小來確定富集到的基因的顯著性,但是p值終歸是人定的请垛,我們不能說定下p值以后小于p值得結(jié)果就都是正確的,這里p值小只是代表假陽性概率小辆它,但并非真的就一定是對的缀去。p=0.05意味著我們檢驗1次犯錯的概率為5%;但是倘若我們檢驗次數(shù)多達10000次识脆,那么犯錯的概率將多達500多次设联。這里雖然犯錯的概率沒變(5%),但是隨著檢驗次數(shù)的增多灼捂,我們犯錯的次數(shù)也實實在在的增多了离例。因此就需要多重檢驗校正來減低假陽性的次數(shù)。
1悉稠、多重檢驗校正方法
1.1 Bonferroni校正
Bonferroni是最簡單嚴厲的方法宫蛆,他直接將閾值降到極低來減少假陽性率。例如:同為檢驗10000次的猛,閾值為5%時犯錯次數(shù)依然會有多達500次耀盗;然而想虎,當我們把閾值提高到5%/10000時,即便檢驗10000次叛拷,犯錯次數(shù)依然不到一次舌厨。
Bonferroni校正閾值的公式為:p*(1/n),p為普通的閾值胡诗,n為檢驗次數(shù)邓线。
雖然淌友,降低閾值能非常直接的減低假陽性概率煌恢,但同時也過于嚴厲,極有可能將真正的陽性結(jié)果震庭,也即我們想要的結(jié)果也給篩掉了瑰抵。
1.2 FDR (False Discovery Rate)校正
FDR(False Discovery Rate)用比較溫柔的方法調(diào)整,試圖在假陽性和假陽性間達到平衡(即器联,不是不讓假陽性出現(xiàn)二汛,只是將假/真陽性比例控制在一定范圍內(nèi))。
FDR的目標是試圖得到一個校正后的閾值拨拓,來實現(xiàn):在發(fā)現(xiàn)的差異結(jié)果中肴颊,假陽性控制在極低比例;例如渣磷,檢驗10000次婿着,無論我們得到多少差異基因,能不能保證其中定性為差異基因結(jié)果中醋界,錯誤率在5%以內(nèi)竟宋。如果找到差異基因100個,我能做到拍著胸脯說:“假的差異基因不多于5個”形纺。這就叫FDR< 5%丘侠。
有多種模型用來從p-value估算FDR值,其中使用的最多的是Benjaminiand Hochberg的方法逐样,簡稱 BH法蜗字。BH法雖然不夠精確,但是簡單好用脂新。
BH 方法的公式為:p*(m/k)挪捕,其中的p為普通的p-value,m為檢驗次數(shù)戏羽,k為此次檢驗的p-value在所有檢驗次數(shù)中的排名担神。例如,檢驗了100次(m)始花,則排名為10的Q-value 則為0.03(100/10)=0.3妄讯,代表在這前十次檢驗中假的差異基因不多于10*0.3個孩锡。
FDR常見的閾值為0.1%,1%亥贸,5%等躬窜,也可設(shè)置寬松達25%,表示差異基因結(jié)果中有25%是假的炕置。
BH法只是對FDR的預(yù)估荣挨,并非準確,而且依然過于嚴格(閾值依然卡的太嚴朴摊,假陰性太高)默垄。最有名且精確度更高的是Storey方法。
2甚纲、FDR口锭,Q value,adjust p value
p-value:衡量一次檢驗假陽性率的指標(False positive rate) 介杆;
q value:衡量錯誤發(fā)現(xiàn)率的指標(False discovery rate鹃操,簡稱FDR,所有檢驗中假陽性的概率)春哨。即使用Q value的這個參 數(shù)預(yù)估FDR荆隘。Q value 需要利用公式從p value 校正計算后得到,所以Q value 通常又被稱為adjusted p value赴背。所以一般情況下:我們可以認為Q value = FDR = adjusted p value椰拒,即三者是一個東西,雖然有些定義上的細微區(qū)別癞尚,但是問題也不大耸三。