流行病學(xué)研究常見的分析就是相關(guān)性分析了材泄。
相關(guān)性分析某種程度上可以為我們提供一些研究思路沮焕,比如缺乏元素A與某種癌癥相關(guān),那么我們可以通過補充元素A來減少患癌率拉宗。這個結(jié)論的大前提是缺乏元素A會導(dǎo)致這種癌癥峦树,也就是說元素A和癌癥有因果關(guān)系。
但實際上旦事,元素A和癌癥有相關(guān)性空入,不代表他們之間就有因果關(guān)系。也有可能是患癌癥的人同時有其他的并發(fā)癥族檬,這種并發(fā)癥會導(dǎo)致元素A缺乏。
再比如化戳,研究表明单料,大胸女生與不愛運動相關(guān)埋凯。那么,到底是因為胸大的女性不愛運動扫尖,還是因為不愛運動導(dǎo)致胸大(肥胖)白对。
如果不做其他分析,光看這個相關(guān)性换怖,我們是無法得知這兩個表征之間是否有真實的因果關(guān)系甩恼。
為了闡明這些表征是否有因果關(guān)系,我們一般在研究中考慮加入孟德爾隨機化分析沉颂。
1 孟德爾隨機化分析的思想
還是前面的例子条摸,假定我們認為大胸的人(因)不愿意運動(果)。
那我們的研究思路就是找到與大胸有關(guān)的顯著遺傳位點铸屉,再分析這些遺傳位點是否也與不愛運動相關(guān)钉蒲。
如果與大胸相關(guān)的遺傳位點同時也與不愛運動相關(guān),那么我們就會認為大胸的人就是不愛運動彻坛。
反過來顷啼,如果與大胸相關(guān)的遺傳位點與不愛運動沒有關(guān)系,那么我們認為大胸跟不愛運動是沒有因果關(guān)系的昌屉,他們之間存在相關(guān)性可能是由其他的因素導(dǎo)致的钙蒙。
2 為什么孟德爾隨機化研究采用遺傳位點作為分析媒介
原因很簡單,遺傳位點是我們出生就決定了的间驮,后期不會隨文化躬厌、經(jīng)濟等因素改變。
如果我們發(fā)現(xiàn)位點A與大胸有相關(guān)性蜻牢,那么毫無疑問烤咧,是位點A影響了胸部大小。
反過來說就不成立了抢呆,因為胸大煮嫌,所以遺傳位點會變?yōu)锳,這樣的結(jié)論聽起來就很怪異抱虐。
3 孟德爾隨機化研究計算原理
3.1 找到影響大胸的SNP位點
這個目前最流行的方法就是全基因組關(guān)聯(lián)分析了昌阿。
通過獲取不同個體的罩杯大小(表型)和他們的遺傳位點(基因型)恳邀,做全基因組關(guān)聯(lián)分析懦冰。
3.2 將影響大胸的顯著信號位點作為后續(xù)分析的位點
我們對顯著信號位點的定義是P值<5*10-8
3.3 計算大胸顯著信號位點與不愛運動的關(guān)系
同樣可以用全基因組關(guān)聯(lián)分析的方法。
隨后獲得大胸顯著信號位點與不愛運動的效應(yīng)值(BETA)或者風(fēng)險值(OR)
3.4 畫顯著信號位點分別在大胸和不愛運動的效應(yīng)值散點圖谣沸,散點圖的斜率代表大胸對不愛運動這個行為的影響大兴⒏帧(causal effect)
4 怎么做孟德爾隨機化分析
下面舉一個簡單的小例子。
4.1 安裝R包
install.packages("devtools")
library(devtools)
install_github("MRCIEU/TwoSampleMR")
4.2 導(dǎo)入大胸(exposure)的顯著信號位點
library(TwoSampleMR)
bmi_file <- system.file("data/bmi.txt", package="TwoSampleMR")
exposure_dat <- read_exposure_data(bmi_file)
大胸顯著信號位點數(shù)據(jù)格式如下:
4.3 導(dǎo)入顯著信號位點與不愛運動的相關(guān)性數(shù)據(jù)
outcome_dat <- read_outcome_data(snps = exposure_dat$SNP,filename = "F:/download/test.csv", sep = ",",snp_col = "SNP",beta_col = "beta",se_col = "se",effect_allele_col = "effect_allele",other_allele_col = "other_allele",eaf_col = "eaf",samplesize_col = "samplesize")
不愛運動信號位點數(shù)據(jù)格式test.csv如下:
導(dǎo)入顯著信號位點與不愛運動的相關(guān)性數(shù)據(jù)?outcome_dat如下:
4.4 統(tǒng)一大胸和不愛運動的效應(yīng)值方向
dat <- harmonise_data(exposure_dat, outcome_dat)
4.5 孟德爾隨機化分析
res <- mr(dat)
結(jié)果不顯著乳附,說明兩者有相關(guān)性内地,但是沒有因果關(guān)系伴澄。
4.6 畫散點圖
p1 <- mr_scatter_plot(res, dat)
p1[[1]]
4.7 補充其他分析
4.7.1 Heterogeneity statistics
mr_heterogeneity(dat)
4.7.2 Horizontal pleiotropy
mr_pleiotropy_test(dat)
4.7.3 Single SNP analysis
res_single <- mr_singlesnp(dat)
4.7.4 Leave-one-out analysis
res_loo <- mr_leaveoneout(dat)
4.7.5 Forest plot
res_single <- mr_singlesnp(dat)
p2 <- mr_forest_plot(res_single)
p2[[1]]
4.7.6 Leave-one-out plot
res_loo <- mr_leaveoneout(dat)
p3 <- mr_leaveoneout_plot(res_loo)
p3[[1]]
4.7.7 Funnel plot
res_single <- mr_singlesnp(dat)
p4 <- mr_funnel_plot(res_single)
p4[[1]]
#######關(guān)于孟德爾隨機化的研究就講到這,更多詳情內(nèi)容請看:https://mrcieu.github.io/TwoSampleMR/阱缓。 另外非凌,本文提到的大胸與運動的關(guān)系,不是我瞎想出來的荆针,真有人做過研究敞嗡,對這篇文章感興趣的,請到微信公眾號“bio生物信息”后臺回復(fù)“大胸” :D