本教程是手把手教你如何使用eMAGMA的指南,eMAGMA是一種通過將SNP分配給組織特異性eGenes來進(jìn)行eQTL基因測試的方法蔚龙,如Gerring et al., 2019a, Gerring et al., 2019b所述拢操。在這里赢乓,我們提供了使用eMAGMA方法的腳本和文件恳蹲,該方法使用全基因組匯總統(tǒng)計(jì)數(shù)據(jù)生成與疾病相關(guān)的eGenes列表嫌变。在本教程中滑沧,我們將展示如何使用GWAS關(guān)于嚴(yán)重抑郁障礙(MDD)的匯總統(tǒng)計(jì)數(shù)據(jù)作為示例數(shù)據(jù)來應(yīng)用eMAGMA并村;這些匯總統(tǒng)計(jì)數(shù)據(jù)可從精神病學(xué)基因組聯(lián)合會(PGC)網(wǎng)站公開獲得。
本教程分為兩部分滓技。第一部分進(jìn)行基于eMAGMA基因的分析哩牍,該分析將eQTL參考數(shù)據(jù)集的SNP基因關(guān)聯(lián)與GWAS匯總統(tǒng)計(jì)數(shù)據(jù)相結(jié)合。我們生成了注釋文件令漂,其中根據(jù)SNP與基因表達(dá)的關(guān)聯(lián)將SNP分配給基因膝昆。SNP與基因的關(guān)聯(lián)是組織特異性的,因此我們可以在組織水平上估計(jì)哪些基因與疾病的關(guān)聯(lián)性更高叠必。第二部分進(jìn)行eMAGMA基因集分析荚孵,檢測共表達(dá)網(wǎng)絡(luò)中關(guān)聯(lián)性的豐富程度。這項(xiàng)分析的目的是確定與疾病風(fēng)險(xiǎn)高度相關(guān)的模塊(高度相關(guān)的基因集)纬朝。特定于組織的注釋文件和共表達(dá)網(wǎng)絡(luò)文件(適用于48個組織)作為本教程的一部分進(jìn)行共享收叶。本教程需要參考Gerring et al., 2009a中的描述來理解本教程中使用的方法和資源。
使用前須知
本教程可以在Unix中執(zhí)行共苛,假設(shè)用戶熟悉Unix環(huán)境和命令行判没。您可以根據(jù)需要鍵入或復(fù)制、粘貼命令或重新組織命令隅茎。這是一個實(shí)踐教程澄峰,理論解釋最少。用戶必須通讀教程附帶的出版物(Gerring et al. 2019a, Gerring et al., 2019b)辟犀,因?yàn)樗麄優(yōu)榉治鎏峁┝死碚摫尘扒尉骸P枰狦WAS和GWA-summary分析的知識。我們之前已經(jīng)通過另一個Github存儲庫https://github.com/MareesAT/GWA_tutorial (Marees et al., 2018)生成了關(guān)于執(zhí)行GWAS分析的教程堂竟。
使用前數(shù)據(jù)準(zhǔn)備
首先在你的工作目錄下創(chuàng)建一個文件夾來準(zhǔn)備:
$ cd /path/to-yourworking folder
$ mkdir eMAGMA
$ cd eMAGMA
本次的分析使用的MAGMA版本 v1.07b (de Leeuw, Neale, Heskes, & Posthuma, 2016). MAGMA and auxiliary files 可從以下網(wǎng)站下載: https://ctg.cncr.nl/software/magma.
需要兩個輔助文件: 一個包含來自NCBI的蛋白質(zhì)編碼基因的基因位置的文件和一個基因組參考文件魂毁。對于本教程,我們使用構(gòu)建37(hg19)跃捣,它與(MDD2018_Excluding23andMe)摘要數(shù)據(jù)和歐洲人口的參考文件相匹配漱牵。36、37和38的的基因位置文件都可從MAGMA網(wǎng)站獲得疚漆。您可以使用wget o curl將文件直接導(dǎo)入到您的目錄中酣胀,例如:
訂正:不同的系統(tǒng)下載的版本不一樣刁赦,比如我用的mac則應(yīng)該是:https://ctg.cncr.nl/software/MAGMA/prog/magma_v1.07b_mac.zip
MAGMA
wget https://ctg.cncr.nl/software/MAGMA/prog/magma_v1.07b_static.zip
Auxiliary files for 37(hg19)
wget https://ctg.cncr.nl/software/MAGMA/aux_files/NCBI37.3.zip
Reference data
wget https://ctg.cncr.nl/software/MAGMA/ref_data/g1000_eur.zip
GWAS summary = MDD2018_ex23andMe from PGC web site
https://www.med.unc.edu/pgc/results-and-downloads/
注意:如果您使用的是您自己的數(shù)據(jù),請確保下載與您的數(shù)據(jù)的基因組構(gòu)建相對應(yīng)的輔助文件闻镶。
本教程提供了48個組織的基因注釋和共表達(dá)網(wǎng)絡(luò)甚脉,包括13個腦組織和全血。在本教程結(jié)束時(shí)铆农,您將能夠使用這些文件將eMAGMA方法應(yīng)用于您自己的數(shù)據(jù)牺氨。
References
a Zachary F Gerring, Angela Mina-Vargas, Nicholas G Martin2, Eric R Gamazon3-5, Eske M Derks. eMAGMA: An eQTL-informed method to identify risk genes using genome-wide association study summary statistics. doi: https://doi.org/10.1101/854315.
b Gerring ZF, Gamazon ER, Derks EM, for the Major Depressive Disorder Working Group of the Psychiatric Genomics Consortium (2019) A gene co-expression network-based analysis of multiple brain tissues reveals novel genes and molecular pathways underlying major depression. PLOS Genetics 15(7): e1008245. https://doi.org/10.1371/journal.pgen.1008245
Marees, AT, de Kluiver, H, Stringer, S, et al. A tutorial on conducting genome‐wide association studies: Quality control and statistical analysis. Int J Methods Psychiatr Res. 2018; 27:e1608. https://doi.org/10.1002/mpr.1608
de Leeuw C, Mooij J, Heskes T, Posthuma D (2015): MAGMA: Generalized gene-set analysis of GWAS data. PLoS Comput Biol 11(4): e1004219. doi:10.1371/journal.pcbi.1004219