文章來自:Concepts and relevance of genome-wide association studies
我覺得讀完這篇文章需要認(rèn)識(shí)SNP, Haplotype, alleles, LD這些基本概念琢蛤。部分內(nèi)容由于理解不到位,所以沒翻譯。盡量看原文理解吧构回,有錯(cuò)的話請(qǐng)見諒晴叨!
摘要:全基因組關(guān)聯(lián)分析(GWAS)技術(shù)在過去10年中一直是鑒定疾病和其他性狀相關(guān)基因的主要方法。已經(jīng)有超過2000份人類GWAS報(bào)告。這項(xiàng)技術(shù)還在不斷改進(jìn)昔头,研究人員最近可以研究各種動(dòng)物伊群、植物和模式生物考杉。在這里,我們將概述GWAS的概念:基礎(chǔ)生物學(xué)舰始,方法的起源崇棠,以及GWAS實(shí)驗(yàn)的主要組成部分。
Keywords: genome-wide association study, genetics, statistics, gene discovery
-
Introduction
全基因組關(guān)聯(lián)研究(GWAS)是大約十年前出現(xiàn)的一種強(qiáng)大的科學(xué)工具丸卷,用于鑒別與生物體性狀相關(guān)的基因枕稀。GWAS已被發(fā)展成為鑒定人類疾病易感基因的主要方法。最近,GWAS技術(shù)在非人類應(yīng)用領(lǐng)域萎坷,特別是在農(nóng)業(yè)基因組學(xué)這個(gè)新興領(lǐng)域中得到了快速發(fā)展凹联。高通量基因分型陣列現(xiàn)在可用于許多動(dòng)物和作物,使科學(xué)家和植物和動(dòng)物育種人員能夠通過遺傳學(xué)改進(jìn)育種程序和糧食生產(chǎn)哆档。隨著越來越多的研究人員進(jìn)入這一領(lǐng)域蔽挠,我們想分享一些我們的經(jīng)驗(yàn),并給出GWAS背后的關(guān)鍵概念的概述虐呻。
The biology of GWAS
最初開發(fā)GWAS是為了研究人類基因組象泵。人類基因組是由超過30億個(gè)DNA堿基組成的序列,可以用AGCT四個(gè)字母表示斟叼。在整個(gè)人類中偶惠,許多基因組序列是相同的或高度保守的,但每個(gè)人的基因組都是獨(dú)一無二的朗涩。一個(gè)特定的人的基因組序列可能與標(biāo)準(zhǔn)的人類參考基因組有超過300萬個(gè)不同的位置忽孽。每一代都有新的突變被引入到基因組中,現(xiàn)在在所有人群中廣泛觀察到許多舊的突變谢床。這些常見的突變(common mutations)通常被稱為變異或多態(tài)性(variants or polymorphisms)兄一。
最常見的變異類型是單核苷酸多態(tài)性(SNP),其描述單個(gè)DNA堿基的變化识腿。同一基因在同一位點(diǎn)上含有不同形式的snp出革,通常稱為等位基因(The different forms of the same gene containing variable SNPs within the same site(s) are typically called alleles)。GWAS方法主要關(guān)心在每個(gè)研究對(duì)象中確定與各種snp相關(guān)的等位基因渡讼,并進(jìn)行統(tǒng)計(jì)比較以識(shí)別與特定性狀相關(guān)的snp或基因(就是用SNP和群體的表型數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)關(guān)聯(lián))骂束。如果某種等位基因在患有疾病的人中比其他健康人更常見,這就被解釋為這種等位基因或附近的另一種變異可能導(dǎo)致疾病或至少增加疾病風(fēng)險(xiǎn)的證據(jù)(一定要注意直接關(guān)聯(lián)的SNP并不一定是致病SNP成箫,與它鄰近的可能也是)展箱。
大多數(shù)snp是由某個(gè)歷史突變事件引起的。由于這個(gè)祖先蹬昌,每一個(gè)新的等位基因最初都與其所在的特定染色體的其他等位基因相關(guān)聯(lián)混驰。在單個(gè)染色體或染色體部分區(qū)段上觀察到的特定的一組等位基因稱為單倍型(說白了,單倍型是某段染色體區(qū)域的一串SNP)皂贩。在減數(shù)分裂過程中栖榨,新的單倍體是通過額外的突變或染色體重組(也稱為交叉)形成的。單倍型往往是保守的明刷,特別是在最近有共同祖先的個(gè)體中(見fig 1)婴栽。在GWAS中,單倍型保守性是一個(gè)非常重要的因素遮精。導(dǎo)致某一特定性狀的遺傳變異可能無法在GWAS中直接檢測居夹,但通過同一單倍型內(nèi)發(fā)生的snp的關(guān)聯(lián)败潦,其信號(hào)可能是明顯的(這是GWAS的核心,上面也有提到)fig2准脂。(The nonrandom co?occurrence of alleles within a chromosome or haplotype is called linkage disequilibrium, or LD. The degree of LD in a population is shaped by selection, recombination rate, mutation rate, consanguinity and other factors)染色體或單倍型內(nèi)等位基因的非隨機(jī)共現(xiàn)稱為連鎖不平衡劫扒,或LD。LD在群體中的程度是由選擇狸膏、重組率沟饥、突變率、血緣和其他因素決定的湾戳。
Fig1 單倍型和重組贤旷。這個(gè)圖顯示了人類19號(hào)染色體的一個(gè)小區(qū)域。中間的圖是基因和染色體的物理地圖坐標(biāo)砾脑。頂部的圖是重組率數(shù)據(jù)幼驶,來自HapMap data.峰值代表減數(shù)分裂重組的“熱點(diǎn)”位置。下方的三角圖展示了連鎖不平衡區(qū)域韧衣,強(qiáng)LD則顯示為紅色盅藻。LD測量是基于649個(gè)歐洲人。值得注意的是畅铭,高LD區(qū)域僅限于最小歷史重組區(qū)氏淑,不跨越重組熱點(diǎn)進(jìn)行延伸。(重組的hotspts區(qū)和高LD區(qū)是相反的)
Fig2 基因型和單倍型硕噩。這張圖描繪了三個(gè)受試者基因組中的四個(gè)SNP位點(diǎn)假残。每個(gè)受試者都有兩種單倍型,對(duì)應(yīng)于人類細(xì)胞中的每條染色體的兩份拷貝炉擅。假設(shè)SNP-2的C等位基因?qū)е铝四撤N性狀辉懒,但該Snp沒有被基因分型(也就是這個(gè)SNP沒有被檢測出)。SNP-3位點(diǎn)的G等位基因總是與致病等位基因發(fā)生在同一單倍型上坑资。如果進(jìn)行基因分型耗帕,則G可作為GWAS試驗(yàn)中因果等位基因的代理(通過G就可以找到C)穆端。進(jìn)一步的檢測表明袱贮,因果等位基因總是發(fā)生在A--C--G--A單倍型,也可以使用單倍型進(jìn)行關(guān)聯(lián)分析体啰。
The origins of GWAS
使得GWAS成為可能的是21世紀(jì)早期的科學(xué)進(jìn)展攒巍。人類基因組計(jì)劃的完成大大提高了我們對(duì)人類基因組的認(rèn)識(shí),為基因變異的研究提供了更好的背景荒勇。國際人類基因組單倍型圖計(jì)劃于2005年完成了第一階段柒莉,開展了一項(xiàng)史無前例的SNP發(fā)現(xiàn)計(jì)劃,并首次提供了詳細(xì)的人類單體型和LD圖譜沽翔。這些科學(xué)成就使人們有可能識(shí)別出相對(duì)少量的snp兢孝,這些snp能夠代表人類基因組中大多數(shù)常見的變異窿凤。GWAS的時(shí)代誕生于生物技術(shù)公司,包括Affymetrix跨蟹、Illumina和Perlegen推出了競爭平臺(tái)雳殊,同時(shí)對(duì)數(shù)十萬個(gè)snp進(jìn)行基因分型。
2005年窗轩,國家人類基因組研究所和歐洲生物信息學(xué)研究所進(jìn)行了對(duì)年齡相關(guān)性黃斑變性(AMD)的分析夯秃。作為第一個(gè)GWAS研究,這項(xiàng)研究分析了146名研究對(duì)象的約10萬個(gè)snp痢艺,確定cfh基因是AMD的主要風(fēng)險(xiǎn)因子仓洼。從此,GWAS每年都會(huì)發(fā)布數(shù)百份報(bào)告堤舒。近年來發(fā)表的人類GWAS研究的數(shù)量已經(jīng)趨于穩(wěn)定色建,但研究群體的平均規(guī)模繼續(xù)增長(表1)。目前最大的GWAS研究可能包括超過10萬名受試者舌缤。(人類GWAS數(shù)量是極多的镀岛,植物在1000份以上就是超大規(guī)模了。動(dòng)物的樣本有時(shí)候少的只有幾十個(gè))友驮。
- The practice of GWAS
GWAS研究可以研究質(zhì)量或者數(shù)量性狀位點(diǎn)漂羊。在GWAS研究設(shè)計(jì)中必須考慮幾個(gè)問題,包括基因分型平臺(tái)的選擇卸留、樣本量和樣本收集走越、統(tǒng)計(jì)分析計(jì)劃、統(tǒng)計(jì)能力耻瑟、多重檢驗(yàn)的校正和群體結(jié)構(gòu)旨指。
GWAS的基因型數(shù)據(jù)通常是微陣列檢測,該技術(shù)可以檢測群體內(nèi)的多態(tài)性喳整∽还梗基因微陣列涉及三個(gè)基本原則:
1.DNA微陣列固定特意等位基因的寡核苷酸探針,這些探針是人工合成DNA的短片段框都,與目標(biāo)DNA序列互補(bǔ)搬素;
2.目標(biāo)物的核酸片段序列,用熒光染料標(biāo)記魏保;
3.檢測和記錄雜交信號(hào)的系統(tǒng)熬尺。
有許多不同的微陣列或“芯片”可用于人類和非人類。一些芯片被設(shè)計(jì)用來測試盡可能多的snp——目前大約有500萬個(gè)谓罗。有些芯片是專門設(shè)計(jì)來測試基因編碼區(qū)域的snp的粱哼,這些編碼區(qū)域約占基因組的2%。其他芯片可能測試相對(duì)較少的snp檩咱,這些snp是經(jīng)過精心挑選的揭措,可以有效地代表全世界的單倍型多樣性胯舷。一些芯片是為特定的種族設(shè)計(jì)的,或者可能富含與特定疾病相關(guān)的基因的snp绊含。在選擇基因分型芯片時(shí)需纳,重要的是要考慮當(dāng)前項(xiàng)目的目標(biāo),與過去或計(jì)劃的未來研究數(shù)據(jù)的兼容性艺挪,以及可用的預(yù)算不翩。
GWAS研究的下一個(gè)目標(biāo)是收集和記錄所需的表型,可以是定量的(整數(shù)或?qū)嵵?或二分的(病例對(duì)照)麻裳。數(shù)量性狀可以提供更多的統(tǒng)計(jì)力來顯示遺傳效應(yīng)口蝠,但病例對(duì)照研究設(shè)計(jì)也可以有效地識(shí)別與表型相關(guān)的多個(gè)基因。我們可以在文獻(xiàn)中看到例子津坑。
一旦收集到樣本并進(jìn)行基因分型妙蔗,就可以開始進(jìn)行全基因組關(guān)聯(lián)的統(tǒng)計(jì)分析。這一過程首先進(jìn)行徹底的質(zhì)量控制分析疆瑰,以確認(rèn)基因型數(shù)據(jù)的準(zhǔn)確性眉反。對(duì)每個(gè)SNP進(jìn)行統(tǒng)計(jì)假設(shè)檢驗(yàn),0假設(shè)與表型無關(guān)穆役。根據(jù)測試的是哪種類型的特質(zhì)寸五,有許多關(guān)聯(lián)測試可用。數(shù)量性狀一般采用線性回歸方法進(jìn)行分析耿币,假設(shè)性狀是正態(tài)分布的梳杏,各組內(nèi)方差相同,各組之間是獨(dú)立的淹接。流行的分析包括方差分析和GLM十性。二元性狀通常使用logistic回歸或諸如x2或Fisher精確檢驗(yàn)等檢驗(yàn)進(jìn)行分析;logistic回歸之所以流行塑悼,是因?yàn)樗试S對(duì)其他協(xié)變量進(jìn)行調(diào)整劲适。
Figure 3 曼哈頓圖.GWAS結(jié)果通常被這樣展示∠崴猓縱軸是--log10 P?value霞势。橫軸是染色體編號(hào)順序排開。 每個(gè)點(diǎn)是一個(gè)SNP郭怪。由于其相似于曼哈頓市的地平線支示,被稱為曼哈頓圖刊橘。本圖中鄙才,最顯著的SNP是位于6號(hào)染色體。-- log10 P?value of 6.68促绵。
在GWAS中攒庵,統(tǒng)計(jì)能力和多重檢驗(yàn)校是很重要的問題嘴纺。在測試大量snp時(shí),假陽性相關(guān)性是一個(gè)很大的風(fēng)險(xiǎn)浓冒,因此必須對(duì)相關(guān)性的統(tǒng)計(jì)證據(jù)保持較高的標(biāo)準(zhǔn)栽渴。人類GWAS研究中典型的顯著性閾值為,P值小于5e - 8稳懒,相當(dāng)于100萬獨(dú)立試驗(yàn)的標(biāo)準(zhǔn)Bonferonni校正。具有較大遺傳多樣性的種群场梆,例如非洲群體墅冷,可能需要更嚴(yán)格的標(biāo)準(zhǔn)來確定測試結(jié)果是否具有統(tǒng)計(jì)意義。為了達(dá)到這樣的顯著性水平或油,可能需要非常大的樣本量寞忿,特別是對(duì)于罕見病等位基因和效應(yīng)值較小的等位基因(Figure 4)。GWAS的統(tǒng)計(jì)能力受到許多因素的影響顶岸,其中一些因素超出了研究者的控制范圍腔彰。這些因素包括:表型遺傳結(jié)構(gòu)的復(fù)雜性,疾病等位基因的頻率和效應(yīng)大小辖佣,表型測量的準(zhǔn)確性和表型的同質(zhì)性霹抛,以及因果變異和snp之間的LD關(guān)系。
標(biāo)準(zhǔn)GWAS檢驗(yàn)統(tǒng)計(jì)假設(shè)分析中的所有樣本都是不相關(guān)的卷谈,并且是從一個(gè)統(tǒng)一的隨機(jī)交配群體中選擇的上炎。任何偏離這一假設(shè)的行為都可能導(dǎo)致意想不到的結(jié)果,尤其是在大型研究群體中(在特定時(shí)間段內(nèi)遭遇特定事件的受試者群體)雏搂。例如藕施,如果某一種族的個(gè)體在一個(gè)實(shí)驗(yàn)的對(duì)照組中被高估了,由于該種族獨(dú)特的遺傳背景凸郑,整個(gè)基因組的檢測結(jié)果的顯著性可能會(huì)不斷膨脹裳食。主成分分析(PCA)可用于基于基因組相似性對(duì)研究對(duì)象進(jìn)行分層,常用于評(píng)估GWAS中的群體分層(Figure 5).通常芙沥,為了解釋群體結(jié)構(gòu)會(huì)對(duì)GWAS的檢測方法進(jìn)行調(diào)整诲祸。另一種基于pca的校正方法是使用混合線性模型(MLM)回歸來解釋所有研究對(duì)象之間成對(duì)等位基因的共享。MLM方法而昨,如EMMAX和 GEMMA有效地解釋了人類和農(nóng)作物中的群體結(jié)構(gòu)救氯。
-
Beyond GWAS
GWAS有時(shí)被稱為“假設(shè)生成”過程,因?yàn)樗ǔJ抢斫庑誀钸z傳結(jié)構(gòu)的第一步歌憨。一個(gè)成功的GWAS將導(dǎo)致一個(gè)或多個(gè)snp被發(fā)現(xiàn)與感興趣的性狀相關(guān)着憨。然后,研究人員可以評(píng)估每個(gè)相關(guān)SNP的功能結(jié)果务嫡,檢查與該SNP相關(guān)的LD中的其他變異甲抖,研究SNP所在基因的功能漆改,并研究該基因參與的生物學(xué)途徑。事實(shí)上准谚,要完全理解GWAS的結(jié)果挫剑,可能需要大量的實(shí)驗(yàn)。隨著性狀生物學(xué)的闡明柱衔,開發(fā)疾病風(fēng)險(xiǎn)檢測方法或改進(jìn)疾病治療和預(yù)防方案是可能的樊破。
GWAS的第一個(gè)十年提供了許多成功的案例,但是關(guān)于如何改進(jìn)GWAS仍在爭論∷纛恚現(xiàn)在已經(jīng)提出了許多方法來增加統(tǒng)計(jì)能力捶码,降低假陰性率,并將生物學(xué)背景納入GWAS結(jié)果或链。在未來的幾年里中我們會(huì)看到技術(shù)和分析方法的不斷創(chuàng)新惫恼,使GWAS成為一種更有效的方法來研究疾病和其他性狀。
-
References
1.Gurgul, A., Semik, S., Pawlina, K., et al. (2014) The application of genome-wide SNP genotyping
methods in studies on livestock genomes. J. Appl. Genet., 55, 197 – 208.2.The 1000 Genomes Project Consortium. (2012) An integrated map of genetic variation from 1092
human genomes. Nature, 491, 56 – 65.- Francioli, L.C., Polak, P.P., Koren, A., et al. Genome of the Netherlands Consortium, van Duijn,
C.M., Swertz, M., Wijmenga, C., et al. (2015) Genome-wide patterns and properties of de novo
mutations in humans. Nat. Genet., 47, 822 – 826. - International Human Genome Sequencing Consortium. (2004) Finishing the euchromatic
sequence of the human genome. Nature, 431, 931 – 945. - The International HapMap Consortium. (2005) A haplotype map of the human genome. Nature,
437, 1299 – 1320. - Welter, D., MacArthur, J., Morales, J., et al. (2014) The NHGRI GWAS Catalog, a curated
resource of SNP-trait associations. Nucleic Acids Res., 42, D1001-6. - Klein, R.J., Zeiss, C., Chew, E.Y., et al. (2005) Complement factor H polymorphism in agerelated
macular degeneration. Science, 308, 385 – 389. - Teslovich, T., Musunuru, K., Smith, A., et al. (2010) Biological, clinical and population relevance
of 95 loci for blood lipids. Nature, 466, 707 – 13. - Habek, M., Brinar, V. and Borovecki, F. (2010) Genes associated with multiple sclerosis: 15 and
counting. Expert. Rev. Mol. Diagn., 10, 857 – 861. - Bush, W. and Moore, J. (2012) Chapter 11: Genome-Wide association studies. PLOS Comput.
Biol., 8 (12), e1002822. - Laurie, C.C., Doheny, K.F., Mirel, D.B., et al.; GENEVA Investigators. (2010) Quality control
and quality assurance in genotypic data for genome-wise association studies. Genet. Epidemiol.,
34, 591 – 602. - Clarke, G.M., Anderson, C.A., Petterson, F.H., et al. (2011) Basic statistical analysis in genetic
case-control studies. Nat. Protoc., 6, 121 – 133. - Eu-ahsunthonwattana, J., Miller, E.N. and Fakiola, M., Wellcome Trust Case Control Consortium
2, Jeronimo, S.M.B., Blackwell, J.M., Cordell, H.J. (2014) Comparison of methods to account
for relatedness in genome-wide association studies with family-based data. PLOS Genet., 10,
e1004445. - Pe’er, I., Yelensky, R., Altshuler, D. and Daly, M.J. (2008) Estimation of the multiple testing
burden for genomewide association studies of nearly all common variants. Genet. Epidemiol., 32,
381 – 385. - Sham, P.C. and Purcell, S.M. (2014) Statistical power and significance testing in large-scale
genetic studies. Nat. Rev. Genet., 15, 335 – 346. - Vilhjálmsson, B.J. and Nordborg, M. (2013) The nature of confounding in genome-wide
association studies. Nat. Rev. Genet., 14, 1 – 2. - Kang, H.M., Sul, J.H., Service, S.K., et al. (2010) Variance component model to account for
sample structure in genome-wide association studies. Nat. Genet., 42, 348 – 354. - Zhou, X. and Stephens, M. (2012) Genome-wide efficient mixed-model analysis for association
studies. Nat. Genet., 44, 821 – 824. - Stranger, B.E., Stahl, E.A. and Raj, T. (2011) Progress and promise of genome-wide association
studies for human complex trait genetics. Genetics, 187, 367 – 383. - Manolio, T., Collins, F.S., Cox, N.J., et al. (2009) Finding the missing heritability of complex
diseases. Nature, 461, 747 – 753. - Marjoram, P., Zubair, A. and Nuzhdin, S.V. (2014) Post-GWAS: where next? More Samples,
more SNPs or more biology? Heredity, 112, 79 – 88. - Lange, C., DeMeo, D., Silverman, E.K., et al. (2004) PBAT: Tools for family-based association
studies. Am. J. Hum. Genet., 74, 367 – 369. - Golden Helix Inc., Bozeman, Montana, USA.
- Francioli, L.C., Polak, P.P., Koren, A., et al. Genome of the Netherlands Consortium, van Duijn,