Wang WYS, Barratt BJ, Clayton DG, Todd JA (2005) Genome-wide association studies: theoretical and practical concerns. Nat Rev Genet 6:109–118. doi: 10.1038/nrg1522
摘要|為了完全了解常見疾病基礎(chǔ)的等位基因變異病袄,需要對(duì)具有和不具有疾病的許多個(gè)體進(jìn)行完全的基因組測(cè)序。這在技術(shù)上仍然不可行赘阀。然而益缠,最近已經(jīng)可能通過在全基因組關(guān)聯(lián)研究中對(duì)大量常見SNP進(jìn)行基因分型來進(jìn)行基因組的部分調(diào)查。在這里基公,我們概述了需要考慮的主要因素 - 包括常見疾病的等位基因結(jié)構(gòu)幅慌,樣本大小,地圖密度和樣本收集偏差的模型轰豆,以便優(yōu)化識(shí)別真正的疾病易感性位點(diǎn)的成本效率欠痴。
常見疾病的發(fā)展起因于許多環(huán)境因素和許多基因的等位基因之間的復(fù)雜相互作用。識(shí)別影響發(fā)展疾病風(fēng)險(xiǎn)的等位基因?qū)⒂兄诹私饧膊〔∫蚝蛠喎诸悺?/strong>在過去30年中秒咨,多因素人類疾病的遺傳研究已經(jīng)確定了?50個(gè)基因及其等位基因變異喇辽,可以認(rèn)為是不可逆的或真陽(yáng)性1,2。然而雨席,可能有數(shù)百個(gè)易感基因座增加了每種常見疾病的風(fēng)險(xiǎn)菩咨。關(guān)鍵問題是如何利用我們對(duì)基因組序列及其在群體中的變化的知識(shí)的顯著的最近的改進(jìn),以及基因分型技術(shù)的進(jìn)步陡厘,以最低的成本加速易感性基因座發(fā)現(xiàn)抽米。
在本期雜志的一篇附隨評(píng)論中,Hirschorn和Daly3為全基因組關(guān)聯(lián)方法提出了一個(gè)案例糙置,“其中跨基因組的一組密集的SNP被基因分型以檢測(cè)最常見的遺傳變異在疾病中的作用或確定作為疾病風(fēng)險(xiǎn)因素的可遺傳數(shù)量性狀“云茸。他們建議謹(jǐn)慎使用最新的高通量方法進(jìn)行基因分型4 - 8,因?yàn)槭〉某杀緦?duì)于設(shè)計(jì)和執(zhí)行具有低統(tǒng)計(jì)功效和不充分的質(zhì)量控制的研究可能是巨大的谤饭。在這里标捺,在全基因組關(guān)聯(lián)研究和最小化每個(gè)真陽(yáng)性的成本的上下文中,我們更詳細(xì)地討論使用大樣本大小根據(jù)可行的最小等位基因風(fēng)險(xiǎn)的理由揉抵,檢測(cè)亡容,單核苷酸多態(tài)性的選擇基因分型,研究設(shè)計(jì)效率和這些數(shù)據(jù)的統(tǒng)計(jì)分析的某些方面冤今。我們不主張放棄對(duì)共同疾病的聯(lián)系研究9-12闺兢。我們還不能說是否LINKAGE ANALYSIS方法在一般意義上是“失敗”的,因?yàn)閹缀跛幸寻l(fā)表的研究都使用小樣本大小13(少于500個(gè)受影響的SIB對(duì))戏罢,所以這不能單獨(dú)用作執(zhí)行的理由全基因組關(guān)聯(lián)研究屋谭〗拍遥基因組范圍的鏈接分析將仍然是一個(gè)重要的方法,直到技術(shù)可用桐磁,允許在實(shí)際成本和高吞吐量關(guān)聯(lián)分析罕見和共同變體悔耘。
此外,如前所述14所意,我們查看全基因組關(guān)聯(lián)研究本身不是一種新的方法,而是作為一種更成本有效的方式來調(diào)查共同遺傳變異相比基因功能候選基因方法催首。后一種方法已經(jīng)成功扶踊,但是由于迄今為止僅研究了少量基因,并且如我們所討論的郎任,樣品量可能太小秧耗,盡管進(jìn)行了大量的研究和大量的努力,但很少有真正的陽(yáng)性舶治。通過利用位于鄰近基因座(鏈接區(qū)域(LD))的等位基因的非隨機(jī)關(guān)聯(lián)分井,這是基因組5,15-18的重要和廣泛的特征,現(xiàn)在可以在關(guān)聯(lián)研究中調(diào)查sig-發(fā)生在高LD區(qū)域的大量基因的共同變異的顯著比例霉猛〕呙可以獲得成本效率,因?yàn)椴槐貙?duì)與其他SNP處于強(qiáng)LD的SNP進(jìn)行基因分型;這可以通過選擇捕獲區(qū)域中大多數(shù)等位基因變異的SNP的子集(稱為標(biāo)簽SNP(參見在線鏈接框))來完成惜浅。將討論該策略的理由和限制瘫辩,同時(shí)銘記標(biāo)簽SNP在檢測(cè)稀有可疑性變體方面的不足,并且根據(jù)定義坛悉,它們?cè)诘蚅D區(qū)域缺乏成本節(jié)約優(yōu)勢(shì)伐厌,這可能構(gòu)成20%的人類基因組。除了討論這些更實(shí)際的問題裸影,我們首先討論關(guān)于兩個(gè)尚未知的參數(shù)的理論考慮挣轨,這些參數(shù)決定了關(guān)聯(lián)研究的潛在穩(wěn)定性 - 群體中易感性等位基因的頻率及其影響的大小疾病表型。
常見疾病的等位基因譜
疾病的等位基因譜或結(jié)構(gòu)指存在的疾病變異的數(shù)量轩猩,它們的等位基因頻率和它們賦予的風(fēng)險(xiǎn)9,20,21卷扮。來自理論模型和實(shí)際實(shí)驗(yàn)的許多來源提供了對(duì)常見疾病的等位基因結(jié)構(gòu)的了解,表明涉及的基因座的多樣性及其作用范圍均践。不管在疾病之間不同的光譜的確切形狀如何,傾向于疾病的變體的等位基因頻率和它們的表型效應(yīng)的強(qiáng)度表明遺傳相關(guān)性研究的潛在統(tǒng)計(jì)學(xué)力量浊猾,并因此表明它們成功的可能性和成本每個(gè)真陽(yáng)性結(jié)果抖甘。在這里,我們首先討論這兩個(gè)因素可能對(duì)全基因組關(guān)聯(lián)研究的可行性的影響葫慎,然后提供迄今為止已知的常見疾病的等位基因譜的概述衔彻。應(yīng)該注意的是薇宠,其他因素也影響統(tǒng)計(jì)能力 - 例如,混雜因素艰额,如人口結(jié)構(gòu)和地理澄港,錯(cuò)誤分類錯(cuò)誤和選擇偏差 - 其中一些因素將在后面的章節(jié)中討論。
對(duì)關(guān)聯(lián)研究的影響柄沮。圖1顯示如果易感性等位基因具有小于0.1的小分子頻率(MAF)和它們的效應(yīng)大小小于1.3的ODDS比率回梧,則超過10,000個(gè)病例和10,000個(gè)對(duì)照(或10,000個(gè)家族)將需要對(duì)疾病協(xié)會(huì)實(shí)現(xiàn)令人信服的統(tǒng)計(jì)支持。我們無法以任何準(zhǔn)確性估計(jì)疾病易感性等位基因在該范圍之外的比例(即祖搓,優(yōu)勢(shì)比為1.3或更高和MAF> 0.1的那些)狱意,因此在全基因組關(guān)聯(lián)研究中是可行的,這個(gè)限制在下面討論拯欧。然而详囤,我們建議,與目前的候選基因和基于連鎖的方法相比镐作,旨在檢測(cè)這種等位基因的研究 - 需要分析數(shù)千個(gè)樣品藏姐,而不是數(shù)百個(gè)樣品 - 將提供每個(gè)真陽(yáng)性結(jié)果的總體更低的成本。
對(duì)6,000個(gè)病例和6,000個(gè)對(duì)照(或6,000個(gè)家庭该贾,具有2個(gè)親本和受影響的后代)的研究將在理想條件下提供約0%羔杨,3%,43%和94%的功率以檢測(cè)疾病易感性變異杨蛋,優(yōu)勢(shì)比1.3和MAF為0.01,0.02,0.05和0.1问畅,以相應(yīng)的順序,P <10-6的顯著水平(圖1)六荒。由于需要允許任何給定基因座或區(qū)域與疾病真正相關(guān)的非常小的先驗(yàn)概率3,14,22,24,103,104护姆,已經(jīng)提出了P <10-6級(jí)的顯著性閾值用于全基因組關(guān)聯(lián)研究。對(duì)于優(yōu)勢(shì)比為1.2或更刑突鳌(例如卵皂,對(duì)于MAF為0.1的34%)的功率存在急劇的下降(圖1)。相反砚亭,對(duì)于優(yōu)勢(shì)比為2灯变,即使對(duì)于MAF為0.005,也存在76%的功率捅膘。然而添祸,我們懷疑這種高比值比在常見疾病中很少見(見下文)。
毫無疑問寻仗,即使是最佳設(shè)計(jì)的研究刃泌,目標(biāo)是最小MAF為10%和優(yōu)勢(shì)比為1.3,由于許多因素,包括基因型和表型的錯(cuò)誤分類和混雜因素耙替,將具有比預(yù)期更低的功率亚侠,所以甚至更大的樣本大小可能是必需的。然而俗扇,應(yīng)當(dāng)注意硝烂,在12,000例病例和對(duì)照的研究中,例如铜幽,可以在幾乎沒有功率損失的階段進(jìn)行基因分型滞谢。這提供了基因分型成本的顯著節(jié)省,因?yàn)榇蠖鄶?shù)基因分型在樣品總數(shù)(約20-30%)的第一階段進(jìn)行(參見REFS 3,25除抛,關(guān)于這些方法)狮杨。
在下面的章節(jié)中,我們討論常見疾病的等位基因譜的理論模型镶殷,并估計(jì)其可能的分布禾酱。
易感基因座的等位基因頻率微酬。兩種極化視圖主導(dǎo)了許多關(guān)于常見疾病的等位基因頻率的文獻(xiàn)9,21绘趋。常見疾病/常見變異(CDCV)假說提出,如其名稱所暗示的颗管,常見疾病是常見變異的結(jié)果20陷遮。在這種模式下,疾病易感性被認(rèn)為是由幾種常見變異體的聯(lián)合作用引起的垦江,而無關(guān)的受影響個(gè)體具有顯著比例的疾病等位基因帽馋。
CDCV的極端替代方案是經(jīng)典疾病異質(zhì)性假說(或多重稀有變異假說),其中疾病易感性是由于不同個(gè)體的不同遺傳變異比吭,疾病易感性等位基因具有低人口頻率26(MAF小于大于0.01)绽族。
最常見的疾病的等位基因譜可能落在這兩個(gè)極端之間。經(jīng)典異質(zhì)性模型衩藤,其中多個(gè)稀有變體貢獻(xiàn)附加地和獨(dú)立地(在生物學(xué)意義上)吧慢,導(dǎo)致相關(guān)受試者的性狀之間的相關(guān)性與它們之間的關(guān)系的距離線性地下降27(圖2)。這是疾病等位基因共享的線性減少與關(guān)系的增加的關(guān)系的結(jié)果赏表。相反检诗,如果一種常見疾病主要是由于幾個(gè)基因座與常見等位基因的相互依賴的相互作用,則具有相關(guān)性程度的風(fēng)險(xiǎn)的下降將比線性下降更快瓢剿。這種相關(guān)性是否適用于不同的常見疾病和性狀的研究產(chǎn)生了不同的結(jié)果逢慌,為一些癌癥28和身高29中的遺傳加和性提供了支持,并且在1型糖尿病30中具有非加和性(參見在線鏈接框)间狂。
用于支持這兩個(gè)假設(shè)的論據(jù)在很大程度上基于人口遺傳理論攻泼,因此將受這些理論的基本假設(shè)的影響20,31。經(jīng)驗(yàn)證據(jù)表明高頻和低頻等位基因都有助于常見疾病2,32-38。例如坠韩,在對(duì)映射的量化位點(diǎn)(QTL)的評(píng)價(jià)中距潘,大約50%的候選因果變異體具有超過0.05的MAF,而另一半具有較低的MAF9只搁。我們建議音比,最好避免罕見的與常見的疾病易感性等位基因的極化,而是考慮疾病變異體的等位基因譜與所有變體(有或沒有表型效應(yīng))在人類中的差異基因組(圖3)氢惋。最中性的假說是疾病變體的等位基因譜與所有遺傳變體的一般譜一致17,39,40洞翩。在這種中性模型下,雖然大多數(shù)易感變異是罕見的(MAF小于0.01)焰望,MAF大于0.01的SNP將占個(gè)體之間的遺傳差異的90%以上并且應(yīng)該顯著地促進(jìn)表型17,41骚亿。與總體等位基因譜相比,CDCV模型可以被認(rèn)為是朝向常見變異的轉(zhuǎn)變熊赖,并且異質(zhì)性模型朝向罕見變異40轉(zhuǎn)移(圖3)来屠。基因組的蛋白編碼區(qū)具有比一般基因組更低的MAF的多態(tài)性震鹉,因此俱笛,導(dǎo)致非同義變化的疾病變體42,43可能導(dǎo)致罕見的變化。不同的進(jìn)化力可導(dǎo)致不同的光譜移動(dòng);例如传趾,PURIFYING SELECTION可能會(huì)導(dǎo)致罕見的shift31迎膜。相比之下,由免疫應(yīng)答介導(dǎo)的疾病浆兰,如自身免疫性疾病磕仅,可能是由陽(yáng)性選擇的等位基因引起的,以提供對(duì)傳染病的抗性簸呈,因此達(dá)到更高的人群頻率36榕订。類似地,諸如2型糖尿餐杀恪(參見在線鏈接框)的代謝疾病劫恒,其中選擇等位基因用于對(duì)饑餓或能量平衡的適應(yīng)性反應(yīng),可能影響現(xiàn)代環(huán)境中的易感性 - 節(jié)儉基因假說44玩裙。因此兼贸,等位基因譜將在不同的常見疾病之間變化,并且可能由等位基因頻率26,32的復(fù)雜混合組成吃溅,接近圖1中所示的彎曲L形分布溶诞。注意,如果表示0和1.0之間的等位基因頻率决侈,則曲線將是U形螺垢,而在僅考慮次要等位基因時(shí)代替0至0.5)喧务。
對(duì)于基因組作為整體,已經(jīng)預(yù)測(cè)枉圃,對(duì)于MAF大于0.01(REFS 41,45)的預(yù)期的10至15百萬個(gè)SNP功茴,大約一半具有大于0.1的MAF,另一半具有MAF孽亲, 0.01至0.1由于賦予輕度至中度風(fēng)險(xiǎn)的疾病變異數(shù)可能很大(如下一部分所解釋)坎穿,則除非等位基因譜的變化是嚴(yán)重的 - 鑒于遺傳和環(huán)境的多樣性,這似乎不大可能在常見疾病中的作用 - 可能有數(shù)百種常見的和罕見的變體返劲,其導(dǎo)致每種常見人類疾病的家族聚集玲昧。
作為示例,使用圖3中的假設(shè)頻譜篮绿, 3孵延,考慮一種復(fù)雜的疾病,其中有20個(gè)疾病易感性變異在中性模型下促成該疾病亲配,其中這些變異體的MAF大于0.1尘应,并且它們的優(yōu)勢(shì)比足夠高以使它們?cè)谌蚪M中被鑒定協(xié)會(huì)研究。在這種情況下吼虎,罕見的移位可能導(dǎo)致?10個(gè)變體犬钢,MAF大于0.1,并且共同移位可能導(dǎo)致?40個(gè)變體鲸睛。對(duì)全基因組關(guān)聯(lián)分析的意義是基于常見變異體的存在的實(shí)驗(yàn)可能產(chǎn)生大量的陽(yáng)性結(jié)果娜饵,除非等位基因譜中存在極端的變化
與疾病易感性變異相關(guān)的風(fēng)險(xiǎn)坡贺。關(guān)于等位基因結(jié)構(gòu)的第二個(gè)主要問題是由個(gè)體變體賦予的遺傳風(fēng)險(xiǎn)的分布官辈。雖然不可能預(yù)測(cè)任何給定的常見疾病的等位基因效應(yīng)的準(zhǔn)確分布,但是幾個(gè)證據(jù)線指向潛在的潛在分布遍坟。例如拳亿,這些證據(jù)來自于在果蠅,作物和家畜中的QTL研究中使用誘變愿伴,選擇和連鎖方法肺魁,以及對(duì)人類疾病的嚙齒動(dòng)物模型的研究。這些研究表明遺傳變異體的表型效應(yīng)大小的分布與少數(shù)具有大效應(yīng)的遺傳基因座和具有小效應(yīng)的大量基因座的存在一致9,46-54隔节。所得到的彎曲的L形分布已經(jīng)通過使用指數(shù)或者分布(參見圖4中的圖鹅经,其具有與圖3中的曲線不同的形狀和原點(diǎn))來建模。這些結(jié)果與目前的進(jìn)化理論一致怎诫,其中通過將基因DRIFT和突變效應(yīng)分解為經(jīng)典適應(yīng)模型55瘾晃,QTL效應(yīng)的預(yù)期分布是指數(shù)56。最近的研究結(jié)果表明幻妓,等位基因變異頻繁影響基因表達(dá)和外顯子剪接57-60-這可能具有比影響人類表型的多影響更小的效應(yīng)蹦误。并且具有影響基因表達(dá)調(diào)節(jié)的等位基因的基因座可以通過連鎖分析61,62檢測(cè)。
迄今為止已經(jīng)確定的大多數(shù)不可辯駁的疾病易感性變異體 - 主要來自功能 - 候選者相關(guān)性研究 - 具有1.1-1.5級(jí)(REFS 1,2)的等位基因比值比,并且對(duì)家族性復(fù)發(fā)風(fēng)險(xiǎn)很少11,22强胰, 63舱沧。例如,假設(shè)等位基因的效應(yīng)和基因座之間的相互作用的乘法模型偶洋,頻率為0.1的疾病易感性等位基因使風(fēng)險(xiǎn)增加1.5倍將導(dǎo)致SIBLING相對(duì)復(fù)發(fā)風(fēng)險(xiǎn)(?s)小于1.02熟吏,
所有?s為5,將等于1.2%的貢獻(xiàn)玄窝。預(yù)期QTL將會(huì)結(jié)合并不是不合理
類似尺寸的數(shù)量性狀的貢獻(xiàn)效應(yīng)分俯。然而,我們不知道這是否是常見疾病中有代表性的效應(yīng)大小范圍哆料,因?yàn)樵谠O(shè)計(jì)良好的關(guān)聯(lián)研究中僅評(píng)估了基因組的一小部分(參見例如缸剪,T1DBase數(shù)據(jù)庫(kù)在在線鏈接在1型糖尿病中研究的基因的框)。然而东亦,我們認(rèn)為杏节,進(jìn)行全基因組關(guān)聯(lián)研究是不明智的,沒有足夠的能力來檢測(cè)這種量級(jí)的疾病和數(shù)量性狀的影響典阵。
全基因組關(guān)聯(lián)研究中的SNP選擇為了以統(tǒng)計(jì)學(xué)上有效的方式靶向占據(jù)> 0.1的MAF范圍和> 1.3的優(yōu)勢(shì)比的變異奋渔,我們需要知道群體中的所有常見變異,控制取自壮啊。雖然最近我們對(duì)人類基因組變異的了解有了快速增長(zhǎng)17 - 主要是以單核苷酸多態(tài)性的形式 - 多達(dá)30%的常見變異可能仍未被檢測(cè)到嫉鲸。這可以通過進(jìn)一步的基因組重測(cè)序校正更大的一組無關(guān)的個(gè)體(在后面的部分討論)。