Wang Q, Tian F, Pan Y, et al. A SUPER Powerful Method for Genome Wide Association Study (Y Li, Ed.). PLoS ONE, 2014, 9(9): e107684. DOI: 10.1371/journal.pone.0107684.
一種超強(qiáng)的全基因組關(guān)聯(lián)研究方法
摘要
全基因組關(guān)聯(lián)研究揭示了人類(lèi)疾病和農(nóng)業(yè)重要性狀基因的鑒定脖隶。假陽(yáng)性結(jié)果掩蓋了這種潛力。混合線(xiàn)性模型(MLM)方法足夠靈活暇检,可以同時(shí)結(jié)合種群結(jié)構(gòu)和神秘關(guān)系來(lái)減少誤報(bào)。然而婉称,其密集的計(jì)算負(fù)擔(dān)在實(shí)踐中是禁止的块仆,特別是對(duì)于大樣本。新開(kāi)發(fā)的算法FaST-LMM解決了計(jì)算問(wèn)題王暗,但要求SNP的數(shù)量少于導(dǎo)致等級(jí)減少關(guān)系的個(gè)體數(shù)量悔据。與使用所有SNP相比,這種限制可能導(dǎo)致更低的統(tǒng)計(jì)功效俗壹。我們開(kāi)發(fā)了一種方法來(lái)提取一小部分SNP并在FaST-LMM中使用它們科汗。該方法不僅保留了FaST-LMM的計(jì)算優(yōu)勢(shì),而且即使與使用整組SNP相比也顯著提高了統(tǒng)計(jì)功效绷雏。我們將方法命名為SUPER(在漸進(jìn)式獨(dú)占關(guān)系下解決MLM)头滔,并將其提供給GAPIT軟件包的實(shí)現(xiàn)。
介紹
全基因組關(guān)聯(lián)研究(GWAS)已成為鑒定人類(lèi)疾病基因和農(nóng)業(yè)重要性狀的主要方法涎显。然而坤检,到目前為止鑒定的遺傳變異僅解釋了一小部分表型變異[1]。由于缺乏統(tǒng)計(jì)學(xué)效力期吓,稀有基因和沒(méi)有大的影響的基因仍然未被識(shí)別[2]早歇。統(tǒng)計(jì)功效由許多因素決定,如基因效應(yīng),等位基因頻率箭跳,樣本大小晨另,標(biāo)記密度和I型錯(cuò)誤的零分布[3]。I型錯(cuò)誤(假陽(yáng)性)膨脹導(dǎo)致比預(yù)期更多的錯(cuò)誤發(fā)現(xiàn)[4]谱姓,[5]借尿。
群體分層和神秘關(guān)系是假陽(yáng)性膨脹的兩個(gè)常見(jiàn)原因[6],[7]逝段《獠#【GLM不行嗎?】與一般線(xiàn)性模型(GLM)相比奶躯,混合線(xiàn)性模型(MLM)方法通過(guò)同時(shí)合并這兩個(gè)因子有效地消除了假陽(yáng)性[8]帚桩。群體分層通過(guò)群體結(jié)構(gòu)[6]或主成分[9]作為固定效應(yīng)。個(gè)體之間的神秘關(guān)系與方差分量相結(jié)合嘹黔,共同定義來(lái)自個(gè)體的隨機(jī)遺傳效應(yīng)的方差和協(xié)方差账嚎。
群體中的個(gè)體數(shù)量很大程度上決定了MLM方程的大小[10]。解決MLM的計(jì)算復(fù)雜性是個(gè)體數(shù)量的三次函數(shù)儡蔓。解決具有大量個(gè)體的MLM是禁止的郭蕉,尤其是迭代估計(jì)未知方差分量[11]。一些進(jìn)步已部分解決了計(jì)算問(wèn)題。高效混合模型關(guān)聯(lián)(EMMA)算法通過(guò)將可能性作為其比率的函數(shù)導(dǎo)出焙蹭,將遺傳和殘差方差分量的二維優(yōu)化轉(zhuǎn)化為一維優(yōu)化[12]携悯。
已經(jīng)努力將計(jì)算函數(shù)從立方變?yōu)槎危貏e是對(duì)于標(biāo)記篩選涨岁,其主導(dǎo)了具有高標(biāo)記密度的數(shù)據(jù)的整個(gè)計(jì)算。先前確定的群體參數(shù)(P3D)或高效混合模型關(guān)聯(lián)(EMMAX)吉嚣,僅估計(jì)方差分量(或它們的比率)一次梢薪,然后將它們固定為測(cè)試遺傳標(biāo)記[13],[14]尝哆。此外秉撇,開(kāi)發(fā)了一種精確的方法 - 全基因組高效混合模型關(guān)聯(lián)(GEMMA),用于估計(jì)每個(gè)測(cè)試標(biāo)記的群體參數(shù)秋泄,具有相似的P3D或EMMAX計(jì)算效率[15]琐馆。
壓縮MLM的方法[13]將個(gè)體聚類(lèi)成組,并將這些組作為隨機(jī)效應(yīng)印衔。因此啡捶,計(jì)算復(fù)雜度函數(shù)從個(gè)體數(shù)量的立方體減少到較小數(shù)量的組的立方。然而奸焙,立方性仍然存在瞎暑。在實(shí)踐中彤敛,觀察到的最大壓縮(即,每組的平均個(gè)體數(shù)量)僅為約二十倍[16]了赌。因此墨榄,對(duì)于極大量的個(gè)體來(lái)說(shuō),解決傳銷(xiāo)仍然是令人望而卻步的勿她。
因子譜變換線(xiàn)性混合模型(FaST-LMM)將計(jì)算復(fù)雜度的三次函數(shù)劃分為兩部分的乘積:1)個(gè)體數(shù)量和2)個(gè)體之間關(guān)系等級(jí)的平方[17]袄秩。當(dāng)所有遺傳標(biāo)記(通常遠(yuǎn)大于個(gè)體數(shù)量)用于定義個(gè)體之間的關(guān)系時(shí),個(gè)體之間的親緣關(guān)系具有完全排名(即逢并,與個(gè)體數(shù)量相同)之剧。計(jì)算復(fù)雜性仍然是個(gè)體數(shù)量的立方。建議使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義等級(jí)降低的關(guān)系[17]砍聊。當(dāng)小子集具有相對(duì)于個(gè)體數(shù)量恒定數(shù)量的單核苷酸多態(tài)性(SNP)時(shí)背稼,計(jì)算復(fù)雜性變得與個(gè)體數(shù)量成線(xiàn)性關(guān)系。FaST-LMM的作者展示了一些使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義親緣關(guān)系的例子玻蝌,這些親緣關(guān)系具有與使用所有遺傳標(biāo)記的那些相似的結(jié)果[17]蟹肘。此外,該研究表明俯树,一小組相關(guān)遺傳標(biāo)記具有比隨機(jī)選擇的一小組遺傳標(biāo)記更好的統(tǒng)計(jì)功效帘腹。如果它們來(lái)自測(cè)試標(biāo)記的相同區(qū)域(例如,在2Mb內(nèi))许饿,則以這樣的方式使用一小組相關(guān)遺傳標(biāo)記以去除這些標(biāo)記中的一些以定義個(gè)體關(guān)系[18]阳欲。所選標(biāo)記集的大小和內(nèi)容對(duì)于計(jì)算速度和統(tǒng)計(jì)功率而言變得至關(guān)重要。
在這項(xiàng)研究中陋率,我們開(kāi)發(fā)了一種方法胸完,可以顯著減少用于定義個(gè)體關(guān)系的遺傳標(biāo)記的數(shù)量,并顯著提高統(tǒng)計(jì)效力翘贮。
- 首先,我們將整個(gè)基因組分成小區(qū)爆惧。每個(gè)箱由最重要的標(biāo)記表示狸页。
- 其次,我們只選擇有影響力的箱扯再。
- 第三芍耘,我們使用最大似然法來(lái)優(yōu)化選擇作為表型基礎(chǔ)的偽數(shù)量性狀核苷酸(QTN)的區(qū)域的大小和數(shù)量。
- 第四熄阻,在每個(gè)標(biāo)記的最終測(cè)試中斋竞,通過(guò)將連鎖不平衡(LD)中的標(biāo)記排除到測(cè)試標(biāo)記,使用少量標(biāo)記來(lái)定義個(gè)體之間的關(guān)系秃殉,而不考慮局部距離坝初。
我們將該算法稱(chēng)為逐步獨(dú)占關(guān)系下的MLM結(jié)算(SUPER)浸剩。
材料和方法
超級(jí)方法
我們?cè)跇?biāo)準(zhǔn)MLM方法的框架內(nèi)開(kāi)發(fā)了SUPER方法,該方法將觀察()分解為固定效應(yīng)()鳄袍,隨機(jī)遺傳效應(yīng)()和殘差()如下绢要。
(1)
其中 是大小為 n(個(gè)體數(shù))的向量,用于未知的隨機(jī)多基因效應(yīng)拗小,其均值為零且協(xié)方差矩陣為重罪,其中 為具有元素 (i,j = 1,2,...,n)的親屬(共同祖先)矩陣從遺傳標(biāo)記計(jì)算,并且是未知的加性遺傳方差哀九。X和Z分別是 和的關(guān)聯(lián)矩陣剿配,隨機(jī)殘差效應(yīng)通常以零均值和協(xié)方差分布,其中 是單位矩陣阅束,是未知的殘差方差呼胚。求解方程(1)涉及確定觀察值()具有最大似然性的所有未知參數(shù),定義如下:
(2)
為了執(zhí)行GWAS围俘,標(biāo)記效應(yīng)()被添加到等式(1)中砸讳,一次一個(gè):
(3)
其中是的關(guān)聯(lián)矩陣。使用P3D [13]或EMMAX [14]求解方程(3)只涉及優(yōu)化和 以?xún)?yōu)化下面這個(gè)似然函數(shù):
(4)
其中界牡,是最大化方程(2)得到的估計(jì)簿寂。
親屬(K)是已知參數(shù),其源自遺傳標(biāo)記宿亡。因此常遂,不同組的遺傳標(biāo)記產(chǎn)生不同的親緣關(guān)系。這是本研究中所有方法的唯一差異挽荠。我們使用了Van Raden等人的有效算法[19]克胳。(在GAPIT [20]中實(shí)施)計(jì)算親屬關(guān)系矩陣。
- 第一種方法是僅使用QTN圈匆。
- 第二種方法是使用包括QTN的所有SNP漠另。
- 第三種方法是使用除QTN之外的所有SNP。當(dāng)SNP的數(shù)量很大時(shí)跃赚,第二種和第三種方法幾乎不同笆搓。
- 第四種方法類(lèi)似于使用QTN的第一種方法。不同之處在于纬傲,當(dāng)測(cè)試SNP與QTN相同時(shí)满败,排除QTN用于導(dǎo)出親屬關(guān)系。血緣關(guān)系稱(chēng)為互補(bǔ)特質(zhì)親屬關(guān)系叹括。
- 第五種方法類(lèi)似于第四種方法算墨,只是QTN被屏蔽并且必須通過(guò)估計(jì)來(lái)識(shí)別。因此汁雷,該方法可用于真正的QTN未知的實(shí)踐中净嘀。
我們開(kāi)發(fā)了一種程序來(lái)尋找類(lèi)似QTN的SNP报咳,稱(chēng)為偽QTN。
我們的程序包括三個(gè)步驟面粮。前兩個(gè)步驟執(zhí)行偽QTN的包含少孝。最后一步執(zhí)行GWAS,排除LD中具有測(cè)試SNP的偽QTN熬苍。
步驟1:通過(guò)針對(duì)特定性狀的初步GWAS或基因組預(yù)測(cè)對(duì)SNP的p值或效應(yīng)進(jìn)行分類(lèi)稍走。
步驟2:對(duì)于染色體上的每個(gè)bin(片段),選擇最有影響力的SNP(例如柴底,具有最低P值)作為bin的代表婿脸。然后,選擇小號(hào)最有影響力的箱打造的血緣關(guān)系柄驻。將箱的大小和所選箱的數(shù)量視為參數(shù)狐树,以最大化特征的受限最大可能性。該小號(hào)選定SNP(每一個(gè)代表倉(cāng))隨后被用作一個(gè)SNP池的基底以限定用于稍后關(guān)聯(lián)測(cè)試個(gè)體的關(guān)系鸿脓。更準(zhǔn)確地說(shuō)抑钟,我們優(yōu)化了以下似然函數(shù):
(5)
其中和是箱的數(shù)量和大小。步驟3:當(dāng)測(cè)試等式(3)中的SNP時(shí)野哭,我們將具有測(cè)試SNP的LD中的SNP排除在LD中在塔,以得到互補(bǔ)的性狀特異性親緣關(guān)系。我們稱(chēng)這種方法為漸進(jìn)式獨(dú)占關(guān)系(SUPER)拨黔。
求解方程(3)僅涉及和的優(yōu)化以?xún)?yōu)化下面這個(gè)似然:
(6)
其中,和是最大化等式(5)得到的估計(jì)。