Wang2014 SUPER

Wang Q, Tian F, Pan Y, et al. A SUPER Powerful Method for Genome Wide Association Study (Y Li, Ed.). PLoS ONE, 2014, 9(9): e107684. DOI: 10.1371/journal.pone.0107684.

一種超強(qiáng)的全基因組關(guān)聯(lián)研究方法

摘要

全基因組關(guān)聯(lián)研究揭示了人類(lèi)疾病和農(nóng)業(yè)重要性狀基因的鑒定脖隶。假陽(yáng)性結(jié)果掩蓋了這種潛力。混合線(xiàn)性模型(MLM)方法足夠靈活暇检,可以同時(shí)結(jié)合種群結(jié)構(gòu)和神秘關(guān)系來(lái)減少誤報(bào)。然而婉称,其密集的計(jì)算負(fù)擔(dān)在實(shí)踐中是禁止的块仆,特別是對(duì)于大樣本。新開(kāi)發(fā)的算法FaST-LMM解決了計(jì)算問(wèn)題王暗,但要求SNP的數(shù)量少于導(dǎo)致等級(jí)減少關(guān)系的個(gè)體數(shù)量悔据。與使用所有SNP相比,這種限制可能導(dǎo)致更低的統(tǒng)計(jì)功效俗壹。我們開(kāi)發(fā)了一種方法來(lái)提取一小部分SNP并在FaST-LMM中使用它們科汗。該方法不僅保留了FaST-LMM的計(jì)算優(yōu)勢(shì),而且即使與使用整組SNP相比也顯著提高了統(tǒng)計(jì)功效绷雏。我們將方法命名為SUPER(在漸進(jìn)式獨(dú)占關(guān)系下解決MLM)头滔,并將其提供給GAPIT軟件包的實(shí)現(xiàn)。

介紹

全基因組關(guān)聯(lián)研究(GWAS)已成為鑒定人類(lèi)疾病基因和農(nóng)業(yè)重要性狀的主要方法涎显。然而坤检,到目前為止鑒定的遺傳變異僅解釋了一小部分表型變異[1]。由于缺乏統(tǒng)計(jì)學(xué)效力期吓,稀有基因和沒(méi)有大的影響的基因仍然未被識(shí)別[2]早歇。統(tǒng)計(jì)功效由許多因素決定,如基因效應(yīng),等位基因頻率箭跳,樣本大小晨另,標(biāo)記密度和I型錯(cuò)誤的零分布[3]。I型錯(cuò)誤(假陽(yáng)性)膨脹導(dǎo)致比預(yù)期更多的錯(cuò)誤發(fā)現(xiàn)[4]谱姓,[5]借尿。

群體分層和神秘關(guān)系是假陽(yáng)性膨脹的兩個(gè)常見(jiàn)原因[6],[7]逝段《獠#【GLM不行嗎?】與一般線(xiàn)性模型(GLM)相比奶躯,混合線(xiàn)性模型(MLM)方法通過(guò)同時(shí)合并這兩個(gè)因子有效地消除了假陽(yáng)性[8]帚桩。群體分層通過(guò)群體結(jié)構(gòu)[6]或主成分[9]作為固定效應(yīng)。個(gè)體之間的神秘關(guān)系與方差分量相結(jié)合嘹黔,共同定義來(lái)自個(gè)體的隨機(jī)遺傳效應(yīng)的方差和協(xié)方差账嚎。

群體中的個(gè)體數(shù)量很大程度上決定了MLM方程的大小[10]。解決MLM的計(jì)算復(fù)雜性是個(gè)體數(shù)量的三次函數(shù)儡蔓。解決具有大量個(gè)體的MLM是禁止的郭蕉,尤其是迭代估計(jì)未知方差分量[11]。一些進(jìn)步已部分解決了計(jì)算問(wèn)題。高效混合模型關(guān)聯(lián)(EMMA)算法通過(guò)將可能性作為其比率的函數(shù)導(dǎo)出焙蹭,將遺傳和殘差方差分量的二維優(yōu)化轉(zhuǎn)化為一維優(yōu)化[12]携悯。

已經(jīng)努力將計(jì)算函數(shù)從立方變?yōu)槎危貏e是對(duì)于標(biāo)記篩選涨岁,其主導(dǎo)了具有高標(biāo)記密度的數(shù)據(jù)的整個(gè)計(jì)算。先前確定的群體參數(shù)(P3D)或高效混合模型關(guān)聯(lián)(EMMAX)吉嚣,僅估計(jì)方差分量(或它們的比率)一次梢薪,然后將它們固定為測(cè)試遺傳標(biāo)記[13],[14]尝哆。此外秉撇,開(kāi)發(fā)了一種精確的方法 - 全基因組高效混合模型關(guān)聯(lián)(GEMMA),用于估計(jì)每個(gè)測(cè)試標(biāo)記的群體參數(shù)秋泄,具有相似的P3D或EMMAX計(jì)算效率[15]琐馆。

壓縮MLM的方法[13]將個(gè)體聚類(lèi)成組,并將這些組作為隨機(jī)效應(yīng)印衔。因此啡捶,計(jì)算復(fù)雜度函數(shù)從個(gè)體數(shù)量的立方體減少到較小數(shù)量的組的立方。然而奸焙,立方性仍然存在瞎暑。在實(shí)踐中彤敛,觀察到的最大壓縮(即,每組的平均個(gè)體數(shù)量)僅為約二十倍[16]了赌。因此墨榄,對(duì)于極大量的個(gè)體來(lái)說(shuō),解決傳銷(xiāo)仍然是令人望而卻步的勿她。

因子譜變換線(xiàn)性混合模型(FaST-LMM)將計(jì)算復(fù)雜度的三次函數(shù)劃分為兩部分的乘積:1)個(gè)體數(shù)量和2)個(gè)體之間關(guān)系等級(jí)的平方[17]袄秩。當(dāng)所有遺傳標(biāo)記(通常遠(yuǎn)大于個(gè)體數(shù)量)用于定義個(gè)體之間的關(guān)系時(shí),個(gè)體之間的親緣關(guān)系具有完全排名(即逢并,與個(gè)體數(shù)量相同)之剧。計(jì)算復(fù)雜性仍然是個(gè)體數(shù)量的立方。建議使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義等級(jí)降低的關(guān)系[17]砍聊。當(dāng)小子集具有相對(duì)于個(gè)體數(shù)量恒定數(shù)量的單核苷酸多態(tài)性(SNP)時(shí)背稼,計(jì)算復(fù)雜性變得與個(gè)體數(shù)量成線(xiàn)性關(guān)系。FaST-LMM的作者展示了一些使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義親緣關(guān)系的例子玻蝌,這些親緣關(guān)系具有與使用所有遺傳標(biāo)記的那些相似的結(jié)果[17]蟹肘。此外,該研究表明俯树,一小組相關(guān)遺傳標(biāo)記具有比隨機(jī)選擇的一小組遺傳標(biāo)記更好的統(tǒng)計(jì)功效帘腹。如果它們來(lái)自測(cè)試標(biāo)記的相同區(qū)域(例如,在2Mb內(nèi))许饿,則以這樣的方式使用一小組相關(guān)遺傳標(biāo)記以去除這些標(biāo)記中的一些以定義個(gè)體關(guān)系[18]阳欲。所選標(biāo)記集的大小和內(nèi)容對(duì)于計(jì)算速度和統(tǒng)計(jì)功率而言變得至關(guān)重要。

在這項(xiàng)研究中陋率,我們開(kāi)發(fā)了一種方法胸完,可以顯著減少用于定義個(gè)體關(guān)系的遺傳標(biāo)記的數(shù)量,并顯著提高統(tǒng)計(jì)效力翘贮。

  • 首先,我們將整個(gè)基因組分成小區(qū)爆惧。每個(gè)箱由最重要的標(biāo)記表示狸页。
  • 其次,我們只選擇有影響力的箱扯再。
  • 第三芍耘,我們使用最大似然法來(lái)優(yōu)化選擇作為表型基礎(chǔ)的偽數(shù)量性狀核苷酸(QTN)的區(qū)域的大小和數(shù)量。
  • 第四熄阻,在每個(gè)標(biāo)記的最終測(cè)試中斋竞,通過(guò)將連鎖不平衡(LD)中的標(biāo)記排除到測(cè)試標(biāo)記,使用少量標(biāo)記來(lái)定義個(gè)體之間的關(guān)系秃殉,而不考慮局部距離坝初。
    我們將該算法稱(chēng)為逐步獨(dú)占關(guān)系下的MLM結(jié)算(SUPER)浸剩。

材料和方法

超級(jí)方法

我們?cè)跇?biāo)準(zhǔn)MLM方法的框架內(nèi)開(kāi)發(fā)了SUPER方法,該方法將觀察(Y)分解為固定效應(yīng)(β)鳄袍,隨機(jī)遺傳效應(yīng)(u)和殘差(e)如下绢要。
y = X\beta +Zu + e
(1)
其中 u是大小為 n(個(gè)體數(shù))的向量,用于未知的隨機(jī)多基因效應(yīng)拗小,其均值為零且協(xié)方差矩陣為G= 2K\sigma_a^2重罪,其中 K為具有元素 K_{ij}(i,j = 1,2,...,n)的親屬(共同祖先)矩陣從遺傳標(biāo)記計(jì)算,并且是未知的加性遺傳方差哀九。X和Z分別是 βu的關(guān)聯(lián)矩陣剿配,隨機(jī)殘差效應(yīng)e通常以零均值和協(xié)方差分布R= I\sigma_e^2,其中 I是單位矩陣阅束,是未知的殘差方差呼胚。求解方程(1)涉及確定觀察值(y)具有最大似然性的所有未知參數(shù),定義如下:
L(y|\beta,\sigma_a^2, \sigma_e^2)
(2)

為了執(zhí)行GWAS围俘,標(biāo)記效應(yīng)(v)被添加到等式(1)中砸讳,一次一個(gè):
y = Wv + X\beta +Zu + e
(3)
其中Wv的關(guān)聯(lián)矩陣。使用P3D [13]或EMMAX [14]求解方程(3)只涉及優(yōu)化vβ以?xún)?yōu)化下面這個(gè)似然函數(shù):
L(y|v,\beta,\hat{\sigma}_a^2, \hat{\sigma}_e^2)
(4)
其中界牡,\hat{\sigma}_e^2是最大化方程(2)得到的估計(jì)簿寂。

親屬(K)是已知參數(shù),其源自遺傳標(biāo)記宿亡。因此常遂,不同組的遺傳標(biāo)記產(chǎn)生不同的親緣關(guān)系。這是本研究中所有方法的唯一差異挽荠。我們使用了Van Raden等人的有效算法[19]克胳。(在GAPIT [20]中實(shí)施)計(jì)算親屬關(guān)系矩陣。

  • 第一種方法是僅使用QTN圈匆。
  • 第二種方法是使用包括QTN的所有SNP漠另。
  • 第三種方法是使用除QTN之外的所有SNP。當(dāng)SNP的數(shù)量很大時(shí)跃赚,第二種和第三種方法幾乎不同笆搓。
  • 第四種方法類(lèi)似于使用QTN的第一種方法。不同之處在于纬傲,當(dāng)測(cè)試SNP與QTN相同時(shí)满败,排除QTN用于導(dǎo)出親屬關(guān)系。血緣關(guān)系稱(chēng)為互補(bǔ)特質(zhì)親屬關(guān)系叹括。
  • 第五種方法類(lèi)似于第四種方法算墨,只是QTN被屏蔽并且必須通過(guò)估計(jì)來(lái)識(shí)別。因此汁雷,該方法可用于真正的QTN未知的實(shí)踐中净嘀。
    我們開(kāi)發(fā)了一種程序來(lái)尋找類(lèi)似QTN的SNP报咳,稱(chēng)為偽QTN。

我們的程序包括三個(gè)步驟面粮。前兩個(gè)步驟執(zhí)行偽QTN的包含少孝。最后一步執(zhí)行GWAS,排除LD中具有測(cè)試SNP的偽QTN熬苍。

  • 步驟1:通過(guò)針對(duì)特定性狀的初步GWAS或基因組預(yù)測(cè)對(duì)SNP的p值或效應(yīng)進(jìn)行分類(lèi)稍走。

  • 步驟2:對(duì)于染色體上的每個(gè)bin(片段),選擇最有影響力的SNP(例如柴底,具有最低P值)作為bin的代表婿脸。然后,選擇小號(hào)最有影響力的箱打造的血緣關(guān)系柄驻。將箱的大小和所選箱的數(shù)量視為參數(shù)狐树,以最大化特征的受限最大可能性。該小號(hào)選定SNP(每一個(gè)代表倉(cāng))隨后被用作一個(gè)SNP池的基底以限定用于稍后關(guān)聯(lián)測(cè)試個(gè)體的關(guān)系鸿脓。更準(zhǔn)確地說(shuō)抑钟,我們優(yōu)化了以下似然函數(shù):
    L(y|\beta,\sigma_a^2, \sigma_e^2,s,b)
    (5)
    其中sb是箱的數(shù)量和大小。

  • 步驟3:當(dāng)測(cè)試等式(3)中的SNP時(shí)野哭,我們將具有測(cè)試SNP的LD中的SNP排除在LD中在塔,以得到互補(bǔ)的性狀特異性親緣關(guān)系。我們稱(chēng)這種方法為漸進(jìn)式獨(dú)占關(guān)系(SUPER)拨黔。
    求解方程(3)僅涉及vβ的優(yōu)化以?xún)?yōu)化下面這個(gè)似然:
    L(y|\beta,\sigma_a^2, \sigma_e^2,\hat{s},\hat蛔溃)
    (6)

其中,\sigma_a^2$$篱蝇、\sigma_e^2\hat贺待是最大化等式(5)得到的估計(jì)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末零截,一起剝皮案震驚了整個(gè)濱河市麸塞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌涧衙,老刑警劉巖喘垂,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異绍撞,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)得院,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)傻铣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人祥绞,你說(shuō)我怎么就攤上這事非洲⊙枷蓿” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵两踏,是天一觀的道長(zhǎng)败京。 經(jīng)常有香客問(wèn)我,道長(zhǎng)梦染,這世上最難降的妖魔是什么赡麦? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮帕识,結(jié)果婚禮上泛粹,老公的妹妹穿的比我還像新娘。我一直安慰自己肮疗,他們只是感情好晶姊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著伪货,像睡著了一般们衙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上碱呼,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天蒙挑,我揣著相機(jī)與錄音,去河邊找鬼巍举。 笑死脆荷,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的懊悯。 我是一名探鬼主播蜓谋,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼炭分!你這毒婦竟也來(lái)了桃焕?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤捧毛,失蹤者是張志新(化名)和其女友劉穎观堂,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體呀忧,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡师痕,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了而账。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰坟。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖泞辐,靈堂內(nèi)的尸體忽然破棺而出笔横,到底是詐尸還是另有隱情竞滓,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布吹缔,位于F島的核電站商佑,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏厢塘。R本人自食惡果不足惜茶没,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望俗冻。 院中可真熱鬧礁叔,春花似錦、人聲如沸迄薄。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)讥蔽。三九已至涣易,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間冶伞,已是汗流浹背新症。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留响禽,地道東北人徒爹。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像芋类,于是被迫代替她去往敵國(guó)和親隆嗅。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容