Wang2014 SUPER

Wang Q, Tian F, Pan Y, et al. A SUPER Powerful Method for Genome Wide Association Study (Y Li, Ed.). PLoS ONE, 2014, 9(9): e107684. DOI: 10.1371/journal.pone.0107684.

一種超強(qiáng)的全基因組關(guān)聯(lián)研究方法

摘要

全基因組關(guān)聯(lián)研究揭示了人類(lèi)疾病和農(nóng)業(yè)重要性狀基因的鑒定脖隶。假陽(yáng)性結(jié)果掩蓋了這種潛力。混合線(xiàn)性模型（MLM）方法足夠靈活暇检，可以同時(shí)結(jié)合種群結(jié)構(gòu)和神秘關(guān)系來(lái)減少誤報(bào)。然而婉称，其密集的計(jì)算負(fù)擔(dān)在實(shí)踐中是禁止的块仆，特別是對(duì)于大樣本。新開(kāi)發(fā)的算法FaST-LMM解決了計(jì)算問(wèn)題王暗，但要求SNP的數(shù)量少于導(dǎo)致等級(jí)減少關(guān)系的個(gè)體數(shù)量悔据。與使用所有SNP相比，這種限制可能導(dǎo)致更低的統(tǒng)計(jì)功效俗壹。我們開(kāi)發(fā)了一種方法來(lái)提取一小部分SNP并在FaST-LMM中使用它們科汗。該方法不僅保留了FaST-LMM的計(jì)算優(yōu)勢(shì)，而且即使與使用整組SNP相比也顯著提高了統(tǒng)計(jì)功效绷雏。我們將方法命名為SUPER（在漸進(jìn)式獨(dú)占關(guān)系下解決MLM）头滔，并將其提供給GAPIT軟件包的實(shí)現(xiàn)。

介紹

全基因組關(guān)聯(lián)研究（GWAS）已成為鑒定人類(lèi)疾病基因和農(nóng)業(yè)重要性狀的主要方法涎显。然而坤检，到目前為止鑒定的遺傳變異僅解釋了一小部分表型變異[1]。由于缺乏統(tǒng)計(jì)學(xué)效力期吓，稀有基因和沒(méi)有大的影響的基因仍然未被識(shí)別[2]早歇。統(tǒng)計(jì)功效由許多因素決定，如基因效應(yīng)，等位基因頻率箭跳，樣本大小晨另，標(biāo)記密度和I型錯(cuò)誤的零分布[3]。I型錯(cuò)誤（假陽(yáng)性）膨脹導(dǎo)致比預(yù)期更多的錯(cuò)誤發(fā)現(xiàn)[4]谱姓，[5]借尿。

群體分層和神秘關(guān)系是假陽(yáng)性膨脹的兩個(gè)常見(jiàn)原因[6]，[7]逝段《獠＃【GLM不行嗎？】與一般線(xiàn)性模型（GLM）相比奶躯，混合線(xiàn)性模型（MLM）方法通過(guò)同時(shí)合并這兩個(gè)因子有效地消除了假陽(yáng)性[8]帚桩。群體分層通過(guò)群體結(jié)構(gòu)[6]或主成分[9]作為固定效應(yīng)。個(gè)體之間的神秘關(guān)系與方差分量相結(jié)合嘹黔，共同定義來(lái)自個(gè)體的隨機(jī)遺傳效應(yīng)的方差和協(xié)方差账嚎。

群體中的個(gè)體數(shù)量很大程度上決定了MLM方程的大小[10]。解決MLM的計(jì)算復(fù)雜性是個(gè)體數(shù)量的三次函數(shù)儡蔓。解決具有大量個(gè)體的MLM是禁止的郭蕉，尤其是迭代估計(jì)未知方差分量[11]。一些進(jìn)步已部分解決了計(jì)算問(wèn)題。高效混合模型關(guān)聯(lián)（EMMA）算法通過(guò)將可能性作為其比率的函數(shù)導(dǎo)出焙蹭，將遺傳和殘差方差分量的二維優(yōu)化轉(zhuǎn)化為一維優(yōu)化[12]携悯。

已經(jīng)努力將計(jì)算函數(shù)從立方變?yōu)槎危貏e是對(duì)于標(biāo)記篩選涨岁，其主導(dǎo)了具有高標(biāo)記密度的數(shù)據(jù)的整個(gè)計(jì)算。先前確定的群體參數(shù)（P3D）或高效混合模型關(guān)聯(lián)（EMMAX）吉嚣，僅估計(jì)方差分量（或它們的比率）一次梢薪，然后將它們固定為測(cè)試遺傳標(biāo)記[13]，[14]尝哆。此外秉撇，開(kāi)發(fā)了一種精確的方法 - 全基因組高效混合模型關(guān)聯(lián)（GEMMA），用于估計(jì)每個(gè)測(cè)試標(biāo)記的群體參數(shù)秋泄，具有相似的P3D或EMMAX計(jì)算效率[15]琐馆。

壓縮MLM的方法[13]將個(gè)體聚類(lèi)成組，并將這些組作為隨機(jī)效應(yīng)印衔。因此啡捶，計(jì)算復(fù)雜度函數(shù)從個(gè)體數(shù)量的立方體減少到較小數(shù)量的組的立方。然而奸焙，立方性仍然存在瞎暑。在實(shí)踐中彤敛，觀察到的最大壓縮（即，每組的平均個(gè)體數(shù)量）僅為約二十倍[16]了赌。因此墨榄，對(duì)于極大量的個(gè)體來(lái)說(shuō)，解決傳銷(xiāo)仍然是令人望而卻步的勿她。

因子譜變換線(xiàn)性混合模型（FaST-LMM）將計(jì)算復(fù)雜度的三次函數(shù)劃分為兩部分的乘積：1）個(gè)體數(shù)量和2）個(gè)體之間關(guān)系等級(jí)的平方[17]袄秩。當(dāng)所有遺傳標(biāo)記（通常遠(yuǎn)大于個(gè)體數(shù)量）用于定義個(gè)體之間的關(guān)系時(shí)，個(gè)體之間的親緣關(guān)系具有完全排名（即逢并，與個(gè)體數(shù)量相同）之剧。計(jì)算復(fù)雜性仍然是個(gè)體數(shù)量的立方。建議使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義等級(jí)降低的關(guān)系[17]砍聊。當(dāng)小子集具有相對(duì)于個(gè)體數(shù)量恒定數(shù)量的單核苷酸多態(tài)性（SNP）時(shí)背稼，計(jì)算復(fù)雜性變得與個(gè)體數(shù)量成線(xiàn)性關(guān)系。FaST-LMM的作者展示了一些使用一小部分隨機(jī)選擇的標(biāo)記來(lái)定義親緣關(guān)系的例子玻蝌，這些親緣關(guān)系具有與使用所有遺傳標(biāo)記的那些相似的結(jié)果[17]蟹肘。此外，該研究表明俯树，一小組相關(guān)遺傳標(biāo)記具有比隨機(jī)選擇的一小組遺傳標(biāo)記更好的統(tǒng)計(jì)功效帘腹。如果它們來(lái)自測(cè)試標(biāo)記的相同區(qū)域（例如，在2Mb內(nèi)）许饿，則以這樣的方式使用一小組相關(guān)遺傳標(biāo)記以去除這些標(biāo)記中的一些以定義個(gè)體關(guān)系[18]阳欲。所選標(biāo)記集的大小和內(nèi)容對(duì)于計(jì)算速度和統(tǒng)計(jì)功率而言變得至關(guān)重要。

在這項(xiàng)研究中陋率，我們開(kāi)發(fā)了一種方法胸完，可以顯著減少用于定義個(gè)體關(guān)系的遺傳標(biāo)記的數(shù)量，并顯著提高統(tǒng)計(jì)效力翘贮。

首先，我們將整個(gè)基因組分成小區(qū)爆惧。每個(gè)箱由最重要的標(biāo)記表示狸页。
其次，我們只選擇有影響力的箱扯再。
第三芍耘，我們使用最大似然法來(lái)優(yōu)化選擇作為表型基礎(chǔ)的偽數(shù)量性狀核苷酸（QTN）的區(qū)域的大小和數(shù)量。
第四熄阻，在每個(gè)標(biāo)記的最終測(cè)試中斋竞，通過(guò)將連鎖不平衡（LD）中的標(biāo)記排除到測(cè)試標(biāo)記，使用少量標(biāo)記來(lái)定義個(gè)體之間的關(guān)系秃殉，而不考慮局部距離坝初。
我們將該算法稱(chēng)為逐步獨(dú)占關(guān)系下的MLM結(jié)算（SUPER）浸剩。

材料和方法

超級(jí)方法

我們?cè)跇?biāo)準(zhǔn)MLM方法的框架內(nèi)開(kāi)發(fā)了SUPER方法，該方法將觀察（ $Y$ ）分解為固定效應(yīng)（ $β$ ）鳄袍，隨機(jī)遺傳效應(yīng)（ $u$ ）和殘差（ $e$ ）如下绢要。
$y = X\beta +Zu + e$
（1）
其中 $u$ 是大小為 n（個(gè)體數(shù)）的向量，用于未知的隨機(jī)多基因效應(yīng)拗小，其均值為零且協(xié)方差矩陣為 $G= 2K\sigma_a^2$ 重罪，其中 $K$ 為具有元素 $K_{ij}$ （i,j = 1,2,...,n）的親屬（共同祖先）矩陣從遺傳標(biāo)記計(jì)算，并且是未知的加性遺傳方差哀九。X和Z分別是 $β$ 和 $u$ 的關(guān)聯(lián)矩陣剿配，隨機(jī)殘差效應(yīng) $e$ 通常以零均值和協(xié)方差分布 $R= I\sigma_e^2$ ，其中 $I$ 是單位矩陣阅束，是未知的殘差方差呼胚。求解方程（1）涉及確定觀察值（ $y$ ）具有最大似然性的所有未知參數(shù)，定義如下：
$L(y|\beta,\sigma_a^2, \sigma_e^2)$
（2）

為了執(zhí)行GWAS围俘，標(biāo)記效應(yīng)（ $v$ ）被添加到等式（1）中砸讳，一次一個(gè)：
$y = Wv + X\beta +Zu + e$
（3）
其中 $W$ 是 $v$ 的關(guān)聯(lián)矩陣。使用P3D [13]或EMMAX [14]求解方程（3）只涉及優(yōu)化 $v$ 和 $β$ 以?xún)?yōu)化下面這個(gè)似然函數(shù)：
$L(y|v,\beta,\hat{\sigma}_a^2, \hat{\sigma}_e^2)$
（4）
其中界牡， $\hat{\sigma}_e^2$ 是最大化方程（2）得到的估計(jì)簿寂。

親屬（K）是已知參數(shù)，其源自遺傳標(biāo)記宿亡。因此常遂，不同組的遺傳標(biāo)記產(chǎn)生不同的親緣關(guān)系。這是本研究中所有方法的唯一差異挽荠。我們使用了Van Raden等人的有效算法[19]克胳。（在GAPIT [20]中實(shí)施）計(jì)算親屬關(guān)系矩陣。

第一種方法是僅使用QTN圈匆。
第二種方法是使用包括QTN的所有SNP漠另。
第三種方法是使用除QTN之外的所有SNP。當(dāng)SNP的數(shù)量很大時(shí)跃赚，第二種和第三種方法幾乎不同笆搓。
第四種方法類(lèi)似于使用QTN的第一種方法。不同之處在于纬傲，當(dāng)測(cè)試SNP與QTN相同時(shí)满败，排除QTN用于導(dǎo)出親屬關(guān)系。血緣關(guān)系稱(chēng)為互補(bǔ)特質(zhì)親屬關(guān)系叹括。
第五種方法類(lèi)似于第四種方法算墨，只是QTN被屏蔽并且必須通過(guò)估計(jì)來(lái)識(shí)別。因此汁雷，該方法可用于真正的QTN未知的實(shí)踐中净嘀。
我們開(kāi)發(fā)了一種程序來(lái)尋找類(lèi)似QTN的SNP报咳，稱(chēng)為偽QTN。

我們的程序包括三個(gè)步驟面粮。前兩個(gè)步驟執(zhí)行偽QTN的包含少孝。最后一步執(zhí)行GWAS，排除LD中具有測(cè)試SNP的偽QTN熬苍。

步驟1：通過(guò)針對(duì)特定性狀的初步GWAS或基因組預(yù)測(cè)對(duì)SNP的p值或效應(yīng)進(jìn)行分類(lèi)稍走。
步驟2：對(duì)于染色體上的每個(gè)bin（片段），選擇最有影響力的SNP（例如柴底，具有最低P值）作為bin的代表婿脸。然后，選擇小號(hào)最有影響力的箱打造的血緣關(guān)系柄驻。將箱的大小和所選箱的數(shù)量視為參數(shù)狐树，以最大化特征的受限最大可能性。該小號(hào)選定SNP（每一個(gè)代表倉(cāng)）隨后被用作一個(gè)SNP池的基底以限定用于稍后關(guān)聯(lián)測(cè)試個(gè)體的關(guān)系鸿脓。更準(zhǔn)確地說(shuō)抑钟，我們優(yōu)化了以下似然函數(shù)：
$L(y|\beta,\sigma_a^2, \sigma_e^2,s,b)$
（5）
其中 $s$ 和 $b$ 是箱的數(shù)量和大小。
步驟3：當(dāng)測(cè)試等式（3）中的SNP時(shí)野哭，我們將具有測(cè)試SNP的LD中的SNP排除在LD中在塔，以得到互補(bǔ)的性狀特異性親緣關(guān)系。我們稱(chēng)這種方法為漸進(jìn)式獨(dú)占關(guān)系（SUPER）拨黔。
求解方程（3）僅涉及 $v$ 和 $β$ 的優(yōu)化以?xún)?yōu)化下面這個(gè)似然：
$L(y|\beta,\sigma_a^2, \sigma_e^2,\hat{s},\hat蛔溃)$
（6）

其中， $\sigma_a^2$$篱蝇、\sigma_e^2$ 和 $\hat贺待$ 是最大化等式（5）得到的估計(jì)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末零截，一起剝皮案震驚了整個(gè)濱河市麸塞，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌涧衙，老刑警劉巖喘垂，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異绍撞，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)得院，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)傻铣，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人祥绞，你說(shuō)我怎么就攤上這事非洲⊙枷蓿” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵两踏，是天一觀的道長(zhǎng)败京。經(jīng)常有香客問(wèn)我，道長(zhǎng)梦染，這世上最難降的妖魔是什么赡麦？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮帕识，結(jié)果婚禮上泛粹，老公的妹妹穿的比我還像新娘。我一直安慰自己肮疗，他們只是感情好晶姊，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著伪货，像睡著了一般们衙。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上碱呼，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天蒙挑，我揣著相機(jī)與錄音，去河邊找鬼巍举。笑死脆荷，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的懊悯。我是一名探鬼主播蜓谋，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼炭分！你這毒婦竟也來(lái)了桃焕？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤捧毛，失蹤者是張志新（化名）和其女友劉穎观堂，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體呀忧，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡师痕，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了而账。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片胰坟。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖泞辐，靈堂內(nèi)的尸體忽然破棺而出笔横，到底是詐尸還是另有隱情竞滓，我是刑警寧澤，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布吹缔，位于F島的核電站商佑，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏厢塘。R本人自食惡果不足惜茶没，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望俗冻。院中可真熱鬧礁叔，春花似錦、人聲如沸迄薄。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)讥蔽。三九已至涣易，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間冶伞，已是汗流浹背新症。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留响禽，地道東北人徒爹。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像芋类，于是被迫代替她去往敵國(guó)和親隆嗅。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

Wang2014 SUPER

一種超強(qiáng)的全基因組關(guān)聯(lián)研究方法

摘要

介紹

材料和方法

超級(jí)方法

推薦閱讀更多精彩內(nèi)容