GWAS-1 簡(jiǎn)介-翻譯

GWAS(genome-wide association study)主要用于研究相關(guān)性狀的主要效應(yīng)。其思想是利用覆蓋全基因組的高度密度SNP標(biāo)記橙喘,通過(guò)對(duì)每個(gè)SNP標(biāo)記或SNP單倍型與性狀的關(guān)聯(lián)分析时鸵,直接找到影響性狀的QTN或與數(shù)量性狀核苷酸(quantitative trait nucleotide,QTN)處于高度連鎖不平衡的SNP。
通過(guò)一定算法關(guān)聯(lián)SNP與性狀的關(guān)系厅瞎,這需要對(duì)結(jié)果進(jìn)行度量,其有多種算法初坠。
對(duì)于SNP的從編碼也有多種和簸,主要的是加性編碼,其中SNP的基因型用0碟刺、1或2表示锁保,以指示非參考等位基因的數(shù)量。其他可能的編碼是顯性編碼半沽,其中純合指代基因型編碼為0爽柒,其他基因型編碼為1,而隱性編碼者填,其中純合替代基因型編碼為1浩村,其他基因型編碼為0

1 單SNP分析

1 分析模型

1.1 數(shù)量性狀通常使用廣義線性模型(GLM)方法進(jìn)行分析,最常見(jiàn)的是方差分析(ANOVA)占哟,它類似于帶有分類預(yù)測(cè)變量的線性回歸心墅,在這種情況下是基因型類別酿矢。使用單個(gè)SNP進(jìn)行ANOVA的假設(shè)是,任何基因型組的特征均值之間沒(méi)有差異怎燥。GLM和ANOVA的假設(shè)是:1)性狀是正態(tài)分布的瘫筐;2)每組內(nèi)的特征差異相同(各組是同方差的);3)組是獨(dú)立的铐姚。

1.2 通常使用列聯(lián)表法或邏輯回歸分析二分病例/對(duì)照特征策肝。列聯(lián)表檢驗(yàn)檢查并測(cè)量在表型和基因型類別之間沒(méi)有關(guān)聯(lián)的零假設(shè)下預(yù)期的獨(dú)立性偏差。該測(cè)試最普遍的形式是流行的卡方檢驗(yàn)(以及相關(guān)的費(fèi)舍爾精確檢驗(yàn))隐绵。
Logistic回歸是線性回歸的擴(kuò)展驳糯,其中線性模型的結(jié)果使用邏輯函數(shù)進(jìn)行轉(zhuǎn)換,該邏輯函數(shù)可根據(jù)基因型類別預(yù)測(cè)案例狀態(tài)的可能性氢橙。Logistic回歸通常是首選方法酝枢,因?yàn)樗试S對(duì)臨床協(xié)變量(和其他因素)進(jìn)行調(diào)整,并且可以提供調(diào)整后的比值比來(lái)悍手。
NP的基因型也可以分為基因型類別或模型帘睦,例如顯性,隱性坦康,乘性或加性模型竣付。編碼的不同,會(huì)給研究帶來(lái)不同的結(jié)果滞欠。

2 協(xié)變量調(diào)整和群體分層

協(xié)變量調(diào)整可減少由于研究偽影或研究設(shè)計(jì)中的偏差而造成的虛假關(guān)聯(lián)古胆,但是調(diào)整是以使用可能影響統(tǒng)計(jì)功效的額外自由度為代價(jià)的。
當(dāng)用作協(xié)變量時(shí)筛璧,這些得分會(huì)針對(duì)數(shù)據(jù)中的微小祖先效應(yīng)進(jìn)行調(diào)整逸绎。

對(duì)于不同遺傳背景的群體混合在一起是影響WAS分析結(jié)果可靠性的主要因素之一。
一般對(duì)所有數(shù)據(jù)進(jìn)行PCA分析夭谤,查看前兩個(gè)PCs的圖棺牧。
如果分層,需要校正朗儒,目前主要的方法有:基因組控制法(genomic control, GC), 結(jié)構(gòu)關(guān)聯(lián)法(structured assocaiation, SA)和主成分分析法(principal componets).
Q-Q圖: 以每個(gè)SNP的檢驗(yàn)統(tǒng)計(jì)量的觀察值和在原假設(shè)(SNP與性狀無(wú)關(guān))下的期望值為數(shù)據(jù)對(duì)颊乘。
P 值的曼哈頓圖都是以-lg(P)表示Y值。

3 多次測(cè)試的校正(p值校正)

對(duì)于每個(gè)統(tǒng)計(jì)檢驗(yàn)醉锄,都會(huì)生成一個(gè)p值乏悄,即看到一個(gè)檢驗(yàn)統(tǒng)計(jì)量等于或大于觀察到的檢驗(yàn)統(tǒng)計(jì)量(如果原假設(shè)為真)的概率。這實(shí)際上意味著較低的p值表示如果沒(méi)有關(guān)聯(lián)恳不,則看到此結(jié)果的機(jī)會(huì)非常小檩小。

多重檢驗(yàn)可導(dǎo)致I型錯(cuò)誤擴(kuò)大和假陽(yáng)性關(guān)聯(lián),因而需要對(duì)多重檢測(cè)校正妆够。
那如何對(duì)多重檢驗(yàn)進(jìn)行校正是GWA研究所面臨的重要問(wèn)題之一识啦。 目前常用的方法有:Bonferroni校正负蚊,遞減調(diào)整法(step-down adjustment),數(shù)據(jù)重排法(data permutaton),Benjamini-Hochberg, 和控制錯(cuò)誤發(fā)現(xiàn)率法(false discovery rate, FDR)等. Bonferroni校正是最保守和嚴(yán)格的一種颓哮,但是應(yīng)用較為普遍家妆,公式:
Ps = γ / N, Ps是每次檢測(cè)欲達(dá)到的顯著要求的P值的閾值冕茅,γ 是所要求的總的范I性錯(cuò)誤的概率伤极, N是實(shí)際分析中使用的SNP數(shù)

統(tǒng)計(jì)檢驗(yàn)通常被稱為有效檢驗(yàn),如果p值低于預(yù)定義的alpha值(幾乎始終設(shè)置為0.05)姨伤,則無(wú)效假設(shè)會(huì)被拒絕哨坪。這意味著在5%的情況下,原假設(shè)實(shí)際上是真的乍楚,而我們檢測(cè)到假陽(yáng)性当编,則原假設(shè)被拒絕。該概率是相對(duì)于單個(gè)統(tǒng)計(jì)檢驗(yàn)而言的徒溪;就GWAS而言忿偷,進(jìn)行了數(shù)十萬(wàn)至數(shù)百萬(wàn)次測(cè)試,每個(gè)測(cè)試都有其自己的假陽(yáng)性概率臊泌。因此鲤桥,在整個(gè)GWAS分析中發(fā)現(xiàn)一個(gè)或多個(gè)誤報(bào)的累積可能性要高得多

修正多重測(cè)試的最簡(jiǎn)單方法之一是Bonferroni修正。Bonferroni校正將alpha值從α= 0.05調(diào)整為α=(0.05 / k)渠概,其中k是進(jìn)行的統(tǒng)計(jì)檢驗(yàn)的次數(shù)茶凳。對(duì)于使用500,000個(gè)SNP的典型GWAS,SNP關(guān)聯(lián)的統(tǒng)計(jì)顯著性應(yīng)設(shè)置為1e-7播揪。此校正是最保守的贮喧,因?yàn)樗俣?00,000的每個(gè)關(guān)聯(lián)測(cè)試均獨(dú)立于所有其他測(cè)試-由于GWAS標(biāo)記之間的連鎖不平衡,這一假設(shè)通常是不正確的剪芍。

調(diào)整誤報(bào)率(alpha)的另一種方法是確定誤發(fā)現(xiàn)率(FDR)塞淹。錯(cuò)誤發(fā)現(xiàn)率是對(duì)重要結(jié)果(通常為alpha = 0.05)中誤報(bào)所占比例的估計(jì)。在GWAS數(shù)據(jù)集中沒(méi)有真實(shí)關(guān)聯(lián)的零假設(shè)下罪裹,關(guān)聯(lián)測(cè)試的p值將遵循均勻分布(從0到1均勻分布)。FDR程序最初由Benjamini和Hochberg開(kāi)發(fā)运挫,從本質(zhì)上糾正了預(yù)期的錯(cuò)誤發(fā)現(xiàn)數(shù)量状共,從而提供了對(duì)那些被稱為“重大發(fā)現(xiàn)”的真實(shí)結(jié)果的估計(jì)[[33]]。這些技術(shù)已廣泛應(yīng)用于GWAS谁帕,并以多種方式擴(kuò)展[[34]]峡继。

置換測(cè)試是在GWAS中建立重要性的另一種方法。盡管計(jì)算量大匈挖,但置換測(cè)試是在原假設(shè)為真時(shí)為給定數(shù)據(jù)集生成測(cè)試統(tǒng)計(jì)量的經(jīng)驗(yàn)分布的直接方法碾牌。這是通過(guò)將每個(gè)個(gè)體的表型隨機(jī)重新分配給數(shù)據(jù)集中的另一個(gè)個(gè)體來(lái)實(shí)現(xiàn)的康愤,從而有效地打破了數(shù)據(jù)集的基因型與表型之間的關(guān)系。數(shù)據(jù)的每次隨機(jī)重分配代表在原假設(shè)下對(duì)個(gè)體的一個(gè)可能采樣舶吗,并且此過(guò)程重復(fù)了預(yù)定的次數(shù)N以生成分辨率為N的經(jīng)驗(yàn)分布征冷,因此N為1000的置換過(guò)程給出了經(jīng)驗(yàn)p 1/1000內(nèi)-VALUE小數(shù)點(diǎn)后一位。已經(jīng)開(kāi)發(fā)了幾種軟件包來(lái)執(zhí)行GWAS研究的置換測(cè)試誓琼,包括流行的PLINK軟件[[35]]检激,PRESTO [[36]]和PERMORY [[37]]

2 多SNP分析

全基因組關(guān)聯(lián)研究為檢查整個(gè)基因組的遺傳變異之間的相互作用提供了巨大的機(jī)會(huì)。然而腹侣,多場(chǎng)所分析并不像進(jìn)行單場(chǎng)所測(cè)試那樣簡(jiǎn)單叔收,并且提出了許多計(jì)算,統(tǒng)計(jì)和后勤方面的挑傲隶。

因?yàn)榇蠖鄶?shù)GWAS基因型介于500,000個(gè)和一百萬(wàn)個(gè)SNP之間饺律,所以即使對(duì)于高效算法,檢查SNP的所有成對(duì)組合也是一種計(jì)算上棘手的方法跺株。解決此問(wèn)題的一種方法是減少或過(guò)濾基因型SNP的集合复濒,從而消除冗余信息。過(guò)濾SNP的一種簡(jiǎn)單而通用的方法是帖鸦,根據(jù)任意重要性閾值從單SNP分析中選擇一組結(jié)果芝薇,并詳盡地評(píng)估該子集中的相互作用。但是作儿,這可能很危險(xiǎn)洛二,因?yàn)榛谥饕?yīng)選擇要分析的SNP將阻止檢測(cè)到某些多位點(diǎn)模型-所謂的“純上位”模型,其邊際效應(yīng)在統(tǒng)計(jì)上是不可檢測(cè)的攻锰。使用這些模型晾嘶,遺傳力的很大一部分都集中在交互而不是主要效果上。換句話說(shuō)娶吞,標(biāo)記物的特定組合(僅標(biāo)記物的組合)引起疾病風(fēng)險(xiǎn)的顯著變化垒迂。這種分析的好處在于,它對(duì)所選SNP集合內(nèi)的相互作用進(jìn)行了無(wú)偏性分析妒蛇。與分析所有可能的標(biāo)記組合相比机断,它在計(jì)算和統(tǒng)計(jì)上也更容易處理。

另一種策略是將SNP組合的檢查限制為屬于已建立的生物學(xué)環(huán)境(例如生化途徑或蛋白質(zhì)家族)中的那些組合绣夺。由于這些技術(shù)依賴于結(jié)構(gòu)化生物醫(yī)學(xué)知識(shí)的電子存儲(chǔ)庫(kù)吏奸,因此它們通常將生成SNP-SNP組合的生物信息引擎與評(píng)估GWAS數(shù)據(jù)集中組合的統(tǒng)計(jì)方法結(jié)合使用。例如陶耍,生物過(guò)濾器方法使用了各種公共數(shù)據(jù)源奋蔚,以及邏輯回歸和多因素降維方法[[40]],[41]。同樣泊碑,INTERSNP使用邏輯回歸涂籽,對(duì)數(shù)線性和列聯(lián)表方法評(píng)估SNP-SNP相互作用模型[42]待牵。

3 重復(fù)和薈萃分析

簡(jiǎn)而言之燎孟,復(fù)制研究的一般策略是盡可能重復(fù)進(jìn)行GWAS的確定和設(shè)計(jì)祸泪,但僅檢查在GWAS中發(fā)現(xiàn)的顯著遺傳效應(yīng)。兩項(xiàng)研究中一致的效應(yīng)可以標(biāo)記為重復(fù)效應(yīng)沉桌。
薈萃分析的基本原理是谢鹊,所有納入的研究都檢驗(yàn)了相同的假設(shè)。因此留凭,每個(gè)納入研究的總體設(shè)計(jì)應(yīng)相似佃扼,并且研究水平的SNP分析應(yīng)在所有研究中遵循幾乎相同的程序(參見(jiàn)Zeggini和Ioannidis [47]以獲得出色的評(píng)價(jià))。確定每個(gè)站點(diǎn)包含哪些SNP的質(zhì)量控制程序以及所有協(xié)變量調(diào)整均應(yīng)標(biāo)準(zhǔn)化蔼夜,并且多個(gè)站點(diǎn)之間臨床協(xié)變量和表型的測(cè)量應(yīng)保持一致兼耀。所有研究的樣本集都應(yīng)該是獨(dú)立的–由于研究人員經(jīng)常將相同的樣本貢獻(xiàn)給多個(gè)研究,因此應(yīng)該經(jīng)常檢查這一假設(shè)求冷。同樣瘤运,一個(gè)極其重要且有點(diǎn)麻煩的后勤問(wèn)題是要確保所有研究報(bào)告相對(duì)于常見(jiàn)基因組構(gòu)建和參考等位基因的結(jié)果。如果一項(xiàng)研究報(bào)告了其相對(duì)于等位基因的結(jié)果匠题,此SNP的薈萃分析結(jié)果可能并不重要拯坟,因?yàn)閮身?xiàng)研究的效果相互抵消。
考慮到所有這些因素韭山,很少能找到在所有條件下都完全匹配的多項(xiàng)研究郁季。因此,經(jīng)常在薈萃分析中對(duì)研究異質(zhì)性進(jìn)行統(tǒng)計(jì)量化钱磅,以確定研究之間的差異程度梦裂。研究異質(zhì)性最流行的度量是I2指數(shù)I2指數(shù)在最近的研究中更受青睞。由薈萃分析得出的系數(shù)具有可變性(或誤差)盖淡,并且I指數(shù)表示該可變性的近似比例年柠,這可以歸因于研究之間的異質(zhì)性。I2值分為低(<25)褪迟,中(> 25和<75)和高(> 75)異質(zhì)性冗恨,并且已被提議作為一種識(shí)別可能應(yīng)該從薈萃分析中刪除的研究的方法。重要的是要注意味赃,這些統(tǒng)計(jì)數(shù)據(jù)應(yīng)被用作識(shí)別可能與薈萃分析中其他假設(shè)不同的基礎(chǔ)假設(shè)的研究的指導(dǎo)派近,就像離群分析被用來(lái)識(shí)別影響力過(guò)大的觀點(diǎn)一樣。但是洁桌,與異常值一樣,僅在有明顯理由基于研究參數(shù)進(jìn)行研究時(shí)才應(yīng)將其排除在外–不僅僅是因?yàn)榻y(tǒng)計(jì)數(shù)據(jù)表明該研究會(huì)增加異質(zhì)性侯嘀。否則另凌,旨在減少薈萃分析異質(zhì)性的不可知統(tǒng)計(jì)程序?qū)⒃黾渝e(cuò)誤的發(fā)現(xiàn)

google翻譯文章:Bush WS, Moore JH. Chapter 11: Genome-wide association studies. PLoS Comput Biol. 2012;8(12):e1002822. doi: 10.1371/journal.pcbi.1002822. Epub 2012 Dec 27. PMID: 23300413; PMCID: PMC3531285.
“Exploration of a diversity of computational and statistical measures of association for genome-wide genetic studies” (https://doi.org/10.1186/s13040-019-0201-4)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末谱轨,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子吠谢,更是在濱河造成了極大的恐慌土童,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評(píng)論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件工坊,死亡現(xiàn)場(chǎng)離奇詭異献汗,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)王污,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門罢吃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人昭齐,你說(shuō)我怎么就攤上這事尿招。” “怎么了阱驾?”我有些...
    開(kāi)封第一講書人閱讀 163,105評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵就谜,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我里覆,道長(zhǎng)丧荐,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,242評(píng)論 1 292
  • 正文 為了忘掉前任喧枷,我火速辦了婚禮虹统,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘割去。我一直安慰自己窟却,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,269評(píng)論 6 389
  • 文/花漫 我一把揭開(kāi)白布呻逆。 她就那樣靜靜地躺著夸赫,像睡著了一般。 火紅的嫁衣襯著肌膚如雪咖城。 梳的紋絲不亂的頭發(fā)上茬腿,一...
    開(kāi)封第一講書人閱讀 51,215評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音宜雀,去河邊找鬼切平。 笑死,一個(gè)胖子當(dāng)著我的面吹牛辐董,可吹牛的內(nèi)容都是我干的悴品。 我是一名探鬼主播,決...
    沈念sama閱讀 40,096評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼苔严!你這毒婦竟也來(lái)了定枷?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 38,939評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤届氢,失蹤者是張志新(化名)和其女友劉穎欠窒,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體退子,經(jīng)...
    沈念sama閱讀 45,354評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡岖妄,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,573評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了寂祥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片荐虐。...
    茶點(diǎn)故事閱讀 39,745評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖壤靶,靈堂內(nèi)的尸體忽然破棺而出缚俏,到底是詐尸還是另有隱情,我是刑警寧澤贮乳,帶...
    沈念sama閱讀 35,448評(píng)論 5 344
  • 正文 年R本政府宣布忧换,位于F島的核電站,受9級(jí)特大地震影響向拆,放射性物質(zhì)發(fā)生泄漏亚茬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,048評(píng)論 3 327
  • 文/蒙蒙 一浓恳、第九天 我趴在偏房一處隱蔽的房頂上張望刹缝。 院中可真熱鬧,春花似錦颈将、人聲如沸梢夯。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,683評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)颂砸。三九已至,卻和暖如春死姚,著一層夾襖步出監(jiān)牢的瞬間人乓,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,838評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工都毒, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留色罚,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,776評(píng)論 2 369
  • 正文 我出身青樓账劲,卻偏偏與公主長(zhǎng)得像戳护,于是被迫代替她去往敵國(guó)和親金抡。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,652評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容