參考課程: 基迪奧GWAS課程:https://www.omicshare.com/class/Home/Index/singlev?id=3
自然群體利用了進(jìn)化過程中的染色體重組示启,容易進(jìn)行基因定位虎敦。
1秩铆、GWAS分析常用的軟件
(1)TASSEL
- 植物類項目應(yīng)用較多线罕,可以矯正群體結(jié)構(gòu)和系譜關(guān)系(Trait Analysis by aSSociation, Evolution and Linkage; Bradbury et al, 2007, Bioinformatics 23:2633-2635)
(2)EMMA - 動物類項目應(yīng)用較多隆敢,可矯正系譜關(guān)系(Kang et al, 2008, Genetics 178:1709-1723)
(3)Plink - 使用較為簡單(Purcell et al, American Journal of Human Genetics, 2007, 81)
2店雅、表型的處理:線性表型性狀
- 正態(tài)性判斷:R語言的shapiro.test(x)檢驗(yàn)
- 如果是僅個別樣本異常面褐,建議剔除纬黎。如極端值、離開均值大于4倍SD的
- 若整體偏離散(如基因表達(dá)量值)闽晦,建議取log2后扳碍,重新檢驗(yàn)正態(tài)性。
3仙蛉、材料的選擇
主要從兩方面考慮笋敞,一是其LD衰減和重組情況如何、二是群體結(jié)構(gòu)如何荠瘪。
(1)群體的選擇
-
野生品種夯巷、地方品種、培育品種
不同群體關(guān)聯(lián)分析的效果不同
- 標(biāo)記的效應(yīng)越弱哀墓,要檢測到這個標(biāo)記所需的樣本數(shù)目就更大趁餐,因此要先考慮研究的性狀是偏質(zhì)量的、還是偏主效基因的篮绰,or前人報道的沒有主效基因的
- 如果是前人報道的無主效基因的后雷,就要考慮增加樣本,或確實(shí)定位不到位點(diǎn)
(2)基因型是否完全覆蓋
- GWAS分析的基礎(chǔ)就是基因與標(biāo)記之間的LD是否連鎖,不同群體的LD衰減距離不同臀突,可以用hyploview進(jìn)行計算勉抓。
- 通常當(dāng)兩個位點(diǎn)間R2>0.8時,認(rèn)為兩位點(diǎn)處于完全連鎖不平衡候学,但這種連鎖狀態(tài)會隨區(qū)域增加而不斷降低琳状。
如何根據(jù)LD衰減距離判斷做GWAS所需的標(biāo)記個數(shù)?盒齿? - 如果群體的LD衰減距離是100k念逞,那么分析時就要保證每100k至少要有一個marker,那么1M就需要10個边翁、1G就是10w個翎承、3G就需要30w個
- 核心種質(zhì)的LD衰減非常快符匾,因此要增加標(biāo)記密度
(3)基因型判斷群體結(jié)構(gòu)的影響(隨機(jī)背景標(biāo)記)
群體結(jié)構(gòu)(Q矩陣)和個體檢潛在的系譜關(guān)系(K矩陣)叨咖,可能會導(dǎo)致假陽性(如下圖):
- 群體結(jié)構(gòu)和性狀分布恰好一致,會使人誤以為只要是量群體特有的基因就都是與性狀關(guān)聯(lián)的啊胶,即將區(qū)分群體的背景標(biāo)記認(rèn)為是與性狀相關(guān)的甸各;
-
解決辦法(2種):
① 將群體結(jié)構(gòu)作為協(xié)變量,引入到方程式里焰坪,將群體間的影響校正掉趣倾,剩下的效應(yīng)可能是標(biāo)記的效應(yīng);
- 計算群體結(jié)構(gòu)(Q矩陣):用structure或PCA分析的結(jié)果某饰,作為群體結(jié)構(gòu)的協(xié)變量儒恋,將其引入模型 ----- 具體操作見楊曉紅老師GWAS操作教程課件
- 計算個體遺傳關(guān)系(系譜關(guān)系,K矩陣):用SPAGeDi軟件
② 將兩個群體分開黔漂,分別單獨(dú)做GWAS诫尽,來敲除遺傳背景對群體結(jié)構(gòu)的影響
4、GWAS分析的多階段設(shè)計
(1)什么是多階段設(shè)計炬守?
- 在人類疾病的GWAS研究中诗越,常用兩階段法分析柠逞,比較嚴(yán)謹(jǐn)术吝。第一階段一般用覆蓋全基因組的位點(diǎn)设拟,第二階段則聚焦在少量的候選位點(diǎn)的測序數(shù)據(jù)進(jìn)行GWAS分析斋扰。
- 單階段:一個群體進(jìn)行關(guān)聯(lián)分析 → 完成不嚴(yán)謹(jǐn)擅威,一般為動植物類的研究
-
兩階段:
(1)階段1:找候選關(guān)聯(lián)位點(diǎn)
小樣本(幾百)全基因組關(guān)聯(lián)分析缕坎,得到候選位點(diǎn)逆甜;
(2)階段2:候選位點(diǎn)的驗(yàn)證
已有群體大樣本(成千上萬)或新的獨(dú)立群體,只對候選位點(diǎn)的關(guān)聯(lián)分析墓捻。
(2)多階段設(shè)計的優(yōu)點(diǎn) - 有驗(yàn)證的步驟:可靠;
- 降低成本:第二階段的檢測位點(diǎn)數(shù)較少;
- 解決潛在的多重檢驗(yàn)校正的位點(diǎn)
高密度芯片or全基因組重測序砖第,SNP數(shù)量可達(dá)1M撤卢,多重檢驗(yàn)過于嚴(yán)格。
如:1M SNP梧兼,Bonferroni校正的adjusted p value閾值 = 0.05/110-6=510-8(太嚴(yán)格) - 可以采用的方法:第一階段放松過濾閾值放吩,在第二階段進(jìn)行驗(yàn)證。由于第二階段位點(diǎn)數(shù)較少羽杰,多重檢驗(yàn)校正不會如此嚴(yán)格渡紫。
5、關(guān)聯(lián)分析所需的模型
(1)模型原理
- 固定效應(yīng)1:環(huán)境效應(yīng)考赛,如不同年份惕澎、不同地點(diǎn)數(shù)據(jù)
- 固定效應(yīng)2:位點(diǎn)效應(yīng)
- 固定效應(yīng)3:群體結(jié)構(gòu)效應(yīng),群體分層導(dǎo)致的颜骤,需要糾正唧喉,樣本所屬的亞群分類信息用Q矩陣表示
- 隨機(jī)效應(yīng):潛在的系譜關(guān)系,K矩陣
- 隨機(jī)誤差
關(guān)聯(lián)分析時并不是說所有位點(diǎn)都要考慮忍抽,要結(jié)合自己的情況八孝,選擇合適的
(2)模型的選擇
① 動物
- PCA分析初步判斷;
- 一般而言鸠项,動物類樣本在系譜清晰干跛,且沒有明顯群體結(jié)構(gòu)的情況下,可直接剔除離群樣本祟绊;剔除離群樣本后驯鳖,再將剩下的個體做PCA分析,如果不再存在群體分層久免,即可用一般線性模型做關(guān)聯(lián)分析浅辙;
- 若存在群體分層,再考慮使用Q矩陣進(jìn)行矯正阎姥。
② 植物
- PCA分析初步判斷记舆;
- 植物(尤其作物)因品系間雜交更普遍(如玉米),故群體結(jié)構(gòu)和不同品系間的系譜關(guān)系更普遍呼巴;分析時泽腮,同時使用一般線性模型和不同的混合線性模型,然后比較結(jié)果的好壞衣赶。
(3)如何判斷模型是否合適诊赊?——qq圖
① 正常的qq圖:前貼后起
- GWAS分析后,p-value的-log10從低到高排序府瞄,看其與期望p-value之間的差別)
- 假如標(biāo)記與性狀完全不相關(guān)碧磅,則標(biāo)記的p-value應(yīng)該是正態(tài)分布,因此會一直沿著直線走,并且實(shí)際情況下鲸郊,絕大部分標(biāo)記確實(shí)是跟性狀不相關(guān)丰榴。到了后期,標(biāo)記的顯著性增高秆撮,可能開始與性狀之間存在相關(guān)四濒,因此其觀測到的p值會顯著高于期望p值。
② 異常情況:過度矯正
- 過度矯正的可能原因:
a. 群體結(jié)構(gòu)或kinship矯正過于嚴(yán)格职辨,導(dǎo)致觀測值<期望值盗蟆;
b. 期望p-value的隨機(jī)分布是基于位點(diǎn)之間互相獨(dú)立的假設(shè),高通量測序or高密度芯片會導(dǎo)致很多相鄰位點(diǎn)間存在連鎖or相關(guān)關(guān)系舒裤,這樣的話觀測到的p值就不是完全隨機(jī)的喳资,若位點(diǎn)間實(shí)際存在
(4)關(guān)聯(lián)分析的模型選擇
-
做任何性狀的關(guān)聯(lián)分析時,都需要用至少2個模型進(jìn)行模擬惭每,判斷最佳模型
(5)不同分析方法的最適范圍:
6骨饿、示例:GWAS分析的一般步驟
step 1:通過進(jìn)化樹和PCA分析,看群體分層情況
step 2:不同模型的比較 —— 找出最佳模型
step 3:分群體和全群體分析 —— 當(dāng)存在明顯的群體分層時
Step 4:對定位到的位點(diǎn)的解讀:優(yōu)先解讀可解讀的台腥,再去挖掘其他的
step 5: 結(jié)合RNA-seq或群體遺傳學(xué)等其他方法來驗(yàn)證這個位點(diǎn)附近的基因可能是與性狀相關(guān)的