概念
(1)GWAS:
全稱“全基因組關(guān)聯(lián)分析”,使用統(tǒng)計(jì)模型找到與性狀關(guān)聯(lián)的位點(diǎn)崎淳,用于分子標(biāo)記選擇(MAS)或者基因定位拣凹。
(2)GWAS分析的兩類性狀:
分類性狀(閾值性狀恨豁,質(zhì)量性狀):比如抗病性,顏色等菊匿。
質(zhì)量性狀指相對性狀的變異呈不連續(xù)性捧请,呈現(xiàn)質(zhì)的中斷性變化的性狀棒搜。由1對或少數(shù)幾對主基因控制。如雞羽的蘆花斑紋和非蘆花斑紋可款、角的有無、毛色筋讨、血型等都屬于質(zhì)量性狀摸恍。
連續(xù)性狀(數(shù)量性狀):比如株高,體重壁袄,產(chǎn)量等等(一般是呈現(xiàn)正態(tài)分布)
數(shù)量性狀指相對性狀的變異呈連續(xù)性媚媒,個(gè)體之間的差異不明顯,很難明確分組栈顷。受微效多基因控制萄凤,控制數(shù)量性狀的基因稱為數(shù)量性狀位點(diǎn)(quantitative trait loci, QTLs)搪哪。在 QTLs 中, 基因的效應(yīng)也有大有小。其中, 效應(yīng)較大的稱為主效QTL, 效應(yīng)較小的稱為微效QTL(或微效多基因)颤难。動(dòng)植物的許多重要經(jīng)濟(jì)性狀都是數(shù)量性狀行嗤,如作物的產(chǎn)量垛耳、成熟期,奶牛的泌乳量栈雳,棉花的纖維長度缔莲、細(xì)度等等。
(3)GWAS的分析方法:
分類性狀:logistic 回歸模型等
連續(xù)性狀:GLM蛀骇,MLM 模型等
分析工具準(zhǔn)備
(1) 準(zhǔn)備文件
全基因組參考序列
全基因組注釋文件
樣本重測序文件(雙端測序)200個(gè)樣本左右或以上
(2)各類軟件和包
性狀分析
R 和 Rstudio
psych R包
lme4 R包
pheatmap R包
reshape2 R包
CMplot R包(繪制 snp 密度圖)
分析流程
(1) 表型數(shù)據(jù)分析處理
將得到的表型數(shù)據(jù)(一般是數(shù)量性狀數(shù)據(jù))進(jìn)行分析處理
對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)擅憔,繪制直方圖觀察數(shù)據(jù)是否存在不合適的樣本數(shù)據(jù)
繪制箱線圖,觀察離群樣品數(shù)據(jù)
檢測正態(tài)性
剔除不合適的樣本
(2) 原始數(shù)據(jù)處理(識(shí)別樣本中 snp 位點(diǎn))
fastp 原始reads 質(zhì)控
bwa men 基因組比對
gatk4 變異檢測
(3)基因型過濾(網(wǎng)上教程大多數(shù)是從這一步開始蚌讼,有 vcf 文件篡石,或者將 vcf 文件轉(zhuǎn)換后的 plink 格式的文件笛洛,bed,bim,fam 文件)
如果是vfc文件
使用 vcftools 過濾 (關(guān)于其參數(shù)設(shè)置的問題有待研究乃坤,一般是過濾掉低于缺失率高于50%的位點(diǎn)湿诊,次等位基因深度低于3。在實(shí)際中仿畸,要更嚴(yán)格,篩除第二等位基因率(次等位基因)頻率小于5%(在國際人類基因組單體型圖計(jì)劃(HapMap)中朗和,MAF大于0.05 (5%)的SNP都被作為了調(diào)查目標(biāo)),缺失率大于10%,等位基因的個(gè)數(shù)要有兩個(gè)——這個(gè)可以調(diào)整)
使用 vcftools 將過濾后的文件轉(zhuǎn)換為 plink 格式的文件(或者使用 plink 也可以直接轉(zhuǎn)換)眶拉,主要得到的是 bed 文件。
plink格式的文件主要有兩組五種
ped 和 map 是一組的
bed fam bim 是一組的
兩組可通過 plink -recode 參數(shù)相互轉(zhuǎn)換
轉(zhuǎn)換后可以使用plink再次過濾(對于計(jì)算不同的東西忆植,如群體結(jié)構(gòu)Structure要求位點(diǎn)要少一些篩選的條件就不一樣)
(4)群體結(jié)構(gòu)分析
分析之前需要進(jìn)行第三步的標(biāo)記篩選,然后根據(jù)以下條件去再次篩選:(一般只要按照LD去篩選就可以)
一定的物理距離取一個(gè)標(biāo)記作為代表進(jìn)行分析
全基因組上抽取一部分標(biāo)記進(jìn)行群體結(jié)構(gòu)的分析
按 LD 篩選朝刊,LD強(qiáng)度大于一定閾值的標(biāo)記只保留其中一個(gè)用于分析
數(shù)據(jù)過濾,使用 plink 進(jìn)行缺失和 maf 篩選
LD 篩選使用 plink 按照 LD 進(jìn)行篩選
格式轉(zhuǎn)換拾氓,然后使用 recode 參數(shù)進(jìn)行轉(zhuǎn)換并得到 str 相關(guān)矩陣文件(后續(xù)就用該文件進(jìn)行群體結(jié)構(gòu)分析)(可以根據(jù)需求轉(zhuǎn)換成 structure 或者 admixture 格式,structure比較麻煩一些)
利用得出的structure 或者 admixture 格式文件計(jì)算出最適 K 值咙鞍,并在 R 中繪制不同 K 值時(shí)最低交叉驗(yàn)證誤差的變化
繪制 structure 結(jié)構(gòu)圖(有些文章把這個(gè)省略掉了,根據(jù)文章的側(cè)重不同可選擇保留)
PCA分析易阳,計(jì)算 PCA 矩陣(還可以通過EIGENSTRAT軟件計(jì)算主成分,計(jì)算各個(gè)主成分是否有顯著的統(tǒng)計(jì)學(xué)意義拒课,將P值小于0.05的主成分計(jì)算在內(nèi))早像,然后繪制 PCA 圖
(5)親緣關(guān)系分析
可用于親緣關(guān)系分析的工具有很多肖爵,如:GCTA,LDAK冀自,SPAGeDi熬粗,EIGENSOFT余境,TASSEL,現(xiàn)在使用 TASSEL 比較多
GCTA含末,LDAK 常用于 snp 遺傳力估計(jì)或者性狀遺傳力的估計(jì)
同樣需要前期使用 plink 進(jìn)行合理篩選
使用相應(yīng)軟件進(jìn)行親緣關(guān)系矩陣計(jì)算(TASSEL 可以使用界面版也可以使用命令行版本)
計(jì)算PCA矩陣(還可以通過EIGENSTRAT軟件計(jì)算主成分佣盒,計(jì)算各個(gè)主成分是否有顯著的統(tǒng)計(jì)學(xué)意義侥涵,將P值小于0.05的主成分計(jì)算在內(nèi)),繪制 PCA 圖
結(jié)果可視化( kinship 值的分布圖和 kinship 熱圖)
(6)關(guān)聯(lián)分析
使用 tassel 進(jìn)行 GLM/MLM/CMLM 分析(分為界面版和 Linux 版本务豺,界面版操作比較方便笼沥,但是用慣了 Linux 系統(tǒng)的肯定不會(huì)選界面版)
(這里要根據(jù)實(shí)驗(yàn)?zāi)康模热珞w色馆纳,生長汹桦,低氧等)
界面版可以參考 tassel 使用說明書舞骆,下面主要講 Linux 操作
首先要對 vcf 文件進(jìn)行排序,這里用到的是一個(gè) perl 腳本脆霎,不排序后面操作會(huì)報(bào)錯(cuò)
轉(zhuǎn)換成 hapmp 格式狈惫,也可以不轉(zhuǎn)換直接操作,注意后面的參數(shù)設(shè)置就行
進(jìn)行關(guān)聯(lián)分析( GLM 和 MLM )
對 tassel 計(jì)算的 GLM 或 MLM 結(jié)果進(jìn)行校正忆肾,校正方法 Bonferroni 和 FDR (前者比較絕對第岖,但篩選的結(jié)果一定是正確的试溯,后者可能會(huì)保留一些有意義的實(shí)驗(yàn)結(jié)果,看情況使用)
FDR 校正键袱,在 R 中使用 p.adjust 函數(shù)進(jìn)行
Bonferroni 校正比 FDR 嚴(yán)格摹闽,得到的有效 SNP 位點(diǎn)會(huì)少一些
這里可以參考之前我寫的關(guān)于兩者的區(qū)別
使用 CMplot 包進(jìn)行結(jié)果可視化,曼哈頓圖澜汤,QQplot(QQplot應(yīng)該是在校正前做出來還是校正后舵匾?)
篩選有意義的 SNP 位點(diǎn)(包括潛在有意義的位點(diǎn))
計(jì)算膨脹系數(shù)lambda
基因組膨脹因子λ定義為經(jīng)驗(yàn)觀察到的檢驗(yàn)統(tǒng)計(jì)分布與預(yù)期中位數(shù)的中值之比坐梯,從而量化了因大量膨脹而造成結(jié)果的假陽性率。換句話說谎替,λ定義為得到的卡方檢驗(yàn)統(tǒng)計(jì)量的中值除以卡方分布的預(yù)期中值。預(yù)期的P值膨脹系數(shù)為1挫掏,當(dāng)實(shí)際膨脹系數(shù)越偏離1秩命,說明存在群體分層的現(xiàn)象越嚴(yán)重硫麻,容易有假陽性結(jié)果,需要重新矯正群體分層拿愧。
(7) 根據(jù) GWAS 結(jié)果 找到 QTL區(qū)域(這個(gè)后面的操作就了解的比較少了,后面學(xué)到了會(huì)再補(bǔ)充)
利用 R/qtl 軟件 MapQTL 軟件等定位 QTL
根據(jù) QTL 定位找到相關(guān)性狀的基因 (這個(gè)是用什么軟件浇辜?)
根據(jù)基因的位置和功能來反向驗(yàn)證結(jié)果(這里是不是要用富集分析之類的?)
后面還有一連串對 QTL 的分析
(8) 驗(yàn)證實(shí)驗(yàn)
驗(yàn)證實(shí)驗(yàn)也有很多種待诅,敲除熊镣,抑制基因表達(dá),定量PCR等