GWAS 分析 2024-03-17

概念

(1)GWAS:

全稱“全基因組關(guān)聯(lián)分析”,使用統(tǒng)計(jì)模型找到與性狀關(guān)聯(lián)的位點(diǎn)崎淳,用于分子標(biāo)記選擇(MAS)或者基因定位拣凹。

(2)GWAS分析的兩類性狀:

分類性狀(閾值性狀恨豁,質(zhì)量性狀):比如抗病性,顏色等菊匿。

質(zhì)量性狀指相對性狀的變異呈不連續(xù)性捧请,呈現(xiàn)質(zhì)的中斷性變化的性狀棒搜。由1對或少數(shù)幾對主基因控制。如雞羽的蘆花斑紋和非蘆花斑紋可款、角的有無、毛色筋讨、血型等都屬于質(zhì)量性狀摸恍。

連續(xù)性狀(數(shù)量性狀):比如株高,體重壁袄,產(chǎn)量等等(一般是呈現(xiàn)正態(tài)分布)

數(shù)量性狀指相對性狀的變異呈連續(xù)性媚媒,個(gè)體之間的差異不明顯,很難明確分組栈顷。受微效多基因控制萄凤,控制數(shù)量性狀的基因稱為數(shù)量性狀位點(diǎn)(quantitative trait loci, QTLs)搪哪。在 QTLs 中, 基因的效應(yīng)也有大有小。其中, 效應(yīng)較大的稱為主效QTL, 效應(yīng)較小的稱為微效QTL(或微效多基因)颤难。動(dòng)植物的許多重要經(jīng)濟(jì)性狀都是數(shù)量性狀行嗤,如作物的產(chǎn)量垛耳、成熟期,奶牛的泌乳量栈雳,棉花的纖維長度缔莲、細(xì)度等等。

(3)GWAS的分析方法:

分類性狀:logistic 回歸模型等
連續(xù)性狀:GLM蛀骇,MLM 模型等

分析工具準(zhǔn)備

(1) 準(zhǔn)備文件

全基因組參考序列
全基因組注釋文件
樣本重測序文件(雙端測序)200個(gè)樣本左右或以上

(2)各類軟件和包

性狀分析
R 和 Rstudio
psych R包
lme4 R包
pheatmap R包
reshape2 R包
CMplot R包(繪制 snp 密度圖)

分析流程

(1) 表型數(shù)據(jù)分析處理
將得到的表型數(shù)據(jù)(一般是數(shù)量性狀數(shù)據(jù))進(jìn)行分析處理

對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)擅憔,繪制直方圖觀察數(shù)據(jù)是否存在不合適的樣本數(shù)據(jù)
繪制箱線圖,觀察離群樣品數(shù)據(jù)
檢測正態(tài)性
剔除不合適的樣本

(2) 原始數(shù)據(jù)處理(識(shí)別樣本中 snp 位點(diǎn))
fastp 原始reads 質(zhì)控
bwa men 基因組比對
gatk4 變異檢測

(3)基因型過濾(網(wǎng)上教程大多數(shù)是從這一步開始蚌讼,有 vcf 文件篡石,或者將 vcf 文件轉(zhuǎn)換后的 plink 格式的文件笛洛,bed,bim,fam 文件)
如果是vfc文件
使用 vcftools 過濾 (關(guān)于其參數(shù)設(shè)置的問題有待研究乃坤,一般是過濾掉低于缺失率高于50%的位點(diǎn)湿诊,次等位基因深度低于3。在實(shí)際中仿畸,要更嚴(yán)格,篩除第二等位基因率(次等位基因)頻率小于5%(在國際人類基因組單體型圖計(jì)劃(HapMap)中朗和,MAF大于0.05 (5%)的SNP都被作為了調(diào)查目標(biāo)),缺失率大于10%,等位基因的個(gè)數(shù)要有兩個(gè)——這個(gè)可以調(diào)整)
使用 vcftools 將過濾后的文件轉(zhuǎn)換為 plink 格式的文件(或者使用 plink 也可以直接轉(zhuǎn)換)眶拉,主要得到的是 bed 文件。
plink格式的文件主要有兩組五種
ped 和 map 是一組的
bed fam bim 是一組的
兩組可通過 plink -recode 參數(shù)相互轉(zhuǎn)換
轉(zhuǎn)換后可以使用plink再次過濾(對于計(jì)算不同的東西忆植,如群體結(jié)構(gòu)Structure要求位點(diǎn)要少一些篩選的條件就不一樣)

(4)群體結(jié)構(gòu)分析
分析之前需要進(jìn)行第三步的標(biāo)記篩選,然后根據(jù)以下條件去再次篩選:(一般只要按照LD去篩選就可以)

一定的物理距離取一個(gè)標(biāo)記作為代表進(jìn)行分析
全基因組上抽取一部分標(biāo)記進(jìn)行群體結(jié)構(gòu)的分析
按 LD 篩選朝刊,LD強(qiáng)度大于一定閾值的標(biāo)記只保留其中一個(gè)用于分析
數(shù)據(jù)過濾,使用 plink 進(jìn)行缺失和 maf 篩選
LD 篩選使用 plink 按照 LD 進(jìn)行篩選
格式轉(zhuǎn)換拾氓,然后使用 recode 參數(shù)進(jìn)行轉(zhuǎn)換并得到 str 相關(guān)矩陣文件(后續(xù)就用該文件進(jìn)行群體結(jié)構(gòu)分析)(可以根據(jù)需求轉(zhuǎn)換成 structure 或者 admixture 格式,structure比較麻煩一些)
利用得出的structure 或者 admixture 格式文件計(jì)算出最適 K 值咙鞍,并在 R 中繪制不同 K 值時(shí)最低交叉驗(yàn)證誤差的變化
繪制 structure 結(jié)構(gòu)圖(有些文章把這個(gè)省略掉了,根據(jù)文章的側(cè)重不同可選擇保留)
PCA分析易阳,計(jì)算 PCA 矩陣(還可以通過EIGENSTRAT軟件計(jì)算主成分,計(jì)算各個(gè)主成分是否有顯著的統(tǒng)計(jì)學(xué)意義拒课,將P值小于0.05的主成分計(jì)算在內(nèi))早像,然后繪制 PCA 圖

(5)親緣關(guān)系分析
可用于親緣關(guān)系分析的工具有很多肖爵,如:GCTA,LDAK冀自,SPAGeDi熬粗,EIGENSOFT余境,TASSEL,現(xiàn)在使用 TASSEL 比較多

GCTA含末,LDAK 常用于 snp 遺傳力估計(jì)或者性狀遺傳力的估計(jì)

同樣需要前期使用 plink 進(jìn)行合理篩選
使用相應(yīng)軟件進(jìn)行親緣關(guān)系矩陣計(jì)算(TASSEL 可以使用界面版也可以使用命令行版本)
計(jì)算PCA矩陣(還可以通過EIGENSTRAT軟件計(jì)算主成分佣盒,計(jì)算各個(gè)主成分是否有顯著的統(tǒng)計(jì)學(xué)意義侥涵,將P值小于0.05的主成分計(jì)算在內(nèi)),繪制 PCA 圖
結(jié)果可視化( kinship 值的分布圖和 kinship 熱圖)

(6)關(guān)聯(lián)分析
使用 tassel 進(jìn)行 GLM/MLM/CMLM 分析(分為界面版和 Linux 版本务豺,界面版操作比較方便笼沥,但是用慣了 Linux 系統(tǒng)的肯定不會(huì)選界面版)
(這里要根據(jù)實(shí)驗(yàn)?zāi)康模热珞w色馆纳,生長汹桦,低氧等)
界面版可以參考 tassel 使用說明書舞骆,下面主要講 Linux 操作

首先要對 vcf 文件進(jìn)行排序,這里用到的是一個(gè) perl 腳本脆霎,不排序后面操作會(huì)報(bào)錯(cuò)
轉(zhuǎn)換成 hapmp 格式狈惫,也可以不轉(zhuǎn)換直接操作,注意后面的參數(shù)設(shè)置就行
進(jìn)行關(guān)聯(lián)分析( GLM 和 MLM )
對 tassel 計(jì)算的 GLM 或 MLM 結(jié)果進(jìn)行校正忆肾,校正方法 Bonferroni 和 FDR (前者比較絕對第岖,但篩選的結(jié)果一定是正確的试溯,后者可能會(huì)保留一些有意義的實(shí)驗(yàn)結(jié)果,看情況使用)
FDR 校正键袱,在 R 中使用 p.adjust 函數(shù)進(jìn)行
Bonferroni 校正比 FDR 嚴(yán)格摹闽,得到的有效 SNP 位點(diǎn)會(huì)少一些
這里可以參考之前我寫的關(guān)于兩者的區(qū)別

使用 CMplot 包進(jìn)行結(jié)果可視化,曼哈頓圖澜汤,QQplot(QQplot應(yīng)該是在校正前做出來還是校正后舵匾?)
篩選有意義的 SNP 位點(diǎn)(包括潛在有意義的位點(diǎn))

計(jì)算膨脹系數(shù)lambda
基因組膨脹因子λ定義為經(jīng)驗(yàn)觀察到的檢驗(yàn)統(tǒng)計(jì)分布與預(yù)期中位數(shù)的中值之比坐梯,從而量化了因大量膨脹而造成結(jié)果的假陽性率。換句話說谎替,λ定義為得到的卡方檢驗(yàn)統(tǒng)計(jì)量的中值除以卡方分布的預(yù)期中值。預(yù)期的P值膨脹系數(shù)為1挫掏,當(dāng)實(shí)際膨脹系數(shù)越偏離1秩命,說明存在群體分層的現(xiàn)象越嚴(yán)重硫麻,容易有假陽性結(jié)果,需要重新矯正群體分層拿愧。

(7) 根據(jù) GWAS 結(jié)果 找到 QTL區(qū)域(這個(gè)后面的操作就了解的比較少了,后面學(xué)到了會(huì)再補(bǔ)充)
利用 R/qtl 軟件 MapQTL 軟件等定位 QTL
根據(jù) QTL 定位找到相關(guān)性狀的基因 (這個(gè)是用什么軟件浇辜?)
根據(jù)基因的位置和功能來反向驗(yàn)證結(jié)果(這里是不是要用富集分析之類的?)
后面還有一連串對 QTL 的分析

(8) 驗(yàn)證實(shí)驗(yàn)
驗(yàn)證實(shí)驗(yàn)也有很多種待诅,敲除熊镣,抑制基因表達(dá),定量PCR等

來源:http://www.reibang.com/p/ab3f26b8e1ed

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市鬼吵,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌琉挖,老刑警劉巖涣脚,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涩澡,死亡現(xiàn)場離奇詭異,居然都是意外死亡射富,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門限次,熙熙樓的掌柜王于貴愁眉苦臉地迎上來卖漫,“玉大人赠群,你說我怎么就攤上這事〔槊瑁” “怎么了冬三?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵勾笆,是天一觀的道長。 經(jīng)常有香客問我窝爪,道長,這世上最難降的妖魔是什么帅韧? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任啃勉,我火速辦了婚禮淮阐,結(jié)果婚禮上泣特,老公的妹妹穿的比我還像新娘挑随。我一直安慰自己,他們只是感情好膏孟,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布柒桑。 她就那樣靜靜地躺著,像睡著了一般飘诗。 火紅的嫁衣襯著肌膚如雪界逛。 梳的紋絲不亂的頭發(fā)上息拜,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音岛抄,去河邊找鬼夫椭。 笑死氯庆,一個(gè)胖子當(dāng)著我的面吹牛堤撵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播实昨,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼丈挟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了曙咽?” 一聲冷哼從身側(cè)響起例朱,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎洒嗤,沒想到半個(gè)月后烁竭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年镀赌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了商佛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姆打。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡幔戏,死狀恐怖闲延,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情陆馁,我是刑警寧澤合愈,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布想暗,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏寞焙。R本人自食惡果不足惜互婿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一慈参、第九天 我趴在偏房一處隱蔽的房頂上張望驮配。 院中可真熱鬧着茸,春花似錦涮阔、人聲如沸猜绣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽掰邢。三九已至,卻和暖如春伟阔,著一層夾襖步出監(jiān)牢的瞬間辣之,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國打工皱炉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留召烂,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓娃承,卻偏偏與公主長得像奏夫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子历筝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容