傳統(tǒng)的全基因組關(guān)聯(lián)分析(GWAS)計算的是單個SNP與表型的相關(guān)性勺三,除此之外,我們還可以進行SNP之間的互作效應(yīng)與表型的相關(guān)性分析坎弯。
本推文主要介紹的是SNP間的上位效應(yīng)與表型的相關(guān)性分析露该。
?上位效應(yīng)的公式為:Y ~ b0 + b1.A + b2.B + b3.AB + e
Y為表型,A和B分別為兩個變異位點乍惊,在GWAS中通常指SNP杜秸,如果b3為顯著,則說明存在上位效應(yīng)润绎。
1撬碟、準備基因型文件
基因型文件:文件格式可以是ped/map或者bed/bim/fam,本教程的格式為ped/map
具體格式準備可參考教程:全基因組關(guān)聯(lián)分析(Genome-Wide Association Study莉撇,GWAS)流程(網(wǎng)址 https://www.cnblogs.com/chenwenyan/p/6095531.html)
基因型文件test.ped
基因型文件test.map
2呢蛤、準備表型文件
表型分為二分類和非二分類表型(多分類或者連續(xù)型表型)。
二分類表型文件phenocc.txt: 第一列為FID(可以是群體等),第二列為IID(個體唯一ID)棍郎,第三列為表型(1是control其障,2是case)
多分類或者連續(xù)型表型文件phenoq.txt: 第一列為FID(可以是群體等),第二列為IID(個體唯一ID),第三列為表型
3涂佃、全基因組所有SNP的上位效應(yīng)分析
二分類表型的命令如下:
/plink-1.07-x86_64/plink --file test --pheno phenocc.txt --epistasis --epi1 1 --noweb --out test
--epi1參數(shù)表示設(shè)定輸出的P的閾值励翼,這里設(shè)定為1,指的是輸出所有值辜荠,PLINK默認輸出的P閾值為1e-4汽抚。當SNP數(shù)量比較多時,建議用PLINK的默認參數(shù)或者適當提高閾值侨拦,比如1e-5,以此減少輸出文件大小辐宾。
生成test.epi.cc
和test.epi.cc.summary
兩個文件狱从。
test.epi.cc
文件如下所示:
不同列所代表的意思:
CHR1 Chromosome of first SNP SNP1 Identifier for first SNP CHR2 Chromosome of second SNP SNP2 Identifier for second SNP OR_INT Odds ratio for interaction STAT Chi-square statistic, 1df P Asymptotic p-value
test.epi.cc.summary
文件如下所示:
不同列所代表的意思:
CHR Chromosome SNP SNP identifier N_SIG # significant epistatic tests (p <= "--epi2" threshold) N_TOT # of valid tests (i.e. non-zero allele counts, etc) PROP Proportion significant of valid tests BEST_CHISQ Highest statistic for this SNP BEST_CHR Chromosome of best SNP BEST_SNP SNP identifier of best SNP
多分類或連續(xù)型表型的命令如下:
/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --epi1 1 --noweb --out test
生成test.epi.qt
和test.epi.qt.summary
兩個文件
test.epi.qt
文件如下所示:
test.epi.qt.summary
文件如下所示:
每列所代表的意思同二分類表型結(jié)果文件。
4叠纹、指定SNP之間的上位效應(yīng)分析
指定三個SNP之間的上位效應(yīng)分析季研,假定三個SNP的文件為epi.set1,內(nèi)容如下:
指定的三個SNP放中間誉察,以START
和END
作為開頭和結(jié)尾与涡。
命令如下:
/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --epi1 1 --epi2 0.3 --noweb --out testset1set1
--epi2指的是對顯著的test進行計數(shù),閾值可以是0.05,0.01等驼卖,這里設(shè)定為0.3氨肌,該值針對N_SIG一列設(shè)定的。
?示例代碼是PLINK的1.07版本酌畜,如果是1.9版本怎囚,則將--set-test改為set-by-set
生成的結(jié)果如下所示:
5、指定SNP與其他SNP的上位效應(yīng)分析
指定rs11260575桥胞、rs4018608恳守、rs3737723
與rs56673092、rs6689813
的上位效應(yīng)分析贩虾,需要文件epi.set2催烘,格式如下:
上位效應(yīng)分析:
/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set2 --epi1 1 --epi2 0.3 --noweb --out testset1set2
結(jié)果如下所示:
6、指定SNP與全基因組的上位效應(yīng)分析
指定SNP與全基因組上位效應(yīng)分析命令:
/plink-1.07-x86_64/plink --file test --pheno phenoq.txt --epistasis --set-test --set epi.set1 --set-by-all --epi1 1 --epi2 1 --noweb --out testset1
結(jié)果如下:
需要用到這批測試數(shù)據(jù)的公眾號“bio生物信息”后臺回復“epis”缎罢。