GWAS imputation

GWAS imputation是什么?

  • Genotype imputation 是運(yùn)用連鎖不平衡的原理依據(jù)一個高密度的參考基因組填補(bǔ)要研究數(shù)據(jù)的一種方法。
  • 常用的參考基因組數(shù)據(jù)庫包括The HapMap Consortium database (International HapMap 3 Consortium, 2010)老速、the 1000 Genomes Project (1KG; 1000 Genomes Project Consortium,2012)。千人基因組計劃涵蓋了世界各地的1,092個人的全基因組信息 (其中181 samples from Admixed American, 246 from African, 286 from East Asian, and 379 from European ancestry groups)凸主。

原理如下圖:


image.png

image.png

為什么要做GWAS imputation橘券?

常用的GWAS芯片大約60萬個位點(diǎn),經(jīng)過質(zhì)控后大約只剩下30多萬個位點(diǎn)卿吐,對于全基因組30億個堿基來說旁舰,只覆蓋了全基因組萬分之一的區(qū)域,因此大片的區(qū)域為空白嗡官。經(jīng)過基因型填補(bǔ)后箭窜,SNP密度大大增加,如果與表型相關(guān)聯(lián)的位置沒有SNP衍腥,填補(bǔ)前是沒有顯著性的磺樱,填補(bǔ)后則有可能出現(xiàn)顯著性。因此紧阔,基因型填補(bǔ)可以大大增加GWAS的統(tǒng)計效能坊罢。

GWAS imputation 常用軟件

  • Minimac, IMPUTE2,PLINK, BEAGLE, MaCH+minimac, fastPHASE

GWAS imputation 步驟

image.png

1擅耽、在線資源

2乖仇、本地運(yùn)行

imputation一般步驟:

  1. Liftover PED/MAP files from build 36 to build 37:由于基因組版本的問題憾儒,數(shù)據(jù)中SNP位點(diǎn)的位置在不同的版本中可能有差異,因此要轉(zhuǎn)換為統(tǒng)一的版本以便后續(xù)比對乃沙。一般被稱為pre-processing過程起趾。
    具體包括:
  • Create a ?bed file based on MAP file.
  • Map the bed file to build 37 using ?UCSVC liftover tool.
  • Create list of unmapped SNPs.
  • Create plink mappings file.
  • Create new plink data without unmapped SNPs using ?Plink.
  1. Quality control of study data:對原始數(shù)據(jù)進(jìn)行質(zhì)控(Quality control)提高填補(bǔ)的準(zhǔn)確性
    具體包括:
  • 將要填補(bǔ)的數(shù)據(jù)與參考基因組比對,看SNP在正鏈還是負(fù)鏈上警儒,過濾掉翻轉(zhuǎn)的SNP
  • 要求SNP符合哈迪溫伯格平衡>10-4, MAF>0.01, call rate>0.95训裆。不符合條件的SNP被過濾掉。
  • 檢查SNP是否在參考基因組中蜀铲,有的參考基因組中沒有這個SNP边琉,也會被過濾掉
  • 檢查位點(diǎn)在要填補(bǔ)的數(shù)據(jù)和參考基因組中的頻率是否差異過大,如果差異超過25%該SNP將會被過濾掉
  • 比較數(shù)據(jù)和參考基因組之間的haplotype結(jié)構(gòu)差異(r-squared > 0.1的SNP)记劝,差異過大的SNP被過濾掉变姨。
  1. Phasing the study data
    具體包括:
  • Gather the map files as provided in the ALL_1000G_phase1integrated_v3_impute.tgz from the impute website.
  • Phase the study data using the map files.
  1. Imputing study data
  • 將數(shù)據(jù)按染色體分開,用 Impute2軟件填補(bǔ)經(jīng)過phased的數(shù)據(jù), 一般填補(bǔ)最小分辨率為5 million base厌丑。
  • 將數(shù)據(jù)合并到一起

流程:

由于以上步驟很多定欧,為了方便imputation過程渔呵,很多人開發(fā)了自動化的pipeline,如

  1. https://github.com/CNSGenomics/impute-pipe
  2. https://github.com/pgxcentre/genipe
  3. http://www.arrayserver.com/wiki/index.php?title=Genetics_GwasImputePipeline.pdf
  4. https://github.com/molgenis/molgenis-pipelines

step1: QC

##QC1: Remove SNPs with missing genotype rate >5% 
${plink} --bfile ${outpath4step}/${name} --missing --out ${outpath4step}/${name}.plink 
awk 'NR < 2 { next } $5 > 0.05' ${outpath4step}/${name}.plink.lmiss > ${outpath4step}/${name}.plink.lmiss.exclude

${plink} --bfile ${outpath4step}/${name} \
    --exclude ${outpath4step}/${name}.plink.lmiss.exclude \
    --make-bed --out ${outpath4step}/${name}.plink_QC1 

##QC2 :Remove SNPs deviated from HWE (10e-4)
${plink} --bfile ${outpath4step}/${name}.plink_QC1 \
    --hardy --out ${outpath4step}/${name}.plink_QC1 
awk '$3=="UNAFF" && $9 <0.0001 {print $2}' ${outpath4step}/${name}.plink_QC1.hwe  \
    > ${outpath4step}/${name}.plink_QC1.hwe.exclude 
${plink} --bfile ${outpath4step}/${name}.plink_QC1 \
    --exclude ${outpath4step}/${name}.plink_QC1.hwe.exclude \
    --make-bed --out ${outpath4step}/${name}.plink_QC2

##QC3 :Remove MAF>0.01
${plink} --bfile ${outpath4step}/${name}.plink_QC2 \
    --maf 0.01 \
    --make-bed \
    --out ${outpath4step}/${name}.plink_QC3

Step2: Alignment of the SNPs

# make sure that the GWAS dataset is well aligned with the reference panel of haplotypes
# if not, use the UCSC liftOver tool to perform the conversion to build37 coordinates

# download 1000 genome refernce file
for i in {1..22}
do
    nohup wget -c -q http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr$i.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz &
    nohup wget -c -q http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr$i.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz.tbi &
done

# Combine all chromosomes in a single file
bcftools concat ALL.chr{1..22}.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz \
-Oz -o  ALL.autosomes.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz --threads 48

# Preparing a VCF file
bgzip -c example.vcf > example.vcf.gz
tabix -p vcf example.vcf.gz
# convert VCF to PLINK
# To build PLINK compatible files from the VCF files, duplicate positions and SNP id need to be merged or removed. 
# remove all duplicate entries. 
# Catalogue duplicate SNP id:
grep -v '^#' <(zcat ALL.autosomes.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz) | cut -f 3 | sort | uniq -d > ALL.autosomes.dups

# Using BCFTools, split multi-allelic SNPs, and using plink remove duplicate SNPs id found in previous step:
bcftools norm -d both -m +any -Ob ALL.autosomes.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz --threads 64 \
 | plink --bcf /dev/stdin --make-bed --out ALL.autosomes --allow-extra-chr 0 --memory 60000 --exclude ALL.autosomes.dups

java -jar GenotypeHarmonizer.jar \
    --inputType PLINK_BED \
    --input /hapmap3CeuChr20B37Mb6RandomStrand \
    --update-id \
    --outputType PLINK_BED \
    --output /all_chrs \
    --refType VCF \
    --ref /ALL.autosomes.phase3_shapeit2_mvncall_integrated_v5a.20130502.genotypes.vcf.gz

step3.pre-phasing using SHAPEIT2

shapeit -B all_chrs \
-M /home/zhouwei/zhou_data/GWAS/imputation/impute-pipe/data/reference/ALL_1000G_phase1integrated_v3_impute/genetic_map_chr20_combined_b37.txt \
-O phased_all_chrs -T 64

Step 4: Imputation into pre-phased haplotypes

impute2 -use_prephased_g -Ne 20000 -iter 30 -align_by_maf_g -os 0 1 2 3 -seed 1000000 \
-o_gz -int 1 5e6 \
-h /ALL_1000G_phase1integrated_v3_chr20_impute.hap.gz \
-l /ALL_1000G_phase1integrated_v3_chr20_impute.legend.gz \
-m /genetic_map_chr20_combined_b37.txt \
-known_haps_g phased_all_chrs.haps \
-o /chr20.chunk1

impute2 \
-use_prephased_g -Ne 20000 -iter 30 -align_by_maf_g -os 0 1 2 3 -seed 1000000 -o_gz -int 5e6 10e6 \
-h /ALL_1000G_phase1integrated_v3_chr20_impute.hap.gz \
-l /ALL_1000G_phase1integrated_v3_chr20_impute.legend.gz \
-m /genetic_map_chr20_combined_b37.txt \
-known_haps_g phased_all_chrs.haps \
-o chr20.chunk2

Step 5: Combine all the chunks

cat chr22.chunk1.gz chr22.chunk2.gz > chr22_chunkAll.gen.gz

待完善

參考:
http://www.bbmriwiki.nl/wiki/Impute2Pipeline
http://databeauty.com/blog/tutorial/2017/02/20/GWAS-prephasing-and-imputation.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末砍鸠,一起剝皮案震驚了整個濱河市扩氢,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌睦番,老刑警劉巖类茂,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異托嚣,居然都是意外死亡巩检,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門示启,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兢哭,“玉大人,你說我怎么就攤上這事夫嗓〕俾荩” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵舍咖,是天一觀的道長矩父。 經(jīng)常有香客問我,道長排霉,這世上最難降的妖魔是什么窍株? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮攻柠,結(jié)果婚禮上球订,老公的妹妹穿的比我還像新娘。我一直安慰自己瑰钮,他們只是感情好冒滩,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著浪谴,像睡著了一般开睡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上苟耻,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天篇恒,我揣著相機(jī)與錄音,去河邊找鬼梁呈。 笑死婚度,一個胖子當(dāng)著我的面吹牛蘸秘,可吹牛的內(nèi)容都是我干的官卡。 我是一名探鬼主播蝗茁,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼寻咒!你這毒婦竟也來了哮翘?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤毛秘,失蹤者是張志新(化名)和其女友劉穎饭寺,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體叫挟,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡艰匙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了抹恳。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片员凝。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖奋献,靈堂內(nèi)的尸體忽然破棺而出健霹,到底是詐尸還是另有隱情,我是刑警寧澤瓶蚂,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布糖埋,位于F島的核電站,受9級特大地震影響窃这,放射性物質(zhì)發(fā)生泄漏瞳别。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一钦听、第九天 我趴在偏房一處隱蔽的房頂上張望洒试。 院中可真熱鬧,春花似錦朴上、人聲如沸垒棋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽叼架。三九已至,卻和暖如春衣撬,著一層夾襖步出監(jiān)牢的瞬間乖订,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工具练, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乍构,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓扛点,卻偏偏與公主長得像哥遮,于是被迫代替她去往敵國和親岂丘。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容