關(guān)于連鎖不平衡的詳細介紹在之前的帖子里有說過,這里就不再贅述,本篇主要介紹LD decay的計算讥珍。
1.GWAS:原理與目的 - 簡書 (jianshu.com)
LD衰減(LD decay):指位點之間由連鎖不平衡到連鎖平衡的演變過程徙融,能夠很好的反映連鎖不平衡程度。
PopLDdecay是一款基于VCF文件哭靖,快速具垫、高效計算連鎖不平衡的工具。
相比于 PLINK 和 Haploview试幽,PopLDdecay 的優(yōu)點如下:
- 支持直接讀取 VCF 文件筝蚕;
- 輸出文件非常節(jié)省空間;
- 計算時間相對較短铺坞;
- 支持 subgroup 的分析起宽。
論文:
https://academic.oup.com/bioinformatics/article/35/10/1786/5132693
1.下載安裝
1.1 下載地址
官網(wǎng):https://github.com/BGI-shenzhen/PopLDdecay
論文:https://academic.oup.com/bioinformatics/article/35/10/1786/5132693
1.2 安裝
$ git clone https://github.com/BGI-shenzhen/PopLDdecay.git
$ cd your/path/PopLDdecay
$ chmod 755 configure
$ ./configure
$ make
$ mv PopLDdecay ./bin/
運行
$ PopLDdecay
2. 計算LD decay
2.1 vcf格式
$ PopLDdecay -InVCF ~/vcftools_0.1.13/bin/root.id.vcf -OutStat LDdecay
-InVCF:輸入vcf文件路徑及文件名
-OutStat:輸出壓縮文件前綴
輸出文件中為LD衰減的計算結(jié)果,包括平均R2济榨,平均D'等坯沪。
2.2 plink格式(.ped和.map)
$ perl mis/plink2genotype.pl -inPED ~/plink1.9/root12.ped -inMAP ~/sunwei/plink1.9/root12.map -outGenotype out.genotype
-inPED:輸入.ped文件路徑及文件名
-inMAP:輸入.map文件路徑及文件名
-outGenotype:輸出基因型結(jié)果,及文件名前綴
2.3 計算亞群的LD decay(.vcf)
準備亞群的名稱清單GroupA_sample.list擒滑。
$ PopLDdecay -InVCF ~/vcftools_0.1.13/bin/root.id.vcf -OutStat SubA_LDdecay -SubPop GroupA_sample.list
2.4 計算EHH(.vcf)
EHH (Extended Haplotype Homozygosity) : is a statistical method used to identify locations in the genome where natural selection has been occurring. EHH examines the relative occurrence haplotypes upstream and downstream of a given locus and gives a score indicating the relative similarity of uniqueness of the haplotypes of a given length.
$ PopLDdecay -InVCF ~/vcftools_0.1.13/bin/root.id.vcf -OutStat EHH.stat.gz -EHH chr1:5154
-EHH:關(guān)注某一個SNP位點的衰減情況
3. 繪制LD decay圖
軟件自帶一個perl的腳本腐晾,直接調(diào)用就可以叉弦,但是繪圖依賴于R,需要保證環(huán)境中已經(jīng)添加好R赴魁。
將上一步計算得到的LD decay結(jié)果導(dǎo)入卸奉,進行衰減圖繪制。
3.1 全局LD decay圖
$ perl Plot_OnePop.pl -inFile LDdecay.stat.gz -output Fig
結(jié)果生成一個pdf文件颖御,一個png文件榄棵,以及繪圖用到的bin文件。
3.2 多亞群LD decay圖
例如一個vcf文件中潘拱,個體分為兩個亞群疹鳄,現(xiàn)在想計算兩個亞群各自的LD decay,首先需要準備兩個sample.list芦岂,每個list中包含一個亞群的sample ID瘪弓,分別命名為subA.list和subB.list。
sample.list格式為sample ID禽最,用空格隔開:
$ vim subA.list
1 2 3 4 5 6 7 8 9 10
$ vim subB.list
12 13 14 15 17 19 21 22 23 24
之后分別計算兩個亞群的的LD decay:
$ PopLDdecay -InVCF ~/vcftools_0.1.13/bin/root.id.vcf -OutStat subA_LDdecay -SubPop subA.list
$ PopLDdecay -InVCF ~/vcftools_0.1.13/bin/root.id.vcf -OutStat subB_LDdecay -SubPop subB.list
創(chuàng)建一個Pop.list腺怯,包含兩列,第一列為LD decay文件的路徑川无,第二列為亞群的圖例呛占。
$ vim Pop.list
your/path/subA_LDdecay.stat.gz subA
your/path/subB_LDdecay.stat.gz subB
繪制多亞群的LD decay圖:
$ perl Plot_MultiPop.pl -inList Pop.list -output sub_Fig
參考資料:
https://mp.weixin.qq.com/s/5z28_7PGdkNuMJc8l6PFjQ
引用轉(zhuǎn)載請注明出處,如有錯誤敬請指出懦趋。