基本概念
連鎖不平衡(LD罚渐,linkage disequilibrium)是指 不同基因座(loci)的等位基因(allele)之間非隨機(nonrandom)的關聯却汉。
兩個基因座互相獨立不相關,即連鎖平衡 linkage equilibrium 的狀態(tài)荷并。
常用的指標:D'合砂, r2(相關系數,correlation coefficient)【更常用】
當D'=0源织,r2=0時翩伪,處于完全連鎖平衡狀態(tài)
當D'=1,r2=1時谈息,處于完全連鎖不平衡狀態(tài)缘屹。
其中,從0-1之間的度量越高侠仇,LD越高轻姿,如果兩個位點連鎖,連鎖程度也越高逻炊。
計算方法
一互亮、網站
二、PLINK 1.90
https://www.cog-genomics.org/plink2/
1.計算兩個SNP之間的LD
plink --bfile mydata --ld rs2840528 rs7545940
原理:采用EM algorithm余素、基于haplotype frequencies的計算
2.計算多個SNP之間的LD
plink --file mydata --r
或者
plink --file mydata --r2
結果會生成一個后綴為.ld的文件
原理:基于等位基因數的計算
其他篩選指標:
--ld-window 10
計算10個相關的SNP之間的LD豹休,默認值為 10
--ld-window-kb 1000
計算的區(qū)間,默認值1Mb
--ld-window-r2 0.2
r2的閾值桨吊,默認值0.2威根,如果需要輸出所有LD結果凤巨,則設為0
3.計算特定一個SNP與其他SNP之間的LD
plink --file mydata
--r2
--ld-snp rs12345
--ld-window-kb 1000
--ld-window 99999
--ld-window-r2 0
計算距離rs12345位點1Mb范圍內的所有位點的LD值
如果需計算rs12345與指定snp list之間的LD,則采用
--ld-snp-list mysnps.txt
4.用clump計算SNPs之間的LD
原理:基于SNP之間LD的一種經驗估計方法
首先需要計算SNP與觀察結局之間的關聯性(即準備一個.assoc文件)
再使用下面代碼
plink --file mydata --clump mytest1.assoc
結果會生成一個后綴為.clumped的文件
其他篩選指標:
參考:
https://zhuanlan.zhihu.com/p/362250519
https://www.cog-genomics.org/plink/1.9/
https://zzz.bwh.harvard.edu/plink/tutorial.shtml