1、LD連鎖不平衡介紹
(1)LD連鎖不平衡介紹
連鎖不平衡指的是在某一群體中拧揽,兩個基因同時遺傳的頻率大于隨機組合的頻率疲吸。
用于衡量連鎖不平衡程度的指標主要有D逆屡、D'和r2三個指標,其計算原理見:連鎖不平衡:linkage disequilibrium
D ≠ 0与涡,兩基因間連鎖不平衡(D值無法比較不同基因之間連鎖程度的大小, 因為它是根據(jù)每個基因allel的頻率計算出來的)惹谐。D'值可以看做是歸一化之后的D值,歸一化之的值可以用于比較不同基因連鎖程度的大小驼卖。 通常情況下氨肌,會通過r值的平方來表征連鎖不平衡程度,r平方等于0時酌畜,表示完全連鎖平衡怎囚,獨立遺傳;r平方等于1時, 表示完全連鎖不平衡。?
當D'=0恳守,r2=0時考婴,處于完全連鎖平衡狀態(tài)?
當D'=1,r2=1時催烘,處于完全連鎖不平衡狀態(tài)
其中沥阱,從0—1之間的度量越高,LD越高伊群,如果兩個位點連鎖考杉,連鎖程度也越高。
r2和D'反映了LD的不同方面舰始。r2包括了重組和突變崇棠,而D'只包括重組史。D'能更準確地估測重組差異丸卷,但樣本較小時易茬,低頻率等位基因組合可能無法觀測到,導致LD強度被高估及老,所以D'不適合小樣本群體研究抽莱。
理論上來說任意兩個基因之間都可能存在連鎖不平衡,但是實際操作中骄恶,認為只有一定區(qū)間范圍內(nèi)的基因會存在連鎖不平衡食铐,距離大于區(qū)間的基因,兩者出現(xiàn)連鎖不平衡的概率非常小僧鲁,所以就不去計算虐呻。
連鎖不平衡的結(jié)果,通常采用heatmap熱圖的形式進行展示寞秃,haploview給出的LD heatmap 示例如下:顏色從白色到紅色斟叼,代表連鎖程度從低到高,方框中的數(shù)值為r2春寿,為了美觀朗涩,這里將r2 乘以了100。
LD衰減作圖中通常采用r2來表示群體的LD水平绑改;Haplotype Block中通常采用D'來定義Block谢床;遷移、突變厘线、選擇识腿、有限的群體大小以及其他引起等位基因頻率改變的因素,這些都會引起LD的改變造壮。
(2)LD衰減距離
LD的衰減指位點間由連鎖不平衡到連鎖平衡的演變過程渡讼;LD衰減的速度在不同物種間或同物種的不同亞群間,往往差異非常大。所以成箫,通常會使用1個標準——“LD衰減距離”來描述LD衰減速度的快慢展箱。
LD衰減距離通常指的是:當平均LD系數(shù)r2 衰減到一定大小的時候,對應的物理距離伟众∥雠海“一定大小”是這個定義的關鍵點,但沒有特別統(tǒng)一的標準凳厢,在不同文章中標準不同账胧。常見的標準包括:a)LD系數(shù)降低到最大值的一半;b)LD系數(shù)降低到0.5以下先紫;c)LD系數(shù)降低到0.1以下治泥;d)LD系數(shù)降低到基線水平(注意,不同物種的基線值是不同的)遮精。
值的獲染蛹小:成對計算指定距離范圍內(nèi)的所有SNP的r2 值,按區(qū)間取平均本冲。
LD衰減距離的應用
A. 判斷GWAS所需標記量准脂,決定GWAS的檢測效力以及精度
GWAS標記量 = 基因組大小/LD衰減距離
B. 輔助分析進化與選擇
在同一個連鎖群上,LD衰減的慢說明該群體受到選擇檬洞。一般來說狸膏,野生群體比馴化改良群體LD衰減快,異花授粉植物比自花授粉植物LD衰減快添怔。比如玉米:地方品種1kb湾戳,自交系2kb,商用自交系100kb广料。
Haplotype Block(單體型塊)
單體型塊砾脑,即連鎖不平衡區(qū)域,是指同一條染色體上處于連鎖不平衡狀態(tài)的一段連續(xù)的區(qū)域艾杏。單體型塊分析可以用于篩選tag SNP韧衣、確定候選基因的范圍等。
如果GWAS檢測到顯著關聯(lián)的區(qū)間糜颠,可以通過進一步繪制局部的LD單體型塊圖汹族,來進一步判斷顯著相關的SNP和目標基因間是否存在強LD關系。
(3)單體型快
單體型塊其兴,即連鎖不平衡區(qū)域,是指同一條染色體上處于連鎖不平衡狀態(tài)的一段連續(xù)的區(qū)域夸政。單體型塊分析可以用于篩選tag SNP元旬、確定候選基因的范圍等。
如果GWAS檢測到顯著關聯(lián)的區(qū)間,可以通過進一步繪制局部的LD單體型塊圖匀归,來進一步判斷顯著相關的SNP和目標基因間是否存在強LD關系坑资。
2、LD計算的主流軟件與方法
(1)用plink計算r2值
plink --vcf vcf_file --allow-no-sex --maf 0.05 --geno 0.2 --r2 --ld-window 999999?--ld-window-kb 10?--ld-window-r2 0.2 --out out_file
--vcf 指定輸入的文件為vcf格式穆端,如果是bed格式文件袱贮,使用--bfile接文件前綴,如果數(shù)據(jù)是ped体啰、map格式攒巍,使用 --map接.map文件,--ped接.ped文件
--allow-no-sex 表示允許沒有性別信息
--r2表示計算r2值
--ld-window 表示計算LD的區(qū)間荒勇,距離小于這個值的標記對都要進行LD的計算
--ld-window-kb 默認為1Mb柒莉,表示只對距離在1Mb之內(nèi)的SNP位點進行分析
--ld-window-r2 0.2 這個參數(shù)只能和 --r2參數(shù)搭配使用,默認值為0.2沽翔,對輸出結(jié)果進行過濾兢孝,只輸出r2大于該參數(shù)的r2值
(2)用haploview做LD分析
haploview是基于Java的工作環(huán)境,,如果電腦沒有java的話仅偎,需要提前安裝
https://www.broadinstitute.org/haploview/haploview
3跨蟹、LD衰減(LD Decay)
LD的衰減指位點間由連鎖不平衡到連鎖平衡的演變過程;LD衰減的速度在不同物種間或同物種的不同亞群間橘沥,往往差異非常大窗轩。所以,通常會使用1個標準——“LD衰減距離”來描述LD衰減速度的快慢威恼。
LD衰減距離通常指的是:當平均LD系數(shù)r2 衰減到一定大小的時候品姓,對應的物理距離◇锎耄“一定大小”是這個定義的關鍵點腹备,但沒有特別統(tǒng)一的標準,在不同文章中標準不同斤蔓。常見的標準包括:
a)LD系數(shù)降低到最大值的一半植酥;
b)LD系數(shù)降低到0.5以下;
c)LD系數(shù)降低到0.1以下弦牡;
d)LD系數(shù)降低到基線水平(注意友驮,不同物種的基線值是不同的)。
值的獲燃菝獭:成對計算指定距離范圍內(nèi)的所有SNP的r2 值卸留,按區(qū)間取平均