在群體遺傳學研究中掌眠,LD連鎖不平衡分析是最常見的分析內容牙捉,也是關聯(lián)分析的基礎。如何正確理解并且進行相關的LD連鎖不平衡分析是群體遺傳中很基本的一件事情材失。下面和大家一起學習一下其相關的知識痕鳍。
基礎概念
如果要理解LD衰減圖,我們就必須先理解連鎖不平衡(Linkagedisequilibrium龙巨,LD)的概念笼呆。連鎖不平衡是由兩個名詞構成,連鎖+不平衡恭应。前者抄邀,很容易讓我們產(chǎn)生概念混淆;后者昼榛,讓這個概念變得愈加晦澀境肾。因此從一個類似的概念入手,大家可能更容易理解LD的概念胆屿,那就是基因的共表達奥喻。換句話來說,當位于某一座位的特定等位基因與另一座位的某一等位基因同時出現(xiàn)的概率大于群體中因隨機分布的兩個等位基因同時出現(xiàn)的概率時非迹,就稱這兩個座位處于連鎖不平衡狀態(tài)(linkage disequilibrium)环鲤。
如果兩個SNP標記位置相鄰,那么在群體中也會呈現(xiàn)基因型步調一致的情況憎兽。比如有兩個基因座冷离,分別對應A/a和B/b兩種等位基因。如果兩個基因座是相關的纯命,我們將會看到某些基因型往往共同遺傳西剥,即某些單倍型的頻率會高于期望值。
例如在下圖2中亿汞,在群體中(A瞭空,a,B,b)各個基因型的頻率已知的情況下咆畏,各種單倍型的期望頻率(AB南捂、Ab、aB旧找、ab)都是可以計算出來溺健。例如,AB的頻率=(A的頻率)X(B的頻率)钦讳。但我們實際統(tǒng)計群體中各個單倍型的頻率的時候矿瘦,會觀察到某些單倍型的頻率會大于期望值,例如下圖中的單倍型AB的理論頻率是0.12愿卒,但觀察到的實際頻率是0.29缚去。那么說明,基因型A更傾向于基因型B共同遺傳琼开。
這種不同基因座間的相關性易结,用一個數(shù)值來衡量就是D值(圖2中有計算公式)。類似相關系數(shù)是標準化后的協(xié)方差柜候,LD系數(shù)(r2)則是標準化后的D值(圖2中有計算公式)搞动,這個數(shù)值在0~1波動搀继。r2=0就是兩個位點完全不相關狞换,群體中單倍型分布是隨機的(觀測值=期望值)凌外。r^2=1就是兩個位點完全相關撮胧,某些基因型(A)只與特定的基因型(B)共同出現(xiàn)。
一般而言吆玖,兩個位點在基因組上離得越近拉庶,相關性就越強恐似,LD系數(shù)就越大碌嘀。反之涣旨,LD系數(shù)越小。也就是說股冗,隨著位點間的距離不斷增加霹陡,LD系數(shù)通常情況下會慢慢下降。這個規(guī)律止状,通常就會使用LD衰減圖來呈現(xiàn)烹棉。
圖形理解和應用
LD衰減圖就是利用曲線圖來呈現(xiàn)基因組上分子標記間的平均LD系數(shù)隨著標記間距離增加而降低的過程。大概的計算原理就是先統(tǒng)計基因組上兩兩標記間的LD系數(shù)大小怯疤,再按照標記間的距離對LD系數(shù)進行分類峦耘,最終可以計算出一定距離的分子標記間的平均LD系數(shù)大小。如圖3是黃瓜重測序文章中統(tǒng)計各個亞群體的LD衰減速度的圖形旅薄。橫坐標是物理距離(kb),縱坐標是LD系數(shù)(r^2)。
從圖中我們可以看出少梁,西雙版納這個亞群體(紫色線)在基因組上50kb距離的平均LD系數(shù)大小約為0.4洛口,但到了100kb的距離,對應的平均LD系數(shù)大小則降低到了不到0.3凯沪。而且第焰,我們從圖中也可以觀察到LD系數(shù)的衰減速度在不同的亞群體快慢不同,衰減速度是 india > East Asian& Eurasian > Xishuanbanna妨马。那說明india群體的LD衰減距離最小挺举,可能是india這個群體遺傳多樣性最高導致。
LD衰減距離
實際上烘跺,LD衰減的速度在不同物種間或同物種的不同亞群體間湘纵,往往差異非常巨大。所以滤淳,通常會使用1個標準——“LD衰減距離”來描述LD衰減速度的快慢梧喷。
LD衰減距離通常指的是:當平均LD系數(shù)衰減到一定大小的時候,對應的物理距離脖咐。
“一定大小”是這個定義的關鍵點铺敌,但沒有特別統(tǒng)一的標準,在不同文章中標準不同屁擅。常見的標準包括:a)LD系數(shù)降低到最大值的一半偿凭;b)LD系數(shù)降低到0.5以下;c)LD系數(shù)降低到0.1以下派歌;d)LD系數(shù)降低到基線水平(但注意弯囊,不同材料的基線值是不同的。比如圖3黃瓜群體的基線大概是0.1)硝皂。
LD衰減影響因素
LD系數(shù)衰退速度會受到不同因素的影響而有所不同常挚。常見的因素包括:
1)物種類型LD存在的本質是兩個位點的連鎖遺傳導致的相關性。但這種相關性理論上會隨著世代的增加稽物、重組次數(shù)的增加而不斷下降奄毡。所以,那些繁殖力強贝或、時代間隔短的物種(例如吼过,昆蟲),其LD衰減的速度是非尺浣保快的盗忱。例如在家蠶和野蠶群體中,LD系數(shù)下降到最大值的1/2僅僅需要46bp和7bp的距離
2)群體類型相同物種的不同群體羊赵,由于其遺傳背景不同趟佃,LD衰減速度也存在很大的差異扇谣。馴化選擇,會導致群體遺傳多樣性下降闲昭,位點間的相關性(連鎖程度)加強罐寨。所以,通常馴化程度越高序矩,選擇強度越大的群體鸯绿,LD衰減速度是最慢的。例如簸淀,栽培稻比野生稻通常更大的LD衰減距離瓶蝴。類似的,自然選擇租幕、遺傳漂變導致的群體遺傳多樣性下降舷手,也會減慢LD衰減的速度。
3)在染色體的位置染色體不同區(qū)域的LD衰減距離而是不同的令蛉。通常著絲粒區(qū)更難重組聚霜,所以LD衰減更慢。而基因組上那些受選擇的區(qū)域相比普通的區(qū)域珠叔,LD衰減速度也是更慢的蝎宇。
一般而言,LD系數(shù)大于0.8就是強相關祷安。如果LD系數(shù)小于0.1姥芥,則可以認為沒有相關性。如果LD衰減到0.1這么大的區(qū)間內都沒有標記覆蓋的話汇鞭,即使這個區(qū)間有一個效應很強的功能突變凉唐,也是檢測不到關聯(lián)信號的。所以霍骄,通程ù眩可以通過比較LD衰減(到0.1)距離和標記間的平均距離,來判斷標記是否對全基因組有足夠的覆蓋度读整。(GWAS標記量=基因組大小/LD衰減距離)
實戰(zhàn)分析
這里會用到華大研發(fā)的一款軟件PopLDdecay
簿训。
下載安裝
git clone https://github.com/BGI-shenzhen/PopLDdecay.git
chmod 755 configure;
./configure;
make;
mv PopLDdecay bin/;
基本使用說明:
Usage: PopLDDecay -InVCF <in.vcf.gz> -OutStat <out.stat>
-InVCF <str> Input SNP VCF Format
-InGenotype <str> Input SNP Genotype Format
-OutStat <str> OutPut Stat Dist ~ r^2 File
-SubPop <str> SubGroup SampleList of VCFFile [ALLsample]
-MaxDist <int> Max Distance (kb) between two SNP [300]
-MAF <float> Min minor allele frequency filter [0.005]
-Het <float> Max ratio of het allele filter [0.88]
-Miss <float> Max ratio of miss allele filter [0.25]
-EHH <str> To Run EHH Region decay set StartSite [NA]
-OutFilterSNP OutPut the final SNP to calculate
-OutType <int> 1: R^2 result 2: R^2 & D'
這個工具可以對整個群體進行LD衰減圖繪制:
./PopLDdecay -InVCF overlap.filter.vcf -OutStat overlap.all.stat
#運行繪圖需要你系統(tǒng)內安裝好R
perl Plot_OnePop.pl -inFile overlap.all.stat -output all.grpah
來看看效果如何,基本是一條圓滑的曲線米间,趨勢也是比較符合:
接著安裝不同的群體來進行LD衰減圖的繪制:
#分別對不同的群體進行LD分析:
./PopLDdecay -InVCF overlap.filter.vcf -SubPop lan.txt -OutStat overlap.lan.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop cul.txt -OutStat overlap.cul.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop wild.txt -OutStat overlap.wild.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop adm.txt -OutStat overlap.adm.stat
#進行圖形的繪制:
perl Plot_MultiPop.pl -inList draw.list -output draw.graph
###這里對于這個-inList的輸入格式需要注意一下(stat的path然后加上你stat文件的前綴)强品,可以參考我的輸入文件:
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.adm.stat.gz overlap.adm
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.cul.stat.gz overlap.cul
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.lan.stat.gz overlap.lan
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.wild.stat.gz overlap.wild
好繼續(xù)看看結果如何,符合上面說到的屈糊,野生種具有最快的衰減速度的榛,因為其多樣性最多,接著是地方種逻锐,然后到雜交種夫晌,最后是栽培種:
基礎部分是摘抄于基迪奧的論壇雕薪,因為本來它那里已經(jīng)說得很清楚明白了,直接引用就好了晓淀,我覺得沒必要再造車蹦哼,下次會繼續(xù)探討一下LD block的相關知識。
參考資料: