LD衰減圖的理解與應用

在群體遺傳學研究中掌眠,LD連鎖不平衡分析是最常見的分析內容牙捉,也是關聯(lián)分析的基礎。如何正確理解并且進行相關的LD連鎖不平衡分析是群體遺傳中很基本的一件事情材失。下面和大家一起學習一下其相關的知識痕鳍。

基礎概念

如果要理解LD衰減圖,我們就必須先理解連鎖不平衡(Linkagedisequilibrium龙巨,LD)的概念笼呆。連鎖不平衡是由兩個名詞構成,連鎖+不平衡恭应。前者抄邀,很容易讓我們產(chǎn)生概念混淆;后者昼榛,讓這個概念變得愈加晦澀境肾。因此從一個類似的概念入手,大家可能更容易理解LD的概念胆屿,那就是基因的共表達奥喻。換句話來說,當位于某一座位的特定等位基因與另一座位的某一等位基因同時出現(xiàn)的概率大于群體中因隨機分布的兩個等位基因同時出現(xiàn)的概率時非迹,就稱這兩個座位處于連鎖不平衡狀態(tài)(linkage disequilibrium)环鲤。

如果兩個SNP標記位置相鄰,那么在群體中也會呈現(xiàn)基因型步調一致的情況憎兽。比如有兩個基因座冷离,分別對應A/a和B/b兩種等位基因。如果兩個基因座是相關的纯命,我們將會看到某些基因型往往共同遺傳西剥,即某些單倍型的頻率會高于期望值。

例如在下圖2中亿汞,在群體中(A瞭空,a,B,b)各個基因型的頻率已知的情況下咆畏,各種單倍型的期望頻率(AB南捂、Ab、aB旧找、ab)都是可以計算出來溺健。例如,AB的頻率=(A的頻率)X(B的頻率)钦讳。但我們實際統(tǒng)計群體中各個單倍型的頻率的時候矿瘦,會觀察到某些單倍型的頻率會大于期望值,例如下圖中的單倍型AB的理論頻率是0.12愿卒,但觀察到的實際頻率是0.29缚去。那么說明,基因型A更傾向于基因型B共同遺傳琼开。


這種不同基因座間的相關性易结,用一個數(shù)值來衡量就是D值(圖2中有計算公式)。類似相關系數(shù)是標準化后的協(xié)方差柜候,LD系數(shù)(r2)則是標準化后的D值(圖2中有計算公式)搞动,這個數(shù)值在0~1波動搀继。r2=0就是兩個位點完全不相關狞换,群體中單倍型分布是隨機的(觀測值=期望值)凌外。r^2=1就是兩個位點完全相關撮胧,某些基因型(A)只與特定的基因型(B)共同出現(xiàn)。

一般而言吆玖,兩個位點在基因組上離得越近拉庶,相關性就越強恐似,LD系數(shù)就越大碌嘀。反之涣旨,LD系數(shù)越小。也就是說股冗,隨著位點間的距離不斷增加霹陡,LD系數(shù)通常情況下會慢慢下降。這個規(guī)律止状,通常就會使用LD衰減圖來呈現(xiàn)烹棉。

圖形理解和應用

LD衰減圖就是利用曲線圖來呈現(xiàn)基因組上分子標記間的平均LD系數(shù)隨著標記間距離增加而降低的過程。大概的計算原理就是先統(tǒng)計基因組上兩兩標記間的LD系數(shù)大小怯疤,再按照標記間的距離對LD系數(shù)進行分類峦耘,最終可以計算出一定距離的分子標記間的平均LD系數(shù)大小。如圖3是黃瓜重測序文章中統(tǒng)計各個亞群體的LD衰減速度的圖形旅薄。橫坐標是物理距離(kb),縱坐標是LD系數(shù)(r^2)。

從圖中我們可以看出少梁,西雙版納這個亞群體(紫色線)在基因組上50kb距離的平均LD系數(shù)大小約為0.4洛口,但到了100kb的距離,對應的平均LD系數(shù)大小則降低到了不到0.3凯沪。而且第焰,我們從圖中也可以觀察到LD系數(shù)的衰減速度在不同的亞群體快慢不同,衰減速度是 india > East Asian& Eurasian > Xishuanbanna妨马。那說明india群體的LD衰減距離最小挺举,可能是india這個群體遺傳多樣性最高導致。

LD衰減距離

實際上烘跺,LD衰減的速度在不同物種間或同物種的不同亞群體間湘纵,往往差異非常巨大。所以滤淳,通常會使用1個標準——“LD衰減距離”來描述LD衰減速度的快慢梧喷。

LD衰減距離通常指的是:當平均LD系數(shù)衰減到一定大小的時候,對應的物理距離脖咐。

“一定大小”是這個定義的關鍵點铺敌,但沒有特別統(tǒng)一的標準,在不同文章中標準不同屁擅。常見的標準包括:a)LD系數(shù)降低到最大值的一半偿凭;b)LD系數(shù)降低到0.5以下;c)LD系數(shù)降低到0.1以下派歌;d)LD系數(shù)降低到基線水平(但注意弯囊,不同材料的基線值是不同的。比如圖3黃瓜群體的基線大概是0.1)硝皂。

LD衰減影響因素

LD系數(shù)衰退速度會受到不同因素的影響而有所不同常挚。常見的因素包括:

1)物種類型LD存在的本質是兩個位點的連鎖遺傳導致的相關性。但這種相關性理論上會隨著世代的增加稽物、重組次數(shù)的增加而不斷下降奄毡。所以,那些繁殖力強贝或、時代間隔短的物種(例如吼过,昆蟲),其LD衰減的速度是非尺浣保快的盗忱。例如在家蠶和野蠶群體中,LD系數(shù)下降到最大值的1/2僅僅需要46bp和7bp的距離

2)群體類型相同物種的不同群體羊赵,由于其遺傳背景不同趟佃,LD衰減速度也存在很大的差異扇谣。馴化選擇,會導致群體遺傳多樣性下降闲昭,位點間的相關性(連鎖程度)加強罐寨。所以,通常馴化程度越高序矩,選擇強度越大的群體鸯绿,LD衰減速度是最慢的。例如簸淀,栽培稻比野生稻通常更大的LD衰減距離瓶蝴。類似的,自然選擇租幕、遺傳漂變導致的群體遺傳多樣性下降舷手,也會減慢LD衰減的速度。

3)在染色體的位置染色體不同區(qū)域的LD衰減距離而是不同的令蛉。通常著絲粒區(qū)更難重組聚霜,所以LD衰減更慢。而基因組上那些受選擇的區(qū)域相比普通的區(qū)域珠叔,LD衰減速度也是更慢的蝎宇。

一般而言,LD系數(shù)大于0.8就是強相關祷安。如果LD系數(shù)小于0.1姥芥,則可以認為沒有相關性。如果LD衰減到0.1這么大的區(qū)間內都沒有標記覆蓋的話汇鞭,即使這個區(qū)間有一個效應很強的功能突變凉唐,也是檢測不到關聯(lián)信號的。所以霍骄,通程ù眩可以通過比較LD衰減(到0.1)距離和標記間的平均距離,來判斷標記是否對全基因組有足夠的覆蓋度读整。(GWAS標記量=基因組大小/LD衰減距離)

實戰(zhàn)分析

這里會用到華大研發(fā)的一款軟件PopLDdecay簿训。

下載安裝

git clone https://github.com/BGI-shenzhen/PopLDdecay.git
chmod 755 configure; 
./configure;
make;
mv PopLDdecay  bin/;

基本使用說明:

Usage: PopLDDecay -InVCF  <in.vcf.gz>  -OutStat <out.stat>

-InVCF       <str>    Input SNP VCF Format
-InGenotype  <str>    Input SNP Genotype Format
-OutStat     <str>    OutPut Stat Dist ~ r^2 File
-SubPop      <str>    SubGroup SampleList of VCFFile [ALLsample]
-MaxDist     <int>    Max Distance (kb) between two SNP [300]
-MAF         <float>  Min minor allele frequency filter [0.005]
        -Het         <float>  Max ratio of het allele filter [0.88]
-Miss        <float>  Max ratio of miss allele filter [0.25]
-EHH         <str>    To Run EHH Region decay set StartSite [NA]
-OutFilterSNP         OutPut the final SNP to calculate
-OutType     <int>    1: R^2 result 2: R^2 & D' 

這個工具可以對整個群體進行LD衰減圖繪制:

./PopLDdecay -InVCF overlap.filter.vcf -OutStat overlap.all.stat


#運行繪圖需要你系統(tǒng)內安裝好R
perl Plot_OnePop.pl -inFile overlap.all.stat -output all.grpah

來看看效果如何,基本是一條圓滑的曲線米间,趨勢也是比較符合:

接著安裝不同的群體來進行LD衰減圖的繪制:

#分別對不同的群體進行LD分析:
./PopLDdecay -InVCF overlap.filter.vcf -SubPop lan.txt -OutStat overlap.lan.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop cul.txt -OutStat overlap.cul.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop wild.txt -OutStat overlap.wild.stat
./PopLDdecay -InVCF overlap.filter.vcf -SubPop adm.txt -OutStat overlap.adm.stat

#進行圖形的繪制:
perl Plot_MultiPop.pl -inList draw.list -output draw.graph

###這里對于這個-inList的輸入格式需要注意一下(stat的path然后加上你stat文件的前綴)强品,可以參考我的輸入文件:
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.adm.stat.gz overlap.adm
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.cul.stat.gz overlap.cul
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.lan.stat.gz overlap.lan
/scratch/pawsey0149/hhu/tool/PopLDdecay/bin/overlap.wild.stat.gz overlap.wild

好繼續(xù)看看結果如何,符合上面說到的屈糊,野生種具有最快的衰減速度的榛,因為其多樣性最多,接著是地方種逻锐,然后到雜交種夫晌,最后是栽培種:

基礎部分是摘抄于基迪奧的論壇雕薪,因為本來它那里已經(jīng)說得很清楚明白了,直接引用就好了晓淀,我覺得沒必要再造車蹦哼,下次會繼續(xù)探討一下LD block的相關知識。

參考資料:

http://www.omicshare.com/forum/thread-878-1-1.html

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末要糊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子妆丘,更是在濱河造成了極大的恐慌锄俄,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勺拣,死亡現(xiàn)場離奇詭異奶赠,居然都是意外死亡,警方通過查閱死者的電腦和手機药有,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門毅戈,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人愤惰,你說我怎么就攤上這事苇经。” “怎么了宦言?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵扇单,是天一觀的道長。 經(jīng)常有香客問我奠旺,道長蜘澜,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任响疚,我火速辦了婚禮鄙信,結果婚禮上,老公的妹妹穿的比我還像新娘忿晕。我一直安慰自己装诡,他們只是感情好,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布杏糙。 她就那樣靜靜地躺著慎王,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宏侍。 梳的紋絲不亂的頭發(fā)上赖淤,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機與錄音谅河,去河邊找鬼咱旱。 笑死确丢,一個胖子當著我的面吹牛,可吹牛的內容都是我干的吐限。 我是一名探鬼主播鲜侥,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诸典!你這毒婦竟也來了描函?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤狐粱,失蹤者是張志新(化名)和其女友劉穎舀寓,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肌蜻,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡互墓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蒋搜。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篡撵。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖豆挽,靈堂內的尸體忽然破棺而出育谬,到底是詐尸還是另有隱情,我是刑警寧澤祷杈,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布斑司,位于F島的核電站,受9級特大地震影響但汞,放射性物質發(fā)生泄漏宿刮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一私蕾、第九天 我趴在偏房一處隱蔽的房頂上張望僵缺。 院中可真熱鬧,春花似錦踩叭、人聲如沸磕潮。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽自脯。三九已至,卻和暖如春斤富,著一層夾襖步出監(jiān)牢的瞬間膏潮,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工满力, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留焕参,地道東北人轻纪。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像叠纷,于是被迫代替她去往敵國和親刻帚。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內容