連鎖不平衡(linkage disequilibrium,LD)是指在某一個群體中氏捞,不同座位上兩個基因同時遺傳的頻率明顯高于預(yù)期的隨機(jī)頻率現(xiàn)象惩妇。我們一般用D株汉,D'和r2來表示LD的程度。
D是LD的基本單位屿附,度量觀察到的單倍型頻率與平衡狀態(tài)下期望頻率的偏差郎逃。假設(shè)兩個位點分別有等位基因A,b 和 B挺份,b褒翰,則D=P(AB)-P(A)*P(B); P(AB)表示實際觀察到的AB頻率,P(A)*P(B)表示AB頻率的期望值(如果發(fā)生連鎖不平衡匀泊,實際觀測到的AB頻率肯定不等于AB頻率的期望值)优训。如果D值顯著偏離0,則說明存在LD各聘。隨著兩個位點間重組的發(fā)生揣非,它們之間的 LD 將逐漸衰減。D 受兩個位點間的重組率 θ 和傳遞代數(shù) t 的影響:Dt =(1-θ)tD躲因。因為所有的單倍型和等位基因的頻率都在 0 到 1的范圍內(nèi)早敬,因此 D 的取值范圍也是有限的:Dmin =max(-PAPB, -PaPb) = min(PAPB, PaPb)忌傻;Dmax = min(PAPb, PaPB)。因為D 的取值強(qiáng)烈地依賴于人為指定的等位基因頻率搞监,所以它不利于 LD 程度的比較水孩。標(biāo)準(zhǔn)化的不平衡系數(shù) D’能夠避免這種對等位基因頻率地依賴。D'的計算方法如下:
D'=D/Dmax
當(dāng)D<0, Dmax=min{P(A)P(B),P(a)P(b)}琐驴;
當(dāng)D>0,Dmax=min{P(A)P(b),P(a)P(B)}俘种;
當(dāng)D‘=1,說明兩個位點沒有被重組分開绝淡,處于完全的連鎖不平衡狀態(tài)宙刘,這時能觀察到 2 或 3 種單倍型;
當(dāng)D‘=0牢酵,表示連鎖完全平衡悬包,隨機(jī)組合,明兩個位點完全獨立茁帽。
但D'也有它的局限性玉罐,比如當(dāng)單倍型為2中或3種時,|D'|一定等于1潘拨,但是當(dāng)|D'|<1時吊输,時的一些中間值的意義是很難解釋的(比如 D’為 0.3 和 0.7 究竟有怎樣的不同意義)甚至在模擬情況下,相同距離的成對位點間的 D’值也是高度可變的另外D'嚴(yán)格依賴于樣品的大小铁追,如果樣本偏少時季蚂,snp數(shù)量比較少雕拼,這樣算出來的D'就會偏大刽肠,尤其是某個位點其中一個等位基因頻率很低時,因此較高D‘背后嘉冒,實際上可能是連鎖不平衡程度很低的兩個位點涩禀。統(tǒng)計學(xué)上較高的D'值重組發(fā)生率低料滥,而普通程度的D'<1不適合度量LD,以及比較不同研究之間的LD程度艾船,因此只有統(tǒng)計學(xué)上顯著性接近1的D'值才能夠解釋這兩個位點之間有較小的歷史重組葵腹,而D'則不能用來研究這種情況。這是就需要引進(jìn)r2來表示LD屿岂,r2的計算方法如下:
r2=D*D/(P(A)P(a)P(B)P(b))
當(dāng)r2=1践宴,表示連鎖完全不平衡,沒有重組爷怀,說明兩個位點之間是完全獨立的
當(dāng)r2=0阻肩,表示連鎖完全平衡,隨機(jī)組合同時运授,r2=1有更嚴(yán)格的解釋:兩個位點的等位基因有相同的頻率烤惊,并且一個位點某個等位基因的出現(xiàn)完全預(yù)示著另外一個位點相應(yīng)等位基因的出現(xiàn)乔煞,這時候兩個位點組成的四種可能的單倍型僅表現(xiàn)為兩種。
與D'相比撕氧,r2在連鎖不平衡中更加有用瘤缩,因為其具有較強(qiáng)的群體遺傳學(xué)理論基礎(chǔ)和一些統(tǒng)計學(xué)上的優(yōu)勢:
1.r2的期望值和有效種群大小和重組系數(shù)相關(guān),r2=1/(1+4NeC),其中Ne是有小種群大小伦泥,C是重組系數(shù)。
2.r2有很好的取樣特性锦溪,樣本量和r2的乘積就是所觀察到的關(guān)聯(lián)水平概率對應(yīng)的卡方值不脯。在檢測snp和致病位點之間的關(guān)聯(lián)時,如果要達(dá)到同樣的統(tǒng)計效力刻诊,所需要的樣本量要增大1/r2倍防楷。例如,假設(shè)snp1與疾病相關(guān)则涯,我們要對它附近的snp2進(jìn)行基因分型复局,他們之間的LD系數(shù)r2=0.5,為了達(dá)到與snp1位點檢測相同的統(tǒng)計效力粟判,必須把樣本增加2倍亿昏。
3.與D'相比,在同樣長度的染色體范圍內(nèi)档礁,r2往往更低角钩,這個特性能夠幫助我們找到更精度的基因定位。
另外呻澜,r2和D'相比递礼,受樣本量和等位基因頻率的影響較小(但影響仍然存在)。
下面舉個例子羹幸,如圖所示脊髓,可以自己先計算一下再看下面步驟:
1P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5
D=0.25-0.5*0.5=0
D'=r2=0
2?P(A)=0.75, P(a)=0.25, P(B)=0.5, P(b)=0.5
D=0.5-0.75*0.25=0.125
D'=0.125/min{0.75*0.5,0.25*0.5}=1
r2=0.125*0.125/(0.75*0.25*0.5*0.5)=0.33
3P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5
D=0.5-0.5*0.5=0.25
D'=0.25/min{0.5*0.5,0.5*0.5}=1
r2=0.25*0.25/(0.5*0.5*0.5*0.5)=1
在評估連鎖不平衡的過程中,顯著性水平 p 也是一個很重要的參數(shù)栅受,但由于顯著性水平在很大程度上依賴于樣本量的大小将硝,因此它不能用于比較不同樣本量得到的 LD 的程度。高強(qiáng)度的 LD 可能并不和顯著性的 p 值相關(guān)窘疮,而低強(qiáng)度的 LD 在一個足夠大的樣本中則能得到顯著性的 p 值袋哼。如果將表示兩個位點間的 LD 程度的參數(shù)與它們是否關(guān)聯(lián)的統(tǒng)計顯著性結(jié)果相結(jié)合的話,就能較為可靠的估計 LD闸衫。
參考:原文鏈接:https://blog.csdn.net/u014182497/article/details/52788823