全基因組關聯(lián)分析(Genome-Wide Association Study, GWAS)是以連鎖不平衡(LD)為基礎下隧,利用全基因組范圍內(nèi)群體中高密度的分子標記奢人,鑒定與復雜性狀表型變異相關聯(lián)的分子標記,進而挖掘與表型相關基因的方法淆院。
關聯(lián)定位的優(yōu)勢:
- 利用長期進化過程中積累的重組信息何乎,分辨率高(人工群體除外);
- 研究材料來源廣泛土辩,變異信息豐富支救;
- 節(jié)省時間。
關聯(lián)定位的缺點:
- 自然群體在長期的隨機交配中可能連鎖關系被打碎拷淘,尤其在異交比較頻繁的物種中各墨,因此需要的標記密度更高;
-
群體結構和遺傳背景復雜启涯,假陽性可能偏高贬堵。
關聯(lián)分析的基礎:連鎖不平衡(linkage disequilibrium, LD)
- 當位于某一座位的特定等位基因與另一座位的某一等位基因恃轩,同時出現(xiàn)的概率大于群體中因隨機分布的兩個等位基因同時出現(xiàn)的概率時,就稱這兩個座位處于連鎖不平衡狀態(tài)黎做。
- 兩個相鄰的基因A, B叉跛,它們的等位基因分別為a, b。后代群體中蒸殿,實際觀察到的單體型基因型AB筷厘,出現(xiàn)的概率為 D,即LD的基本單位宏所,度量觀察到的單倍型頻率與平衡狀態(tài)下期望頻率的偏差:
D= P(AB)= P(A)* P(B)酥艳, 則A, B獨立遺傳;
D= P(AB)≠ P(A)* P(B)楣铁,則A, B存在連鎖不平衡玖雁。
因為D的取值強烈地依賴于人為制定的等位基因頻率,所以它不利于LD程度的比較盖腕。標準化的不平衡系數(shù)D' 能夠避免這種對等位基因頻率的依賴赫冬。
D' 的計算方法如下:
D' =D/Dmax
當D<0, Dmax = max { -PAPB , -(1-PA)(1-PB)} ;
當D>0, Dmax = min { PA (1-PB), (1-PA)PB} 溃列;
當D' =1劲厌,表示連鎖完全不平衡,沒有重組听隐;
當D' =0补鼻,表示連鎖完全平衡,隨機組合雅任,獨立遺傳风范。
但D' 也有它的局限性,比如當單倍型為兩種或三種時沪么,| D' |一定等于1硼婿,但是當| D' |<1時,D' 的值究竟表示多大程度的連鎖不平衡禽车,是很難做出準確判斷的寇漫。另外D' 嚴格依賴于樣品的大小,如果樣本偏少時殉摔,SNP數(shù)量比較少州胳,這樣算出來的D' 就會偏大,尤其是某個位點其中一個等位基因頻率很低時逸月,因此較高D' 背后栓撞,實際上可能是連鎖不平衡程度很低的兩個位點。因此引進r 2來表示LD碗硬,r 2的計算方法如下:
當r 2=1瓤湘,表示連鎖完全不平衡捌归,沒有重組;
當r 2=0岭粤,表示連鎖完全平衡,隨機組合特笋,獨立遺傳剃浇。
r 2和D' 是衡量LD的常用指標,關系如下:
- r 2包括了重組和突變猎物,而D' 只包括重組史虎囚;
- D' 能更準確地估測重組差異,但樣本較小時蔫磨,低頻率等位基因組合可能無法觀測到淘讥,導致LD強度被高估,所以D' 不適合小樣本群體研究堤如。
- LD衰減作圖中通常采用r 2來表示群體的LD水平蒲列;
- LD分析主要包括LD衰減距離分析和LD block分析,描述LD衰減情況時搀罢,通常用r 2,描述LD block時,可以用D' 也可以用r 2莫杈。
引用轉載請注明出處闹瞧,如有錯誤敬請指出。