介紹這個軟件的概念前谴供,我需要先解釋一個概念最近共同祖先時間(the time since the most recent common ancestor,TMRCA)扯俱。當我們在群體獲得1個基因的兩種等位基因序列或同源基因序列的時候,我們可以推測這些高度相似的序列之間最早應該起源于相同的祖先序列,只是在進化分化中隨機朝著不同的方向變異湖笨,才形成了不同的序列。
我們根據(jù)序列間的差異度(核酸替代率)和物種突變速率蹦骑,就可以推算兩條序列的分化時間慈省。這個分化時間就是這兩條序列的TMRCA。
這個概念換到1個二倍體生物的同源染色體間眠菇,就體現(xiàn)為1個基因的兩個等位基因之間存在差異边败,但它們最初也應該起源于相同祖先攜帶的同一序列∩臃希可以想象一下以下的情境:
(1)在1萬前的新石器時期笑窜,1個母親M生下了2個孩子。這兩個孩子可以攜帶某個相同的母親基因X0序列登疗。
(2)兩個孩子又各自有自己的后代排截,那么起源于母親M的序列又繼續(xù)遺傳給后代;
(3)這個來源母親M的基因序列就被散布到人群中辐益,且隨著時間的推移断傲,各個基因拷貝開始累積隨機突變,出現(xiàn)序列的差異荷腊,形成了各種各樣的基因型艳悔。
(4)2018年兩個青年男女戀愛結(jié)婚,恰好他們都各自攜帶了來自祖先母親M的兩種變異的基因拷貝X1和X2(都起源于基因X0)女仰。今年他們生下1個baby猜年,恰好把X1和X2都遺傳給了這個小baby。
(5)基因X1和X2等位之間存在差異疾忍,那么利用序列差異乔外、突變速率,就可以推算X1和X2開始分化的時間一罩,即它們距離最近共同祖先序列基因X0 (母親M所處的時代)的時間杨幼。這就是這兩條等位基因序列的TMRCA。
PSMC的分析原理,就是基于全基因組的TMCRA分析差购。該方法的基本原理如下圖:
(1)將二倍體生物通過重測序獲得的基因型四瘫,看成來源群體的兩份單倍體基因型型(單倍型)。
(2)由于染色體在進化過程中不斷重組欲逃,這兩份單倍型實際上各個區(qū)段的差異度不同找蜜。有些區(qū)段等位基因間比較相似,因此來源的共同祖先時間較短(TMRCA)稳析,就是兩個單倍型之間分化于較早的時間洗做。有些區(qū)段差異度比較大,則其對應的TMRCA較長彰居。
(3)通過分析全基因組TMRCA的分布(The distribution of TMRCA)诚纸,就可以對各個片段進行歸類。比如TMRCA1萬年前左右的占1%陈惰,2萬年前左右的占0.8%……基因組中染色體片段對的TMRCA構(gòu)成其實和當時對應的那個時代的有效群體大小相關(guān)畦徘,因此根據(jù)TMRCA的分布比例,就可以推算該種群在歷史上各個時期的有效群體大小抬闯。
圖1 一個個體兩個同源染色體片段間的TMRCA分布示意圖
這里需要補充說明一點:基因組中屬于某個TMRCA時期的片段的比例旧烧,應該與那個進化時期的有效群體大小成反比。比如說画髓,如果你發(fā)現(xiàn)基因組中共同祖先來自2萬年前的片段比例越高,那么說明2萬年這個時期該群體的人口規(guī)模越小平委。其原因可以這樣理解:
圖2 最終分析結(jié)果效果圖
(a)有效群體大小越小奈虾,本質(zhì)上群體剛剛經(jīng)歷了遺傳多樣性降低。這會導致很多等位基因類型在群體中消失廉赔。所以更古老的(TMRCA值更大)分化過程中的等位基因比例就降低了肉微。
(b) 未來有效群體大小擴大,則很多等位的分化時期就起源于這個群體規(guī)模小的時期蜡塌。所以碉纳,有效群體大小小的時期,對應共祖回溯(TMRCA屬于這個時期)的片段比例高馏艾。
反之劳曹,TMRCA屬于某個時期的片段比例越少,則那個時期的有效群體大小越大琅摩。
PSMC是非常巧妙的一種思路铁孵。因為之前推算群體歷史有效規(guī)模,都是基于單一等位基因檢測大量個體房资,然后通過分析兩兩等位基因間TMRCA來估算蜕劝。這樣有兩個問題:
(1)個別基因可能受選擇,導致突變速率偏離這個群體的均值,而產(chǎn)生誤差岖沛;
(2)檢測大量個體需要更多采樣的工作量暑始。
PSMC創(chuàng)造性的轉(zhuǎn)變思路,把傳統(tǒng)的多個個體基因組同一基因采樣婴削,替換為PSMC中的1個個體基因組多個基因組位置采樣廊镜,最終都獲得了群體中TMRCA的分布數(shù)據(jù)。例如馆蠕,如果一個重組片段是10k期升,人類基因組3個G就相當于3萬個片段的采樣。
所以互躬,PSMC相比傳統(tǒng)的方法有兩個優(yōu)勢:
(1)全基因組水平的采樣播赁,減少了個別基因受進化選擇導致誤差;
(2)1個個體就可以搞定海量的等位采樣吼渡,大大減少了工作量容为。
所以,PSMC的方法寺酪,主要贏在思路坎背。至于用隱馬爾可夫鏈的方法,去推算重組片段的位置寄雀,解TMRCA的分布得滤,對于非數(shù)學背景的我根本看不懂,所以干脆略過了盒犹。
后續(xù)PSMC的改進算法懂更,其實都是在PSMC這個大思路內(nèi)(利用全基因組數(shù)據(jù)推算TMRCA)的算法優(yōu)化,在之后的推送我們還會簡要介紹急膀。但從拍案叫絕的程度沮协,還是PSMC最了不起。
https://www.sohu.com/a/364583721_278730