進(jìn)化開始于一個個體的一條染色體上的一個突變环疼。分子群體遺傳學(xué)研究的是這些突變在群體中頻率的升高或降低鄙币。許多進(jìn)化力量能夠通過群體來加速或減緩這些突變的傳遞。通過個體間分子突變的模式能夠推斷出具體是哪些進(jìn)化力量在起作用。
遺傳標(biāo)記的使用最早是1990年ABO血型的發(fā)現(xiàn)斟湃,而“分子”遺傳學(xué)則可以追溯到Harris(1966)、Lewontin及Hubby(1966)等人開創(chuàng)性的研究瞻离。這些研究者的開創(chuàng)性研究發(fā)現(xiàn)個體間在分子水平上的突變數(shù)量遠(yuǎn)超過之前從形態(tài)學(xué)研究中觀察到的數(shù)量秉溉。這些研究使用同工酶(allozymes)來揭示分子變異。這種方法只能觀察到所有變異中的一部分—這些突變能夠通過改變電荷使得蛋白以不同的速度通過凝膠跑筝。直到1983年才出現(xiàn)了第一個關(guān)于核酸分子變異的研究(Aquadro and Greenberg 1983; Kreitman 1983)死讹。這些研究通過對每個核苷酸進(jìn)行測序,讓我們能夠全面觀察到自然群體中的遺傳變異继蜡。
分子群體遺傳學(xué)研究更廣泛地關(guān)注進(jìn)化過程對自然群體的影響回俐。鑒于此,通常使用少量個體樣本的DNA序列來探究那些作用于整個群體的進(jìn)化力量稀并。哪怕是一個位點(diǎn)上的遺傳變異模式都可以用于進(jìn)化仅颇、重組和自然選擇等力量的推斷,還可以對群體歷史進(jìn)行推斷(如相對大小和遷移史)碘举⊥撸基于過去100多年大量群體遺傳理論的建立和發(fā)展,這樣的一些推斷是可行的引颈。這些理論告訴我們當(dāng)每種進(jìn)化力量發(fā)生作用時耕皮,我們應(yīng)該(期望)觀察到什么。關(guān)于群體遺傳學(xué)早期的理論研究并沒有利用分子數(shù)據(jù)蝙场,但是分子方法的快速發(fā)展崛起極大地促進(jìn)了相關(guān)研究的開展凌停,這些研究工作對分子進(jìn)化過程進(jìn)行了建模。
要想從DNA序列中推斷出正確的推論售滤,那分子群體遺傳學(xué)理論是至關(guān)重要必不可少的罚拟。因此台诗,了解主要的模型和它們對應(yīng)的假設(shè)是很重要的。
在本章中會對這些模型進(jìn)行簡單的介紹赐俗,但是不會把群體遺傳學(xué)的基礎(chǔ)的都覆蓋到拉队。我們假設(shè)讀者是有一定基礎(chǔ)的。
本章主要著重于最相關(guān)的理論和模型阻逮,并將這些理論和模型應(yīng)用到群體遺傳數(shù)據(jù)上粱快。理解用于序列推斷的模型的結(jié)構(gòu)對于理解這些推斷是如何實現(xiàn)的是至關(guān)重要的。此外叔扼,本章節(jié)嘗試闡明在群體遺傳中經(jīng)常被混淆的術(shù)語事哭,并定義它們在本書中的表示和用法。最后討論的是分子進(jìn)化的中性理論币励,嘗試在解釋這個概念的同時將其易混淆的地方也作簡單說明慷蠕。
基礎(chǔ)的序列術(shù)語
分子群體遺傳研究中獲取的DNA序列通常如圖1那樣排列比對在一塊。圖1所示的是4調(diào)序列排列比對的結(jié)果食呻。每條序列有15個核苷酸流炕;4條序列來自染色體的同一位點(diǎn)。
因為這4條序列來在4條單獨(dú)的同源染色體仅胞,所以“我”將這4條同源DNA鏈稱為序列(sequence
)或者是染色體(chromosomes
)(不管這4條序列是否是獨(dú)特的)每辟。在本書中我們將使用這個術(shù)語,但是在文獻(xiàn)中對這4條序列還可以用其他的術(shù)語來表述干旧,如基因(gene
)渠欺、alleles
、samples
椎眯、cistrons
以及allele copies
挠将。和20年前一樣,用gene
來描述來自一個單一位點(diǎn)的多條序列并不是常見的编整,尤其是現(xiàn)在個別研究者會從一個物種的多個基因中采集多條序列舔稀。但是許多的研究還是使用allele
來表示每個染色體,實際上是使用“等位基因”的“不同來源”進(jìn)行定義掌测∧谥“我”只有在描述個體的某個位點(diǎn)上核苷酸(或氨基酸)不同時才使用allele
。這種是根據(jù)等位基因狀態(tài)的差異進(jìn)行定義的汞斧。因此夜郁,對于圖1,我們可以說染色體為n=4粘勒。需要注意的是竞端,這個術(shù)語并不取決于這4條序列是否隨機(jī)來自2個二倍體個體,或四倍體個體庙睡,或4個獨(dú)立的自交二倍體事富。在所有的例子中剑勾,我們都是從自然界中采集4條染色體。
在這個比對圖中赵颅,我們能夠看到某些位點(diǎn)是不同的,但我們主要關(guān)注的是雙等位位點(diǎn)(因為它們是最常見的變異類型暂刘,盡管在一個位點(diǎn)上可能有2個以上的變異)饺谬。有許多的術(shù)語用于描述這種DNA序列上的差異。我們可以看到在我們的樣品中有6個多態(tài)性(polymorphism
)谣拣,或者是分隔點(diǎn)(segregating site
)募寨,或者是突變(mutations
),或者是單核苷酸多態(tài)性(single nucleotide polymorphisms
森缠,SNPs)拔鹰。雖然之前多態(tài)性和分隔點(diǎn)是使用最多的術(shù)語,但是現(xiàn)在更常用的說法是SNP(發(fā)音是snip
贵涵,最早是1994年)列肢。一個單一序列上所有等位基因的集合叫做單倍型(haplotype
)。
突變(mutations
)在不同的領(lǐng)域有著完全不同的意思宾茂。突變可以用來表示DNA發(fā)生變化的過程或該過程中產(chǎn)生的新的等位基因瓷马。有時候突變是多態(tài)性的同義詞;在更注重醫(yī)學(xué)的人體群體遺傳學(xué)中跨晴,僅僅是指稀有的多態(tài)性(發(fā)生的次數(shù)<1-5%欧聘,或者僅僅是單一序列)。所有的多態(tài)性最初都是以突變?yōu)楸憩F(xiàn)形式出現(xiàn)的端盆。在本書中怀骤,“我”用突變來表示變異產(chǎn)生的過程以及在這個過程中新突變的出現(xiàn)。最后焕妙,“替換”(substitution
)表示的是那些在物種間觀察到的DNA差異蒋伦,以區(qū)別于物種內(nèi)的變異。
通常访敌,我們認(rèn)為indel
(insertion/deletion)不是分離位點(diǎn)(segregating sites
)(雖然有時候插入1bp的堿基也算作分離位點(diǎn))凉敲。這樣的劃分的原因是當(dāng)兩段序列有多個核苷酸插入時,很難區(qū)分真真正正的差異堿基數(shù)目寺旺。比如爷抓,2bp的indel
算1個多態(tài)性位點(diǎn)還是兩個?這個答案取決于我們是把這個2bp的indel
看作是一個單獨(dú)的突變還是2個分離的長度為1bp的突變阻塑?通常不將indel
等類似的數(shù)據(jù)加入到分析中蓝撇。