重建系統(tǒng)發(fā)育關(guān)系=分子數(shù)據(jù)建樹太惠?
一提到phylogeny磨淌,我們的第一反應(yīng)就是分子數(shù)據(jù)建樹。這種理解是片面的凿渊,但也反映了一些它的分類學(xué)的區(qū)別:
首先梁只,分類學(xué)在根據(jù)character state(性狀特征)進(jìn)行g(shù)rouping(劃分類群)后只給出了ranking(等級)和nomenclature(命名)。ranking中的界門綱目科屬種也都是人為劃分的埃脏。而phylogeny卻可以給出phylogenetic relationship(系統(tǒng)發(fā)育關(guān)系) 敛纲,并且用系統(tǒng)發(fā)育樹的形式展現(xiàn)出來。這不就和evolution攀上關(guān)系了剂癌,畢竟還是那句話:
Nothingin biology makes sense except in the light of evolution淤翔。
下圖提供了一個(gè)phylogeny和傳統(tǒng)分類學(xué)相互融合的例子:
其次,phylogeny可以利用分子性狀佩谷,而傳統(tǒng)分類學(xué)多依據(jù)形態(tài)學(xué)和生態(tài)學(xué)的性狀旁壮,相比分類學(xué)家主觀的對形態(tài)學(xué)和生態(tài)學(xué)的性狀的評判標(biāo)準(zhǔn),只有ATCG四種堿基構(gòu)成的生命天書使得客觀的谐檀,使得可檢驗(yàn)的評判標(biāo)準(zhǔn)成為可能抡谐。
那為什么說phylogeny就是分子數(shù)據(jù)建樹這種理解是片面的呢?
首先桐猬,用來重建系統(tǒng)發(fā)生關(guān)系的并不僅是分子數(shù)據(jù)(比如DNA和蛋白質(zhì)序列)麦撵,而是character(性狀),包括形態(tài)性狀溃肪,生態(tài)性狀免胃,行為性狀,生理生化性狀惫撰,總之就是:any trait of a group of organisms being compared(用來作比較的生物類群的任何特征)羔沙。
而真正用來比較的是character state(one of the manifestations of a character observed in an organism),這個(gè)也好理解厨钻,花瓣數(shù)是一個(gè)character扼雏,那到底幾瓣坚嗜?三瓣還是五瓣?這就是character state诗充。
現(xiàn)在phylogenetic study之所以大都選用分子數(shù)據(jù)苍蔬,是看它骨骼驚奇,是重建系統(tǒng)發(fā)生關(guān)系的奇才蝴蜓。
第一碟绑,它可以提供大量的性狀和有用的信息。比如人類基因組可提供32億個(gè)核苷酸位點(diǎn)励翼,每個(gè)位點(diǎn)都可以看做一個(gè)性狀。之前辜荠,一些生物形態(tài)上的變異非常少而無法對它們進(jìn)行分類汽抚,?用分子性狀就解決了這個(gè)問題。
第二伯病,分子數(shù)據(jù)容易處理造烁,尤其是序列數(shù)據(jù),不像形態(tài)性狀那樣容易產(chǎn)生歧義(比如每個(gè)人對大小顏色的感覺都是不一樣的)午笛。相比于形態(tài)和生態(tài)性狀惭蟋,人們終于可以客觀,定量和可驗(yàn)證地處理數(shù)據(jù)和確定重建系統(tǒng)發(fā)生學(xué)關(guān)系的方法药磺。
第三告组,數(shù)據(jù)的獲得簡單,方便又廉價(jià)癌佩。所有活的生物體都可以測定目標(biāo)序列木缝。而且測序的價(jià)格在降低,生物信息分析的手段在完善围辙。
第四我碟,入門門檻低啊。培養(yǎng)一個(gè)特定生物類群分類學(xué)家需要幾年甚至幾十年姚建,提DNA矫俺、測序、然后用現(xiàn)成的軟件建樹只需要幾個(gè)月掸冤。
現(xiàn)在我們來說把phylogeny等同于用分子數(shù)據(jù)建樹是片面的第二點(diǎn)原因厘托,那就是重建生物系統(tǒng)發(fā)生關(guān)系也并不等同于建二歧樹。目前普遍使用的二歧樹是經(jīng)濟(jì)適用樹稿湿,是我們向現(xiàn)實(shí)妥協(xié)的結(jié)果催烘,并不能完全反映真實(shí)的系統(tǒng)發(fā)生關(guān)系,比如雜交成種現(xiàn)象就沒辦法用二歧樹表示缎罢。真實(shí)的系統(tǒng)發(fā)生關(guān)系更像是網(wǎng)狀的伊群,存在各種復(fù)雜的情況考杉。
重建系統(tǒng)發(fā)育依據(jù)什么?——同源相似性狀
我們在上一節(jié)提到構(gòu)建系統(tǒng)發(fā)育樹依據(jù)的是性狀舰始,那么性狀和系統(tǒng)發(fā)育樹的關(guān)系是什么樣的呢崇棠?
Speciation events and divergence create character state distribution.
物種形成和分化伴隨著性狀狀態(tài)的分布。
下圖就是一個(gè)性狀狀態(tài)分布表現(xiàn)在系統(tǒng)發(fā)育樹上的例子丸卷。紅色和綠色代表一個(gè)性狀的兩個(gè)不同的性狀狀態(tài)(character?state)
不論是分子數(shù)性狀還是其他性狀枕稀,都必須遵守用來進(jìn)行比較生物學(xué)研究的性狀的基本條件:同源相似的(homogenous)。
Homology means the similarity of parts due to common ancestry. But we don't know evolution history, homology can only be hypothetical!
什么是同源性(homologous)呢谜嫉? 如果兩個(gè)物種的同一性狀繼承自它們的共同祖先萎坷,那么這一性狀是同源的。但實(shí)際上我們并不可能預(yù)先知道演化歷史沐兰,因此同源性都是假設(shè)的哆档。
什么是同源相似性呢丐谋?
就是一個(gè)性狀在多個(gè)物種中表現(xiàn)出相似性是因?yàn)檫@一性狀繼承自它們的共同祖先锯玛。如果同源性狀狀態(tài)只進(jìn)化了一次并且在最初進(jìn)化出這一性狀的祖先的所有后裔中都保留了下來,那么這些共享的同源性狀狀態(tài)就提供了不同物種擁有共同祖先的最好證據(jù)秋冰。比如比原,馬和斑馬的一趾繼承于他它們的共同祖先插佛。
有同源相似的,就有非同源相似的(homoplasious)量窘。
非同源相似指一個(gè)性狀在多個(gè)物種中表現(xiàn)出相似性雇寇,但是在不同物種中的性狀狀態(tài)并不繼承自共同祖先,而是多次獨(dú)立進(jìn)化產(chǎn)生的蚌铜,比如兩足運(yùn)動方式在人類和獸腳類恐龍中是各自獨(dú)立演化的谢床。
造成非同源相似的原因有很多,比如進(jìn)化逆轉(zhuǎn)厘线,趨同進(jìn)化(convergence)和平行進(jìn)化(parallelism)识腿。
為什么我們要求同源相似呢?因?yàn)橄到y(tǒng)發(fā)育樹的分支發(fā)生的順序界定了物種親緣關(guān)系的遠(yuǎn)近造壮,而非性狀的相似性渡讼。比如蜥蜴類和鱷魚類從形態(tài)性狀上看更相似,但是鱷魚和鳥的親緣關(guān)系更近耳璧。因?yàn)轵狎骖惡枉{魚類存在平行進(jìn)化成箫。
那么問題來了:我們的前提是所有的生物類群都來自于同一個(gè)共同祖先,那么只憑借同源相似性狀怎么可能把這分類群分開呢旨枯?其實(shí)在進(jìn)行演化歷史分支時(shí)蹬昌,憑借的是共有衍征(synapomorphy)。
個(gè)人感覺共有衍征是個(gè)相對的概念攀隔,舉個(gè)例子:
脊椎的存在被視為所有脊椎動物擁有共同祖先的證據(jù)皂贩,因?yàn)橛谐浞值睦碛烧J(rèn)為脊椎只進(jìn)化了一次栖榨,而且在脊椎動物共同祖先的所有后裔中都保留了。此時(shí)脊椎的存在對所有脊椎動物來說是同源相似性狀明刷,但是我們后退一步婴栽,把無脊椎動物也包括在視野里,這是脊椎的存在就成了衍生的性狀狀態(tài)辈末,是所有脊椎動物的共有衍征愚争。靠脊椎的存在挤聘,我們就可以把脊椎動物這一個(gè)clade和無脊椎動物這一clade分開轰枝,實(shí)現(xiàn)分支。
Phylogeny:link between process and pattern
簡單地說组去,系統(tǒng)發(fā)育就是將演化過程和性狀模式連接起來的紐帶鞍陨。
上圖展示的是在已知物種演化關(guān)系時(shí)對不同性狀演化關(guān)系的分析,但是實(shí)際情況是我們并不知道物種的演化關(guān)系添怔,因此判斷性狀的同源性是十分困難和重要的湾戳。
系統(tǒng)發(fā)育關(guān)系的表現(xiàn)形式——系統(tǒng)發(fā)育樹
我們常說建樹贤旷,那什么是系統(tǒng)發(fā)育樹(phylogenetic tree)广料?
A phylogenetic tree represents the evolutionary relationship among a set of organisms or groups of organisms, called taxa(singular: taxon) that are believed to have a common ancestor.
系統(tǒng)發(fā)育樹是對認(rèn)為有共同祖先的一組生物類群的分枝進(jìn)化歷史-祖先譜系分支形成各種各樣的后代譜系的歷史-的一種展示。
廣義上的系統(tǒng)發(fā)育樹也包括描述基因幼驶、個(gè)體艾杏、種群等種下階元之間系統(tǒng)發(fā)生關(guān)系假說的樹狀圖。我們在這里說的以物種為單位的系統(tǒng)發(fā)育樹也稱為基本系統(tǒng)發(fā)育樹
The topology and associated branch length information will be referred together here as a tree.
拓?fù)浣Y(jié)構(gòu)(topology)和相關(guān)的分支長度(branch length)信息一起構(gòu)成了系統(tǒng)發(fā)育樹盅藻。
先說topology(拓?fù)浣Y(jié)構(gòu))吧购桑。
topology也被稱為branch pattern(分支型式)。個(gè)人感覺是一眼望過去大概得到的信息氏淑,包括taxa(分類群) 在系統(tǒng)發(fā)育樹上的分支情況勃蜘,各分支的排列和相對位置。這種分支情況是對taxa演化歷史的反映假残。
拓?fù)浣Y(jié)構(gòu)信息(topological information)包括了節(jié)點(diǎn)(a set of nodes, commonly referred to as vertices)缭贡、內(nèi)部分支(internal branches)和外部分支(external braches; braches, commonly referred to as edges)。
每個(gè)節(jié)點(diǎn)代表的是共同祖先(hypothetical common ancestor)辉懒,共同祖先并不是證明真實(shí)存在的阳惹,而是假想的。
分支代表的是譜系(lineages)眶俩,一個(gè)譜系內(nèi)部分支連接兩個(gè)節(jié)點(diǎn)莹汤,而外部分支只連接一個(gè)節(jié)點(diǎn),沒有連接節(jié)點(diǎn)的一端(tip)代表一個(gè)taxa颠印。taxa代表我們進(jìn)行比較的,現(xiàn)實(shí)存在的分類群(real taxa for which character have been coded)纲岭,也有參考書把它們稱為可操作分類單元(OTU,operational taxonomic unit)抹竹。
下面來說分支和分支長度。
分支長度(branch length)是進(jìn)化時(shí)間和進(jìn)化速率的乘積(b=r·t)荒勇。但是分支長度并不一定等于進(jìn)化改變數(shù)量柒莉,而是與進(jìn)化改變數(shù)量成正比或是進(jìn)化改變的預(yù)期值。
系統(tǒng)發(fā)育樹可以是有方向(directed)的或有根的(rooted)沽翔,也可以是無方向(undirected)的或無根(unrooted)兢孝。
系統(tǒng)發(fā)生樹的根(root)是最先分叉并產(chǎn)生兩個(gè)或更多后裔的祖先譜系。根決定了所有性狀隨時(shí)間變化的先后順序仅偎,即性狀演化的方向跨蟹。所以有根樹可以反映分類群從樹根部的共同祖先分化出來的時(shí)間順序。
那么怎么賦根呢橘沥?
最常見的方法的方法是引入外類群窗轩。
我們感興趣,進(jìn)行研究和比較的分類群稱為內(nèi)類群(ingroup)座咆,而在建樹時(shí)痢艺,我們會加入外類群(outgroup),即一個(gè)或幾個(gè)與內(nèi)類群物種的親緣關(guān)系肯定要比內(nèi)類群物種間的親緣關(guān)系更遠(yuǎn)(根據(jù)先驗(yàn)證據(jù)而判定)的分類群介陶。因此合理的系統(tǒng)發(fā)育樹的樹根應(yīng)該位于ingroup和outgroup之間堤舒。
當(dāng)然除了外群賦根(outgroup rooting),還有其他方法:分子鐘賦根法哺呜,也稱為中點(diǎn)賦根法(midpoint rooting)舌缤,是將系統(tǒng)樹上通徑最長的兩個(gè)taxa的中點(diǎn)做為根。其原理是根據(jù)分子鐘假說某残,
以rooted tree為例国撵,任一祖先的所有后代譜系形成了一個(gè)進(jìn)化枝(clade)。下圖中玻墅,B介牙、C形成了一個(gè)進(jìn)化枝,E澳厢、F形成了一個(gè)進(jìn)化枝环础,D、E赏酥、F一起也形成一個(gè)進(jìn)化枝喳整。而起源于一個(gè)共同祖先的兩個(gè)進(jìn)化枝叫做姐妹群(sister group),這里B裸扶、C形成的進(jìn)化枝和D框都、E、F一起形成的進(jìn)化枝就叫做sister?group。
一個(gè)進(jìn)化枝也叫做單系群魏保,那么什么是單系(monophyletic)熬尺,多系(polyphyletic)和并系(paraphyletic)呢?先上張圖體會下谓罗。
單系性(monophyly)是指從一個(gè)共同祖先進(jìn)化而來粱哼,符合單系性要求的任何分類單元都被稱為單系群(monophyletic group),即來自同一共同祖先的全部后代
并系性(paraphyly)指分類單元沒有完全包含一個(gè)共同祖先所產(chǎn)生的全部后代檩咱。并系群(paraphyletic group)包含了一個(gè)來自最近共同祖先的部分后裔及其演化分支揭措。
多系性(polyphyly)是指分類單元包含了兩個(gè)或多個(gè)最近共同祖先的后裔,即多元起源的分類單元刻蚯。包含了兩個(gè)或多個(gè)最近共同祖先的分類單元稱為多系群(polyphyletic group)绊含。
從系統(tǒng)發(fā)育樹中可以得到:祖裔關(guān)系(ancestor-descendent relationship, ADR)、相對祖先近度關(guān)系炊汹、姐妹群關(guān)系躬充、相對進(jìn)化速率關(guān)系和分歧年代關(guān)系。
系統(tǒng)發(fā)育:優(yōu)秀卻不完美——取樣的不完整
盡管重建地球上所有生物完整的演化歷史是系統(tǒng)發(fā)育的終極目標(biāo)讨便,但是充甚,清醒一點(diǎn)吧,地球上存在過的99%以上的生物都已經(jīng)滅絕了霸褒,保留化石記錄的生物數(shù)量只占其中很小的一部分伴找。我們用來建樹的證據(jù)也只是現(xiàn)存物種中的一部分,并沒有收集完全傲霸,這種分類單元取樣的不完整性在不同程度上會影響系統(tǒng)發(fā)育重建的結(jié)果疆瑰。
所以我們要明白系統(tǒng)發(fā)育重建的關(guān)系與真實(shí)的生物演化歷史還是存在區(qū)別的眉反。
關(guān)于要不要把化石證據(jù)納入到系統(tǒng)發(fā)育分析中也存在很大的爭議昙啄。如果我們將化石證據(jù)納入到系統(tǒng)發(fā)育分析中,這里有三個(gè)名詞寸五,將來自一個(gè)祖先的所有現(xiàn)存分類單元稱為冠群(crown taxa)梳凛,已經(jīng)滅絕的化石類群稱為基群(stem taxa),基群和冠群聯(lián)合起來稱為總?cè)?total taxa)梳杏。
那么研究phylogeny的意義在哪呢韧拒?
Phylogenies provide a system for
1)representing hypotheses of evolutionary relationship.
2)Assigning organisms to taxa.
3)Describing the distribution of character states among taxa
4)Representing relative divergence times, or calibrated divergence time.
那么什么樣的phylogeny才是最好的呢?
The phylogeny that correlates with character state distribution(DATA) is the best十性。
既然是用character state 推斷phylogeny叛溢,那么當(dāng)然是與觀察到的性狀狀態(tài)分布相關(guān)的系統(tǒng)發(fā)育關(guān)系是最好的。
那么一組分類群可能的系統(tǒng)發(fā)育關(guān)系有千千萬劲适,我們怎么確定那個(gè)最好楷掉?
?我們以后將介紹其中常見的三個(gè)方法:
Maximum Parsimony(最大簡約法)
Maximum Likelihood(最大似然法)
Bayesian Phylogenetics(貝葉斯系統(tǒng)發(fā)生學(xué))