一胃珍、背景資料
進(jìn)化樹(evolutionary tree)又名系統(tǒng)樹(phylogenetie tree)進(jìn)化樹梁肿,用來表示物種間親緣關(guān)系遠(yuǎn)近的樹狀結(jié)構(gòu)圖蜓陌。在進(jìn)化樹中,各個分類單元(物種)依據(jù)進(jìn)化關(guān)系的遠(yuǎn)近栈雳,被安放在樹狀圖表上的不同位置护奈。所以,進(jìn)化樹簡單地表示生物的進(jìn)化歷程和親緣關(guān)系哥纫。已發(fā)展成為多學(xué)科(包括生命科學(xué)中的進(jìn)化論霉旗、遺傳學(xué)、分類學(xué)蛀骇、分子生物學(xué)厌秒、生物化學(xué)、生物物理學(xué)和生態(tài)學(xué),又包括數(shù)學(xué)中的概率統(tǒng)計擅憔、圖論鸵闪、計算機(jī)科學(xué)和群論)交叉形成的一個邊緣領(lǐng)域。
Phylogenetic trees are used to describe genealogical relationships among a group of organisms, which can be constructed based on the genetic sequences of the organisms. A rooted phylogenetic tree represents a model of evolutionary history depicted by ancestor-descendant relationships between tree nodes and clustering of ‘sister’ or ‘cousin’ organisms at a different level of relatedness.
In infectious disease research, phylogenetic trees are usually built from the pathogens’ gene or genome sequences to show which pathogen sample is genetically closer to another sample, providing insights into the underlying unobserved epidemiologic linkage and a potential source of an outbreak.
生物進(jìn)化的總趨勢有以下幾類
- 結(jié)構(gòu)上:由簡單到復(fù)雜暑诸;
- 生活環(huán)境上:由水生到陸生蚌讼;
- 進(jìn)化水平上:由低等到高等;
一般來說个榕,進(jìn)化樹是一個二叉樹篡石。它由很多的分支和節(jié)點構(gòu)成。根據(jù)位置的不同西采,進(jìn)化樹的節(jié)點分為外部節(jié)點和內(nèi)部節(jié)點凰萨,外部節(jié)點就是我們要進(jìn)行分類的分類單元(物種)。而物種之間的進(jìn)化關(guān)系則用節(jié)點之間的連線表示械馆。內(nèi)部節(jié)點表示進(jìn)化事件發(fā)生的地方胖眷,或表示分類單元進(jìn)化的祖先。在同一個進(jìn)化樹中霹崎,分類單元的選擇應(yīng)當(dāng)標(biāo)準(zhǔn)一致珊搀。進(jìn)化樹上不同節(jié)點之間的連線稱為分支,其中有一端與葉子節(jié)點相連的分支稱為外枝尾菇,不與葉子節(jié)點相連的分支稱為內(nèi)枝食棕。
進(jìn)化樹一般有兩種:有根樹和無根樹。
- 有根樹:有一個鮮明的特征错沽,那就是它有一個唯一的根節(jié)點。這個根節(jié)點可以理解為所有其他節(jié)點的共同祖先眶拉。所以千埃,有根樹能可以準(zhǔn)確地反映各個物種的進(jìn)化順序,從根節(jié)點進(jìn)化到任何其他節(jié)點只有能有一條惟一的路徑忆植。
- 無根樹:不能直接給出根節(jié)點放可,無根樹只反映各個不同節(jié)點之間的進(jìn)化關(guān)系的遠(yuǎn)近,沒有物種如何進(jìn)化的過程谒臼。但是,我們可以在無根樹種指派根節(jié)點,從而找出各個物種的進(jìn)化路徑。
拓?fù)浣Y(jié)構(gòu)
- 有根樹:反映時間順序耀里;
- 無根樹:反映距離蜈缤;
分子進(jìn)化樹(以分子數(shù)據(jù)為依據(jù)構(gòu)建的進(jìn)化樹)不僅精確地反映物種間或群體間在進(jìn)化過程中發(fā)生的極微細(xì)的遺傳變異(小至一個氨基酸或一個核昔酸差異),而且借助化石提供的大分子類群的分化年代能定量地估計出物種間或群體間的分化年代冯挎,這對進(jìn)化論的研究而言無疑是一場革命底哥。
序列比較是生物信息學(xué)中最頻繁也是最有價值的工作。要知道一個序列(結(jié)構(gòu))與另一個序列(結(jié)構(gòu))或者與一批序列(結(jié)構(gòu))之間的差異房官,唯一的途徑就是序列(結(jié)構(gòu))的比較分析趾徽。序列水平上的比較反映的是字符串之間的差異,能夠發(fā)現(xiàn)堿基序列或者氨基酸序列的保守模式翰守。
但是孵奶,在分子生物學(xué)中,比較是多方面的蜡峰,除了核酸或蛋白質(zhì)序列的比較了袁,也可以是結(jié)構(gòu)的比較等。事實上湿颅,相差很大的序列可以形成具有相同功能的分子载绿。而結(jié)構(gòu)水平上的比較更能反映功能上的差異,能夠發(fā)現(xiàn)與功能緊密相關(guān)的結(jié)構(gòu)域肖爵。結(jié)構(gòu)比較方面的工作都是圍繞蛋白質(zhì)及 RNA 展開的卢鹦。
構(gòu)建進(jìn)化樹的方法包括兩種:一類是序列類似性比較,主要是基于氨基酸相對突變率矩陣(常用PAM250)計算不同序列差異性積分作為它們的差異性量度(序列進(jìn)化樹);另一類在難以通過序列比較構(gòu)建序列進(jìn)化樹的情況下,通過蛋白質(zhì)結(jié)構(gòu)比較包括剛體結(jié)構(gòu)疊合和多結(jié)構(gòu)特征比較等方法建立結(jié)構(gòu)進(jìn)化
三種主要的建樹方法分別是距離法( distance method )、最大節(jié)約法( maximum parsimony , MP )和最大似然法( maximum likelihood , ML )劝堪。
二冀自、同源性
同源性( homology )是比較生物學(xué)中的一個中心概念。同源,最基本的意義就是具有共同祖先秒啦。一般來說,如果兩個物種中有兩個性狀滿足一下兩個條件中的任意一個,就可以稱這兩個性狀為一對同源狀熬粗。
在分子進(jìn)化研究中,同源性一般是指兩個核酸分子的核苷酸序列或者兩種蛋白質(zhì)的氨基酸序列質(zhì)檢的相似程度。序列分析是最終測定同源性程度的方法余境。
- 直系同源( orthology ):可以反映物種血統(tǒng)上的同源性驻呐,即物種進(jìn)化的歷史;
- 并系同源( paralogy ):只反映基因進(jìn)化的歷史芳来;
- 異同源( xenology ):僅僅部分反映基因進(jìn)化歷史含末;
- 多異同源( paraxenology ):與異同源的不同點在于主要基因組中它擁有的兩個或者更多的外源基因拷貝;
- 部分同源( plerology ):由許多不同功能部分組成,而一個基因的組成中包含其他基因的片段即舌;
三佣盒、系統(tǒng)發(fā)育樹格式
有多種文件格式旨在存儲系統(tǒng)發(fā)育樹以及與節(jié)點和分支相關(guān)的數(shù)據(jù)。三種常用的格式是 Newick 2顽聂、NEXUS ( Maddison et al. 1997 )和 Phylip ( Joseph Felsenstein 1989 )肥惭。某些格式(例如NHX)是從 Newick 格式擴(kuò)展而來的盯仪。進(jìn)化生物學(xué)中的大多數(shù)軟件都支持 Newick 和 NEXUS 格式作為輸入,而一些軟件工具通過引入用于存儲進(jìn)化推理的新規(guī)則/數(shù)據(jù)塊來輸出更新的標(biāo)準(zhǔn)文件(例如蜜葱,BEAST和MrBayes)全景。在其他情況下(例如,PAML和r8s)牵囤,輸出的日志文件只能被自己的單個軟件識別爸黄。
Newick 樹格式
樹文件一般是nwk格式(Newick),輸出bootstrap值奔浅,是按括號冒號等格式來存儲信息的馆纳。所以名稱最好不要帶有中英文括號、冒號等信息汹桦,否則發(fā)生意想不到的錯誤鲁驶。Newick 樹格式是以計算機(jī)可讀形式表示樹的標(biāo)準(zhǔn)。
上圖所示的有根樹可以由以下字符序列表示為 Newick 樹文本舞骆。
((t2:0.04,t1:0.34):0.89,(t5:0.37,(t4:0.03,t3:0.67):0.9):0.59);
樹文本以分號結(jié)尾钥弯。內(nèi)部節(jié)點由一對匹配的括號表示。括號之間是該節(jié)點的后代節(jié)點督禽。例如 (t2:0.04,t1:0.34) 表示 t2 和 t1 的父節(jié)點脆霎,它們是直接后代。兄弟節(jié)點用逗號分隔狈惫,提示由它們的名稱表示睛蛛。分支長度(從父節(jié)點到子節(jié)點)由子節(jié)點后面的實數(shù)表示,前面是冒號胧谈。與內(nèi)部節(jié)點或分支相關(guān)聯(lián)的單一數(shù)據(jù)(例如忆肾,引導(dǎo)值)可以編碼為節(jié)點標(biāo)簽并由冒號前的簡單文本/數(shù)字表示。
四菱肖、系統(tǒng)發(fā)育樹怎么看
用于展示具有親緣關(guān)系的物種/基因之間的種系發(fā)生(phylogeny)歷史的樹狀圖(dendrogram)客冈,就是系統(tǒng)發(fā)育樹(phylogenetic tree),俗稱進(jìn)化樹稳强。我們很容易可以從一棵樹上看到哪個物種跟哪個物種更相似场仲,可是當(dāng)我們真正要用一段話去描述這棵樹的時候,往往有點不知所措退疫。這里渠缕,我將介紹一下系統(tǒng)發(fā)育樹是怎么看的。
首先來學(xué)習(xí)一下系統(tǒng)發(fā)育樹的基本結(jié)構(gòu)褒繁。故名思意亦鳞,系統(tǒng)發(fā)育樹具有與樹類似的結(jié)構(gòu):
1. 根 (Root)
所有分支的共同祖先叫做根。根據(jù)有無根可分為:
- 有根樹:可以從樹中找到共同的祖先。
- 無根樹:顧名思義蚜迅,沒有根,也就找不到共同的祖先俊抵。
2. 進(jìn)化支 (Branch)
從根開始生長谁不,每次分出兩條枝也叫分支,指兩種及以上的生物或序列組成的進(jìn)化關(guān)系徽诲。
可以利用這個來看同源刹帕。比如,下圖中人基因1與人基因2可能是旁系同源基因谎替,而人基因1與鼠基因1可能是直系同源基因偷溺。
3. 結(jié)點 (Node)
枝生長到一定程度后,再次分枝的地方稱為內(nèi)節(jié)點(internal node)钱贯。每個結(jié)點代表一個分類單元挫掏,物種上可以是屬,種群等秩命,基因上可以是基因家族尉共,同源物等。
4. 葉節(jié)點(leaf)
樹的最末端稱為葉節(jié)點(leaf)弃锐,有時候也叫tip袄友。
5. 進(jìn)化枝(clade)
包含多個葉節(jié)點的分支稱為進(jìn)化枝(clade)。
以上是樹的基本結(jié)構(gòu)霹菊。如果只有這些結(jié)構(gòu)剧蚣,還不能稱其為系統(tǒng)發(fā)育樹,只能說是一個樹狀圖旋廷。只有當(dāng)我們賦予該樹狀圖以生物學(xué)意義的時候鸠按,才能稱為系統(tǒng)發(fā)育樹:
- 一個葉節(jié)點代表一個生物類群(taxon),如人類柳洋。
- 一個內(nèi)部節(jié)點代表一個假想的祖先(ancestor)待诅。這個祖先在歷史中存在,但往往已經(jīng)滅絕熊镣。為什么要加上“假想”卑雁,是因為我們沒有確切的證據(jù)去證明這個祖先到底是什么。人類绪囱、倭黑猩猩测蹲、黑猩猩的匯集處代表這三者的共同祖先,由于這個節(jié)點距離這三個類群最近鬼吵,所以把該節(jié)點稱為這三個類群的最近共同祖先(Most Recent Common Ancestor, MRCA)扣甲。與祖先對應(yīng)的詞匯是后代(descendants)。
- 枝 的長度用于衡量祖先和后代之間的遠(yuǎn)近。根據(jù)樹的構(gòu)建方法不同琉挖,枝的長度可以有不同含義启泣。如果使用基于進(jìn)化模型的方法(貝葉斯法/最大似然法),枝的長度代表堿基替換速率示辈。如果使用基于距離的方法則代表的是距離寥茫。因為用于構(gòu)樹的性狀、構(gòu)樹的方法對枝長影響很大矾麻,所以不同的樹之間的距離往往無法直接比較纱耻。有些系統(tǒng)發(fā)育樹的枝長會被忽略掉,此時枝的長度是沒有意義的险耀。
- 根節(jié)點代表所有類群的共同祖先弄喘。不是所有系統(tǒng)發(fā)育樹都是有根的,沒有根的系統(tǒng)發(fā)育樹稱為無根樹甩牺。
除了以上基礎(chǔ)結(jié)構(gòu)蘑志,有的系統(tǒng)發(fā)育樹還包含以下內(nèi)容:
- 支持度:內(nèi)部節(jié)點有時候會有一個數(shù)字,稱為支持度(support value)柴灯,用于代表 該分支結(jié)構(gòu)的可靠程度卖漫。值的大小在0%-100%之間。和枝長一樣的是赠群,支持度也有不同的計算方法羊始,如普通的bootstrap value、Ultra fast bootstrap查描、后驗概率等突委。值越大,說明越多證據(jù)支持該分支冬三。
- 外群/外類群(outgroup):目標(biāo)類群之外的類群匀油。如果我們的目標(biāo)類群是人類和黑猩猩,那么可以選用大猩猩來作為外群勾笆。外群一般用于給系統(tǒng)發(fā)育樹賦根敌蚜,賦根之后我們才能從進(jìn)化樹上看出演化的先后順序。
- 演化時間:如果能夠找到明確的歷史記錄或者化石證據(jù)窝爪,確切地知道某個已經(jīng)滅絕的物種曾經(jīng)存在的時間弛车,就可以用于校正系統(tǒng)發(fā)育樹的時間。經(jīng)過校正的系統(tǒng)發(fā)育樹有時候稱為time tree蒲每。
五纷跛、進(jìn)化樹評估
1. Bootstrap檢驗
對于進(jìn)化樹評估一般會使用 Bootstrap 進(jìn)行檢驗。
Bootstrap檢驗邀杏,自舉法檢驗贫奠,也叫自展,自助法。其實就是放回式抽樣統(tǒng)計法的一種唤崭,通過對數(shù)據(jù)集多次重復(fù)取樣拷恨,構(gòu)建多個進(jìn)化樹,用來檢查給定樹的分枝可信度谢肾。
2. 重復(fù)取樣值
那么重復(fù)取樣的次數(shù)會在建樹時設(shè)置挑随,現(xiàn)在一般文章要求Bootstrap 取樣值 >1000。
3. Bootstrap value 閾值
雖然根據(jù)嚴(yán)格的統(tǒng)計學(xué)概念勒叠,自展值需要要大于95%才較為可信。
然而在實際應(yīng)用中膏孟,我們一般認(rèn)為結(jié)點的 Bootstrap value > 70眯分,這個分支就是可靠的。特別是微生物等相似度比較大的分類中柒桑,一般大于50%就認(rèn)為可信(小于50%不會顯示)弊决。
4. Bootstrap value 與分支
如果低 Bootstrap value 更靠近分支末端,代表相似度太高而很難區(qū)分
如果低 Bootstrap value 更靠近根魁淳,代表相似度太低
六飘诗、其他常見名詞
1. Monophyletic groups (clades)
一個 單系群 (monophyletic group) 包括所有的擁有一個共同祖先的物種。在系統(tǒng)發(fā)生樹上界逛,單系統(tǒng)組包括一個節(jié)點和該節(jié)點的所有后代昆稿,由節(jié)點和末端分類單元表示。 因此息拜,一個單系群也可以看作是一個進(jìn)化枝溉潭。
圖中節(jié)點1和物種B、C組成一個單系群少欺,節(jié)點2和物種A喳瓣、B、C也可以組成一個單系群赞别,所以單系群之間可以有包含關(guān)系畏陕,對一個單系群的確定卻決于節(jié)點的選擇。
2. Paraphyletic Groups
類似于單系群仿滔,并系群(Paraphyletic Groups) 也是一組包含了共同祖先的物種惠毁,不同的是并系群并不一定包含這個共同祖先的所有后代。
圖中節(jié)點2和物種A堤撵、B組成的并系群仁讨,可以看作是上一張圖中深藍(lán)色標(biāo)注的單系群去掉物種C。
3. Polyphyletic Groups
多系群(Polyphyletic Groups) 指的是一組由不同祖先進(jìn)化而來的物種
由于基因測序的出現(xiàn)实昨,許多從前的并系群和多系群被拆散并重新定義為單系群洞豁,但在結(jié)構(gòu)(解剖,形態(tài)和/或發(fā)育),生活史和/或生態(tài)環(huán)境分類中并系群和多系群的存在還是有其意義的丈挟。
常見問題
1. 為什么有的葉節(jié)點是物種刁卜,有的是基因?
- 葉節(jié)點是物種的樹曙咽,稱為物種樹蛔趴,表示物種的演化模式。
- 葉節(jié)點是基因的樹例朱,稱為基因樹孝情,表示基因的演化模式。
2.有根樹和無根樹
根據(jù)是否指定了根節(jié)點洒嗤,系統(tǒng)發(fā)育樹可以分為有根樹和無根樹箫荡。
- 有根樹指定了根節(jié)點,樹中可以看出各個節(jié)點的距離和祖先節(jié)點以后各個分枝分化的先后關(guān)系渔隶,因此可以用于分化時間的推斷羔挡;
- 無根樹沒有指定祖先節(jié)點,只能看出各個節(jié)點的拓?fù)浣Y(jié)構(gòu)和相對距離间唉。
無根樹和有根樹圖示如下圖绞灼。
- 左邊的無根樹只看到了材料的聚類關(guān)系和相對距離的遠(yuǎn)近,無法判斷哪個分枝屬于較為古老的分枝呈野,哪個分枝為比較年輕的分枝低矮;
- 而右邊的有根樹加了外群,并且把外群指定為根被冒,所以從圖中除了可以看到材料的相對距離以外商佛,還可以可以看到各個分枝材料的分化順序。
有根樹根的選擇應(yīng)有所講究姆打,一般選擇所研究的材料(根以下的全部材料)的最近的共同近緣種作為外群良姆。
3. 物種樹和基因樹長得很像,兩者有什么聯(lián)系和區(qū)別幔戏?
測序技術(shù)發(fā)明以前玛追,我們常常用生物的性狀來推測物種樹。測序技術(shù)發(fā)明之后闲延,我們常常用基因序列來推測物種樹痊剖。因為基因和物種往往是共同演化的,所以往往有相同的演化模式垒玲,因此可以用基因樹來推測物種樹陆馁。然而由于存在基因缺失、基因水平轉(zhuǎn)移合愈、基因重復(fù)等現(xiàn)象叮贩,并不是所有基因樹都與物種樹一致的击狮。如下圖,A物種最初丟失了紅色的基因益老,后來又從B物種的祖先中得到了這個基因彪蓬,導(dǎo)致紅色的基因樹與物種樹不一致。
參考:
https://www.renrendoc.com/paper/89627962.html
https://blog.csdn.net/weixin_33861800/article/details/86112643
https://zhuanlan.zhihu.com/p/351805254
https://zhuanlan.zhihu.com/p/338937831