首段放文章鏈接:https://www.nature.com/articles/nrg3186
最近在幫一個師姐做直系同源基因的物種進(jìn)化樹汛聚,補(bǔ)充一些進(jìn)化方面的基礎(chǔ)知識是很有必要的,畢竟沒有生物學(xué)背景的分析特別危險(xiǎn)(https://mp.weixin.qq.com/s/5HXUH4lWVc70d1CKJOQ73g)讲坎。
Abstract
這篇文章主要總結(jié)了進(jìn)化分析的一些主要方法,包括parsimony,distance,likelihood,和Bayesian methods鸠儿。并且討論了它們各自的優(yōu)點(diǎn)和缺點(diǎn)果录,并對于它們的使用提供了指導(dǎo)。
Noun explanation
systematics(系統(tǒng)學(xué)):推斷物種間的進(jìn)化關(guān)系丸卷,并且使用這些信息來進(jìn)行分類。
Taxonomy(分類學(xué)):描述询刹、分類和命名物種谜嫉。
Coalescent(合并): 追溯從現(xiàn)代人口中隨機(jī)抽取的一個序列樣本的系譜關(guān)系時,將祖先譜系連接起來的過程凹联。
Gene trees(基因樹):在一個基因位點(diǎn)或基因組區(qū)域序列的系統(tǒng)發(fā)育或系譜樹沐兰。
Statistical phylogeography(統(tǒng)計(jì)系統(tǒng)地理學(xué)): 對密切相關(guān)物種的種群數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以推斷種群參數(shù)和過程蔽挠,如種群大小住闯、人口統(tǒng)計(jì)學(xué)、遷移模式和速率。
Species tree(物種樹):基于單個位點(diǎn)基因樹的一系列物種進(jìn)化樹比原。
Systematic errors(系統(tǒng)誤差): 由不正確的模型假設(shè)引起的錯誤插佛。當(dāng)數(shù)據(jù)量增加時,誤差會加劇 量窘。
Random sampling errors(隨機(jī)樣本錯誤): 由于數(shù)據(jù)有限雇寇,參數(shù)估計(jì)中的誤差或不確定性。
Cluster algorithm(聚類算法): 一種將一組個體分配給組(或集群)的算法蚌铜,使同一集群中的對象之間比來自不同集群的對象更相似锨侯。層次聚類分析可以是聚集性的(從單個元素開始,依次將它們加入集群)厘线,也可以是分裂性的(從所有對象開始识腿,依次將它們劃分為分區(qū)) 。
Markov chain(馬爾科夫鏈): 一個隨機(jī)的狀態(tài)序列(或鏈)造壮,其性質(zhì)是,給定當(dāng)前狀態(tài)骂束,下一個狀態(tài)的概率不依賴于過去的狀態(tài)耳璧。
Transitions(轉(zhuǎn)換):嘧啶之間(T?C)或嘌呤之間(A?G)的替換。
Transversions(顛換):嘧啶和嘌呤之間替換(T or C?A or G).
Unrooted trees(無根樹): 進(jìn)化樹中根的位置是不確定的展箱。
Long-branch attraction: 一種不正確的樹旨枯,其長枝干基于parsimony或基于過于簡單的模型不正確地組合在一起。
likelihood ratio test: 使用likelihood來比較兩個嵌套假設(shè)的一般的假設(shè)檢驗(yàn)方法,通常使用χ2分布來評估混驰。
Molecular clock: 一種假說攀隔,假定進(jìn)化率是隨著時間或跨系譜而保持不變。
Prior distribution(先驗(yàn)分布): 在分析數(shù)據(jù)之前分配給參數(shù)的分布栖榨。
Posterior distribution(后驗(yàn)分布): 參數(shù)(或模型)的分布取決于數(shù)據(jù)昆汹。它結(jié)合了先驗(yàn)和數(shù)據(jù)(likelihood)中的信息 。
Markov chain Monte Carlo algorithms(MCMC 算法): 蒙特卡羅模擬是使用隨機(jī)數(shù)對生物過程進(jìn)行的計(jì)算機(jī)模擬婴栽。MCMC算法是一種蒙特卡羅模擬算法满粗,它從目標(biāo)分布(通常是貝葉斯后驗(yàn)分布)中生成樣本。
直系同源愚争,旁系同源的區(qū)別(From Wikipedia)
在遺傳學(xué)中映皆,同源這一概念主要是指序列同源,表明兩個或多個蛋白質(zhì)或DNA序列具有相同的祖先轰枝。同源的序列也很可能有相似的功能捅彻。 蛋白質(zhì)和DNA的同源性常常通過它們序列的相似性來判定。
同源序列可分為兩種:直系同源(orthology)和旁系同源(paralogy)鞍陨。直系同源的序列因物種形成(speciation)而被區(qū)分開(separated):若一個基因原先存在于某個物種步淹,而該物種分化為了兩個物種,那么新物種中的基因是直系同源的;旁系同源的序列因基因復(fù)制(gene duplication)而被區(qū)分開(separated):若生物體中的某個基因被復(fù)制了贤旷,那么兩個副本序列就是旁系同源的广料。直系同源的一對序列稱為直系同源體(orthologs),旁系同源的一對序列稱為旁系同源體(paralogs)幼驶。若兩個旁系同源基因(paralogs)的基因拷貝(gene duplication)是已發(fā)生在物種形成前艾杏,則這兩個旁系同源(paralogs)可互稱為“前重復(fù)同源基因”(outparalogs),可簡稱為“前重復(fù)”(outparalogs)盅藻;若于物種形成后某個直系同源基因(an ortholog)才發(fā)生基因復(fù)制(gene duplication)购桑,則互稱為“后重復(fù)”(inparalogs)。
直系同源體通常有相同或相似的功能氏淑,但對旁系同源體則不一定:由于缺乏原始的自然選擇的力量勃蜘,繁殖出的基因副本可以自由的變異并獲得新的功能。
Introduction
分子系統(tǒng)進(jìn)化學(xué)對于基因組比較來說假残,成為了一個不可或缺的工具缭贡。在本文中被用來對宏基因組序列進(jìn)行分類;在新測序的基因組中鑒定基因辉懒、調(diào)節(jié)原件和非編碼RNA阳惹;對現(xiàn)代和祖先的個體基因組進(jìn)行解讀;構(gòu)建祖先基因組眶俩。
Phylogenetic tree reconstruction: basic concepts
每一個分支代表一個遺傳譜系隨時間的延續(xù)莹汤,每一個節(jié)點(diǎn)代表一個新譜系的誕生。 如果樹表示一組物種之間的關(guān)系颠印,則節(jié)點(diǎn)表示物種形成事件纲岭。 在從一個群體中取樣的序列的基因樹中,節(jié)點(diǎn)代表個體從祖先中的出生事件线罕,而在一個旁系基因家族(paralogous gene families)的樹中止潮,節(jié)點(diǎn)可能代表基因復(fù)制事件。
進(jìn)化樹的構(gòu)建要么是基于距離的闻坚,要么是基于字符的沽翔。 在基于距離的構(gòu)建中,計(jì)算出每對序列之間的距離窿凤,并將得到的距離矩陣用于樹的重建仅偎。例如,neighbour joining 應(yīng)用聚類算法到距離矩陣來得到一個完全解決的種系發(fā)生事件雳殊。在基于字符的構(gòu)建方法中橘沥,包maximum parsimony, maximum likelihoodand Bayesian inference methods。這些方法同時比對所有的序列夯秃, 每次只考慮一個字符(相應(yīng)對齊的位置)來計(jì)算每棵樹的分?jǐn)?shù)座咆。 “樹分?jǐn)?shù)”是maximum parsimony的最小變化數(shù)痢艺,maximum likelihood的對數(shù)似然值和貝葉斯推理的后驗(yàn)概率。理論上來說介陶,通過比對所有可能的數(shù)能得到一個分?jǐn)?shù)最高的樹堤舒。實(shí)際上,除了小數(shù)據(jù)集外哺呜,大型數(shù)據(jù)是沒法這樣進(jìn)行的舌缤,因此就采用了啟發(fā)式的樹搜索算法。一個啟發(fā)式的樹搜索并不能保證在準(zhǔn)則下得到一個最好的樹某残,但是它對于分析大數(shù)據(jù)集是很有幫助的国撵。 為了描述數(shù)據(jù),distance matrix玻墅、maximum likelihood和貝葉斯推理都使用了替代模型介牙,因此都是基于模型的,而maximum parsimony沒有一個明確的模型澳厢,其假設(shè)是隱含的环础。
上圖解讀:
系統(tǒng)發(fā)生是系譜史演化的一種模式,其中分支的長度是未知的參數(shù)剩拢。a圖有兩個node喳整,代表了兩次物種形成事件,分別發(fā)生在t0期和t1期裸扶。 分支長度(b0、b1搬素、b2和b3)通常表示為每個位點(diǎn)的期望替換數(shù)量的單位呵晨,并沿著分支來衡量演化量。
如果取代率隨時間推移或在譜系間的變化是恒定的熬尺,我們就說分子鐘保持不變摸屠。這樣的話,樹因此就有根粱哼, 這意味著從樹的頂端到根的距離都是相等的季二,也就是圖上的(b0 + b1 = b0 + b2 = b3). 一個有s個物種的有根樹可以用s - 1個祖先節(jié)點(diǎn)的年齡來表示,從而涉及到s - 1個分支揭措。 通過假設(shè)分子鐘來推斷有根樹的過程叫做分子鐘有根樹胯舷。 對于親緣關(guān)系較遠(yuǎn)的物種,不應(yīng)假設(shè)分子鐘假說绊含。大多數(shù)進(jìn)化樹并不使用分子鐘假說桑嘶。## 如果樹上的每個分支都被允許有一個獨(dú)立的進(jìn)化率,那么常用的模型和方法就無法識別根的位置躬充,因此只能推斷出沒有根的樹逃顶。對于s個物種的無根樹有2s-3個分支數(shù)讨便。 一種常用的“使樹生根”的策略是在分析中包含外群體物種,這些外群體物種的親緣關(guān)系比相關(guān)物種的親緣關(guān)系要遠(yuǎn)得多以政, 盡管所有物種的推斷樹是無根的霸褒,但根被認(rèn)為位于通向外群的分支上,因此內(nèi)群物種的樹是有根的盈蛮。這種策略被稱為外群生根废菱。
Distance matrix method
D.1 Distance calculation
以核苷酸取代的馬爾科夫鏈模型為基礎(chǔ),計(jì)算成對的序列距離眉反。JC69模型假定任意兩核苷酸的替換是相同的比率昙啄,而K80模型假定轉(zhuǎn)換(transitions)和顛換(transversions)是不同的比率。這兩個模型都預(yù)測了四種核苷酸等同的頻率寸五。在HKY85模型和general time reversible(GTR)模型中梳凛,放寬了堿基頻率相等的假設(shè)。 由于局部突變率和選擇性約束的變化梳杏,DNA或蛋白質(zhì)序列的不同位點(diǎn)往往以不同的速率進(jìn)化韧拒。 在距離計(jì)算中,這樣的速率變化是通過假設(shè)gamma(Γ)位點(diǎn)的分布率,導(dǎo)致模型如JC69 +Γ,HKY85 +κ裕或GTR +Γ 叛溢。
D.2 Distance matrix methods
計(jì)算完距離后,在基于距離的算法中不再使用序列比對劲适。這里我們提到了三種方法:least squares(最小平方), minimum evolution and neighbour joining楷掉。
least squares最小化了距離矩陣中樹上的計(jì)算距離(dij)和預(yù)期的距離(d?ij)差異(也就是說,在樹上分支長度的總和連接了這兩個物種i和j),公式為:
minimum evolution方法使用樹的長度(即分支長度的總和)而不是Q來進(jìn)行樹的選擇霞势,即使分支長度仍然可以使用least squares來估計(jì)烹植。在minimum evolution法則中,較短的樹似乎比較長的樹更可靠愕贡。
neighbour joining 是使用最廣泛的計(jì)算距離的方法草雕。這是一個cluster算法,從一個星形樹開始固以,依次選擇一對分類群(基于距離的分類群)連接在一起墩虹,直到得到一個完全解析的樹。 選擇加入的taxa是為了最小化對樹長度的估計(jì) 憨琳。在MEGA中實(shí)施了有效的 neighbour joining诫钓。
D.3 Strengths and weaknesses of distance methods
基于距離算法的一大優(yōu)勢(特別是neighbour joining)是它們的計(jì)算效率。 聚類算法是快速的栽渴,因?yàn)樗恍枰蚼aximum parsimony尖坤、maximum likelihood那樣,比較最優(yōu)條件下的樹的數(shù)量闲擦。neighbour joining對于分析具有低水平序列差異的大型數(shù)據(jù)集是有用的慢味。 請注意场梆,使用現(xiàn)實(shí)的替代模型來計(jì)算兩兩距離可能很重要 。 distance methods對于差異大的序列表現(xiàn)很差纯路,因?yàn)榇蟮木嚯x包含了很大的樣本誤差或油,而且大多數(shù)距離方法(例如neighbour joining)不能解釋大距離估計(jì)的高水平的變化。distance methods也對序列比對中的gaps十分敏感驰唬。
Maximum parsimony
M.1 Parsimony tree score
在進(jìn)化樹中顶岸,Maximum parsimony通過將字符狀態(tài)分配給系統(tǒng)發(fā)生樹的內(nèi)部節(jié)點(diǎn)來最小化系統(tǒng)發(fā)生樹的變化數(shù)量。 字符(或位點(diǎn))長度是該位點(diǎn)所需的最小更改數(shù)叫编,而tree score是所有位點(diǎn)上字符長度的總和辖佣。maximum parsimony樹是最小化樹分?jǐn)?shù)的樹。
通過parsimony進(jìn)行的樹的比較搓逾,其中一些位點(diǎn)并不是有用的卷谈。 例如,在所有物種中都出現(xiàn)相同核苷酸的恒定位點(diǎn)霞篡,在任何樹上的字符長度都為零世蔗。 單例位點(diǎn)(其中只有一個物種有不同的核苷酸,而其他所有物種都是相同的)朗兵,也可以忽略污淋,因?yàn)樽址L度總是1 。 parsimony信息量位點(diǎn)是指至少觀察到兩個不同的特征余掖,每個特征至少兩次寸爆。對于四個物種來說,只有三個位點(diǎn)類型提供了有用信息:xxyy, xyxy, xyyx,其中x和y是任一兩個不同的核苷酸盐欺。對于四物種來說而昨,有三種可能的無根樹, 哪一種類型是Maximum parsimony找田,取決于三個位點(diǎn)模式中的哪一個在比對過程中最常發(fā)生。
Fitch和Hartigan開發(fā)了一種算法着憨,用于找出二叉樹的最小變化數(shù)(以及重建原始狀態(tài)以達(dá)到最小) 墩衙。PAUP,MEGA,TNT是通常使用的parsimony 程序。
Maximum parsimony的使用仍然很普遍:不是因?yàn)樗徽J(rèn)為是沒有假設(shè)的甲抖,而是因?yàn)樗?jīng)常產(chǎn)生合理的結(jié)果漆改,并且計(jì)算效率很高。
M.2 Strengths and weaknesses of parsimony
parsimony 的一大優(yōu)點(diǎn)是它的簡約性准谚,它容易去描述和理解挫剑,并且它服從嚴(yán)格的數(shù)學(xué)分析。
parsimony的一個主要缺點(diǎn)是缺乏明確的假設(shè)柱衔,這使得在樹的重建中幾乎不可能包含任何序列進(jìn)化過程的知識 由于在同一地點(diǎn)未能糾正多個取代物的錯誤樊破,由此導(dǎo)致了一個被稱為long-branch attraction的問題愉棱。如果正確的樹由一個短的內(nèi)部分支將兩個長的外部分支分開,parsimony傾向于推斷出不正確的樹哲戚,如fig3的a-b奔滑,并且將長分支歸為一組。 當(dāng)T1中的分支長度足夠極端時顺少,支持正確樹T1的位點(diǎn)模式xxyy的概率可能小于支持錯誤樹T2的位點(diǎn)模式xyxy朋其。因此, 序列中的位點(diǎn)越多脆炎,就越有可能在比xyxy更少的位點(diǎn)觀察到xxyy模式梅猿,也就越有可能選擇錯誤的T2樹作為Maximum parsimony樹 。 long-branch attraction已經(jīng)在許多真實(shí)的和模擬的數(shù)據(jù)集中被證明了秒裕,這是由于parsimony不能改正在同一地點(diǎn)的多個變化或也不能適應(yīng)兩個長分支上的并行變化袱蚓。
注意,如果假設(shè)的模型過于簡單且忽略了位點(diǎn)率變化的話簇爆,基于模型的方法(即distance癞松、likelihood和貝葉斯方法)也會遭受 long-branch attraction。 在重建深系統(tǒng)發(fā)育過程中入蛆, long-branch attraction(以及不同物種間核苷酸或氨基酸頻率的不均等)是系統(tǒng)錯誤的重要來源响蓉。 在這種分析中,建議使用現(xiàn)實(shí)的替代模型和likelihood或貝葉斯方法 哨毁。 密集的分類單元樣品枫甲,對于打破 long-branch attraction,并去除快速進(jìn)化的蛋白質(zhì)或位點(diǎn)也可能有幫助扼褪。
Maximum likelihood
M.1 Basis of maximum likelihood
最大似然方法是R. A . Fisher在20世紀(jì)20年代提出的一種估計(jì)模型中未知參數(shù)的統(tǒng)計(jì)方法想幻。 它代表了數(shù)據(jù)中關(guān)于參數(shù)的所有信息。 參數(shù)的最大似然估計(jì)值(MLEs)是使可能性最大的參數(shù)值话浇。 很多時候脏毯, 利用迭代優(yōu)化算法,數(shù)值求解最小二乘問題幔崖。 MLEs具有理想的漸近(大樣本)屬性:它們是無偏的食店、一致的(它們接近真實(shí)值)和有效的(它們在無偏估計(jì)中方差最小) 。
M.2 Maximum likelihood tree reconstruction
由于計(jì)算能力和軟件實(shí)現(xiàn)的提高赏寇,以及越來越現(xiàn)實(shí)的序列演化模型的發(fā)展吉嫩,該方法得到了廣泛的應(yīng)用。 請注意嗅定,極大似然樹估計(jì)涉及兩個優(yōu)化步驟:優(yōu)化分支長度以計(jì)算每個候選樹的樹分?jǐn)?shù)自娩,以及在樹空間中搜索最大似然樹渠退。 從統(tǒng)計(jì)的角度來看脐彩,樹(拓?fù)?是模型而不是參數(shù)动漾,而給定樹的分支長度和替換參數(shù)是模型中的參數(shù)。 因此旱眯,極大似然樹推理相當(dāng)于比較許多統(tǒng)計(jì)模型,每個模型具有相同數(shù)量的參數(shù)删豺。 上述MLEs的漸近性質(zhì)適用于給出真樹時的參數(shù)估計(jì),不適用于極大似然樹 妈拌。 給出真樹時,MLEs具有吸引性的漸近性質(zhì)尘分,但不適用于極大似然樹。
在距離計(jì)算時用到的所有替換模型都能在這使用培愁。 用似然法對許多序列進(jìn)行聯(lián)合比較,使得適應(yīng)更為復(fù)雜的序列演化模型成為可能缓窜。 分子系統(tǒng)發(fā)育學(xué)中使用的大多數(shù)模型都假設(shè)序列中各個位點(diǎn)的獨(dú)立演化定续,因此似然是不同位點(diǎn)概率的乘積。 在任何特定位置的概率是祖先節(jié)點(diǎn)上未觀察到的字符狀態(tài)的平均值禾锤。 Likelihood和parsimony在這方面是相似的私股,盡管parsimony只使用最優(yōu)的原始狀態(tài),而Likelihood對所有可能的狀態(tài)取平均值恩掷。
早期的最大似然算法的實(shí)施包括PHYLIP倡鲸,MOLPHY,PAUP4.0』颇铮現(xiàn)在的最大似然算法應(yīng)用程序包括PhyML,RAxML,GARLI旦签,不僅計(jì)算能快,而且在找高質(zhì)量的似然分?jǐn)?shù)的樹上更有效寸宏。 最近在MEGA 5中加入了極大似然值,這使得沒有計(jì)算機(jī)使用經(jīng)驗(yàn)的生物學(xué)家更容易使用這種方法偿曙。
M.3 Strengths and weaknesses of the maximum likelihood method
最大似然法的一個優(yōu)點(diǎn)是它所有的模型假設(shè)都是明確的氮凝,以便對它們進(jìn)行評估和改進(jìn)。 在Maximum likelihood 和貝葉斯方法中豐富的復(fù)雜進(jìn)化模型的可用性是其相對于maximum parsimony的主要優(yōu)勢之一望忆。 利用保守蛋白的現(xiàn)代推論幾乎完全依賴于Maximum likelihood和貝葉斯方法罩阵。
如果目的是了解序列演化的過程竿秆,極大似然法比距離法或maximum parsimony有明顯的優(yōu)勢。 likelihood ratio test可用于檢驗(yàn)進(jìn)化模型的擬合性稿壁,并檢驗(yàn)有趣的生物學(xué)假設(shè)幽钢,如影響蛋白質(zhì)進(jìn)化的分子鐘和達(dá)爾文選擇。
最大似然的主要缺點(diǎn)是likelihood計(jì)算傅是,特別是似然準(zhǔn)則下的樹搜索匪燕,計(jì)算量大。 另一個缺點(diǎn)是喧笔,如果模型是錯誤的帽驯,那么該方法可能具有較差的統(tǒng)計(jì)特性,這對貝葉斯分析也適用书闸。
Bayesian methods
B.1 Basis of Bayesian inference
貝葉斯推理是一種通用的統(tǒng)計(jì)推理方法尼变。 與極大似然不同的是嫌术,模型中的參數(shù)被認(rèn)為是具有統(tǒng)計(jì)分布的隨機(jī)變量度气,而在極大似然中它們是未知的固定常數(shù)蚯嫌。 在對數(shù)據(jù)進(jìn)行分析之前择示,為參數(shù)分配一個先驗(yàn)分布栅盲,并與數(shù)據(jù)(或likelihood結(jié)合產(chǎn)生后驗(yàn)分布谈秫。 所有關(guān)于參數(shù)的推論都是基于后驗(yàn)分布的拟烫。 在過去的二十年中硕淑,由于計(jì)算方法的進(jìn)步于樟,特別是Markov chain Monte Carlo algorithms(MCMC算法)的進(jìn)步迂曲,貝葉斯推理得到了廣泛的應(yīng)用路捧。
B.2 Bayesian phylogenetics
開發(fā)了更高效的MCMC算法弃舒,消除了時鐘假設(shè)(允許在無根樹上有獨(dú)立的分支長度)腋颠,并發(fā)布了MrBayes程序哑子,這使得這種方法在分子系統(tǒng)學(xué)家中很流行炭序。
B.3 Strengths and weaknesses of the Bayesian inference method
似然方法和貝葉斯方法都使用似然函數(shù)惭聂,因此具有一致性和有效性等統(tǒng)計(jì)特性辜纲。然而耕腾, 極大似然推理和貝葉斯推理是統(tǒng)計(jì)推理的對立哲學(xué)扫俺。 因此狼纬,貝葉斯推理的相同特征可以被看作是優(yōu)點(diǎn)疗琉,也可以被看作是缺點(diǎn)盈简,這取決于一個人的哲學(xué)。
首先拳话,貝葉斯統(tǒng)計(jì)被認(rèn)為是直接回答了生物學(xué)問題弃衍,并且產(chǎn)生了容易解釋的結(jié)果:給定數(shù)據(jù)和模型后镜盯,樹的后驗(yàn)概率就是樹的正確的概率速缆。 像似然分析中的置信區(qū)間這樣的概念有一種人為的解釋艺糜,許多統(tǒng)計(jì)數(shù)據(jù)的使用者無法理解破停。 在系統(tǒng)發(fā)育學(xué)中尉剩,定義樹的置信區(qū)間是不可能的理茎。 根據(jù)真實(shí)數(shù)據(jù)集計(jì)算的樹和枝的后驗(yàn)概率往往過高皂林。
其次式撼, 先驗(yàn)概率允許包含關(guān)于樹或參數(shù)的先驗(yàn)信息。然而扰楼,這類信息很少可用弦赖,而對先驗(yàn)的規(guī)范通常是一個負(fù)擔(dān)用戶;幾乎所有的數(shù)據(jù)分析都是使用計(jì)算機(jī)程序中的“默認(rèn)”先驗(yàn)進(jìn)行的蹬竖。
Statistical assessments of phylogenetic methods
系統(tǒng)發(fā)育推斷的目的是估計(jì)樹的拓?fù)浣Y(jié)構(gòu)和可能的分支長度列另。使用四條準(zhǔn)則來判斷樹構(gòu)建的方法旦装。
1.Consistency. 當(dāng)數(shù)據(jù)量趨近于無窮時阴绢,如果估計(jì)值聚集于真實(shí)參數(shù)值呻袭,則稱估計(jì)方法是一致的。 當(dāng)序列中位點(diǎn)數(shù)目增加時廉侧,估計(jì)值聚集于真實(shí)值時伏穆,則樹重建方法是一致的枕扫。 如果假設(shè)的模型是正確的烟瞧,那么基于模型的方法(即distance matrix参滴、maximum likelihood和貝葉斯推理)是一致的砾赔。在某些模式下暴心,Parsimony可能是不一致的;費(fèi)爾森斯坦對此的論證引起了激烈的討論专普。
2.Efficiency. 在參數(shù)的統(tǒng)計(jì)估計(jì)中檀夹,方差較小的無偏估計(jì)比方差較大的無偏估計(jì)更有效。 在系統(tǒng)發(fā)育學(xué)中娜亿,可以通過在給定位點(diǎn)數(shù)量的情況下恢復(fù)正確樹或子樹的概率來衡量效率暇唾。 樹重構(gòu)的復(fù)雜性意味著MLEs的漸近理論不再適用。 計(jì)算機(jī)模擬通常發(fā)現(xiàn)宫仗,在恢復(fù)正確的樹時藕夫,maximum likelihood的efficiency比maximum parsimony或neighbour joining更高枯冈。
3.Robustness. 如果一個方法給出了正確的答案尘奏,即使它的假設(shè)被違背了,它仍然是具有穩(wěn)健性的瑰煎。 隨著測序數(shù)據(jù)的快速積累酒甸,極大地降低了樹重構(gòu)中的樣本誤差插勤,因此該方法的系統(tǒng)誤差或穩(wěn)健性變得越來越重要农尖。
4.Computational speed. 這個屬性很容易評估。Neighbour joining使用一種聚類算法來畫樹臂外,并且非常快橘霎。 在maximum evolution姐叁、maximum parsimony和maximum likelihood等條件下尋找最佳樹的方法比較慢外潜。 貝葉斯方法的計(jì)算速度取決于鏈的長度(由MCMC算法生成)处窥,這是高度依賴于數(shù)據(jù)的。 由于系統(tǒng)進(jìn)化likelihood的計(jì)算成本較高俄讹,因此maximum likelihood和貝葉斯推理的速度通常要慢于maximum parsimony患膛。 計(jì)算算法的巨大進(jìn)步使得基于likelihood的方法對大數(shù)據(jù)集的分析成為可能踪蹬。
Phylogenomic analysis of large data sets
P.1 Supertree and supermatrix approaches
對數(shù)百或數(shù)千個基因或蛋白質(zhì)進(jìn)行系統(tǒng)發(fā)育分析有兩種方法豌鹤,特別是當(dāng)某些物種的某些位點(diǎn)缺失時枝缔。 supertree方法分別分析每個基因灵临,然后使用啟發(fā)式算法將每個基因的“子樹”組合成所有物種的“超級樹”儒溉。 分離分析有助于研究重建“子樹”的差異或水平基因轉(zhuǎn)移的流行程度顿涣。 然而涛碑,以所有基因?yàn)榛A(chǔ)估計(jì)一個共同的系統(tǒng)發(fā)育是低效的歹篓。
在超矩陣方法中庄撮,將多個基因的序列串聯(lián)起來毙籽,生成一個數(shù)據(jù)超矩陣,其中缺失的數(shù)據(jù)用問號代替扭仁,然后用這個超級矩陣重建樹. 大多數(shù)超級矩陣分析忽略了基因間進(jìn)化動態(tài)的差異搀突。請注意,假設(shè)不同進(jìn)化模型熊泵、不同的樹和分支長度的超矩陣分析等同于分離或“超級樹”分析仰迁。 當(dāng)一棵共同的樹是所有基因的基礎(chǔ)時,理想的方法應(yīng)該是對所有基因進(jìn)行聯(lián)合分析(超矩陣)顽分,利用likelihood來適應(yīng)進(jìn)化過程中基因間的異質(zhì)性徐许。
P.2 Impact of missing data
許多基因組數(shù)據(jù)集是高度不完整的,因此大多數(shù)細(xì)胞在物種的基因矩陣將是空的卒蘸。 雖然在理論上雌隅,似然函數(shù)(在極大似然和貝葉斯方法中)可以很好地適應(yīng)缺失數(shù)據(jù),但是這種大規(guī)模缺失數(shù)據(jù)和對齊間隙的影響還沒有被很好地理解缸沃。模擬結(jié)果表明,在處理缺失數(shù)據(jù)時,最大似然推理和貝葉斯推理通常比neighbour joining或maximum parsimony表現(xiàn)得更好蹦渣,貝葉斯推理表現(xiàn)得最好属提。 如果考慮到一些極端情況堪滨,即在去除排列g(shù)aps后义矛,從不同的基因或位點(diǎn)計(jì)算出兩兩之間的距離制轰,其中一些是快速進(jìn)化的调俘,而另一些則是緩慢進(jìn)化的侧巨,則可以理解neighbour joining的糟糕表現(xiàn)。
P.3 Importance of systematic errors
在分析非常大的數(shù)據(jù)集時,幾乎所有的bootstrap支持值或貝葉斯后驗(yàn)概率都被計(jì)算為100%,即使推斷的系統(tǒng)發(fā)育可能在不同的基因間相互沖突姚垃,或者可能取決于使用的方法和模型。 因此,在這類分析中窘游,系統(tǒng)誤差比隨機(jī)抽樣誤差要重要得多艾蓝,而對違反模型假設(shè)的方法,即使它們的效率較低搓侄,也應(yīng)該是可取的。(是否是放大系統(tǒng)誤差,不得而知)
P.4 Data-partitioning strategies
數(shù)據(jù)劃分的基本原理是將具有相似進(jìn)化特征的基因或位點(diǎn)分組到相同的劃分中告嘲,以便使用相同的模型描述同一劃分中的所有位點(diǎn),不同的劃分使用不同的模型捂襟。 劃分太細(xì)會增加計(jì)算時間,導(dǎo)致過度擬合扒吁,而劃分太粗則會導(dǎo)致擬合不足或模型沖突懦铺。 然而裆针,情況是復(fù)雜的,因?yàn)橐恍┠P驮试S在取代率思杯、氨基酸頻率或取代模式的位點(diǎn)之間隨機(jī)變化君旦。 這種混合模型使用統(tǒng)計(jì)分布來適應(yīng)不同位點(diǎn)間的異質(zhì)性,而不需要進(jìn)行數(shù)據(jù)劃分妆绞。 選擇使用分區(qū)模型還是混合模型是一個哲學(xué)問題:它分別對應(yīng)于統(tǒng)計(jì)中對固定效應(yīng)模型或隨機(jī)效應(yīng)模型的偏好。
目前的數(shù)據(jù)分割策略包括根據(jù)基因的相對替代率對基因進(jìn)行分割颗味,以及將編碼基因的三個密碼子位置分割成不同的分區(qū)。 likelihood比率測試也被用來決定兩個基因是否應(yīng)該在相同或不同的分區(qū)。總的來說躯喇, 數(shù)據(jù)劃分與其說是一門科學(xué),不如說是一門藝術(shù),它應(yīng)該依賴于我們對生物系統(tǒng)的知識:例如栖博,假設(shè)所有基因都有相同的系統(tǒng)發(fā)育過程是合理的。