[文獻(xiàn)分享]Molecular phylogenetics: principles and practice

首段放文章鏈接：https://www.nature.com/articles/nrg3186

最近在幫一個師姐做直系同源基因的物種進(jìn)化樹汛聚，補(bǔ)充一些進(jìn)化方面的基礎(chǔ)知識是很有必要的，畢竟沒有生物學(xué)背景的分析特別危險(xiǎn)（https://mp.weixin.qq.com/s/5HXUH4lWVc70d1CKJOQ73g）讲坎。

Abstract

這篇文章主要總結(jié)了進(jìn)化分析的一些主要方法，包括parsimony,distance,likelihood,和Bayesian methods鸠儿。并且討論了它們各自的優(yōu)點(diǎn)和缺點(diǎn)果录，并對于它們的使用提供了指導(dǎo)。

Noun explanation

systematics(系統(tǒng)學(xué)):推斷物種間的進(jìn)化關(guān)系丸卷，并且使用這些信息來進(jìn)行分類。

Taxonomy(分類學(xué))：描述询刹、分類和命名物種谜嫉。

Coalescent(合并)：追溯從現(xiàn)代人口中隨機(jī)抽取的一個序列樣本的系譜關(guān)系時，將祖先譜系連接起來的過程凹联。

Gene trees(基因樹)：在一個基因位點(diǎn)或基因組區(qū)域序列的系統(tǒng)發(fā)育或系譜樹沐兰。

Statistical phylogeography（統(tǒng)計(jì)系統(tǒng)地理學(xué)）：對密切相關(guān)物種的種群數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析，以推斷種群參數(shù)和過程蔽挠，如種群大小住闯、人口統(tǒng)計(jì)學(xué)、遷移模式和速率。

Species tree（物種樹）：基于單個位點(diǎn)基因樹的一系列物種進(jìn)化樹比原。

Systematic errors（系統(tǒng)誤差）：由不正確的模型假設(shè)引起的錯誤插佛。當(dāng)數(shù)據(jù)量增加時，誤差會加劇量窘。

Random sampling errors（隨機(jī)樣本錯誤）：由于數(shù)據(jù)有限雇寇，參數(shù)估計(jì)中的誤差或不確定性。

Cluster algorithm（聚類算法）：一種將一組個體分配給組(或集群)的算法蚌铜，使同一集群中的對象之間比來自不同集群的對象更相似锨侯。層次聚類分析可以是聚集性的(從單個元素開始，依次將它們加入集群)厘线，也可以是分裂性的(從所有對象開始识腿，依次將它們劃分為分區(qū)) 。

Markov chain（馬爾科夫鏈）：一個隨機(jī)的狀態(tài)序列(或鏈)造壮，其性質(zhì)是，給定當(dāng)前狀態(tài)骂束，下一個狀態(tài)的概率不依賴于過去的狀態(tài)耳璧。

Transitions（轉(zhuǎn)換）：嘧啶之間(T?C)或嘌呤之間(A?G)的替換。

Transversions（顛換）：嘧啶和嘌呤之間替換(T or C?A or G).

Unrooted trees（無根樹）: 進(jìn)化樹中根的位置是不確定的展箱。

Long-branch attraction: 一種不正確的樹旨枯，其長枝干基于parsimony或基于過于簡單的模型不正確地組合在一起。

likelihood ratio test: 使用likelihood來比較兩個嵌套假設(shè)的一般的假設(shè)檢驗(yàn)方法,通常使用χ2分布來評估混驰。

Molecular clock: 一種假說攀隔，假定進(jìn)化率是隨著時間或跨系譜而保持不變。

Prior distribution(先驗(yàn)分布)： 在分析數(shù)據(jù)之前分配給參數(shù)的分布栖榨。

Posterior distribution(后驗(yàn)分布)： 參數(shù)(或模型)的分布取決于數(shù)據(jù)昆汹。它結(jié)合了先驗(yàn)和數(shù)據(jù)(likelihood)中的信息。

Markov chain Monte Carlo algorithms(MCMC 算法)： 蒙特卡羅模擬是使用隨機(jī)數(shù)對生物過程進(jìn)行的計(jì)算機(jī)模擬婴栽。MCMC算法是一種蒙特卡羅模擬算法满粗，它從目標(biāo)分布(通常是貝葉斯后驗(yàn)分布)中生成樣本。

直系同源愚争，旁系同源的區(qū)別(From Wikipedia)

在遺傳學(xué)中映皆，同源這一概念主要是指序列同源，表明兩個或多個蛋白質(zhì)或DNA序列具有相同的祖先轰枝。同源的序列也很可能有相似的功能捅彻。蛋白質(zhì)和DNA的同源性常常通過它們序列的相似性來判定。

同源序列可分為兩種：直系同源（orthology）和旁系同源（paralogy）鞍陨。直系同源的序列因物種形成（speciation）而被區(qū)分開（separated）：若一個基因原先存在于某個物種步淹，而該物種分化為了兩個物種，那么新物種中的基因是直系同源的；旁系同源的序列因基因復(fù)制（gene duplication）而被區(qū)分開（separated）：若生物體中的某個基因被復(fù)制了贤旷，那么兩個副本序列就是旁系同源的广料。直系同源的一對序列稱為直系同源體（orthologs），旁系同源的一對序列稱為旁系同源體（paralogs）幼驶。若兩個旁系同源基因（paralogs）的基因拷貝（gene duplication）是已發(fā)生在物種形成前艾杏，則這兩個旁系同源（paralogs）可互稱為“前重復(fù)同源基因”（outparalogs），可簡稱為“前重復(fù)”（outparalogs）盅藻；若于物種形成后某個直系同源基因（an ortholog）才發(fā)生基因復(fù)制（gene duplication）购桑，則互稱為“后重復(fù)”（inparalogs）。

直系同源體通常有相同或相似的功能氏淑，但對旁系同源體則不一定：由于缺乏原始的自然選擇的力量勃蜘，繁殖出的基因副本可以自由的變異并獲得新的功能。

Introduction

分子系統(tǒng)進(jìn)化學(xué)對于基因組比較來說假残，成為了一個不可或缺的工具缭贡。在本文中被用來對宏基因組序列進(jìn)行分類；在新測序的基因組中鑒定基因辉懒、調(diào)節(jié)原件和非編碼RNA阳惹；對現(xiàn)代和祖先的個體基因組進(jìn)行解讀；構(gòu)建祖先基因組眶俩。

Phylogenetic tree reconstruction: basic concepts

每一個分支代表一個遺傳譜系隨時間的延續(xù)莹汤，每一個節(jié)點(diǎn)代表一個新譜系的誕生。如果樹表示一組物種之間的關(guān)系颠印，則節(jié)點(diǎn)表示物種形成事件纲岭。在從一個群體中取樣的序列的基因樹中，節(jié)點(diǎn)代表個體從祖先中的出生事件线罕，而在一個旁系基因家族（paralogous gene families）的樹中止潮，節(jié)點(diǎn)可能代表基因復(fù)制事件。

進(jìn)化樹的構(gòu)建要么是基于距離的闻坚，要么是基于字符的沽翔。在基于距離的構(gòu)建中，計(jì)算出每對序列之間的距離窿凤，并將得到的距離矩陣用于樹的重建仅偎。例如，neighbour joining 應(yīng)用聚類算法到距離矩陣來得到一個完全解決的種系發(fā)生事件雳殊。在基于字符的構(gòu)建方法中橘沥，包maximum parsimony, maximum likelihoodand Bayesian inference methods。這些方法同時比對所有的序列夯秃，每次只考慮一個字符(相應(yīng)對齊的位置)來計(jì)算每棵樹的分?jǐn)?shù)座咆。 “樹分?jǐn)?shù)”是maximum parsimony的最小變化數(shù)痢艺，maximum likelihood的對數(shù)似然值和貝葉斯推理的后驗(yàn)概率。理論上來說介陶，通過比對所有可能的數(shù)能得到一個分?jǐn)?shù)最高的樹堤舒。實(shí)際上，除了小數(shù)據(jù)集外哺呜，大型數(shù)據(jù)是沒法這樣進(jìn)行的舌缤，因此就采用了啟發(fā)式的樹搜索算法。一個啟發(fā)式的樹搜索并不能保證在準(zhǔn)則下得到一個最好的樹某残，但是它對于分析大數(shù)據(jù)集是很有幫助的国撵。為了描述數(shù)據(jù)，distance matrix玻墅、maximum likelihood和貝葉斯推理都使用了替代模型介牙，因此都是基于模型的，而maximum parsimony沒有一個明確的模型澳厢，其假設(shè)是隱含的环础。

001.png

上圖解讀：

系統(tǒng)發(fā)生是系譜史演化的一種模式，其中分支的長度是未知的參數(shù)剩拢。a圖有兩個node喳整，代表了兩次物種形成事件，分別發(fā)生在t0期和t1期裸扶。分支長度(b0、b1搬素、b2和b3)通常表示為每個位點(diǎn)的期望替換數(shù)量的單位呵晨，并沿著分支來衡量演化量。

如果取代率隨時間推移或在譜系間的變化是恒定的熬尺，我們就說分子鐘保持不變摸屠。這樣的話，樹因此就有根粱哼，這意味著從樹的頂端到根的距離都是相等的季二，也就是圖上的（b0 + b1 = b0 + b2 = b3). 一個有s個物種的有根樹可以用s - 1個祖先節(jié)點(diǎn)的年齡來表示，從而涉及到s - 1個分支揭措。通過假設(shè)分子鐘來推斷有根樹的過程叫做分子鐘有根樹胯舷。對于親緣關(guān)系較遠(yuǎn)的物種，不應(yīng)假設(shè)分子鐘假說绊含。大多數(shù)進(jìn)化樹并不使用分子鐘假說桑嘶。## 如果樹上的每個分支都被允許有一個獨(dú)立的進(jìn)化率，那么常用的模型和方法就無法識別根的位置躬充，因此只能推斷出沒有根的樹逃顶。對于s個物種的無根樹有2s-3個分支數(shù)讨便。一種常用的“使樹生根”的策略是在分析中包含外群體物種，這些外群體物種的親緣關(guān)系比相關(guān)物種的親緣關(guān)系要遠(yuǎn)得多以政，盡管所有物種的推斷樹是無根的霸褒，但根被認(rèn)為位于通向外群的分支上，因此內(nèi)群物種的樹是有根的盈蛮。這種策略被稱為外群生根废菱。

Distance matrix method

D.1 Distance calculation

以核苷酸取代的馬爾科夫鏈模型為基礎(chǔ)，計(jì)算成對的序列距離眉反。JC69模型假定任意兩核苷酸的替換是相同的比率昙啄，而K80模型假定轉(zhuǎn)換(transitions)和顛換（transversions）是不同的比率。這兩個模型都預(yù)測了四種核苷酸等同的頻率寸五。在HKY85模型和general time reversible(GTR)模型中梳凛，放寬了堿基頻率相等的假設(shè)。由于局部突變率和選擇性約束的變化梳杏，DNA或蛋白質(zhì)序列的不同位點(diǎn)往往以不同的速率進(jìn)化韧拒。在距離計(jì)算中,這樣的速率變化是通過假設(shè)gamma(Γ)位點(diǎn)的分布率,導(dǎo)致模型如JC69 +Γ，HKY85 +κ裕或GTR +Γ 叛溢。

002.png

D.2 Distance matrix methods

計(jì)算完距離后，在基于距離的算法中不再使用序列比對劲适。這里我們提到了三種方法：least squares(最小平方), minimum evolution and neighbour joining楷掉。

least squares最小化了距離矩陣中樹上的計(jì)算距離(dij)和預(yù)期的距離(d?ij)差異(也就是說,在樹上分支長度的總和連接了這兩個物種i和j)，公式為：

003.png

minimum evolution方法使用樹的長度(即分支長度的總和)而不是Q來進(jìn)行樹的選擇霞势，即使分支長度仍然可以使用least squares來估計(jì)烹植。在minimum evolution法則中，較短的樹似乎比較長的樹更可靠愕贡。

neighbour joining 是使用最廣泛的計(jì)算距離的方法草雕。這是一個cluster算法，從一個星形樹開始固以，依次選擇一對分類群（基于距離的分類群）連接在一起墩虹，直到得到一個完全解析的樹。選擇加入的taxa是為了最小化對樹長度的估計(jì) 憨琳。在MEGA中實(shí)施了有效的 neighbour joining诫钓。

004.png

D.3 Strengths and weaknesses of distance methods

基于距離算法的一大優(yōu)勢（特別是neighbour joining）是它們的計(jì)算效率。聚類算法是快速的栽渴，因?yàn)樗恍枰蚼aximum parsimony尖坤、maximum likelihood那樣，比較最優(yōu)條件下的樹的數(shù)量闲擦。neighbour joining對于分析具有低水平序列差異的大型數(shù)據(jù)集是有用的慢味。 請注意场梆，使用現(xiàn)實(shí)的替代模型來計(jì)算兩兩距離可能很重要。 distance methods對于差異大的序列表現(xiàn)很差纯路，因?yàn)榇蟮木嚯x包含了很大的樣本誤差或油，而且大多數(shù)距離方法(例如neighbour joining)不能解釋大距離估計(jì)的高水平的變化。distance methods也對序列比對中的gaps十分敏感驰唬。

Maximum parsimony

M.1 Parsimony tree score

在進(jìn)化樹中顶岸，Maximum parsimony通過將字符狀態(tài)分配給系統(tǒng)發(fā)生樹的內(nèi)部節(jié)點(diǎn)來最小化系統(tǒng)發(fā)生樹的變化數(shù)量。字符(或位點(diǎn))長度是該位點(diǎn)所需的最小更改數(shù)叫编，而tree score是所有位點(diǎn)上字符長度的總和辖佣。maximum parsimony樹是最小化樹分?jǐn)?shù)的樹。

通過parsimony進(jìn)行的樹的比較搓逾，其中一些位點(diǎn)并不是有用的卷谈。例如，在所有物種中都出現(xiàn)相同核苷酸的恒定位點(diǎn)霞篡，在任何樹上的字符長度都為零世蔗。單例位點(diǎn)（其中只有一個物種有不同的核苷酸，而其他所有物種都是相同的）朗兵，也可以忽略污淋，因?yàn)樽址L度總是1 。 parsimony信息量位點(diǎn)是指至少觀察到兩個不同的特征余掖，每個特征至少兩次寸爆。對于四個物種來說，只有三個位點(diǎn)類型提供了有用信息：xxyy, xyxy, xyyx,其中x和y是任一兩個不同的核苷酸盐欺。對于四物種來說而昨，有三種可能的無根樹，哪一種類型是Maximum parsimony找田，取決于三個位點(diǎn)模式中的哪一個在比對過程中最常發(fā)生。

Fitch和Hartigan開發(fā)了一種算法着憨，用于找出二叉樹的最小變化數(shù)(以及重建原始狀態(tài)以達(dá)到最小) 墩衙。PAUP,MEGA,TNT是通常使用的parsimony 程序。

Maximum parsimony的使用仍然很普遍:不是因?yàn)樗徽J(rèn)為是沒有假設(shè)的甲抖，而是因?yàn)樗?jīng)常產(chǎn)生合理的結(jié)果漆改，并且計(jì)算效率很高。

M.2 Strengths and weaknesses of parsimony

parsimony 的一大優(yōu)點(diǎn)是它的簡約性准谚，它容易去描述和理解挫剑，并且它服從嚴(yán)格的數(shù)學(xué)分析。

parsimony的一個主要缺點(diǎn)是缺乏明確的假設(shè)柱衔，這使得在樹的重建中幾乎不可能包含任何序列進(jìn)化過程的知識 由于在同一地點(diǎn)未能糾正多個取代物的錯誤樊破，由此導(dǎo)致了一個被稱為long-branch attraction的問題愉棱。如果正確的樹由一個短的內(nèi)部分支將兩個長的外部分支分開，parsimony傾向于推斷出不正確的樹哲戚，如fig3的a-b奔滑，并且將長分支歸為一組。當(dāng)T1中的分支長度足夠極端時顺少，支持正確樹T1的位點(diǎn)模式xxyy的概率可能小于支持錯誤樹T2的位點(diǎn)模式xyxy朋其。因此，序列中的位點(diǎn)越多脆炎，就越有可能在比xyxy更少的位點(diǎn)觀察到xxyy模式梅猿，也就越有可能選擇錯誤的T2樹作為Maximum parsimony樹。 long-branch attraction已經(jīng)在許多真實(shí)的和模擬的數(shù)據(jù)集中被證明了秒裕，這是由于parsimony不能改正在同一地點(diǎn)的多個變化或也不能適應(yīng)兩個長分支上的并行變化袱蚓。

注意，如果假設(shè)的模型過于簡單且忽略了位點(diǎn)率變化的話簇爆，基于模型的方法(即distance癞松、likelihood和貝葉斯方法)也會遭受 long-branch attraction。在重建深系統(tǒng)發(fā)育過程中入蛆， long-branch attraction(以及不同物種間核苷酸或氨基酸頻率的不均等)是系統(tǒng)錯誤的重要來源响蓉。在這種分析中，建議使用現(xiàn)實(shí)的替代模型和likelihood或貝葉斯方法哨毁。密集的分類單元樣品枫甲，對于打破 long-branch attraction，并去除快速進(jìn)化的蛋白質(zhì)或位點(diǎn)也可能有幫助扼褪。

005.png

Maximum likelihood

M.1 Basis of maximum likelihood

最大似然方法是R. A . Fisher在20世紀(jì)20年代提出的一種估計(jì)模型中未知參數(shù)的統(tǒng)計(jì)方法想幻。它代表了數(shù)據(jù)中關(guān)于參數(shù)的所有信息。參數(shù)的最大似然估計(jì)值(MLEs)是使可能性最大的參數(shù)值话浇。很多時候脏毯，利用迭代優(yōu)化算法，數(shù)值求解最小二乘問題幔崖。 MLEs具有理想的漸近(大樣本)屬性:它們是無偏的食店、一致的(它們接近真實(shí)值)和有效的(它們在無偏估計(jì)中方差最小) 。

M.2 Maximum likelihood tree reconstruction

由于計(jì)算能力和軟件實(shí)現(xiàn)的提高赏寇，以及越來越現(xiàn)實(shí)的序列演化模型的發(fā)展吉嫩，該方法得到了廣泛的應(yīng)用。請注意嗅定，極大似然樹估計(jì)涉及兩個優(yōu)化步驟:優(yōu)化分支長度以計(jì)算每個候選樹的樹分?jǐn)?shù)自娩，以及在樹空間中搜索最大似然樹渠退。從統(tǒng)計(jì)的角度來看脐彩，樹(拓?fù)?是模型而不是參數(shù)动漾，而給定樹的分支長度和替換參數(shù)是模型中的參數(shù)。因此旱眯，極大似然樹推理相當(dāng)于比較許多統(tǒng)計(jì)模型，每個模型具有相同數(shù)量的參數(shù)删豺。上述MLEs的漸近性質(zhì)適用于給出真樹時的參數(shù)估計(jì)，不適用于極大似然樹妈拌。給出真樹時，MLEs具有吸引性的漸近性質(zhì)尘分，但不適用于極大似然樹。

在距離計(jì)算時用到的所有替換模型都能在這使用培愁。用似然法對許多序列進(jìn)行聯(lián)合比較，使得適應(yīng)更為復(fù)雜的序列演化模型成為可能缓窜。分子系統(tǒng)發(fā)育學(xué)中使用的大多數(shù)模型都假設(shè)序列中各個位點(diǎn)的獨(dú)立演化定续，因此似然是不同位點(diǎn)概率的乘積。在任何特定位置的概率是祖先節(jié)點(diǎn)上未觀察到的字符狀態(tài)的平均值禾锤。 Likelihood和parsimony在這方面是相似的私股，盡管parsimony只使用最優(yōu)的原始狀態(tài)，而Likelihood對所有可能的狀態(tài)取平均值恩掷。

早期的最大似然算法的實(shí)施包括PHYLIP倡鲸，MOLPHY，PAUP4.0』颇铮現(xiàn)在的最大似然算法應(yīng)用程序包括PhyML,RAxML,GARLI旦签，不僅計(jì)算能快，而且在找高質(zhì)量的似然分?jǐn)?shù)的樹上更有效寸宏。最近在MEGA 5中加入了極大似然值，這使得沒有計(jì)算機(jī)使用經(jīng)驗(yàn)的生物學(xué)家更容易使用這種方法偿曙。

M.3 Strengths and weaknesses of the maximum likelihood method

最大似然法的一個優(yōu)點(diǎn)是它所有的模型假設(shè)都是明確的氮凝，以便對它們進(jìn)行評估和改進(jìn)。在Maximum likelihood 和貝葉斯方法中豐富的復(fù)雜進(jìn)化模型的可用性是其相對于maximum parsimony的主要優(yōu)勢之一望忆。利用保守蛋白的現(xiàn)代推論幾乎完全依賴于Maximum likelihood和貝葉斯方法罩阵。

如果目的是了解序列演化的過程竿秆，極大似然法比距離法或maximum parsimony有明顯的優(yōu)勢。 likelihood ratio test可用于檢驗(yàn)進(jìn)化模型的擬合性稿壁，并檢驗(yàn)有趣的生物學(xué)假設(shè)幽钢，如影響蛋白質(zhì)進(jìn)化的分子鐘和達(dá)爾文選擇。

最大似然的主要缺點(diǎn)是likelihood計(jì)算傅是，特別是似然準(zhǔn)則下的樹搜索匪燕，計(jì)算量大。另一個缺點(diǎn)是喧笔，如果模型是錯誤的帽驯，那么該方法可能具有較差的統(tǒng)計(jì)特性，這對貝葉斯分析也適用书闸。

Bayesian methods

B.1 Basis of Bayesian inference

貝葉斯推理是一種通用的統(tǒng)計(jì)推理方法尼变。與極大似然不同的是嫌术，模型中的參數(shù)被認(rèn)為是具有統(tǒng)計(jì)分布的隨機(jī)變量度气，而在極大似然中它們是未知的固定常數(shù)蚯嫌。在對數(shù)據(jù)進(jìn)行分析之前择示，為參數(shù)分配一個先驗(yàn)分布栅盲，并與數(shù)據(jù)(或likelihood結(jié)合產(chǎn)生后驗(yàn)分布谈秫。所有關(guān)于參數(shù)的推論都是基于后驗(yàn)分布的拟烫。在過去的二十年中硕淑，由于計(jì)算方法的進(jìn)步于樟，特別是Markov chain Monte Carlo algorithms(MCMC算法)的進(jìn)步迂曲，貝葉斯推理得到了廣泛的應(yīng)用路捧。

B.2 Bayesian phylogenetics

開發(fā)了更高效的MCMC算法弃舒，消除了時鐘假設(shè)(允許在無根樹上有獨(dú)立的分支長度)腋颠，并發(fā)布了MrBayes程序哑子，這使得這種方法在分子系統(tǒng)學(xué)家中很流行炭序。

006.png

007.png

B.3 Strengths and weaknesses of the Bayesian inference method

似然方法和貝葉斯方法都使用似然函數(shù)惭聂，因此具有一致性和有效性等統(tǒng)計(jì)特性辜纲。然而耕腾，極大似然推理和貝葉斯推理是統(tǒng)計(jì)推理的對立哲學(xué)扫俺。因此狼纬，貝葉斯推理的相同特征可以被看作是優(yōu)點(diǎn)疗琉，也可以被看作是缺點(diǎn)盈简，這取決于一個人的哲學(xué)。

首先拳话，貝葉斯統(tǒng)計(jì)被認(rèn)為是直接回答了生物學(xué)問題弃衍，并且產(chǎn)生了容易解釋的結(jié)果：給定數(shù)據(jù)和模型后镜盯，樹的后驗(yàn)概率就是樹的正確的概率速缆。像似然分析中的置信區(qū)間這樣的概念有一種人為的解釋艺糜，許多統(tǒng)計(jì)數(shù)據(jù)的使用者無法理解破停。在系統(tǒng)發(fā)育學(xué)中尉剩，定義樹的置信區(qū)間是不可能的理茎。根據(jù)真實(shí)數(shù)據(jù)集計(jì)算的樹和枝的后驗(yàn)概率往往過高皂林。

其次式撼，先驗(yàn)概率允許包含關(guān)于樹或參數(shù)的先驗(yàn)信息。然而扰楼，這類信息很少可用弦赖，而對先驗(yàn)的規(guī)范通常是一個負(fù)擔(dān)用戶;幾乎所有的數(shù)據(jù)分析都是使用計(jì)算機(jī)程序中的“默認(rèn)”先驗(yàn)進(jìn)行的蹬竖。

008.png

Statistical assessments of phylogenetic methods

系統(tǒng)發(fā)育推斷的目的是估計(jì)樹的拓?fù)浣Y(jié)構(gòu)和可能的分支長度列另。使用四條準(zhǔn)則來判斷樹構(gòu)建的方法旦装。

1.Consistency. 當(dāng)數(shù)據(jù)量趨近于無窮時阴绢，如果估計(jì)值聚集于真實(shí)參數(shù)值呻袭，則稱估計(jì)方法是一致的。當(dāng)序列中位點(diǎn)數(shù)目增加時廉侧，估計(jì)值聚集于真實(shí)值時伏穆，則樹重建方法是一致的枕扫。如果假設(shè)的模型是正確的烟瞧，那么基于模型的方法(即distance matrix参滴、maximum likelihood和貝葉斯推理)是一致的砾赔。在某些模式下暴心，Parsimony可能是不一致的;費(fèi)爾森斯坦對此的論證引起了激烈的討論专普。

2.Efficiency. 在參數(shù)的統(tǒng)計(jì)估計(jì)中檀夹，方差較小的無偏估計(jì)比方差較大的無偏估計(jì)更有效。在系統(tǒng)發(fā)育學(xué)中娜亿，可以通過在給定位點(diǎn)數(shù)量的情況下恢復(fù)正確樹或子樹的概率來衡量效率暇唾。樹重構(gòu)的復(fù)雜性意味著MLEs的漸近理論不再適用。 計(jì)算機(jī)模擬通常發(fā)現(xiàn)宫仗，在恢復(fù)正確的樹時藕夫，maximum likelihood的efficiency比maximum parsimony或neighbour joining更高枯冈。

3.Robustness. 如果一個方法給出了正確的答案尘奏，即使它的假設(shè)被違背了，它仍然是具有穩(wěn)健性的瑰煎。隨著測序數(shù)據(jù)的快速積累酒甸，極大地降低了樹重構(gòu)中的樣本誤差插勤，因此該方法的系統(tǒng)誤差或穩(wěn)健性變得越來越重要农尖。

4.Computational speed. 這個屬性很容易評估。Neighbour joining使用一種聚類算法來畫樹臂外，并且非常快橘霎。在maximum evolution姐叁、maximum parsimony和maximum likelihood等條件下尋找最佳樹的方法比較慢外潜。貝葉斯方法的計(jì)算速度取決于鏈的長度(由MCMC算法生成)处窥，這是高度依賴于數(shù)據(jù)的。由于系統(tǒng)進(jìn)化likelihood的計(jì)算成本較高俄讹，因此maximum likelihood和貝葉斯推理的速度通常要慢于maximum parsimony患膛。計(jì)算算法的巨大進(jìn)步使得基于likelihood的方法對大數(shù)據(jù)集的分析成為可能踪蹬。

Phylogenomic analysis of large data sets

P.1 Supertree and supermatrix approaches

對數(shù)百或數(shù)千個基因或蛋白質(zhì)進(jìn)行系統(tǒng)發(fā)育分析有兩種方法豌鹤，特別是當(dāng)某些物種的某些位點(diǎn)缺失時枝缔。 supertree方法分別分析每個基因灵临，然后使用啟發(fā)式算法將每個基因的“子樹”組合成所有物種的“超級樹”儒溉。分離分析有助于研究重建“子樹”的差異或水平基因轉(zhuǎn)移的流行程度顿涣。然而涛碑，以所有基因?yàn)榛A(chǔ)估計(jì)一個共同的系統(tǒng)發(fā)育是低效的歹篓。

在超矩陣方法中庄撮，將多個基因的序列串聯(lián)起來毙籽，生成一個數(shù)據(jù)超矩陣，其中缺失的數(shù)據(jù)用問號代替扭仁，然后用這個超級矩陣重建樹. 大多數(shù)超級矩陣分析忽略了基因間進(jìn)化動態(tài)的差異搀突。請注意，假設(shè)不同進(jìn)化模型熊泵、不同的樹和分支長度的超矩陣分析等同于分離或“超級樹”分析仰迁。當(dāng)一棵共同的樹是所有基因的基礎(chǔ)時，理想的方法應(yīng)該是對所有基因進(jìn)行聯(lián)合分析(超矩陣)顽分，利用likelihood來適應(yīng)進(jìn)化過程中基因間的異質(zhì)性徐许。

P.2 Impact of missing data

許多基因組數(shù)據(jù)集是高度不完整的，因此大多數(shù)細(xì)胞在物種的基因矩陣將是空的卒蘸。雖然在理論上雌隅，似然函數(shù)(在極大似然和貝葉斯方法中)可以很好地適應(yīng)缺失數(shù)據(jù)，但是這種大規(guī)模缺失數(shù)據(jù)和對齊間隙的影響還沒有被很好地理解缸沃。模擬結(jié)果表明，在處理缺失數(shù)據(jù)時，最大似然推理和貝葉斯推理通常比neighbour joining或maximum parsimony表現(xiàn)得更好蹦渣，貝葉斯推理表現(xiàn)得最好属提。如果考慮到一些極端情況堪滨，即在去除排列g(shù)aps后义矛，從不同的基因或位點(diǎn)計(jì)算出兩兩之間的距離制轰，其中一些是快速進(jìn)化的调俘，而另一些則是緩慢進(jìn)化的侧巨，則可以理解neighbour joining的糟糕表現(xiàn)。

P.3 Importance of systematic errors

在分析非常大的數(shù)據(jù)集時，幾乎所有的bootstrap支持值或貝葉斯后驗(yàn)概率都被計(jì)算為100%，即使推斷的系統(tǒng)發(fā)育可能在不同的基因間相互沖突姚垃，或者可能取決于使用的方法和模型。因此，在這類分析中窘游，系統(tǒng)誤差比隨機(jī)抽樣誤差要重要得多艾蓝，而對違反模型假設(shè)的方法，即使它們的效率較低搓侄，也應(yīng)該是可取的。（是否是放大系統(tǒng)誤差，不得而知）

P.4 Data-partitioning strategies

數(shù)據(jù)劃分的基本原理是將具有相似進(jìn)化特征的基因或位點(diǎn)分組到相同的劃分中告嘲，以便使用相同的模型描述同一劃分中的所有位點(diǎn)，不同的劃分使用不同的模型捂襟。劃分太細(xì)會增加計(jì)算時間，導(dǎo)致過度擬合扒吁，而劃分太粗則會導(dǎo)致擬合不足或模型沖突懦铺。然而裆针，情況是復(fù)雜的，因?yàn)橐恍┠Ｐ驮试S在取代率思杯、氨基酸頻率或取代模式的位點(diǎn)之間隨機(jī)變化君旦。這種混合模型使用統(tǒng)計(jì)分布來適應(yīng)不同位點(diǎn)間的異質(zhì)性，而不需要進(jìn)行數(shù)據(jù)劃分妆绞。選擇使用分區(qū)模型還是混合模型是一個哲學(xué)問題:它分別對應(yīng)于統(tǒng)計(jì)中對固定效應(yīng)模型或隨機(jī)效應(yīng)模型的偏好。

目前的數(shù)據(jù)分割策略包括根據(jù)基因的相對替代率對基因進(jìn)行分割颗味，以及將編碼基因的三個密碼子位置分割成不同的分區(qū)。 likelihood比率測試也被用來決定兩個基因是否應(yīng)該在相同或不同的分區(qū)。總的來說躯喇，數(shù)據(jù)劃分與其說是一門科學(xué)，不如說是一門藝術(shù)，它應(yīng)該依賴于我們對生物系統(tǒng)的知識:例如栖博，假設(shè)所有基因都有相同的系統(tǒng)發(fā)育過程是合理的。

最后編輯于：2019.11.20 22:25:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末虚吟，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子签财，更是在濱河造成了極大的恐慌串慰，老刑警劉巖，帶你破解...
沈念sama閱讀 219,539評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件唱蒸，死亡現(xiàn)場離奇詭異邦鲫，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)神汹，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,594評論 3贊 396
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門庆捺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人屁魏，你說我怎么就攤上這事滔以。” “怎么了氓拼？”我有些...
開封第一講書人閱讀 165,871評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵你画，是天一觀的道長。經(jīng)常有香客問我桃漾，道長坏匪，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,963評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任撬统，我火速辦了婚禮适滓，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘恋追。我一直安慰自己粒竖，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,984評論 6贊 393
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布几于。她就那樣靜靜地躺著蕊苗，像睡著了一般。火紅的嫁衣襯著肌膚如雪沿彭。梳的紋絲不亂的頭發(fā)上朽砰，一...
開封第一講書人閱讀 51,763評論 1贊 307
城市分裂傳說
那天，我揣著相機(jī)與錄音喉刘，去河邊找鬼瞧柔。笑死，一個胖子當(dāng)著我的面吹牛睦裳，可吹牛的內(nèi)容都是我干的造锅。我是一名探鬼主播，決...
沈念sama閱讀 40,468評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼廉邑，長吁一口氣：“原來是場噩夢啊……” “哼哥蔚！你這毒婦竟也來了倒谷？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,357評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤糙箍，失蹤者是張志新（化名）和其女友劉穎渤愁，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體深夯，經(jīng)...
沈念sama閱讀 45,850評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡抖格，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,002評論 3贊 338
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了咕晋。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雹拄。...
茶點(diǎn)故事閱讀 40,144評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖掌呜，靈堂內(nèi)的尸體忽然破棺而出办桨，到底是詐尸還是另有隱情，我是刑警寧澤站辉，帶...
沈念sama閱讀 35,823評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呢撞，位于F島的核電站，受9級特大地震影響饰剥，放射性物質(zhì)發(fā)生泄漏殊霞。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,483評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一汰蓉、第九天我趴在偏房一處隱蔽的房頂上張望绷蹲。院中可真熱鬧，春花似錦顾孽、人聲如沸祝钢。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,026評論 0贊 22
一樁弒父案若厚，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽拦英。三九已至，卻和暖如春测秸，著一層夾襖步出監(jiān)牢的瞬間疤估，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,150評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工霎冯，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留铃拇，地道東北人。一個月前我還...
沈念sama閱讀 48,415評論 3贊 373
代替公主和親
正文我出身青樓沈撞，卻偏偏與公主長得像慷荔，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子缠俺，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,092評論 2贊 355