[文獻(xiàn)分享]Molecular phylogenetics: principles and practice

首段放文章鏈接:https://www.nature.com/articles/nrg3186

最近在幫一個師姐做直系同源基因的物種進(jìn)化樹汛聚,補(bǔ)充一些進(jìn)化方面的基礎(chǔ)知識是很有必要的,畢竟沒有生物學(xué)背景的分析特別危險(xiǎn)(https://mp.weixin.qq.com/s/5HXUH4lWVc70d1CKJOQ73g)讲坎。

Abstract

這篇文章主要總結(jié)了進(jìn)化分析的一些主要方法,包括parsimony,distance,likelihood,和Bayesian methods鸠儿。并且討論了它們各自的優(yōu)點(diǎn)和缺點(diǎn)果录,并對于它們的使用提供了指導(dǎo)。

Noun explanation

systematics(系統(tǒng)學(xué)):推斷物種間的進(jìn)化關(guān)系丸卷,并且使用這些信息來進(jìn)行分類。

Taxonomy(分類學(xué)):描述询刹、分類和命名物種谜嫉。

Coalescent(合并): 追溯從現(xiàn)代人口中隨機(jī)抽取的一個序列樣本的系譜關(guān)系時,將祖先譜系連接起來的過程凹联。

Gene trees(基因樹):在一個基因位點(diǎn)或基因組區(qū)域序列的系統(tǒng)發(fā)育或系譜樹沐兰。

Statistical phylogeography(統(tǒng)計(jì)系統(tǒng)地理學(xué)): 對密切相關(guān)物種的種群數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以推斷種群參數(shù)和過程蔽挠,如種群大小住闯、人口統(tǒng)計(jì)學(xué)、遷移模式和速率。

Species tree(物種樹):基于單個位點(diǎn)基因樹的一系列物種進(jìn)化樹比原。

Systematic errors(系統(tǒng)誤差): 由不正確的模型假設(shè)引起的錯誤插佛。當(dāng)數(shù)據(jù)量增加時,誤差會加劇 量窘。

Random sampling errors(隨機(jī)樣本錯誤): 由于數(shù)據(jù)有限雇寇,參數(shù)估計(jì)中的誤差或不確定性。

Cluster algorithm(聚類算法): 一種將一組個體分配給組(或集群)的算法蚌铜,使同一集群中的對象之間比來自不同集群的對象更相似锨侯。層次聚類分析可以是聚集性的(從單個元素開始,依次將它們加入集群)厘线,也可以是分裂性的(從所有對象開始识腿,依次將它們劃分為分區(qū)) 。

Markov chain(馬爾科夫鏈): 一個隨機(jī)的狀態(tài)序列(或鏈)造壮,其性質(zhì)是,給定當(dāng)前狀態(tài)骂束,下一個狀態(tài)的概率不依賴于過去的狀態(tài)耳璧。

Transitions(轉(zhuǎn)換):嘧啶之間(T?C)或嘌呤之間(A?G)的替換。

Transversions(顛換):嘧啶和嘌呤之間替換(T or C?A or G).

Unrooted trees(無根樹): 進(jìn)化樹中根的位置是不確定的展箱。

Long-branch attraction: 一種不正確的樹旨枯,其長枝干基于parsimony或基于過于簡單的模型不正確地組合在一起。

likelihood ratio test: 使用likelihood來比較兩個嵌套假設(shè)的一般的假設(shè)檢驗(yàn)方法,通常使用χ2分布來評估混驰。

Molecular clock: 一種假說攀隔,假定進(jìn)化率是隨著時間或跨系譜而保持不變。

Prior distribution(先驗(yàn)分布): 在分析數(shù)據(jù)之前分配給參數(shù)的分布栖榨。

Posterior distribution(后驗(yàn)分布): 參數(shù)(或模型)的分布取決于數(shù)據(jù)昆汹。它結(jié)合了先驗(yàn)和數(shù)據(jù)(likelihood)中的信息 。

Markov chain Monte Carlo algorithms(MCMC 算法): 蒙特卡羅模擬是使用隨機(jī)數(shù)對生物過程進(jìn)行的計(jì)算機(jī)模擬婴栽。MCMC算法是一種蒙特卡羅模擬算法满粗,它從目標(biāo)分布(通常是貝葉斯后驗(yàn)分布)中生成樣本。

直系同源愚争,旁系同源的區(qū)別(From Wikipedia)

遺傳學(xué)中映皆,同源這一概念主要是指序列同源,表明兩個或多個蛋白質(zhì)DNA序列具有相同的祖先轰枝。同源的序列也很可能有相似的功能捅彻。 蛋白質(zhì)和DNA的同源性常常通過它們序列的相似性來判定。

同源序列可分為兩種:直系同源(orthology)和旁系同源(paralogy)鞍陨。直系同源的序列因物種形成(speciation)而被區(qū)分開(separated):若一個基因原先存在于某個物種步淹,而該物種分化為了兩個物種,那么新物種中的基因是直系同源的;旁系同源的序列因基因復(fù)制(gene duplication)而被區(qū)分開(separated):若生物體中的某個基因被復(fù)制了贤旷,那么兩個副本序列就是旁系同源的广料。直系同源的一對序列稱為直系同源體(orthologs),旁系同源的一對序列稱為旁系同源體(paralogs)幼驶。若兩個旁系同源基因(paralogs)的基因拷貝(gene duplication)是已發(fā)生在物種形成前艾杏,則這兩個旁系同源(paralogs)可互稱為“前重復(fù)同源基因”(outparalogs),可簡稱為“前重復(fù)”(outparalogs)盅藻;若于物種形成后某個直系同源基因(an ortholog)才發(fā)生基因復(fù)制(gene duplication)购桑,則互稱為“后重復(fù)”(inparalogs)。

直系同源體通常有相同或相似的功能氏淑,但對旁系同源體則不一定:由于缺乏原始的自然選擇的力量勃蜘,繁殖出的基因副本可以自由的變異并獲得新的功能。

Introduction

分子系統(tǒng)進(jìn)化學(xué)對于基因組比較來說假残,成為了一個不可或缺的工具缭贡。在本文中被用來對宏基因組序列進(jìn)行分類;在新測序的基因組中鑒定基因辉懒、調(diào)節(jié)原件和非編碼RNA阳惹;對現(xiàn)代和祖先的個體基因組進(jìn)行解讀;構(gòu)建祖先基因組眶俩。

Phylogenetic tree reconstruction: basic concepts

每一個分支代表一個遺傳譜系隨時間的延續(xù)莹汤,每一個節(jié)點(diǎn)代表一個新譜系的誕生。 如果樹表示一組物種之間的關(guān)系颠印,則節(jié)點(diǎn)表示物種形成事件纲岭。 在從一個群體中取樣的序列的基因樹中,節(jié)點(diǎn)代表個體從祖先中的出生事件线罕,而在一個旁系基因家族(paralogous gene families)的樹中止潮,節(jié)點(diǎn)可能代表基因復(fù)制事件。

進(jìn)化樹的構(gòu)建要么是基于距離的闻坚,要么是基于字符的沽翔。 在基于距離的構(gòu)建中,計(jì)算出每對序列之間的距離窿凤,并將得到的距離矩陣用于樹的重建仅偎。例如,neighbour joining 應(yīng)用聚類算法到距離矩陣來得到一個完全解決的種系發(fā)生事件雳殊。在基于字符的構(gòu)建方法中橘沥,包maximum parsimony, maximum likelihoodand Bayesian inference methods。這些方法同時比對所有的序列夯秃, 每次只考慮一個字符(相應(yīng)對齊的位置)來計(jì)算每棵樹的分?jǐn)?shù)座咆。 “樹分?jǐn)?shù)”是maximum parsimony的最小變化數(shù)痢艺,maximum likelihood的對數(shù)似然值和貝葉斯推理的后驗(yàn)概率。理論上來說介陶,通過比對所有可能的數(shù)能得到一個分?jǐn)?shù)最高的樹堤舒。實(shí)際上,除了小數(shù)據(jù)集外哺呜,大型數(shù)據(jù)是沒法這樣進(jìn)行的舌缤,因此就采用了啟發(fā)式的樹搜索算法。一個啟發(fā)式的樹搜索并不能保證在準(zhǔn)則下得到一個最好的樹某残,但是它對于分析大數(shù)據(jù)集是很有幫助的国撵。 為了描述數(shù)據(jù),distance matrix玻墅、maximum likelihood和貝葉斯推理都使用了替代模型介牙,因此都是基于模型的,而maximum parsimony沒有一個明確的模型澳厢,其假設(shè)是隱含的环础。


001.png

上圖解讀:

系統(tǒng)發(fā)生是系譜史演化的一種模式,其中分支的長度是未知的參數(shù)剩拢。a圖有兩個node喳整,代表了兩次物種形成事件,分別發(fā)生在t0期和t1期裸扶。 分支長度(b0、b1搬素、b2和b3)通常表示為每個位點(diǎn)的期望替換數(shù)量的單位呵晨,并沿著分支來衡量演化量。

如果取代率隨時間推移或在譜系間的變化是恒定的熬尺,我們就說分子鐘保持不變摸屠。這樣的話,樹因此就有根粱哼, 這意味著從樹的頂端到根的距離都是相等的季二,也就是圖上的(b0 + b1 = b0 + b2 = b3). 一個有s個物種的有根樹可以用s - 1個祖先節(jié)點(diǎn)的年齡來表示,從而涉及到s - 1個分支揭措。 通過假設(shè)分子鐘來推斷有根樹的過程叫做分子鐘有根樹胯舷。 對于親緣關(guān)系較遠(yuǎn)的物種,不應(yīng)假設(shè)分子鐘假說绊含。大多數(shù)進(jìn)化樹并不使用分子鐘假說桑嘶。## 如果樹上的每個分支都被允許有一個獨(dú)立的進(jìn)化率,那么常用的模型和方法就無法識別根的位置躬充,因此只能推斷出沒有根的樹逃顶。對于s個物種的無根樹有2s-3個分支數(shù)讨便。 一種常用的“使樹生根”的策略是在分析中包含外群體物種,這些外群體物種的親緣關(guān)系比相關(guān)物種的親緣關(guān)系要遠(yuǎn)得多以政, 盡管所有物種的推斷樹是無根的霸褒,但根被認(rèn)為位于通向外群的分支上,因此內(nèi)群物種的樹是有根的盈蛮。這種策略被稱為外群生根废菱。

Distance matrix method

D.1 Distance calculation

核苷酸取代的馬爾科夫鏈模型為基礎(chǔ),計(jì)算成對的序列距離眉反。JC69模型假定任意兩核苷酸的替換是相同的比率昙啄,而K80模型假定轉(zhuǎn)換(transitions)和顛換(transversions)是不同的比率。這兩個模型都預(yù)測了四種核苷酸等同的頻率寸五。在HKY85模型和general time reversible(GTR)模型中梳凛,放寬了堿基頻率相等的假設(shè)。 由于局部突變率和選擇性約束的變化梳杏,DNA或蛋白質(zhì)序列的不同位點(diǎn)往往以不同的速率進(jìn)化韧拒。 在距離計(jì)算中,這樣的速率變化是通過假設(shè)gamma(Γ)位點(diǎn)的分布率,導(dǎo)致模型如JC69 +Γ,HKY85 +κ裕或GTR +Γ 叛溢。

002.png

D.2 Distance matrix methods

計(jì)算完距離后,在基于距離的算法中不再使用序列比對劲适。這里我們提到了三種方法:least squares(最小平方), minimum evolution and neighbour joining楷掉。

least squares最小化了距離矩陣中樹上的計(jì)算距離(dij)和預(yù)期的距離(d?ij)差異(也就是說,在樹上分支長度的總和連接了這兩個物種i和j),公式為:

003.png

minimum evolution方法使用樹的長度(即分支長度的總和)而不是Q來進(jìn)行樹的選擇霞势,即使分支長度仍然可以使用least squares來估計(jì)烹植。在minimum evolution法則中,較短的樹似乎比較長的樹更可靠愕贡。

neighbour joining 是使用最廣泛的計(jì)算距離的方法草雕。這是一個cluster算法,從一個星形樹開始固以,依次選擇一對分類群(基于距離的分類群)連接在一起墩虹,直到得到一個完全解析的樹。 選擇加入的taxa是為了最小化對樹長度的估計(jì) 憨琳。在MEGA中實(shí)施了有效的 neighbour joining诫钓。

004.png

D.3 Strengths and weaknesses of distance methods

基于距離算法的一大優(yōu)勢(特別是neighbour joining)是它們的計(jì)算效率。 聚類算法是快速的栽渴,因?yàn)樗恍枰蚼aximum parsimony尖坤、maximum likelihood那樣,比較最優(yōu)條件下的樹的數(shù)量闲擦。neighbour joining對于分析具有低水平序列差異的大型數(shù)據(jù)集是有用的慢味。 請注意场梆,使用現(xiàn)實(shí)的替代模型來計(jì)算兩兩距離可能很重要 。 distance methods對于差異大的序列表現(xiàn)很差纯路,因?yàn)榇蟮木嚯x包含了很大的樣本誤差或油,而且大多數(shù)距離方法(例如neighbour joining)不能解釋大距離估計(jì)的高水平的變化。distance methods也對序列比對中的gaps十分敏感驰唬。

Maximum parsimony

M.1 Parsimony tree score

在進(jìn)化樹中顶岸,Maximum parsimony通過將字符狀態(tài)分配給系統(tǒng)發(fā)生樹的內(nèi)部節(jié)點(diǎn)來最小化系統(tǒng)發(fā)生樹的變化數(shù)量。 字符(或位點(diǎn))長度是該位點(diǎn)所需的最小更改數(shù)叫编,而tree score是所有位點(diǎn)上字符長度的總和辖佣。maximum parsimony樹是最小化樹分?jǐn)?shù)的樹。

通過parsimony進(jìn)行的樹的比較搓逾,其中一些位點(diǎn)并不是有用的卷谈。 例如,在所有物種中都出現(xiàn)相同核苷酸的恒定位點(diǎn)霞篡,在任何樹上的字符長度都為零世蔗。 單例位點(diǎn)(其中只有一個物種有不同的核苷酸,而其他所有物種都是相同的)朗兵,也可以忽略污淋,因?yàn)樽址L度總是1 。 parsimony信息量位點(diǎn)是指至少觀察到兩個不同的特征余掖,每個特征至少兩次寸爆。對于四個物種來說,只有三個位點(diǎn)類型提供了有用信息:xxyy, xyxy, xyyx,其中x和y是任一兩個不同的核苷酸盐欺。對于四物種來說而昨,有三種可能的無根樹, 哪一種類型是Maximum parsimony找田,取決于三個位點(diǎn)模式中的哪一個在比對過程中最常發(fā)生。

Fitch和Hartigan開發(fā)了一種算法着憨,用于找出二叉樹的最小變化數(shù)(以及重建原始狀態(tài)以達(dá)到最小) 墩衙。PAUP,MEGA,TNT是通常使用的parsimony 程序。

Maximum parsimony的使用仍然很普遍:不是因?yàn)樗徽J(rèn)為是沒有假設(shè)的甲抖,而是因?yàn)樗?jīng)常產(chǎn)生合理的結(jié)果漆改,并且計(jì)算效率很高。

M.2 Strengths and weaknesses of parsimony

parsimony 的一大優(yōu)點(diǎn)是它的簡約性准谚,它容易去描述和理解挫剑,并且它服從嚴(yán)格的數(shù)學(xué)分析。

parsimony的一個主要缺點(diǎn)是缺乏明確的假設(shè)柱衔,這使得在樹的重建中幾乎不可能包含任何序列進(jìn)化過程的知識 由于在同一地點(diǎn)未能糾正多個取代物的錯誤樊破,由此導(dǎo)致了一個被稱為long-branch attraction的問題愉棱。如果正確的樹由一個短的內(nèi)部分支將兩個長的外部分支分開,parsimony傾向于推斷出不正確的樹哲戚,如fig3的a-b奔滑,并且將長分支歸為一組。 當(dāng)T1中的分支長度足夠極端時顺少,支持正確樹T1的位點(diǎn)模式xxyy的概率可能小于支持錯誤樹T2的位點(diǎn)模式xyxy朋其。因此, 序列中的位點(diǎn)越多脆炎,就越有可能在比xyxy更少的位點(diǎn)觀察到xxyy模式梅猿,也就越有可能選擇錯誤的T2樹作為Maximum parsimony樹 。 long-branch attraction已經(jīng)在許多真實(shí)的和模擬的數(shù)據(jù)集中被證明了秒裕,這是由于parsimony不能改正在同一地點(diǎn)的多個變化或也不能適應(yīng)兩個長分支上的并行變化袱蚓。

注意,如果假設(shè)的模型過于簡單且忽略了位點(diǎn)率變化的話簇爆,基于模型的方法(即distance癞松、likelihood和貝葉斯方法)也會遭受 long-branch attraction。 在重建深系統(tǒng)發(fā)育過程中入蛆, long-branch attraction(以及不同物種間核苷酸或氨基酸頻率的不均等)是系統(tǒng)錯誤的重要來源响蓉。 在這種分析中,建議使用現(xiàn)實(shí)的替代模型和likelihood或貝葉斯方法 哨毁。 密集的分類單元樣品枫甲,對于打破 long-branch attraction,并去除快速進(jìn)化的蛋白質(zhì)或位點(diǎn)也可能有幫助扼褪。

005.png

Maximum likelihood

M.1 Basis of maximum likelihood

最大似然方法是R. A . Fisher在20世紀(jì)20年代提出的一種估計(jì)模型中未知參數(shù)的統(tǒng)計(jì)方法想幻。 它代表了數(shù)據(jù)中關(guān)于參數(shù)的所有信息。 參數(shù)的最大似然估計(jì)值(MLEs)是使可能性最大的參數(shù)值话浇。 很多時候脏毯, 利用迭代優(yōu)化算法,數(shù)值求解最小二乘問題幔崖。 MLEs具有理想的漸近(大樣本)屬性:它們是無偏的食店、一致的(它們接近真實(shí)值)和有效的(它們在無偏估計(jì)中方差最小) 。

M.2 Maximum likelihood tree reconstruction

由于計(jì)算能力和軟件實(shí)現(xiàn)的提高赏寇,以及越來越現(xiàn)實(shí)的序列演化模型的發(fā)展吉嫩,該方法得到了廣泛的應(yīng)用。 請注意嗅定,極大似然樹估計(jì)涉及兩個優(yōu)化步驟:優(yōu)化分支長度以計(jì)算每個候選樹的樹分?jǐn)?shù)自娩,以及在樹空間中搜索最大似然樹渠退。 從統(tǒng)計(jì)的角度來看脐彩,樹(拓?fù)?是模型而不是參數(shù)动漾,而給定樹的分支長度和替換參數(shù)是模型中的參數(shù)。 因此旱眯,極大似然樹推理相當(dāng)于比較許多統(tǒng)計(jì)模型,每個模型具有相同數(shù)量的參數(shù)删豺。 上述MLEs的漸近性質(zhì)適用于給出真樹時的參數(shù)估計(jì),不適用于極大似然樹 妈拌。 給出真樹時,MLEs具有吸引性的漸近性質(zhì)尘分,但不適用于極大似然樹。

在距離計(jì)算時用到的所有替換模型都能在這使用培愁。 用似然法對許多序列進(jìn)行聯(lián)合比較,使得適應(yīng)更為復(fù)雜的序列演化模型成為可能缓窜。 分子系統(tǒng)發(fā)育學(xué)中使用的大多數(shù)模型都假設(shè)序列中各個位點(diǎn)的獨(dú)立演化定续,因此似然是不同位點(diǎn)概率的乘積。 在任何特定位置的概率是祖先節(jié)點(diǎn)上未觀察到的字符狀態(tài)的平均值禾锤。 Likelihood和parsimony在這方面是相似的私股,盡管parsimony只使用最優(yōu)的原始狀態(tài),而Likelihood對所有可能的狀態(tài)取平均值恩掷。

早期的最大似然算法的實(shí)施包括PHYLIP倡鲸,MOLPHY,PAUP4.0』颇铮現(xiàn)在的最大似然算法應(yīng)用程序包括PhyML,RAxML,GARLI旦签,不僅計(jì)算能快,而且在找高質(zhì)量的似然分?jǐn)?shù)的樹上更有效寸宏。 最近在MEGA 5中加入了極大似然值,這使得沒有計(jì)算機(jī)使用經(jīng)驗(yàn)的生物學(xué)家更容易使用這種方法偿曙。

M.3 Strengths and weaknesses of the maximum likelihood method

最大似然法的一個優(yōu)點(diǎn)是它所有的模型假設(shè)都是明確的氮凝,以便對它們進(jìn)行評估和改進(jìn)。 在Maximum likelihood 和貝葉斯方法中豐富的復(fù)雜進(jìn)化模型的可用性是其相對于maximum parsimony的主要優(yōu)勢之一望忆。 利用保守蛋白的現(xiàn)代推論幾乎完全依賴于Maximum likelihood和貝葉斯方法罩阵。

如果目的是了解序列演化的過程竿秆,極大似然法比距離法或maximum parsimony有明顯的優(yōu)勢。 likelihood ratio test可用于檢驗(yàn)進(jìn)化模型的擬合性稿壁,并檢驗(yàn)有趣的生物學(xué)假設(shè)幽钢,如影響蛋白質(zhì)進(jìn)化的分子鐘和達(dá)爾文選擇。

最大似然的主要缺點(diǎn)是likelihood計(jì)算傅是,特別是似然準(zhǔn)則下的樹搜索匪燕,計(jì)算量大。 另一個缺點(diǎn)是喧笔,如果模型是錯誤的帽驯,那么該方法可能具有較差的統(tǒng)計(jì)特性,這對貝葉斯分析也適用书闸。

Bayesian methods

B.1 Basis of Bayesian inference

貝葉斯推理是一種通用的統(tǒng)計(jì)推理方法尼变。 與極大似然不同的是嫌术,模型中的參數(shù)被認(rèn)為是具有統(tǒng)計(jì)分布的隨機(jī)變量度气,而在極大似然中它們是未知的固定常數(shù)蚯嫌。 在對數(shù)據(jù)進(jìn)行分析之前择示,為參數(shù)分配一個先驗(yàn)分布栅盲,并與數(shù)據(jù)(或likelihood結(jié)合產(chǎn)生后驗(yàn)分布谈秫。 所有關(guān)于參數(shù)的推論都是基于后驗(yàn)分布的拟烫。 在過去的二十年中硕淑,由于計(jì)算方法的進(jìn)步于樟,特別是Markov chain Monte Carlo algorithms(MCMC算法)的進(jìn)步迂曲,貝葉斯推理得到了廣泛的應(yīng)用路捧。

B.2 Bayesian phylogenetics

開發(fā)了更高效的MCMC算法弃舒,消除了時鐘假設(shè)(允許在無根樹上有獨(dú)立的分支長度)腋颠,并發(fā)布了MrBayes程序哑子,這使得這種方法在分子系統(tǒng)學(xué)家中很流行炭序。

006.png
007.png

B.3 Strengths and weaknesses of the Bayesian inference method

似然方法和貝葉斯方法都使用似然函數(shù)惭聂,因此具有一致性和有效性等統(tǒng)計(jì)特性辜纲。然而耕腾, 極大似然推理和貝葉斯推理是統(tǒng)計(jì)推理的對立哲學(xué)扫俺。 因此狼纬,貝葉斯推理的相同特征可以被看作是優(yōu)點(diǎn)疗琉,也可以被看作是缺點(diǎn)盈简,這取決于一個人的哲學(xué)。

首先拳话,貝葉斯統(tǒng)計(jì)被認(rèn)為是直接回答了生物學(xué)問題弃衍,并且產(chǎn)生了容易解釋的結(jié)果:給定數(shù)據(jù)和模型后镜盯,樹的后驗(yàn)概率就是樹的正確的概率速缆。 像似然分析中的置信區(qū)間這樣的概念有一種人為的解釋艺糜,許多統(tǒng)計(jì)數(shù)據(jù)的使用者無法理解破停。 在系統(tǒng)發(fā)育學(xué)中尉剩,定義樹的置信區(qū)間是不可能的理茎。 根據(jù)真實(shí)數(shù)據(jù)集計(jì)算的樹和枝的后驗(yàn)概率往往過高皂林。

其次式撼, 先驗(yàn)概率允許包含關(guān)于樹或參數(shù)的先驗(yàn)信息。然而扰楼,這類信息很少可用弦赖,而對先驗(yàn)的規(guī)范通常是一個負(fù)擔(dān)用戶;幾乎所有的數(shù)據(jù)分析都是使用計(jì)算機(jī)程序中的“默認(rèn)”先驗(yàn)進(jìn)行的蹬竖。

008.png

Statistical assessments of phylogenetic methods

系統(tǒng)發(fā)育推斷的目的是估計(jì)樹的拓?fù)浣Y(jié)構(gòu)和可能的分支長度列另。使用四條準(zhǔn)則來判斷樹構(gòu)建的方法旦装。

1.Consistency. 當(dāng)數(shù)據(jù)量趨近于無窮時阴绢,如果估計(jì)值聚集于真實(shí)參數(shù)值呻袭,則稱估計(jì)方法是一致的。 當(dāng)序列中位點(diǎn)數(shù)目增加時廉侧,估計(jì)值聚集于真實(shí)值時伏穆,則樹重建方法是一致的枕扫。 如果假設(shè)的模型是正確的烟瞧,那么基于模型的方法(即distance matrix参滴、maximum likelihood和貝葉斯推理)是一致的砾赔。在某些模式下暴心,Parsimony可能是不一致的;費(fèi)爾森斯坦對此的論證引起了激烈的討論专普。

2.Efficiency. 在參數(shù)的統(tǒng)計(jì)估計(jì)中檀夹,方差較小的無偏估計(jì)比方差較大的無偏估計(jì)更有效。 在系統(tǒng)發(fā)育學(xué)中娜亿,可以通過在給定位點(diǎn)數(shù)量的情況下恢復(fù)正確樹或子樹的概率來衡量效率暇唾。 樹重構(gòu)的復(fù)雜性意味著MLEs的漸近理論不再適用。 計(jì)算機(jī)模擬通常發(fā)現(xiàn)宫仗,在恢復(fù)正確的樹時藕夫,maximum likelihood的efficiency比maximum parsimony或neighbour joining更高枯冈。

3.Robustness. 如果一個方法給出了正確的答案尘奏,即使它的假設(shè)被違背了,它仍然是具有穩(wěn)健性的瑰煎。 隨著測序數(shù)據(jù)的快速積累酒甸,極大地降低了樹重構(gòu)中的樣本誤差插勤,因此該方法的系統(tǒng)誤差或穩(wěn)健性變得越來越重要农尖。

4.Computational speed. 這個屬性很容易評估。Neighbour joining使用一種聚類算法來畫樹臂外,并且非常快橘霎。 在maximum evolution姐叁、maximum parsimony和maximum likelihood等條件下尋找最佳樹的方法比較慢外潜。 貝葉斯方法的計(jì)算速度取決于鏈的長度(由MCMC算法生成)处窥,這是高度依賴于數(shù)據(jù)的。 由于系統(tǒng)進(jìn)化likelihood的計(jì)算成本較高俄讹,因此maximum likelihood和貝葉斯推理的速度通常要慢于maximum parsimony患膛。 計(jì)算算法的巨大進(jìn)步使得基于likelihood的方法對大數(shù)據(jù)集的分析成為可能踪蹬。

Phylogenomic analysis of large data sets

P.1 Supertree and supermatrix approaches

對數(shù)百或數(shù)千個基因或蛋白質(zhì)進(jìn)行系統(tǒng)發(fā)育分析有兩種方法豌鹤,特別是當(dāng)某些物種的某些位點(diǎn)缺失時枝缔。 supertree方法分別分析每個基因灵临,然后使用啟發(fā)式算法將每個基因的“子樹”組合成所有物種的“超級樹”儒溉。 分離分析有助于研究重建“子樹”的差異或水平基因轉(zhuǎn)移的流行程度顿涣。 然而涛碑,以所有基因?yàn)榛A(chǔ)估計(jì)一個共同的系統(tǒng)發(fā)育是低效的歹篓。

在超矩陣方法中庄撮,將多個基因的序列串聯(lián)起來毙籽,生成一個數(shù)據(jù)超矩陣,其中缺失的數(shù)據(jù)用問號代替扭仁,然后用這個超級矩陣重建樹. 大多數(shù)超級矩陣分析忽略了基因間進(jìn)化動態(tài)的差異搀突。請注意,假設(shè)不同進(jìn)化模型熊泵、不同的樹和分支長度的超矩陣分析等同于分離或“超級樹”分析仰迁。 當(dāng)一棵共同的樹是所有基因的基礎(chǔ)時,理想的方法應(yīng)該是對所有基因進(jìn)行聯(lián)合分析(超矩陣)顽分,利用likelihood來適應(yīng)進(jìn)化過程中基因間的異質(zhì)性徐许。

P.2 Impact of missing data

許多基因組數(shù)據(jù)集是高度不完整的,因此大多數(shù)細(xì)胞在物種的基因矩陣將是空的卒蘸。 雖然在理論上雌隅,似然函數(shù)(在極大似然和貝葉斯方法中)可以很好地適應(yīng)缺失數(shù)據(jù),但是這種大規(guī)模缺失數(shù)據(jù)和對齊間隙的影響還沒有被很好地理解缸沃。模擬結(jié)果表明,在處理缺失數(shù)據(jù)時,最大似然推理和貝葉斯推理通常比neighbour joining或maximum parsimony表現(xiàn)得更好蹦渣,貝葉斯推理表現(xiàn)得最好属提。 如果考慮到一些極端情況堪滨,即在去除排列g(shù)aps后义矛,從不同的基因或位點(diǎn)計(jì)算出兩兩之間的距離制轰,其中一些是快速進(jìn)化的调俘,而另一些則是緩慢進(jìn)化的侧巨,則可以理解neighbour joining的糟糕表現(xiàn)。

P.3 Importance of systematic errors

在分析非常大的數(shù)據(jù)集時,幾乎所有的bootstrap支持值或貝葉斯后驗(yàn)概率都被計(jì)算為100%,即使推斷的系統(tǒng)發(fā)育可能在不同的基因間相互沖突姚垃,或者可能取決于使用的方法和模型。 因此,在這類分析中窘游,系統(tǒng)誤差比隨機(jī)抽樣誤差要重要得多艾蓝,而對違反模型假設(shè)的方法,即使它們的效率較低搓侄,也應(yīng)該是可取的。(是否是放大系統(tǒng)誤差,不得而知)

P.4 Data-partitioning strategies

數(shù)據(jù)劃分的基本原理是將具有相似進(jìn)化特征的基因或位點(diǎn)分組到相同的劃分中告嘲,以便使用相同的模型描述同一劃分中的所有位點(diǎn),不同的劃分使用不同的模型捂襟。 劃分太細(xì)會增加計(jì)算時間,導(dǎo)致過度擬合扒吁,而劃分太粗則會導(dǎo)致擬合不足或模型沖突懦铺。 然而裆针,情況是復(fù)雜的,因?yàn)橐恍┠P驮试S在取代率思杯、氨基酸頻率或取代模式的位點(diǎn)之間隨機(jī)變化君旦。 這種混合模型使用統(tǒng)計(jì)分布來適應(yīng)不同位點(diǎn)間的異質(zhì)性,而不需要進(jìn)行數(shù)據(jù)劃分妆绞。 選擇使用分區(qū)模型還是混合模型是一個哲學(xué)問題:它分別對應(yīng)于統(tǒng)計(jì)中對固定效應(yīng)模型或隨機(jī)效應(yīng)模型的偏好。

目前的數(shù)據(jù)分割策略包括根據(jù)基因的相對替代率對基因進(jìn)行分割颗味,以及將編碼基因的三個密碼子位置分割成不同的分區(qū)。 likelihood比率測試也被用來決定兩個基因是否應(yīng)該在相同或不同的分區(qū)。總的來說躯喇, 數(shù)據(jù)劃分與其說是一門科學(xué),不如說是一門藝術(shù),它應(yīng)該依賴于我們對生物系統(tǒng)的知識:例如栖博,假設(shè)所有基因都有相同的系統(tǒng)發(fā)育過程是合理的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末虚吟,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子签财,更是在濱河造成了極大的恐慌串慰,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,539評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件唱蒸,死亡現(xiàn)場離奇詭異邦鲫,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)神汹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,594評論 3 396
  • 文/潘曉璐 我一進(jìn)店門庆捺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人屁魏,你說我怎么就攤上這事滔以。” “怎么了氓拼?”我有些...
    開封第一講書人閱讀 165,871評論 0 356
  • 文/不壞的土叔 我叫張陵你画,是天一觀的道長。 經(jīng)常有香客問我桃漾,道長坏匪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,963評論 1 295
  • 正文 為了忘掉前任撬统,我火速辦了婚禮适滓,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘恋追。我一直安慰自己粒竖,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,984評論 6 393
  • 文/花漫 我一把揭開白布几于。 她就那樣靜靜地躺著蕊苗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪沿彭。 梳的紋絲不亂的頭發(fā)上朽砰,一...
    開封第一講書人閱讀 51,763評論 1 307
  • 那天,我揣著相機(jī)與錄音喉刘,去河邊找鬼瞧柔。 笑死,一個胖子當(dāng)著我的面吹牛睦裳,可吹牛的內(nèi)容都是我干的造锅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,468評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼廉邑,長吁一口氣:“原來是場噩夢啊……” “哼哥蔚!你這毒婦竟也來了倒谷?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤糙箍,失蹤者是張志新(化名)和其女友劉穎渤愁,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體深夯,經(jīng)...
    沈念sama閱讀 45,850評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡抖格,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,002評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了咕晋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片雹拄。...
    茶點(diǎn)故事閱讀 40,144評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖掌呜,靈堂內(nèi)的尸體忽然破棺而出办桨,到底是詐尸還是另有隱情,我是刑警寧澤站辉,帶...
    沈念sama閱讀 35,823評論 5 346
  • 正文 年R本政府宣布呢撞,位于F島的核電站,受9級特大地震影響饰剥,放射性物質(zhì)發(fā)生泄漏殊霞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,483評論 3 331
  • 文/蒙蒙 一汰蓉、第九天 我趴在偏房一處隱蔽的房頂上張望绷蹲。 院中可真熱鬧,春花似錦顾孽、人聲如沸祝钢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,026評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拦英。三九已至,卻和暖如春测秸,著一層夾襖步出監(jiān)牢的瞬間疤估,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,150評論 1 272
  • 我被黑心中介騙來泰國打工霎冯, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留铃拇,地道東北人。 一個月前我還...
    沈念sama閱讀 48,415評論 3 373
  • 正文 我出身青樓沈撞,卻偏偏與公主長得像慷荔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子缠俺,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,092評論 2 355

推薦閱讀更多精彩內(nèi)容

  • (一)分子進(jìn)化的研究方法 1. 分子進(jìn)化研究的意義 自20世紀(jì)中葉显晶,隨著分子生物學(xué)的不斷發(fā)展贷岸,進(jìn)化研究也進(jìn)入了分子...
    bioinfo2011閱讀 7,220評論 0 20
  • 系統(tǒng)發(fā)育學(xué)概念 系統(tǒng)發(fā)生(或種系發(fā)生、系統(tǒng)發(fā)育吧碾,phylogeny)是指生物形成或進(jìn)化的歷史。系統(tǒng)發(fā)生學(xué)(phyl...
    lakeseafly閱讀 15,930評論 0 29
  • 轉(zhuǎn)自:https://www.plob.org/article/994.html 方法的選擇 首先是方法的選擇墓卦。 ...
    oddxix閱讀 10,637評論 4 49
  • 夏天的樹枝掛滿了新鮮的果實(shí) 成群的蜜蜂在果實(shí)的周邊飛來飛去 它們正在尋找著花的影子 戀戀不舍的不想離去 秋天的樹葉...
    海南黑哥閱讀 166評論 1 3
  • 隨著互聯(lián)網(wǎng)的發(fā)展倦春,企業(yè)對用戶口碑越來越重視。 對產(chǎn)品的認(rèn)可程度如何落剪,對運(yùn)營人員的認(rèn)可程度如何睁本,從用戶的反響里可以直...
    格物致知的小仙女閱讀 455評論 0 0