系統(tǒng)進(jìn)化樹學(xué)習(xí)筆記孕惜。
系統(tǒng)進(jìn)化樹簡(jiǎn)介
系統(tǒng)進(jìn)化樹(Phylogenetic tree)
:用一種類似樹狀分支圖形來(lái)概括各節(jié)點(diǎn)之間的進(jìn)化關(guān)系贯吓,節(jié)點(diǎn)可以是不同物種、同一物種不同樣本、不同基因等务豺。可體現(xiàn)物種進(jìn)化關(guān)系和演化歷程嗦明,群體內(nèi)部樣本親緣關(guān)系笼沥,基因家族成員分類和進(jìn)化關(guān)系等。
分類:根據(jù)是否指定跟節(jié)點(diǎn)娶牌,可分為有根樹和無(wú)根樹奔浅。
無(wú)根樹:沒(méi)有指定祖先節(jié)點(diǎn),進(jìn)化樹只呈現(xiàn)各個(gè)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)和相關(guān)距離诗良。
有根樹:指定根節(jié)點(diǎn)汹桦,進(jìn)化樹可呈現(xiàn)各個(gè)節(jié)點(diǎn)的距離和祖先節(jié)點(diǎn)以及各個(gè)分枝分化的先后關(guān)系,可用于分化時(shí)間的推斷鉴裹。
系統(tǒng)進(jìn)化樹的基本元素
進(jìn)化拓?fù)浣Y(jié)構(gòu)
:進(jìn)化樹不同分支的拓?fù)鋱D形营勤。
根(root)
:所有分類的共同祖先灵嫌。
節(jié)點(diǎn)(node)
:一個(gè)分類單元:有外部節(jié)點(diǎn)(out node)和內(nèi)部節(jié)點(diǎn)(inner node),外節(jié)點(diǎn)又稱葉節(jié)點(diǎn)葛作,代表參與分析的物種或序列寿羞。
進(jìn)化分支
:兩種以上生物(或序列等)及其祖先組成的樹枝。
外群
:與分析序列相關(guān)的生物序列且具有較遠(yuǎn)的親緣關(guān)系赂蠢。
常用的三個(gè)指標(biāo):距離標(biāo)尺绪穆、分支長(zhǎng)度和自展值
距離標(biāo)尺
:進(jìn)化樹可顯示序列的差異度(數(shù)值),標(biāo)尺即為“比例尺”虱岂。
分支長(zhǎng)度
:對(duì)應(yīng)演化距離玖院,在樹形結(jié)構(gòu)中,枝長(zhǎng)累積距離越近的樣本或序列差異越小第岖,反之差異越大难菌,如 D 和 I 之間的差異就是 a+b,D 和 F 之間的差異度是 a+c+d蔑滓。
自展值(bootstrap)
:檢驗(yàn)計(jì)算的進(jìn)化樹分支可信度郊酒,該值范圍 0-1 或者 0-100% 。
系統(tǒng)進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)
經(jīng)典形式(Traditional)键袱,圈圖(Circular)燎窘,輻射樹(Radiation)
Cladogram
和Phylogdram
區(qū)別關(guān)鍵在于枝長(zhǎng)(branch length)是否代表進(jìn)化距離。
-
Cladogram 強(qiáng)調(diào)分支的進(jìn)化關(guān)系蹄咖,或者可以理解為拓?fù)渖系年P(guān)系褐健,枝長(zhǎng)不代表進(jìn)化距離,每一個(gè)tip在末端對(duì)齊澜汤。
2.Phlogdram強(qiáng)調(diào)的是種系遺傳蚜迅,枝長(zhǎng)有意義,代表遺傳變化的多少或進(jìn)化距離俊抵,越長(zhǎng)距離祖先狀態(tài)變化越大谁不。
系統(tǒng)進(jìn)化樹構(gòu)建
系統(tǒng)進(jìn)化樹的構(gòu)建步驟
1.數(shù)據(jù)準(zhǔn)備
基因的核苷酸序列,SNP位點(diǎn)务蝠,蛋白的氨基酸
FASTA格式
:第一行是由大于號(hào)“>”打頭拍谐。從第二行開(kāi)始為序列本身烛缔。
2.多序列比對(duì)
常用的軟件包括MEGA馏段,Clustal X,Muscle践瓷,Phylip院喜。
MEGA
:是最常用的比對(duì)建樹軟件,優(yōu)點(diǎn)是可視化圖形界面晕翠,操作方便簡(jiǎn)單喷舀;但是比對(duì)速度慢砍濒,輸出格式單一
Clustal X:優(yōu)點(diǎn)是圖形界面,可輸出多種格式(如phy)硫麻,但是速度也不快
Muscle 和 Phyllp 的優(yōu)點(diǎn)是運(yùn)算快爸邢,但需要簡(jiǎn)單地應(yīng)用代碼,不適合初學(xué)者拿愧。
多序列比對(duì)結(jié)果優(yōu)化:Jalview
3.選擇建樹方法
Distance-based methods 距離法(NJ鄰接法杠河,MP最大簡(jiǎn)約法、ML最大似然法浇辜、Bayesla貝葉斯法券敌,推斷法)
首先通過(guò)各個(gè)物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離柳洋,構(gòu)建一個(gè)進(jìn)化距離矩陣待诅,進(jìn)化樹的構(gòu)建則是基于這個(gè)矩陣中的進(jìn)化距離關(guān)系。如果序列的相似性較高熊镣,各方法的結(jié)果差別不大卑雁;現(xiàn)在文章較常見(jiàn)的是NJ和ML模型。可根據(jù)序列相似度選擇建樹方法轧钓,對(duì)于近緣序列序厉,可以用MP,MP一般不用在遠(yuǎn)緣序列上毕箍,這時(shí)一般用NJ或ML弛房。
NJ和ML需要選擇模型:蛋白質(zhì)序列一般選擇Poisson Correction(泊松修正)模型,核酸序列選擇Kimura 2-parameter(Kimura-2參數(shù))模型而柑。
4.構(gòu)建進(jìn)化樹
構(gòu)建進(jìn)化樹的軟件
- PHYLIP 免費(fèi)的文捶、集成的進(jìn)化分析工具http://evolution.genetics.washington.edu/phylip.html
- MEGA 圖形化、集成的進(jìn)化分析工具 http://www.megasoftware.net/
- PAUP 商業(yè)軟件媒咳,集成的進(jìn)化分析工具http://paup.csit.fsu.edu/
- PHYML 最快的ML 建樹工具http://www.atgc-montpellier.fr/phyml/
- MrBayes 基于貝葉斯方法的建樹工具http://mrbayes.csit.fsu.edu/
建樹軟件的選擇
- NJ構(gòu)樹:PHYLIP(命令行)粹排,MEGA(圖形化)
- MP構(gòu)樹:PAUP(付費(fèi)),PHYLIP涩澡,MEGA
- ML構(gòu)樹:PHYML(速度快)顽耳,Tree-puzzle(命令行),PAUP妙同,PHYLIP
進(jìn)化樹的評(píng)估
1??Bootstrap評(píng)估進(jìn)化樹:用來(lái)檢驗(yàn)構(gòu)建的進(jìn)化樹分支可信度的射富。
- 原理:把序列的位點(diǎn)都重排,重排后的序列再用相同的辦法構(gòu)建粥帚,如果原來(lái)樹的分枝在重排后構(gòu)的樹中也出現(xiàn)了胰耗,就給這個(gè)分枝記為重現(xiàn)一次。這樣經(jīng)過(guò)打亂重排給定的次數(shù)后(一般設(shè)置500-1000次)芒涡,這個(gè)分枝被重現(xiàn)的次數(shù)占重排次數(shù)的百分比就是自展值柴灯。
2?? 自展值大于75(75%)才認(rèn)為這個(gè)分枝是可靠的卖漫。
- 自展值低,即無(wú)法將該節(jié)點(diǎn)周邊的序列準(zhǔn)確區(qū)分開(kāi)赠群,可能是序列太相似或者差異太大羊始。
- 若低自展值節(jié)點(diǎn)位于樹的枝末端,一般是由于序列太相似了查描,導(dǎo)致無(wú)法區(qū)分店枣,可換用其他序列或使用分辨率更高的技術(shù)對(duì)樣本進(jìn)行檢測(cè)和分類。
- 若自展值低的節(jié)點(diǎn)位于樹靠近根部的位置叹誉,可能是分枝周邊的序列相似度太低鸯两;可適當(dāng)刪掉一些不靠譜的序列,或許刪掉多條序列中保守性差的區(qū)域
3?? 可用兩種不同的方法構(gòu)建進(jìn)化樹长豁,如果所得到的進(jìn)化樹類似钧唐,則結(jié)果較為可靠。
進(jìn)化樹美化
- 進(jìn)化樹美化軟件有treeview匠襟,F(xiàn)igtree钝侠,在線網(wǎng)站iTOL和Evoiview,AI酸舍,PS等帅韧。
- 通常需要注意建完樹后用輸出格式*.tree 或 *.nwk 的文件,導(dǎo)入到相關(guān)軟件啃勉,進(jìn)行修飾忽舟。
- 推薦iTOL:由歐洲分子生物學(xué)實(shí)驗(yàn)室(EMBL)開(kāi)發(fā)和維護(hù)的生命樹的系統(tǒng)發(fā)生樹的網(wǎng)站,用于展示和操縱系統(tǒng)進(jìn)化樹(https://itol.embl.de/)淮阐。