找到一篇進(jìn)化樹科普文章,Phylogeny for the faint of heart:a tutorial? ?作者Sandra L. Baldauf? 英語賊爛看得慢伪冰,挑了下重點(diǎn)翻譯了一下蹦渣,還有些術(shù)語不知道中文哄芜,有些地方可能有錯(cuò)(自學(xué)剛?cè)腴T〒▽〒)。原文內(nèi)容包括如何解讀樹柬唯、整合數(shù)據(jù)认臊、多序列比對、樹構(gòu)建方法锄奢、bootstrap analysis失晴、長分支工件剧腻、一些軟件資源;原文鏈接見文末师坎。
系統(tǒng)發(fā)育學(xué)是一門基于DNA或蛋白質(zhì)序列的比較來估計(jì)進(jìn)化歷史的科學(xué)恕酸,建于分子系統(tǒng)學(xué)理論基礎(chǔ)之上。
系統(tǒng)發(fā)育樹又名分子進(jìn)化樹胯陋。
一些術(shù)語??
進(jìn)化樹可由multigene families(多基因家族?)或者來自多個(gè)分類群的單基因繪成蕊温,又或者兩者的結(jié)合。前者的內(nèi)部節(jié)點(diǎn)(nodes)對應(yīng)于一次次基因的復(fù)制遏乔,后者對應(yīng)于物種的形成义矛。
Groups
一個(gè)節(jié)點(diǎn)及其產(chǎn)生的一切都是一個(gè)“支系(monophyletic group)”或“單系群”盟萨。單系類群是一個(gè)自然類群凉翻;所有成員都來自唯一的共同祖先(相對于樹的其余部分),并從該祖先那里繼承了一組獨(dú)特的共同特征捻激。
一個(gè)不包括一些后代的群體是一個(gè)“副系(paraphyletic group)”(例如動(dòng)物不包括人類)制轰。
許多遠(yuǎn)親OTU(OTU??見文末)的“大雜燴”,可能外表相似或保留了相似的原始特征胞谭,構(gòu)成一個(gè)“多系(polyphyletic group)”垃杖。
Trees
節(jié)點(diǎn)的寬度沒有任何意義,只是為了調(diào)整寬度使各分支間距均勻丈屹。所有分支也可繞著節(jié)點(diǎn)自由旋轉(zhuǎn)调俘,因此一棵樹可以呈現(xiàn)出各種形狀。
分支的長度對應(yīng)于兩個(gè)節(jié)點(diǎn)之間的進(jìn)化量(大致為序列差異的百分比)彩库。因此,分支越長先蒋,兩個(gè)節(jié)點(diǎn)上的序列就分歧越大(高度進(jìn)化)骇钦。也有進(jìn)化樹為“分支圖(cladograms)”形式,僅顯示分枝鞭达,分支長度無意義(圖3g)司忱,但不常見。
Roots
系統(tǒng)發(fā)育樹的底部是它的“根”畴蹭。最古老的點(diǎn)坦仍,共同的祖先。如何確定一個(gè)根叨襟?用outgroup(外類群)繁扎,一個(gè)外部參照點(diǎn)。
Homology
同源序列:來源于共同祖先的相似的序列。同源只是對基因序列的定性梳玫。同源序列類型可分為直系同源(Orthologs?)和旁系同源(Paralogs)爹梁。
直系同源:描述在不同物種中來自于共同祖先的基因。Orthologous基因可能有相同的功能提澎,也可能沒有姚垃;它們是嚴(yán)格垂直傳播的(父母傳給后代),因此它們的系統(tǒng)發(fā)育可以追溯到它們的宿主譜系盼忌。
旁系同源:描述在同一物種內(nèi)由于基因復(fù)制而分離的同源基因积糯。是多基因家族的成員,通過基因復(fù)制而產(chǎn)生谦纱。我個(gè)人理解看成,旁系同源應(yīng)該就是高中生物所說的同源基因,比如紅眼果蠅和白眼果蠅吧跨嘉?(?ω?)川慌。
一般建樹流程?
原文基本方法瞄桨、原理都有講;B站上東大生信課也有詳細(xì)補(bǔ)充(見文末)
1.數(shù)據(jù)收集:可以從網(wǎng)站上找讶踪。原文有基因庫網(wǎng)站芯侥、搜索引擎等的列舉。
2.多序列比對:問題的核心。
3.建樹柱查。系統(tǒng)進(jìn)化分析的時(shí)候常常是基于某個(gè)基因的序列進(jìn)行分析廓俭,通過堿基的變化和差異計(jì)算相互之間的進(jìn)化關(guān)系。既然涉及到計(jì)算唉工,自然就各種各樣的算法:(1)基于距離的方法(neighbor-joining就是一種常用的算法研乒,簡稱NJ,用它計(jì)算出來的系統(tǒng)發(fā)育樹就叫NJ樹)(2)最大簡約法(MP)(3)最大似然法(ML)(4)貝葉斯? ? ? ?從1-4淋硝,計(jì)算速度下降雹熬,精讀提高。
可以想象成對花園中的花進(jìn)行進(jìn)化分類奖地。你可以從計(jì)算花瓣橄唬、萼片和雄蕊等的數(shù)量開始——這就是你的數(shù)據(jù)集。如果你使用距離的方法参歹,你可以簡單地根據(jù)它們共有的特征數(shù)量來對你的花進(jìn)行排序仰楚;一系列共有特征最相似的花被認(rèn)為是關(guān)系最密切的。
4.測試:系統(tǒng)發(fā)育準(zhǔn)確性最簡單的測試是自舉(bootstrap)犬庇,它是系統(tǒng)發(fā)育準(zhǔn)確性的一般衡量標(biāo)準(zhǔn)僧界,70%或更高的值可能表示可靠的分組。此外還有個(gè)“Long-branch attraction”問題...
5.數(shù)據(jù)呈現(xiàn)臭挽。樹美化推薦網(wǎng)站iTOL捂襟,對新手很友好(比如我),不會(huì)編程都能上手欢峰。
參考:
1.B站的東大生信課:https://www.bilibili.com/video/av59701475
2.有關(guān)同源序列:Orthology, paralogy and proposed classification for paralog subtypes
?http://www.sciencedirect.com/science/article/pii/S0168952502027932?PloBhttp://www.sciencedirect.com/science/article/pii/S0168952502027932
3.Phylogeny for the faint of heart:a tutorial
http://www.sciencedirect.com/science/article/pii/S0168952503001124