montreal?生信人?2018-02-05
相信很多朋友在研究中都遇到過有關(guān)進化樹作圖的問題。從本期開始国葬,我將為大家?guī)?b>進化樹作圖系列專題贤徒,希望能對有著不同專業(yè)背景的讀者在進化樹作圖(請注意不是建樹)方面有所幫助。
想必大家都知道Newick格式是目前進化樹做常用到的一種格式了汇四。比如接奈,對于下面這棵樹:
小編作圖,歡迎轉(zhuǎn)載或修改
用Newick格式來表示通孽,就是:(A,(B,(C,D)))序宦。很簡潔吧?目前背苦,作為最常使用的進化樹格式互捌,Newick在各種作圖軟件中得到了廣泛應(yīng)用。本文將首先回溯歷史行剂,帶你了解Newick的前世今生疫剃。
時光回轉(zhuǎn)三十年。1986年6月26日硼讽,美國新罕布什爾州多佛市(Dover巢价,New Hampshire)的一家龍蝦館里,七位科學(xué)家一邊吃著美味的龍蝦固阁,一邊書寫下了分子進化領(lǐng)域濃墨重彩的一筆壤躲。對于這次會議,能找到的資料極為有限备燃,但其結(jié)果卻對整個系統(tǒng)發(fā)育學(xué)(phylogenetics)產(chǎn)生了重要的影響碉克。因為正是在這次會議中誕生了一種全新的、用字符與括號來對進化樹進行描述的格式并齐。這次在新罕布什爾的會議實際上由一系列非正式的討論構(gòu)成漏麦,而最后一次討論(還有第二次討論)正是在一家名為Newick’s Lobster House的龍蝦館舉行客税,也許是龍蝦鮮美令人難以忘懷的緣故,大家決定用Newick龍蝦館來命名這種格式(學(xué)界也稱之為New Hampshire format)[1]撕贞。
BTW更耻;這家建于1948年的龍蝦館至今仍在營業(yè)。聽去過的人說味道確實不錯捏膨,推薦fried oysters和Gulf shrimp秧均,大家有興趣可以去嘗下鮮,地址:Address: 431 Dover Point Road, Dover, NH 03820号涯。
從此目胡,Newick從新罕布什爾的龍蝦館慢慢走入世界各大學(xué)的圖書館,盡管從未在正式文獻中被專門論述過[1]链快。七位與會嘉賓都是當(dāng)時分子進化和計算機學(xué)界的翹楚誉己,讓我們看看他們都是誰:James Archie, William Day, Joe Felsenstein,Wayne Maddison, Christopher Meacham, F. James Rohlf, David Swofford?[1]域蜗。沒聽說過巫延?沒關(guān)系,其中的幾位在下文和本系列專題后續(xù)的文章中還會多次出現(xiàn)地消。多說一句炉峰,本次會議的發(fā)起人[1]、著名分子進化學(xué)家脉执,時任華大西雅圖(University of Washington, Seattle)遺傳系教授的Joseph Felsenstein還有一位親弟弟疼阔,Lee Felsenstein,是一位知名的電子工程師半夷,對于PC的早期發(fā)展有巨大貢獻[2]婆廊,大家不要搞混。
針對Newick格式巫橄,需要注意的是不同的樹會有多種的Newick格式對應(yīng) [1]淘邻。讓我再回到本文開始的例子:
以下三種方式:(A,(B,(C,D))),(A,(B,(D,C)))湘换,(A,((C,D),B))宾舅,都可以表示這棵樹。此外彩倚,實際應(yīng)用中很多的樹是無法定根的(rooted)筹我。這里所謂的“根”就是祖先,不能定根也就是我們無法知曉祖先在哪(如圖所示帆离,1蔬蕊、2還是3)。用Newick來表示的時候哥谷,一般的原則是人為地定一個根岸夯。還是上面這棵樹麻献,如果對于一棵不定根的樹(unrooted tree),那么(A,(B,(C,D)))猜扮,((C,D),(B,A))和(D,(C,(B,A)))表示的都是同一棵不定根樹(unrooted tree)[1]勉吻。
Newick的獨角戲唱了一年,就迎來了競爭對手Nexus破镰,一種包含有多種信息并以模塊化存儲的新格式餐曼。與Newick不同压储,Nexus有一篇在正式期刊發(fā)表的文章鲜漩,專門介紹這種格式。這篇文章于1997年刊載在分子進化和系統(tǒng)分類學(xué)(systematics)頂級期刊Systematic Biology上集惋,盡管此前Nexus已在多種軟件中(比如MacClade 3和PAUP 3)被使用[3] 孕似。?
作者的名字眼熟嗎?對刮刑,其中的David Swofford和Wayne Maddison喉祭,正是當(dāng)年新罕布什爾“龍蝦七子”中的兩位。不過為什么排在第一位的也叫Maddison雷绢?莫非泛烙?
你沒有猜錯,這兩個Maddison是親兄弟翘紊,而且還是雙胞胎蔽氨!至于哪個是哥哥,哪個是弟弟帆疟,有了解的讀者歡迎在后面留言鹉究,反正我是分不出,請見下圖:
Copyright: Wayne Maddison Lab, CC 3.0
BTW:Maddison兄弟之前都在亞利桑那大學(xué)(University of Arizona)做老師踪宠,其間經(jīng)常被人搞混自赔,甚至自己的學(xué)生也無法分辨。時常有人向哥哥咨詢一件事柳琢,幾天后卻向弟弟詢問結(jié)果绍妨,搞得對方一頭霧水。后來也許是大家實在受不了柬脸,Wayne Maddison遂改換門庭痘绎,去往加拿大的英屬哥倫比亞大學(xué)(University of British Columbia)任教。
作者在文中明確指出了發(fā)明Nexus格式旨在提供一種具有延展性(expandability)肖粮,包容性(inclusivity)孤页,可移植性(portability),以及可操作性(processibility)的格式涩馆。而這些特性的實現(xiàn)行施,最重要的就是Nexus模塊(modularity)的設(shè)計允坚。讓我們看一個示例:
小編作圖,歡迎轉(zhuǎn)載或修改
這里面的內(nèi)容確實不少蛾号。不過請注意稠项,Nexus對于樹的描述(或者說tree block),實際上和Newick如出一轍鲜结,所以嚴(yán)格地說展运,在描述進化樹方面,它沒有任何創(chuàng)新精刷,只是照搬Newick格式拗胜。
有趣的是,上面提及的這幾位在進化樹格式發(fā)展史中具有里程碑意義的人物——Newick龍蝦館會議的組織者Joseph Felsenstein怒允,Nexus格式的發(fā)明者David Swofford和Maddison兄弟——分別摘取了第二闸拿、第一和第五第六屆系統(tǒng)分類學(xué)家(systematic biologist)主席終身成就獎(Presidents' Award for Lifetime Achievement)[4]必尼。該獎由系統(tǒng)分類學(xué)家協(xié)會(Society for Systematic Biologists)每隔三年或以上頒發(fā)一次愕撰,迄今只有六位得主览露,堪稱系統(tǒng)分類學(xué)界最高榮譽[4]。當(dāng)然丽惶,這絕不僅是對于Newick和Nexus的嘉獎炫七。幾位科學(xué)家的貢獻還有很多,比如三個著名的進化軟件:Phylip钾唬、PAUP和Mesquite万哪,也正分別出自他們之手。
Nexus雖然與Newick同出一源知纷,卻由于其更加豐富的內(nèi)容和復(fù)雜的模塊化結(jié)構(gòu)壤圃,使得很多軟件中兩者不能兼容:前者有PAUP,Mesquite和MrBayes這樣的擁躉琅轧,而后者也得到了Phylip伍绳,MEGA以及RAxML等軟件的青睞。時至今日乍桂,如果把兩種格式的名字同時輸入谷歌搜索框冲杀,得到的幾乎都是“How to convert nexus files to Newick format?”之類的提問。
Newick和Nexus的二人轉(zhuǎn)在2009年終于迎來了攪局者睹酌,它就是phyloXML权谁,一種基于XML并整合了樹和其他相關(guān)數(shù)據(jù)的新格式。在phyloXML里憋沿,不同的屬性用<property>…</property>的方式描述旺芽,而XML良好的擴展性也使得phyloXML有著更靈活的設(shè)計方式[5]。可以說采章,這種格式是同Newick有著鮮明區(qū)別的运嗜、也是真正意義上的一種新的進化樹格式。該文作者悯舟,美國桑福德-伯納姆醫(yī)學(xué)研究所(Sanford-Burnham Medical Research Institute)的剝尸猴Christian Zmasek和來自印第安納大學(xué)布魯明頓分校(Indiana University, Bloomington)的Mira Han担租,在文中強調(diào),生物學(xué)的飛速發(fā)展和研究的日益深入使得人們有必要將包括物種抵怎、基因名奋救、枝長(branch length)、甚至是成種事件(speciation)等廣泛信息整合到進化樹中反惕,并以一種全新的格式呈現(xiàn)出來尝艘。于是二人一道開發(fā)了phyloXML。下圖(左)展示了一個包含有多種信息的phyloXML文件承璃。下圖(右)則是基于phyloXML的一棵包含物種信息和蛋白質(zhì)結(jié)構(gòu)域信息的樹利耍。???
phyloXML近年來不斷完善蚌本,現(xiàn)已被包括iTOL在內(nèi)的許多作圖工具所采用盔粹,并得到了BioPerl和BioPython的支持,有著越來越廣泛的使用群體程癌,與Newick和Nexus漸成三足鼎立之勢舷嗡。有興趣的讀者可以前往phyloXML的大本營http://www.phyloxml.org———看看關(guān)于phyloXML更多的內(nèi)容。
除了上述三種進化樹格式之外嵌莉,還有其他的一些“小眾”群體进萄。由于篇幅所限不再一一介紹。本期內(nèi)容至此介紹完畢锐峭,有問題的朋友歡迎在下方留言中鼠。預(yù)知后續(xù)內(nèi)容,請鎖定生信人公眾號沿癞。
參考資料
http://evolution.genetics.washington.edu/phylip/newicktree.html
https://en.wikipedia.org/wiki/Lee_Felsenstein
Maddison, D. R., Swofford, D. L. and Maddison, W. P. (1997), Nexus: An extensible file format for systematic information.?Syst. Biol., 46:590–621.
http://www.systbio.org/presidents-award.html
Han M.V. and Zmasek C.M. (2009) phyloXML: XML for evolutionary biology and comparative genomics.?BMC Bioinformatics, 10:356.
作者原創(chuàng)援雇,原載于生信人微信公眾號