進化樹作圖專題1:Newick的前世今生

montreal?生信人?2018-02-05

相信很多朋友在研究中都遇到過有關(guān)進化樹作圖的問題。從本期開始国葬,我將為大家?guī)?b>進化樹作圖系列專題贤徒,希望能對有著不同專業(yè)背景的讀者在進化樹作圖(請注意不是建樹)方面有所幫助。

想必大家都知道Newick格式是目前進化樹做常用到的一種格式了汇四。比如接奈,對于下面這棵樹:

小編作圖,歡迎轉(zhuǎn)載或修改

用Newick格式來表示通孽,就是:(A,(B,(C,D)))序宦。很簡潔吧?目前背苦,作為最常使用的進化樹格式互捌,Newick在各種作圖軟件中得到了廣泛應(yīng)用。本文將首先回溯歷史行剂,帶你了解Newick的前世今生疫剃。

時光回轉(zhuǎn)三十年。1986年6月26日硼讽,美國新罕布什爾州多佛市(Dover巢价,New Hampshire)的一家龍蝦館里,七位科學(xué)家一邊吃著美味的龍蝦固阁,一邊書寫下了分子進化領(lǐng)域濃墨重彩的一筆壤躲。對于這次會議,能找到的資料極為有限备燃,但其結(jié)果卻對整個系統(tǒng)發(fā)育學(xué)(phylogenetics)產(chǎn)生了重要的影響碉克。因為正是在這次會議中誕生了一種全新的、用字符與括號來對進化樹進行描述的格式并齐。這次在新罕布什爾的會議實際上由一系列非正式的討論構(gòu)成漏麦,而最后一次討論(還有第二次討論)正是在一家名為Newick’s Lobster House的龍蝦館舉行客税,也許是龍蝦鮮美令人難以忘懷的緣故,大家決定用Newick龍蝦館來命名這種格式(學(xué)界也稱之為New Hampshire format)[1]撕贞。


BTW更耻;這家建于1948年的龍蝦館至今仍在營業(yè)。聽去過的人說味道確實不錯捏膨,推薦fried oysters和Gulf shrimp秧均,大家有興趣可以去嘗下鮮,地址:Address: 431 Dover Point Road, Dover, NH 03820号涯。

從此目胡,Newick從新罕布什爾的龍蝦館慢慢走入世界各大學(xué)的圖書館,盡管從未在正式文獻中被專門論述過[1]链快。七位與會嘉賓都是當(dāng)時分子進化和計算機學(xué)界的翹楚誉己,讓我們看看他們都是誰:James Archie, William Day, Joe Felsenstein,Wayne Maddison, Christopher Meacham, F. James Rohlf, David Swofford?[1]域蜗。沒聽說過巫延?沒關(guān)系,其中的幾位在下文和本系列專題后續(xù)的文章中還會多次出現(xiàn)地消。多說一句炉峰,本次會議的發(fā)起人[1]、著名分子進化學(xué)家脉执,時任華大西雅圖(University of Washington, Seattle)遺傳系教授的Joseph Felsenstein還有一位親弟弟疼阔,Lee Felsenstein,是一位知名的電子工程師半夷,對于PC的早期發(fā)展有巨大貢獻[2]婆廊,大家不要搞混。

針對Newick格式巫橄,需要注意的是不同的樹會有多種的Newick格式對應(yīng) [1]淘邻。讓我再回到本文開始的例子:

以下三種方式:(A,(B,(C,D))),(A,(B,(D,C)))湘换,(A,((C,D),B))宾舅,都可以表示這棵樹。此外彩倚,實際應(yīng)用中很多的樹是無法定根的(rooted)筹我。這里所謂的“根”就是祖先,不能定根也就是我們無法知曉祖先在哪(如圖所示帆离,1蔬蕊、2還是3)。用Newick來表示的時候哥谷,一般的原則是人為地定一個根岸夯。還是上面這棵樹麻献,如果對于一棵不定根的樹(unrooted tree),那么(A,(B,(C,D)))猜扮,((C,D),(B,A))和(D,(C,(B,A)))表示的都是同一棵不定根樹(unrooted tree)[1]勉吻。

Newick的獨角戲唱了一年,就迎來了競爭對手Nexus破镰,一種包含有多種信息并以模塊化存儲的新格式餐曼。與Newick不同压储,Nexus有一篇在正式期刊發(fā)表的文章鲜漩,專門介紹這種格式。這篇文章于1997年刊載在分子進化和系統(tǒng)分類學(xué)(systematics)頂級期刊Systematic Biology上集惋,盡管此前Nexus已在多種軟件中(比如MacClade 3和PAUP 3)被使用[3] 孕似。?

作者的名字眼熟嗎?對刮刑,其中的David Swofford和Wayne Maddison喉祭,正是當(dāng)年新罕布什爾“龍蝦七子”中的兩位。不過為什么排在第一位的也叫Maddison雷绢?莫非泛烙?

你沒有猜錯,這兩個Maddison是親兄弟翘紊,而且還是雙胞胎蔽氨!至于哪個是哥哥,哪個是弟弟帆疟,有了解的讀者歡迎在后面留言鹉究,反正我是分不出,請見下圖:


Copyright: Wayne Maddison Lab, CC 3.0

BTW:Maddison兄弟之前都在亞利桑那大學(xué)(University of Arizona)做老師踪宠,其間經(jīng)常被人搞混自赔,甚至自己的學(xué)生也無法分辨。時常有人向哥哥咨詢一件事柳琢,幾天后卻向弟弟詢問結(jié)果绍妨,搞得對方一頭霧水。后來也許是大家實在受不了柬脸,Wayne Maddison遂改換門庭痘绎,去往加拿大的英屬哥倫比亞大學(xué)(University of British Columbia)任教。

作者在文中明確指出了發(fā)明Nexus格式旨在提供一種具有延展性(expandability)肖粮,包容性(inclusivity)孤页,可移植性(portability),以及可操作性(processibility)的格式涩馆。而這些特性的實現(xiàn)行施,最重要的就是Nexus模塊(modularity)的設(shè)計允坚。讓我們看一個示例:

小編作圖,歡迎轉(zhuǎn)載或修改

這里面的內(nèi)容確實不少蛾号。不過請注意稠项,Nexus對于樹的描述(或者說tree block),實際上和Newick如出一轍鲜结,所以嚴(yán)格地說展运,在描述進化樹方面,它沒有任何創(chuàng)新精刷,只是照搬Newick格式拗胜。

有趣的是,上面提及的這幾位在進化樹格式發(fā)展史中具有里程碑意義的人物——Newick龍蝦館會議的組織者Joseph Felsenstein怒允,Nexus格式的發(fā)明者David Swofford和Maddison兄弟——分別摘取了第二闸拿、第一和第五第六屆系統(tǒng)分類學(xué)家(systematic biologist)主席終身成就獎(Presidents' Award for Lifetime Achievement)[4]必尼。該獎由系統(tǒng)分類學(xué)家協(xié)會(Society for Systematic Biologists)每隔三年或以上頒發(fā)一次愕撰,迄今只有六位得主览露,堪稱系統(tǒng)分類學(xué)界最高榮譽[4]。當(dāng)然丽惶,這絕不僅是對于Newick和Nexus的嘉獎炫七。幾位科學(xué)家的貢獻還有很多,比如三個著名的進化軟件:Phylip钾唬、PAUP和Mesquite万哪,也正分別出自他們之手。

Nexus雖然與Newick同出一源知纷,卻由于其更加豐富的內(nèi)容和復(fù)雜的模塊化結(jié)構(gòu)壤圃,使得很多軟件中兩者不能兼容:前者有PAUP,Mesquite和MrBayes這樣的擁躉琅轧,而后者也得到了Phylip伍绳,MEGA以及RAxML等軟件的青睞。時至今日乍桂,如果把兩種格式的名字同時輸入谷歌搜索框冲杀,得到的幾乎都是“How to convert nexus files to Newick format?”之類的提問。

Newick和Nexus的二人轉(zhuǎn)在2009年終于迎來了攪局者睹酌,它就是phyloXML权谁,一種基于XML并整合了樹和其他相關(guān)數(shù)據(jù)的新格式。在phyloXML里憋沿,不同的屬性用<property>…</property>的方式描述旺芽,而XML良好的擴展性也使得phyloXML有著更靈活的設(shè)計方式[5]。可以說采章,這種格式是同Newick有著鮮明區(qū)別的运嗜、也是真正意義上的一種新的進化樹格式。該文作者悯舟,美國桑福德-伯納姆醫(yī)學(xué)研究所(Sanford-Burnham Medical Research Institute)的剝尸猴Christian Zmasek和來自印第安納大學(xué)布魯明頓分校(Indiana University, Bloomington)的Mira Han担租,在文中強調(diào),生物學(xué)的飛速發(fā)展和研究的日益深入使得人們有必要將包括物種抵怎、基因名奋救、枝長(branch length)、甚至是成種事件(speciation)等廣泛信息整合到進化樹中反惕,并以一種全新的格式呈現(xiàn)出來尝艘。于是二人一道開發(fā)了phyloXML。下圖(左)展示了一個包含有多種信息的phyloXML文件承璃。下圖(右)則是基于phyloXML的一棵包含物種信息和蛋白質(zhì)結(jié)構(gòu)域信息的樹利耍。???

phyloXML近年來不斷完善蚌本,現(xiàn)已被包括iTOL在內(nèi)的許多作圖工具所采用盔粹,并得到了BioPerl和BioPython的支持,有著越來越廣泛的使用群體程癌,與Newick和Nexus漸成三足鼎立之勢舷嗡。有興趣的讀者可以前往phyloXML的大本營http://www.phyloxml.org———看看關(guān)于phyloXML更多的內(nèi)容。

除了上述三種進化樹格式之外嵌莉,還有其他的一些“小眾”群體进萄。由于篇幅所限不再一一介紹。本期內(nèi)容至此介紹完畢锐峭,有問題的朋友歡迎在下方留言中鼠。預(yù)知后續(xù)內(nèi)容,請鎖定生信人公眾號沿癞。

參考資料

http://evolution.genetics.washington.edu/phylip/newicktree.html

https://en.wikipedia.org/wiki/Lee_Felsenstein

Maddison, D. R., Swofford, D. L. and Maddison, W. P. (1997), Nexus: An extensible file format for systematic information.?Syst. Biol., 46:590–621.

http://www.systbio.org/presidents-award.html

Han M.V. and Zmasek C.M. (2009) phyloXML: XML for evolutionary biology and comparative genomics.?BMC Bioinformatics, 10:356.


作者原創(chuàng)援雇,原載于生信人微信公眾號

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市椎扬,隨后出現(xiàn)的幾起案子惫搏,更是在濱河造成了極大的恐慌,老刑警劉巖蚕涤,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件筐赔,死亡現(xiàn)場離奇詭異,居然都是意外死亡揖铜,警方通過查閱死者的電腦和手機茴丰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人贿肩,你說我怎么就攤上這事鳞绕。” “怎么了尸曼?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵们何,是天一觀的道長。 經(jīng)常有香客問我控轿,道長冤竹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任茬射,我火速辦了婚禮鹦蠕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘在抛。我一直安慰自己钟病,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布刚梭。 她就那樣靜靜地躺著肠阱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪朴读。 梳的紋絲不亂的頭發(fā)上屹徘,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天,我揣著相機與錄音衅金,去河邊找鬼噪伊。 笑死,一個胖子當(dāng)著我的面吹牛氮唯,可吹牛的內(nèi)容都是我干的鉴吹。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼惩琉,長吁一口氣:“原來是場噩夢啊……” “哼豆励!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起琳水,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤肆糕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后在孝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诚啃,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年私沮,在試婚紗的時候發(fā)現(xiàn)自己被綠了始赎。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖造垛,靈堂內(nèi)的尸體忽然破棺而出魔招,到底是詐尸還是另有隱情,我是刑警寧澤五辽,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布办斑,位于F島的核電站,受9級特大地震影響杆逗,放射性物質(zhì)發(fā)生泄漏乡翅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一罪郊、第九天 我趴在偏房一處隱蔽的房頂上張望蠕蚜。 院中可真熱鬧,春花似錦悔橄、人聲如沸靶累。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挣柬。三九已至,卻和暖如春争舞,著一層夾襖步出監(jiān)牢的瞬間凛忿,已是汗流浹背澈灼。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工竞川, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人叁熔。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓委乌,卻偏偏與公主長得像,于是被迫代替她去往敵國和親荣回。 傳聞我的和親對象是個殘疾皇子遭贸,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容