分子進(jìn)化樹構(gòu)建及數(shù)據(jù)分析方法介紹【轉(zhuǎn)】

首先是方法的選擇眼耀。
基于距離的方法有UPGMA、ME(Minimum Evolution雕薪,最小進(jìn)化法)和NJ(Neighbor-Joining昧诱,鄰接法)等。其他的幾種方法包括MP(Maximum parsimony所袁,最大簡(jiǎn)約法)盏档、ML(Maximum likelihood,最大似然法)以及貝葉斯(Bayesian)推斷等方法燥爷。其中UPGMA法已經(jīng)較少使用蜈亩。
一般來講,如果模型合適前翎,ML的效果較好稚配。對(duì)近緣序列,有人喜歡MP港华,因?yàn)橛玫募僭O(shè)最少道川。MP一般不用在遠(yuǎn)緣序列上,這時(shí)一般用NJ或ML。對(duì)相似度很低的序列冒萄,NJ往往出現(xiàn)Long-branch attraction(LBA臊岸,長(zhǎng)枝吸引現(xiàn)象),有時(shí)嚴(yán)重干擾進(jìn)化樹的構(gòu)建尊流。貝葉斯的方法則太慢帅戒。對(duì)于各種方法構(gòu)建分子進(jìn)化樹的準(zhǔn)確性,一篇綜述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)認(rèn)為貝葉斯的方法最好崖技,其次是ML逻住,然后是MP。其實(shí)如果序列的相似性較高迎献,各種方法都會(huì)得到不錯(cuò)的結(jié)果瞎访,模型間的差別也不大。
對(duì)于NJ和ML吁恍,是需要選擇模型的装诡。對(duì)于各種模型之間的理論上的區(qū)別,這里不作深入的探討践盼,可以參看Nei的書鸦采。對(duì)于蛋白質(zhì)序列以及DNA序列,兩者模型的選擇是不同的咕幻。以作者的經(jīng)驗(yàn)來說渔伯,對(duì)于蛋白質(zhì)的序列,一般選擇Poisson Correction(泊松修正)這一模型肄程。而對(duì)于核酸序列锣吼,一般選擇Kimura 2-parameter(Kimura-2參數(shù))模型。如果對(duì)各種模型的理解并不深入蓝厌,作者并不推薦初學(xué)者使用其他復(fù)雜的模型玄叠。
Bootstrap幾乎是一個(gè)必須的選項(xiàng)。一般Bootstrap的值>70拓提,則認(rèn)為構(gòu)建的進(jìn)化樹較為可靠读恃。如果Bootstrap的值太低,則有可能進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)有錯(cuò)誤代态,進(jìn)化樹是不可靠的寺惫。
對(duì)于進(jìn)化樹的構(gòu)建,如果對(duì)理論的了解并不深入蹦疑,作者推薦使用缺省的參數(shù)西雀。需要選擇模型的時(shí)候(例如用NJ或者M(jìn)L建樹),對(duì)于蛋白序列使用Poisson Correction模型歉摧,對(duì)于核酸序列使用Kimura-2參數(shù)模型艇肴。另外需要做Bootstrap檢驗(yàn)腔呜,當(dāng)Bootstrap值過低時(shí),所構(gòu)建的進(jìn)化樹其拓?fù)浣Y(jié)構(gòu)可能存在問題再悼。并且育谬,一般推薦用兩種不同的方法構(gòu)建進(jìn)化樹,如果所得到的進(jìn)化樹類似,則結(jié)果較為可靠。
軟件的選擇表1中列出了一些與構(gòu)建分子進(jìn)化樹相關(guān)的軟件盈蛮。
構(gòu)建NJ樹着降,可以用PHYLIP(寫得有點(diǎn)問題,例如比較慢泳炉,并且Bootstrap檢驗(yàn)不方便)或者M(jìn)EGA憾筏。MEGA是Nei開發(fā)的方法并設(shè)計(jì)的圖形化的軟件,使用非常方便花鹅。作者推薦MEGA軟件為初學(xué)者的首選氧腰。雖然多雪列比對(duì)工具ClustalW/X自帶了一個(gè)NJ的建樹程序,但是該程序只有p-distance模型刨肃,而且構(gòu)建的樹不夠準(zhǔn)確古拴,一般不用來構(gòu)建進(jìn)化樹。
構(gòu)建MP樹真友,最好的工具是PAUP黄痪,但該程序?qū)儆谏虡I(yè)軟件,并不對(duì)學(xué)術(shù)免費(fèi)盔然。因此桅打,作者并不建議使用PAUP。而MEGA和PHYLIP也可以用來構(gòu)建進(jìn)化樹愈案。這里挺尾,作者推薦使用MEGA來構(gòu)建MP樹。理由是站绪,MEGA是圖形化的軟件遭铺,使用方便,而PHYLIP則是命令行格式的軟件恢准,使用較為繁瑣掂僵。對(duì)于近緣序列的進(jìn)化樹構(gòu)建,MP方法幾乎是最好的顷歌。構(gòu)建ML樹可以使用PHYML锰蓬,速度最快∶袖觯或者使用Tree-puzzle芹扭,速度也較快麻顶,并且該程序做蛋白質(zhì)序列的進(jìn)化樹效果比較好。而PAML則并不適合構(gòu)建進(jìn)化樹舱卡。
ML的模型選擇是看構(gòu)出的樹的likelihood值辅肾,從參數(shù)少,簡(jiǎn)單的模型試起轮锥,到likelihood值最大為止矫钓。ML也可以使用PAUP或者PHYLIP來構(gòu)建。這里作者推薦的工具是BioEdit舍杜。BioEdit集成了一些PHYLIP的程序新娜,用來構(gòu)建進(jìn)化樹。Tree-puzzle是另外一個(gè)不錯(cuò)的選擇既绩,不過該程序是命令行格式的概龄,需要學(xué)習(xí)DOS命令。PHYML的不足之處是沒有win32的版本饲握,只有適用于64位的版本私杜,因此不推薦使用。值得注意的是救欧,構(gòu)建ML樹衰粹,不需要事先的多序列比對(duì),而直接使用FASTA格式的序列即可笆怠。
貝葉斯的算法以MrBayes為代表寄猩,不過速度較慢。一般的進(jìn)化樹分析中較少應(yīng)用骑疆。由于該方法需要很多背景的知識(shí)田篇,這里不作介紹。
表1 構(gòu)建分子進(jìn)化樹相關(guān)的軟件
軟件

網(wǎng)址

說明

ClustalX

http://bips.u-strasbg.fr/fr/Documentation/ClustalX/

圖形化的多序列比對(duì)工具

ClustalW

http://www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html

命令行格式的多序列比對(duì)工具

GeneDoc

http://www.psc.edu/biomed/genedoc/

多序列比對(duì)結(jié)果的美化工具

BioEdit

http://www.mbio.ncsu.edu/BioEdit/bioedit.html

序列分析的綜合工具

MEGA

http://www.megasoftware.net/

圖形化箍铭、集成的進(jìn)化分析工具泊柬,不包括ML

PAUP

http://paup.csit.fsu.edu/

商業(yè)軟件,集成的進(jìn)化分析工具

PHYLIP

http://evolution.genetics.washington.edu/phylip.html

免費(fèi)的诈火、集成的進(jìn)化分析工具

PHYML

http://atgc.lirmm.fr/phyml/

最快的ML建樹工具

PAML

http://abacus.gene.ucl.ac.uk/software/paml.html

ML建樹工具

Tree-puzzle

http://www.tree-puzzle.de/

較快的ML建樹工具

MrBayes

http://mrbayes.csit.fsu.edu/

基于貝葉斯方法的建樹工具

MAC5

http://www.agapow.net/software/mac5/

基于貝葉斯方法的建樹工具

TreeView

http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

進(jìn)化樹顯示工具

需要注意的幾個(gè)問題是:
其一兽赁,如果對(duì)核酸序列進(jìn)行分析,并且是CDS編碼區(qū)的核酸序列冷守,一般需要將核酸序列分別先翻譯成氨基酸序列刀崖,進(jìn)行比對(duì),然后再對(duì)應(yīng)到核酸序列上拍摇。這一流程可以通過MEGA 3.0以后的版本實(shí)現(xiàn)亮钦。MEGA3現(xiàn)在允許兩條核苷酸,先翻成蛋白序列比對(duì)之后再倒回去充活,做后續(xù)計(jì)算蜂莉。
其二蜡娶,無論是核酸序列還是蛋白序列,一般應(yīng)當(dāng)先做成FASTA格式映穗。FASTA格式的序列窖张,第一行由符號(hào)“>”開頭,后面跟著序列的名稱蚁滋,可以自定義宿接,例如user1,protein1等等辕录。將所有的FASTA格式的序列存放在同一個(gè)文件中睦霎。文件的編輯可用Windows自帶的記事本工具,或者EditPlus(google搜索可得)來操作踏拜。
文件格式如圖1所示:
圖1 FASTA格式的序列

另外,構(gòu)建NJ或者M(jìn)P樹需要先將序列做多序列比對(duì)的處理低剔。作者推薦使用ClustalX進(jìn)行多序列比對(duì)的分析速梗。多序列比對(duì)的結(jié)果有時(shí)需要后續(xù)處理并應(yīng)用于文章中,這里作者推薦使用GeneDoc工具襟齿。而構(gòu)建ML樹則不需要預(yù)先的多序列比對(duì)姻锁。
因此,作者推薦的軟件組合為:MEGA 3.1 + ClustalX + GeneDoc + BioEdit猜欺。
數(shù)據(jù)分析及結(jié)果推斷一般碰到的幾類問題是位隶,(1)推斷基因/蛋白的功能;(2)基因/蛋白家族分類开皿;(3)計(jì)算基因分化的年代涧黄。關(guān)于這方面的文獻(xiàn)非常多,這里作者僅做簡(jiǎn)要的介紹赋荆。
推斷基因/蛋白的功能笋妥,一般先用BLAST工具搜索同一物種中與不同物種的同源序列,這包括直向同源物(ortholog)和旁系同源物(paralog)窄潭。如何界定這兩種同源物春宣,網(wǎng)上有很多詳細(xì)的介紹,這里不作討論嫉你。然后得到這些同源物的序列月帝,做成FASTA格式的文件。一般通過NJ構(gòu)建進(jìn)化樹幽污,并且進(jìn)行Bootstrap分析所得到的結(jié)果已足夠嚷辅。如果序列近緣,可以再使用MP構(gòu)建進(jìn)化樹距误,進(jìn)行比較潦蝇。如果序列較遠(yuǎn)源款熬,則可以做ML樹比較。使用兩種方法得到的樹攘乒,如果差別不大贤牛,并且Bootstrap總體較高,則得到的進(jìn)化樹較為可靠则酝。
基因/蛋白家族分類殉簸。這方面可以細(xì)分為兩個(gè)問題。一是對(duì)一個(gè)大的家族進(jìn)行分類沽讹,另一個(gè)就是將特定的一個(gè)或多個(gè)基因/蛋白定位到已知的大的家族上般卑,看看屬于哪個(gè)亞家族。例如爽雄,對(duì)驅(qū)動(dòng)蛋白(kinesin)超家族進(jìn)行分類蝠检,屬于第一個(gè)問題。而假如得到一個(gè)新的驅(qū)動(dòng)蛋白的序列挚瘟,想分析該序列究竟屬于驅(qū)動(dòng)蛋白超家族的14個(gè)亞家族中的哪一個(gè)叹谁,則屬于后一個(gè)問題。這里乘盖,一般不推薦使用MP的方法焰檩。大多數(shù)的基因/蛋白家族起源較早,序列分化程度較大订框,相互之間較為遠(yuǎn)源析苫。這里一般使用NJ、ME或者M(jìn)L的方法穿扳。
計(jì)算基因分化的年代衩侥。這個(gè)一般需要知道物種的核苷酸替代率。常見物種的核苷酸替代率需要查找相關(guān)的文獻(xiàn)矛物。這里不作過多的介紹顿乒。一般對(duì)于這樣的問題,序列多數(shù)是近緣的泽谨,選擇NJ或者M(jìn)P即可璧榄。如果使用MEGA進(jìn)行分析,選項(xiàng)中有一項(xiàng)是“Gaps/Missing Data”吧雹,一般選擇“Pairwise Deletion”骨杂。其他多數(shù)的選項(xiàng)保持缺省的參數(shù)。
總結(jié)在實(shí)用中雄卷,只要方法搓蚪、模型合理,建出的樹都有意義丁鹉,可以任意選擇自己認(rèn)為好一個(gè)妒潭。最重要的問題是:你需要解決什么樣的問題悴能?如果分析的結(jié)果能夠解決你現(xiàn)有的問題,那么雳灾,這樣的分析足夠了漠酿。因此,在做進(jìn)化分析前谎亩,可能需要很好的考慮一下自己的問題所在炒嘲,這樣所作的分析才有針對(duì)性。
序列比對(duì)建議用ClustalX
建NJ或MP樹匈庭,用MEGA就可以了夫凸,非常方便
若要建ML樹推薦用phyML
建Bayes樹推薦用Parallel MrBayes

NCBI的COG介紹:
什么是COG
COG”是Cluster of Orthologous Groups of proteins(蛋白相鄰類的聚簇)的縮寫阱持。構(gòu)成每個(gè)COG的蛋白都是被假定為來自于一個(gè)祖先蛋白夭拌,并且因此或者是orthologs或者是paralogs。Orthologs是指來自于不同物種的由垂直家系(物種形成)進(jìn)化而來的蛋白衷咽,并且典型的保留與原始蛋白有相同的功能鸽扁。Paralogs是那些在一定物種中的來源于基因復(fù)制的蛋白,可能會(huì)進(jìn)化出新的與原來有關(guān)的功能兵罢。請(qǐng)參考文獻(xiàn)獲得更多的信息献烦。
COG分類是如何構(gòu)建的滓窍?
COG是通過把所有完整測(cè)序的基因組的編碼蛋白一個(gè)一個(gè)的互相比較確定的卖词。在考慮來自一個(gè)給定基因組的蛋白時(shí),這種比較將給出每個(gè)其他基因組的一個(gè)最相似的蛋白(因此需要用完整的基因組來定義COG吏夯。注1)這些基因的每一個(gè)都輪番的被考慮此蜈。如果在這些蛋白(或子集)之間一個(gè)相互的最佳匹配關(guān)系被發(fā)現(xiàn),那么那些相互的最佳匹配將形成一個(gè)COG(注2)噪生。這樣裆赵,一個(gè)COG中的成員將與這個(gè)COG中的其他成員比起被比較的基因組中的其他蛋白更相像,盡管如果絕對(duì)相似性比較的跺嗽。最佳匹配原則的使用战授,沒有了人為選擇的統(tǒng)計(jì)切除的限制,這就兼顧了進(jìn)化慢和進(jìn)化快的蛋白桨嫁。然而植兰,還有一個(gè)加的限制就是一個(gè)COG必須包含來自于3個(gè)種系發(fā)生上遠(yuǎn)的基因組的一個(gè)蛋白。
注1:僅僅應(yīng)用在形成COG時(shí)璃吧,不包含新蛋白的信息楣导。
注2:為了簡(jiǎn)化,許多步驟都省略的畜挨,請(qǐng)參考文獻(xiàn)筒繁。
使用COG可以得到什么樣的信息噩凹?
簡(jiǎn)單的說,有三方面的信息:
1毡咏,蛋白的注解驮宴。COG的一個(gè)蛋白成員的已知功能(以及二維或三維結(jié)構(gòu))可以直接應(yīng)用到COG的其他成員上去。然而血当,這里也要警告幻赚,因?yàn)橛行〤OG含有paralogs,它們的功能并非對(duì)應(yīng)與那些已知蛋白臊旭。
2落恼,種系發(fā)生圖譜。這給出在一個(gè)特定的COG中一個(gè)給定物種是否存在某些蛋白离熏。系統(tǒng)使用佳谦,這些圖譜可以用來確定在一個(gè)物種中是否一個(gè)特定的代謝途徑。
3滋戳,多重對(duì)齊钻蔑。每一個(gè)COG頁面包括了一個(gè)鏈接到COG成員的一個(gè)多重對(duì)齊,那可以被用來確定保守序列殘基和分析成員蛋白的進(jìn)化關(guān)系奸鸯。
COG分類有哪些咪笑?
目前COG分類中每個(gè)字母代表的功能分類含義:
INFORMATION STORAGE AND PROCESSING
[J] Translation, ribosomal structure and biogenesis
[A] RNA processing and modification
[K] Transcription
[L] Replication, recombination and repair
[B] Chromatin structure and dynamics
CELLULAR PROCESSES AND SIGNALING
[D] Cell cycle control, cell division, chromosome partitioning
[Y] Nuclear structure
[V] Defense mechanisms
[T] Signal transduction mechanisms
[M] Cell wall/membrane/envelope biogenesis
[N] Cell motility
[Z] Cytoskeleton
[W] Extracellular structures
[U] Intracellular trafficking, secretion, and vesicular transport
[O] Posttranslational modification, protein turnover, chaperones
METABOLISM
[C] Energy production and conversion
[G] Carbohydrate transport and metabolism
[E] Amino acid transport and metabolism
[F] Nucleotide transport and metabolism
[H] Coenzyme transport and metabolism
[I] Lipid transport and metabolism
[P] Inorganic ion transport and metabolism
[Q] Secondary metabolites biosynthesis, transport and catabolism
POORLY CHARACTERIZED
[R] General function prediction only
[S] Function unknown

遺傳密碼的新排列和起源探討
肖景發(fā), 于軍中國科學(xué)院北京基因組研究所, 中國科學(xué)院“基因組科學(xué)及信息”重點(diǎn)實(shí)驗(yàn)室
摘要根據(jù)DNA核苷酸組分的動(dòng)態(tài)變化規(guī)律將遺傳密碼的傳統(tǒng)排列按密碼子對(duì)GC和嘌呤含量的敏感性進(jìn)行了重排. 新密碼表可劃分為兩個(gè)半?yún)^(qū)(或1/2區(qū))和四個(gè)四分區(qū)(或1/4區(qū)). 就原核生物基因組而言, 當(dāng)GC含量增加時(shí), 物種蛋白質(zhì)組所含的氨基酸傾向于使用GC富集區(qū)和嘌呤不敏感半?yún)^(qū)所編碼的氨基酸, 它們均使用四重簡(jiǎn)并密碼, 對(duì)DNA序列的突變具有相對(duì)魯棒性(Robustness). 當(dāng)GC含量降低時(shí), 大多數(shù)密碼子處于AU富集區(qū)和嘌呤敏感半?yún)^(qū), 這個(gè)區(qū)域編碼的氨基酸具有物理化學(xué)性質(zhì)的多樣性. 因?yàn)楫?dāng)密碼子第三位核苷酸(CP3)在嘌呤和嘧啶之間發(fā)生轉(zhuǎn)換時(shí), 密碼子所編碼的氨基酸也傾向于發(fā)生變化.
關(guān)于遺傳密碼的進(jìn)化存在多種假說, 包括凝固事件假說、共進(jìn)化假說和立體化學(xué)假說等, 每種假說均試圖解釋遺傳密碼所表現(xiàn)出來的某些化學(xué)和生物學(xué)規(guī)律. 基于遺傳密碼的物理化學(xué)性質(zhì)娄涩、基因組變異的規(guī)律和相關(guān)的生物學(xué)假說, 我們提出了遺傳密碼分步進(jìn)化假說(The Stepwise Evolution Hypothesis for the Genetic Code). 在人們推斷的最原始的RNA世界里, 原初(Primordial)遺傳密碼從只能識(shí)別嘌呤和嘧啶開始, 編碼一個(gè)或兩個(gè)簡(jiǎn)單而功能明確的氨基酸. 由于胞嘧啶C的化學(xué)不穩(wěn)定性, 最初形成的遺傳密碼應(yīng)該僅僅由腺嘌呤A和尿嘧啶U來編碼, 卻可得到一組七個(gè)多元化的氨基酸. 隨著生命復(fù)雜性的增加, 鳥嘌呤G從主載操作信號(hào)的功能中釋放出來, 再伴隨著C的引入, 使遺傳密碼逐步擴(kuò)展到12窗怒、15和20個(gè)氨基酸, 最終完成全部進(jìn)化步驟.
遺傳密碼的進(jìn)化過程同時(shí)也伴隨以蛋白質(zhì)為主體的分子機(jī)制和細(xì)胞過程的進(jìn)化, 包括氨酰tRNA合成酶(AARS)從初始翻譯機(jī)器上的脫離、DNA作為信息載體而取代RNA以及AARS和tRNA共進(jìn)化等基本過程. 分子機(jī)制和細(xì)胞過程是生命的基本組成元件, 它們不但自己不斷地趨于完善, 也促使生命體走著不盡相同的道路, 要么維持魯棒性(Robustness, 如細(xì)菌), 要么尋覓多元化(Diversity, 如節(jié)肢動(dòng)物和植物), 要么追求綜合性(Complexity, 如脊椎動(dòng)物).
自從密碼子被全部發(fā)現(xiàn)以來, Crick[1]
就將遺傳密碼表排列成化學(xué)家所認(rèn)可的形式. 盡管后來有些特殊表現(xiàn)形式的列方式(如同心圓蓄拣、八卦式和二元密碼等), 但其基本排布一直延續(xù)至今[1~3]
. 遺傳密碼以4個(gè)脫氧核糖核苷酸作為基本符號(hào)來組成遺傳信息, 并以20個(gè)氨基酸作為基本結(jié)構(gòu)單元來構(gòu)建蛋白質(zhì). 遺傳密碼是使用4個(gè)堿基(兩個(gè)嘌呤: 腺嘌呤A和鳥嘌呤G; 2個(gè)嘧啶: 尿嘧啶U和胞嘧啶C)構(gòu)成的三聯(lián)體密碼子, 共64個(gè), 分別對(duì)應(yīng)20個(gè)氨基酸或翻譯起始和終止信號(hào). 生物體要將DNA分子中儲(chǔ)存的信息內(nèi)涵轉(zhuǎn)變成功能內(nèi)涵, 就要利用信使mRNA扬虚、解碼分子tRNA和完整翻譯機(jī)器等多重功能. 各種復(fù)雜分子機(jī)制和細(xì)胞過程的誕生和成熟一定會(huì)反映生命從RNA世界到RNA-蛋白質(zhì)世界, 再到RNA-蛋白質(zhì)-DNA世界逐漸轉(zhuǎn)變的過程, 遺傳密碼作為一個(gè)獨(dú)立的生物學(xué)機(jī)制也一定是漫長(zhǎng)生命進(jìn)化過程中的一個(gè)必然產(chǎn)物.
20世紀(jì)60年代初, 實(shí)驗(yàn)分子生物學(xué)最大的進(jìn)展就是解碼遺傳密碼, 發(fā)現(xiàn)它在生命有機(jī)體中, 基本是統(tǒng)一的. 自此不同的假設(shè)均試圖解釋遺傳密碼的信息和化學(xué)特性, 從簡(jiǎn)單的凝固事件假說到更復(fù)雜的統(tǒng)計(jì)學(xué)、共進(jìn)化和立體化學(xué)理論. 凝固事件假說認(rèn)為密碼子與氨基酸的對(duì)應(yīng)關(guān)系是在某個(gè)生命發(fā)生時(shí)段里被固定下來, 并且很難被改變[2]
, 這個(gè)假說一直被基于適應(yīng)性球恤、歷史性和化學(xué)性的不同論點(diǎn)所挑戰(zhàn)[4]
. 盡管關(guān)于遺傳密碼的進(jìn)化也有人提出過不同的假設(shè), 但是解釋密碼子的分配原則辜昵、物理化學(xué)性質(zhì)的相關(guān)性和DNA組分變化對(duì)密碼子使用頻率的牽動(dòng), 從而揭示遺傳密碼表的生物學(xué)本質(zhì)仍然是一個(gè)不小的挑戰(zhàn)[2,5]
.
1 重排遺傳密碼表
重排遺傳密碼表有3個(gè)重要原因. 首先, DNA序列有4個(gè)最基本的可度量的變化, 即核苷酸序列、序列長(zhǎng)度咽斧、GC含量和嘌呤(R或AG)含量. 假如把核苷酸序列和長(zhǎng)度相對(duì)于時(shí)間的變化暫時(shí)不考慮, 那么只有后面的兩個(gè)變量對(duì)于傳統(tǒng)的遺傳密碼表具有影響力, 所以重排應(yīng)該以GC和嘌呤含量的變化為主線. 但以前大家熟知的密碼表排列只是為了簡(jiǎn)明和清晰地顯示密碼子和氨基酸的一一對(duì)應(yīng)關(guān)系, 卻忽略了密碼表本身對(duì)氨基酸物理化學(xué)性質(zhì)多樣性的表現(xiàn)和DNA編碼承受突變的魯棒性等明顯信息. 因此, 有必要把傳統(tǒng)的密碼表進(jìn)行重新排列[6]
, 使其能夠表現(xiàn)信息內(nèi)涵和功能內(nèi)涵之間的基本關(guān)系. 其次, 當(dāng)GC含量和嘌呤含量變化時(shí), 希望從密碼表中找出相應(yīng)蛋白質(zhì)組成變化的線索. 圖1展示了GC含量和嘌呤含量在極端狀態(tài)下4個(gè)微生物基因組的氨基酸組分分布.


圖****1 ****在****GC****含量和嘌呤含量極端狀態(tài)下****4****個(gè)微生物基因組的氨基酸組分分布
1.1 密碼表的分區(qū)和基本內(nèi)涵
遺傳密碼表可按密碼子對(duì)于GC含量變化的敏感性分為4個(gè)四分區(qū)(或稱1/4區(qū), 見圖2): AU富集堪置、GC富集和兩個(gè)GC不敏感區(qū)(GCP1和GCP2區(qū)). 如果暫時(shí)忽略密碼子第三位的變化, 可以看出AU和GC富集區(qū)對(duì)GC含量變化非常敏感. 還可以根據(jù)密碼子在這個(gè)區(qū)里的分布預(yù)測(cè)密碼子第二位的GC含量大于第一位的GC含量(GC2>GC1), 因?yàn)镚CP2區(qū)里含有終止密碼子, 盡管密碼子使用偏好可能使真實(shí)統(tǒng)計(jì)變得復(fù)雜些. 在AU富集區(qū)里編碼的氨基酸具有理化性質(zhì)的多元性, 共有16個(gè)密碼子. 除了編碼7個(gè)氨基酸外, 還編碼兩個(gè)終止密碼子和一個(gè)起始密碼子. 比較而言, GCP1和GCP2區(qū)分別只編碼6個(gè)氨基酸, 而GC富集區(qū)則只編碼4個(gè)氨基酸. AU富集區(qū)只占編碼總量的1/4, 卻含有足夠多的信息, 使得很容易推測(cè)這個(gè)區(qū)可能在生命的早期(只有A和U存在時(shí))作為原始的遺傳密碼來編碼簡(jiǎn)單的蛋白質(zhì)組分或更簡(jiǎn)單的多肽. 正是這些簡(jiǎn)單的蛋白質(zhì)使原始生命體的分子機(jī)制和細(xì)胞過程開始變得復(fù)雜和多元.
新表按照對(duì)嘌呤含量變化的敏感性可劃分成兩個(gè)半?yún)^(qū). 同時(shí), 也可按照編碼氨基酸在三聯(lián)密碼子第三位(CP3位)嘌呤和嘧啶(Y)間的變化再分為四重簡(jiǎn)并和兩重簡(jiǎn)并(兩個(gè)特例為AUR和UGR). 基于它們對(duì)所編碼氨基酸功能的暗示, 將這兩個(gè)半?yún)^(qū)分別叫做趨變半?yún)^(qū)(Pro-diversity)和趨棒半?yún)^(qū)(Pro-robustness), 簡(jiǎn)稱為PD半?yún)^(qū)和PR半?yún)^(qū). 這種清晰的劃分使人們能進(jìn)一步觀察、分析和預(yù)測(cè)DNA序列變化與密碼子(氨基酸)的關(guān)系. 首先值得關(guān)注的是具有六聯(lián)碼(六重簡(jiǎn)并)的3個(gè)氨基酸: 絲氨酸(Ser)张惹、精氨酸(Arg)和亮氨酸(Leu). 它們的四聯(lián)部分和二聯(lián)部分恰好都分布在兩個(gè)不同的半?yún)^(qū)里, 因此它們可以通過內(nèi)部密碼子間的轉(zhuǎn)換分別平衡在所跨的半?yún)^(qū)里的分布(圖2(C)). 因?yàn)樗鼈兊暮?jiǎn)并性, 可以預(yù)測(cè)它們是所有物種中相對(duì)最富集的氨基酸. 該分布也可以用這3個(gè)氨基酸的特殊物理化學(xué)性質(zhì)(如重要催化殘基)和獨(dú)特功能域骨架(如Leucine zipper和SR富集功能域等)在細(xì)胞蛋白質(zhì)組中的豐度來解釋. 另外, 所有的無義密碼子均分布在PD半?yún)^(qū). 當(dāng)GC含量變化時(shí), UAA, UAG和UGA會(huì)轉(zhuǎn)變成其他氨基酸, 具有在3′末端擴(kuò)展蛋白質(zhì)長(zhǎng)度的潛力. 另外, 由于分布在密碼表多個(gè)區(qū)域, 兩個(gè)堿性氨基酸Arg和賴氨酸(Lys)對(duì)GC含量變化具有魯棒性. 而兩個(gè)酸性氨基酸, 天門冬氨酸(Asp)和谷氨酸(Glu), 同時(shí)分布在GCP2區(qū)對(duì)GC含量變化不敏感, 同樣可以預(yù)測(cè)它們?cè)诘鞍踪|(zhì)的中豐度會(huì)較高, 同時(shí)兩者的化學(xué)性質(zhì)具有很高的相似性, 成為典型的偽四聯(lián)碼(Pseudoquartet). 最后, 脯氨酸(Pro)處于GC富集區(qū)的角落處, 只有當(dāng)GC含量通常較高時(shí)才會(huì)在蛋白質(zhì)組中多見, 用它的肽鍵所形成的小拐角來取代多個(gè)氨基酸所形成的大拐角. 總之, 在DNA組分變化時(shí), 20種氨基酸也隨之發(fā)生有規(guī)律的變化, 造成蛋白質(zhì)組(幾乎所有的蛋白質(zhì))的魯棒性和多元化, 這些互動(dòng)和變化的規(guī)律一定受限于氨基酸的物理化學(xué)性質(zhì)和蛋白質(zhì)的生物功能, 最后形成了一種相對(duì)穩(wěn)定的關(guān)系, 這就是密碼表所要體現(xiàn)的關(guān)系.
2
2

圖****2**** ****重新排布的遺傳密碼表和按照****GC****含量和****AG****含量遺傳密碼表的兩種劃分方式
R: 嘌呤; Y: 嘧啶; St: 終止密碼子; Sr: 起始密碼子
1.2 遺傳密碼形成的基本要素
重新排布的密碼表揭示了密碼子的分布與GC含量變化的直接關(guān)系(真細(xì)菌基因組的GC含量的波動(dòng)幅度在20%~80%之間). 首先以GC含量變化作為初始參數(shù), 可以把遺傳密碼分成兩部分. 其次, 高GC含量的遺傳密碼多為四聯(lián)碼, 它們的形成是為了緩解GC含量增加的影響(CP3位), 減輕DNA突變壓力, 因?yàn)镚C富集區(qū)編碼的氨基酸很少參與催化活性以及起始和終止信號(hào). 另外, 物理化學(xué)性質(zhì)多樣性的氨基酸和信號(hào)密碼子大多集中在AU富集區(qū). 同時(shí), GC不敏感區(qū)的功能主要是保護(hù)功能豐富性氨基酸, 而最原始的理化性質(zhì)往往已經(jīng)被其他分布所平衡, 例如亮氨酸(Leu)和丙氨酸(Ala)已經(jīng)在AU富集區(qū)和GC富集區(qū)間造成疏水性氨基酸間的平衡.
嘌呤含量變化是第二個(gè)需要考慮的因素. 其實(shí)真細(xì)菌基因組嘌呤含量的波動(dòng)在40%~60%之間, 并非Chargaff規(guī)則所說的50%[7,8]
. 圖3展示了真細(xì)菌基因組GC含量和嘌呤含量變化的基本關(guān)系. 根據(jù)對(duì)嘌呤含量的敏感性將密碼表劃分PD和PR兩個(gè)半?yún)^(qū), 這種劃分清晰地把四重簡(jiǎn)并密碼和其他密碼劃分開來. 趨棒半?yún)^(qū)的5個(gè)氨基酸(六重簡(jiǎn)并的除外)具有低多樣性和高突變穩(wěn)定性的特點(diǎn), 每一個(gè)氨基酸都在表中其他位置有物理化學(xué)性質(zhì)相近的其他氨基酸, 變化僅僅體現(xiàn)在某些細(xì)微的程度上(Subtlety).
重排密碼表的另一個(gè)顯著特點(diǎn)是把那些體積最小但理化性質(zhì)特異的氨基酸分布在DNA組分變化時(shí)不大容易發(fā)生的區(qū)域(變化均為顛換而不是轉(zhuǎn)換). 假如按照大小作為參數(shù)排列這4個(gè)最小的氨基酸, 甘氨酸(Gly)(側(cè)鏈體積60.1和表面積75), Ala(88.6和115), Ser(89和115)和半胱氨酸Cys(108.5和135), 其他氨基酸都比這4個(gè)氨基酸大.
3
3

圖**** 3 ****真細(xì)菌基因組****GC****含量和嘌呤含量變化的基本關(guān)系
1.3 密碼子合理分布的最終目的是平衡蛋白質(zhì)組分的多樣性和對(duì)
DNA
突變的魯棒性
遺傳密碼分布的實(shí)質(zhì)是體現(xiàn)一種平衡, 一種既可利用DNA突變來增加蛋白質(zhì)組的多樣性又可利用密碼子的分布來減輕突變所造成損失的能力. 盡管遺傳密碼表可劃分GC與嘌呤的敏感性和不敏感性舀锨、氨基酸多樣性和簡(jiǎn)并性、突變敏感性和突變耐受性, 但是這些劃分并沒有任何明顯的傾向性. 可以預(yù)見這個(gè)平衡有時(shí)也會(huì)遭到嚴(yán)重破壞, 比如GC含量到極至和真細(xì)菌的嘌呤含量也超過Chargaff規(guī)則時(shí)[9]
, 這種壓力就會(huì)毫無保留地體現(xiàn)在蛋白質(zhì)序列的改變上. 但在密碼表嘌呤敏感(PD和趨變)半?yún)^(qū)的氨基酸之間也具有某些補(bǔ)救性的分布. 例如Asp和Glu就位于同一個(gè)四分區(qū), 當(dāng)只有負(fù)電荷變得重要(大小和容積不太要求)時(shí), 嘌呤和嘧啶在CP3位置變化的影響就被弱化了. 擴(kuò)展來說, 在PD半?yún)^(qū)有幾種相似的情況出現(xiàn), 包括Q/H(尺度)诵叁、M/I(疏水性)雁竞、L/F(疏水性)、R/S(極性)、W/C(極性)和K/N(極性)(表1). 這種分析體現(xiàn)了很強(qiáng)的合理性, 目前還沒有發(fā)現(xiàn)在同一分組(四聯(lián)位)中編碼的氨基酸具有混合特征, 如: 疏水性對(duì)親水性, 極性對(duì)非極性等. 因此, 密碼表的這些基本排布原則, 稱之為“最小損傷原則”(Minimal Damage Principle).
**2 **關(guān)于遺傳密碼起源的種種假說和新的分步進(jìn)化假說
關(guān)于密碼子的起源和進(jìn)化一直是科學(xué)界廣泛探討的一個(gè)重要話題, 多年來的主要研究進(jìn)展包括凝固事件假說碑诉、共進(jìn)化假說和立體化學(xué)假說等[10~19]
, 以及本研究組最近提出的關(guān)于密碼分步進(jìn)化的新推測(cè)[20,21]
.
2.1進(jìn)化假說
進(jìn)化假說(Co-evolution Hypothesis)提出標(biāo)準(zhǔn)密碼(Canonical Code)是從早期原始的簡(jiǎn)單密碼進(jìn)化而來的. 這個(gè)原始的密碼可能是由64個(gè)密碼子通過高度簡(jiǎn)并, 只編碼少量的氨基酸. 現(xiàn)在的氨基酸密碼可能是通過篡奪和它具有相近生物合成路徑氨基酸的密碼而得到的[10~14]
.
L. Klipcan[13]
提出假設(shè)氨酰tRNA合成酶(AARS)和氨基酸及其輔因子的生物合成存在關(guān)聯(lián)性, 并指出Class II 的AARS 相對(duì)應(yīng)的氨基酸較早出現(xiàn), 而Class I 的AARS對(duì)應(yīng)的氨基酸在進(jìn)化上出現(xiàn)較晚. 他還指出最原始的遺傳密碼可能是5個(gè)基本氨基酸Ala, Gly, Ser, Asp, Glu和纈氨酸(Val). 所有這些氨基酸均是GC富集和相應(yīng)的生物合成路徑最短和最簡(jiǎn)單的氨基酸, 以及相應(yīng)的AARS屬于Class II. 接著引入4~5個(gè)氨基酸對(duì)應(yīng)遺傳密碼的擴(kuò)展, 分別為天門冬酰胺(Asn)彪腔、蘇氨酸(Thr)、Pro和谷氨酰胺(Gln). 另一個(gè)可能是Arg, 這些氨基酸生物合成路徑的復(fù)雜性基本處于中間位置. 第三階段所有編碼的氨基酸均被引入, 這次引入的氨基酸和Class I 的AARS有很強(qiáng)的相關(guān)性, 同時(shí)這些氨基酸使用的遺傳密碼多含尿嘧啶, 最后引入的氨基酸合成通常需要非常長(zhǎng)的代謝途徑.
B.K. Davis[14]
通過氨基酸生物合成路徑長(zhǎng)度和其他關(guān)于密碼分配時(shí)間分子描述符比較來檢驗(yàn)和構(gòu)建密碼的進(jìn)化的主要階段, 認(rèn)為密碼樹來源于16個(gè)三聯(lián)體密碼(NAN系列)對(duì)應(yīng)于4個(gè)固N(yùn)氨基酸 (Asp, Glu, Asn, Gln). 通過這些氨基酸的寡聚化形成包含多聚陰離子氨基酸的肽鏈把不帶電荷氨基酸定位于帶正電荷的礦物質(zhì)表面. 為了降低基因突變導(dǎo)致基因編碼不可解讀的危險(xiǎn)性进栽,遺傳密碼需要進(jìn)一步擴(kuò)展. 這一步通常起始于翻譯序列5'端密碼, 對(duì)應(yīng)疏水性氨基酸NUN系列密碼分配相對(duì)較慢, 它編碼大部分非極性氨基酸. 最后帶正電荷和芳香性氨基酸最后被引入, 自此具有酸堿催化功能的酶的合成也成為可能, 對(duì)應(yīng)的兩種類型氨酰tRNA合成酶應(yīng)該出現(xiàn)在這一時(shí)期.
2.2 立體化學(xué)假說
立體化學(xué)假說指出密碼子的分配直接與RNA和氨基酸之間的化學(xué)作用密切相關(guān), 因此密碼的立體化學(xué)本質(zhì)擴(kuò)展到氨基酸和相應(yīng)的密碼子之間的物理和化學(xué)方面的互補(bǔ)性[15~19]
.
Wu[17]
提出一個(gè)簡(jiǎn)單密碼進(jìn)化的新假設(shè), 基于翻譯過程中每一步3個(gè)堿基的讀碼機(jī)制包含從單體到雙聯(lián)體密碼再到三聯(lián)體密碼子的進(jìn)化過程. 建議三聯(lián)體密碼是從兩種類型雙聯(lián)體密碼逐漸進(jìn)化得來的, 這兩種雙聯(lián)體密碼劃分是按照三聯(lián)體密碼中固定的堿基位置劃分的, 包括前綴密碼子(Prefix codons)和后綴密碼子(Suffix codons). 這個(gè)假設(shè)可以解釋遺傳密碼多種特征, 如其中包含四重簡(jiǎn)并三聯(lián)體密碼和兩重簡(jiǎn)并三聯(lián)體密碼的模式, 翻譯錯(cuò)誤最小化性質(zhì)的本質(zhì)和為什么只有20個(gè)編碼的氨基酸.
Delarue[18]
按照tRNA的氨醯抡酰基化機(jī)制把密碼子的分配表當(dāng)成一個(gè)典型的反對(duì)稱分布模式, 這種模式可以通過連續(xù)的二元決定閾逐步降低密碼子的模糊性, 可以通過定義一個(gè)簡(jiǎn)單的規(guī)則, 使每個(gè)密碼子的解碼可以按照二元分類方式, 從而提供相應(yīng)密碼和密鑰. 按照模型密碼子的最終分化步驟包括: (1) Y/R 在密碼子的第二個(gè)位置打破對(duì)稱性分配; (2) 在密碼子的第二個(gè)位置按照 G/A 和 C/U特殊性; (3) R/Y在密碼子的第一個(gè)堿基位置對(duì)稱性打破; (4) 在密碼子的第一個(gè)堿基位置對(duì)稱打破A/G和C/U; (5) Y/R在密碼子的第三個(gè)位置按照對(duì)稱性打破.
按照分子識(shí)別理論,通過無義密碼和有義密碼矩陣、反義和反無義密碼矩陣以及與疏水性矩陣的比較, 可以明顯地把氨基酸分成兩個(gè)組: 疏水性和親水性組, 這個(gè)劃分直接與蛋白質(zhì)的折疊相關(guān). 初始的遺傳密碼只區(qū)分這兩種類型的氨基酸, 使蛋白質(zhì)具有折疊成穩(wěn)定三維結(jié)構(gòu)的能力, 這種多肽與RNA分子形成核糖體蛋白復(fù)合物來穩(wěn)定編碼RNA. Houen[
19]
指出, 基于上述推斷原始的密碼子包括Leu, Arg和Ser. 遺傳密碼的進(jìn)一步擴(kuò)展增加功能性親水氨基酸, 因?yàn)闀簳r(shí)還沒有增加結(jié)構(gòu)疏水性氨基酸的必要性. 在遺傳密碼進(jìn)化的某一階段, 雙鏈DNA作為遺傳信息的載體取代RNA, 此過程需要高度特異性的酶體系, 因此需要對(duì)遺傳密碼進(jìn)行進(jìn)一步優(yōu)化而引入其他氨基酸.
**2.3 **遺傳密碼的分步進(jìn)化假說
基因密碼與人造密碼具有相似性, 即需要成對(duì)的算法和兩個(gè)相應(yīng)的解碼鑰匙共同創(chuàng)造和完成解碼工作, 基因密碼的算法和鑰匙的組成材料是由兩個(gè)細(xì)胞空間的成分組成: 細(xì)胞核和細(xì)胞質(zhì). 細(xì)胞核的成分是DNA(Text1)和三重密碼子(Key1)共同組成遺傳密碼(Algorithm1), 胞質(zhì)里的成分包含蛋白質(zhì)(Text2)和mRNA-ribosomes-tRNA 組成的復(fù)合體(Algorithm2), 通過氨酰tRNA合成酶(Key2)進(jìn)行解碼, 使mRNA序列所承載的編碼內(nèi)容被解碼(圖4). 這個(gè)過程是通過長(zhǎng)期進(jìn)化演變出來的分子機(jī)制和細(xì)胞過程統(tǒng)一實(shí)施的.
4
4

圖**** 4 ****遺傳密碼****(A)****和文本密碼****(B)****的比較

(1) RNA世界和早期遺傳密碼. RNA世界的存在首先被RNA分子具有相應(yīng)催化功能的生物學(xué)特性所支持[22~26]
. 在RNA世界里, RNA具有雙重的功能, 既是信息載體也是功能載體. 因?yàn)樯幕痉肿訖C(jī)制和細(xì)胞過程起源于RNA世界, 所以沒有理由說遺傳密碼不起源于RNA世界. 在RNA世界里RNA分子可以組成簡(jiǎn)單的核苷酸多聚物, 這種多聚物在近億年的成熟期里, 為生命提供了足夠的功能上的復(fù)雜性和多樣性. 原始細(xì)胞可以通過相互爭(zhēng)斗和吞噬獲得基本的組成成分,因此基于模板的RNA合成可能對(duì)于生命的初始不是必需的. 可以想象這些RNA分子可以通過簡(jiǎn)單的聚合酶來合成, 通過自身剪接或化學(xué)修飾轉(zhuǎn)變?yōu)槠渌嗨频慕Y(jié)構(gòu), 從而達(dá)到結(jié)構(gòu)的可變性和功能的多樣性. 此外, RNA的編輯(RNA Editing)也一定起了非常重要的作用, 這一分子機(jī)制一直延續(xù)到現(xiàn)在, 在包括人類在內(nèi)的高級(jí)物種中仍然存在.
在現(xiàn)代生物世界里, 剪接體(Spliceosome)通常是用于RNA分子的剪接, 由蛋白質(zhì)和RNA分子組成. 可以做兩個(gè)假設(shè), 生命可能起源于類真核有機(jī)體的原型細(xì)胞(在DNA引入之前)而不是類原核有機(jī)體的原型細(xì)胞. 在RNA組成的翻譯機(jī)器(Translational Machinery)沒有形成之前, 初始遺傳密碼可能不是必需的. 一旦這個(gè)初始生命進(jìn)入到RNA-蛋白質(zhì)組成的世界時(shí), 多肽才逐漸按照密碼子開始有序合成, 遺傳密碼就開始發(fā)揮其作用了. 可以認(rèn)為有序的生命可以在與相對(duì)無序生命的爭(zhēng)斗中更容易獲勝和取得繁衍的空間.
現(xiàn)在可以推測(cè)初始遺傳密碼在RNA世界存在和進(jìn)化的基本過程和起源時(shí)的基本邏輯關(guān)系. 初始生命一定比較簡(jiǎn)單, 分子間相互作用也比較寬松, 最小的編碼系統(tǒng)可能只要區(qū)分嘌呤R和嘧啶Y就夠了. 假定現(xiàn)代密碼在生命的早期階段已經(jīng)被統(tǒng)一并相對(duì)忠實(shí)地繼承了RNA密碼的基本關(guān)系, 這個(gè)可能的原始編碼就至少有7個(gè)氨基酸(I和M視為等同; 圖5), 同時(shí)也有起始和終止密碼子. 這7個(gè)氨基酸的側(cè)鏈具有廣泛的物理化學(xué)性質(zhì)(氨基、趼栝希基漩怎、苯環(huán)打颤、羥基、酚基、烴鏈和甲硫基等), 但是沒有小的和酸性的氨基酸. 可以推測(cè): 體積小的氨基酸在初始蛋白質(zhì)相互作用中的作用顯然不如大的重要, 而堿性氨基酸的功能對(duì)于酸性DNA則是顯而易見的. 另外的一種可能性是氨基酸與tRNA以及AARS之間的關(guān)系不是十分明確, 一個(gè)密碼子對(duì)應(yīng)多氨基酸的情況可能在遺傳密碼成熟前是普遍存在的[27]
. 由于7個(gè)氨基酸的編碼區(qū)處于現(xiàn)代密碼表的AU富集區(qū), 可以確信初始密碼子始于這個(gè)區(qū)域, 后來擴(kuò)展到嘌呤敏感區(qū)即所謂趨變半?yún)^(qū). 這個(gè)階段的存在既復(fù)合由簡(jiǎn)到繁的邏輯, 也迎合了實(shí)驗(yàn)的證據(jù), 那就是C的不穩(wěn)定性和G在RNA操作功能上的作用[21, 28~29]
.


圖**** 5 ****遺傳密碼的分步進(jìn)化假說
最初形成的遺傳密碼應(yīng)該僅僅由腺嘌呤A和尿嘧啶U來編碼, 共編碼7個(gè)多元化的氨基酸, 隨著生命復(fù)雜性的增加, 鳥嘌呤G從主載操作信號(hào)的功能中釋放出來, 再伴隨著C的引入, 使遺傳密碼逐步擴(kuò)展到12, 15和20個(gè)氨基酸
因?yàn)槌跏济艽a的核心作用, 有必要再拓展一下討論. 認(rèn)為初始密碼的簡(jiǎn)單化是由初始翻譯機(jī)器的原始性來決定的. 第一個(gè)AARS可能首先被作為蛋白質(zhì)加工機(jī)器的組成部分(如核糖體的亞基之一), 它可以: (1) 不區(qū)別氨基酸的微妙差別, 或只識(shí)別簡(jiǎn)單的部分; (2) 將氨基酸底物按核糖體的排列隨機(jī)加在肽鏈上; (3) 與氨基酸的代謝途徑耦聯(lián), 受底物濃度的影響. 顯然, 這個(gè)部分的分離是蛋白質(zhì)復(fù)雜性增加的關(guān)鍵, 隨后AARS不得不從蛋白質(zhì)合成機(jī)器上分離出來, 對(duì)底物的專一性產(chǎn)生并不斷增加, tRNAs也隨之遠(yuǎn)離核糖體. 由于初始RNA編碼的多肽通常用于細(xì)胞的完整性和對(duì)遺傳物質(zhì)的保護(hù), 所以可以確信蛋白質(zhì)的初始功能是與RNA結(jié)合和穩(wěn)定膜的結(jié)構(gòu), 因此初始氨基酸必然是堿性、芳香性和疏水性的氨基酸. AARS的分離和獨(dú)立進(jìn)化是為了保證蛋白質(zhì)成分的多樣性, 也就是功能的多樣性. AARS的進(jìn)化樹進(jìn)一步成為本研究推斷的佐證[30,31]
. 比如, AARS必須區(qū)分兩個(gè)極性氨基酸Asn和酪氨酸(Tyr)贴铜、兩個(gè)芳香性氨基酸Phe和Tyr, 但是對(duì)于Leu, Ile和甲硫氨酸(Met)則沒有必要區(qū)分, 因此AARS兩個(gè)家族的分化和本推論是完全一致的.
(2) 遺傳密碼的第一次拓展. 對(duì)于遺傳密碼的延伸, 引入新的構(gòu)建元件, 本文有兩個(gè)基本假定: 鳥嘌呤G的引入和A(腺嘌呤)-I(次黃嘌呤)編輯機(jī)制的作用, 這兩種假設(shè)給原始的mRNA提供了顯著的結(jié)構(gòu)多樣性和編碼能力. 盡管這兩種假設(shè)并不互相排斥, 兩者之間可能獨(dú)立或同時(shí)存在, 只是為了簡(jiǎn)單化才把它們分別進(jìn)行討論. 首先, G引入到轉(zhuǎn)錄本中存在有限的途徑(同時(shí)作為蛋白質(zhì)合成的能源和過程信號(hào)), 由于AG和GU作為剪切體的識(shí)別信號(hào), 因此密碼子的擴(kuò)展只限于色氨酸(Trp), Glu, Asp, Cys和Gly. 這些擴(kuò)展的氨基酸彼此之間具有顯著不同的側(cè)鏈理化性質(zhì): Trp是最大的氨基酸, Asp和Glu是帶負(fù)電荷的氨基酸, Cys是可形成二硫鍵的氨基酸, Gly是最小的氨基酸. Glu, Asp和Cys的出現(xiàn)為蛋白質(zhì)自身結(jié)構(gòu)的穩(wěn)定性和獨(dú)立性提供了必要的結(jié)構(gòu)單元. 其次, A-I的可選擇性和經(jīng)常性的RNA編輯使mRNA的復(fù)雜性不斷增加. A和I的同時(shí)存在, 使密碼子擴(kuò)展到更多氨基酰-tRNA. 這個(gè)推斷得到AARS分布的支持, 氨基酸的拓展和AARS家族的分類具有同步的規(guī)則, 而且核苷酸的修飾作用也被后續(xù)的生命機(jī)制所延續(xù), 如tRNA反密碼子和mRNA的擺動(dòng)機(jī)制.

(3) 遺傳密碼的第二次拓展. 當(dāng)GU和AG從作為剪接信號(hào)功能釋放出來以后(剪接體的結(jié)構(gòu)和功能隨著蛋白質(zhì)的演變而復(fù)雜化和精密化), 遺傳密碼引入了Arg, Ser和Val. 氨基酸的個(gè)數(shù)變成15個(gè), 這次擴(kuò)展是對(duì)已經(jīng)存在的氨基酸物理化學(xué)性質(zhì)和二級(jí)結(jié)構(gòu)特性的擴(kuò)展. Arg是Lys的替代體, Ser則對(duì)應(yīng)Tyr, Val是疏水性氨基酸Leu, Ile和Met的補(bǔ)充[32~35]
.
最具吸引力的是六重簡(jiǎn)并的3個(gè)氨基酸Arg, Leu和Ser. 這些氨基酸在被引入后, 又由于核苷酸C在RNA世界的應(yīng)用而擴(kuò)展出各自的新四聯(lián)碼, 成為六重簡(jiǎn)并. 首先, Leu是在現(xiàn)代基因組中包括所有三界生物在內(nèi)最豐富的氨基酸, Ser是真核生物第二豐富的氨基酸, Arg也是一個(gè)富有的氨基酸, 通常在細(xì)菌基因組中位于前10位. 其次, Leu在二重簡(jiǎn)并密碼和四重簡(jiǎn)并之間最容易轉(zhuǎn)換, 只需要通過簡(jiǎn)單U到C轉(zhuǎn)換(UUR-CUR)即可, 這也說明Leu對(duì)于大多數(shù)蛋白質(zhì)來說是用于當(dāng)GC含量增加時(shí)維持蛋白質(zhì)功能的完整性. 這些觀察引出相應(yīng)的假設(shè): 這3個(gè)氨基酸的附加密碼是為了當(dāng)GC含量或AG含量增加時(shí)平衡富有氨基酸, 相應(yīng)的密碼分布按照平衡遺傳密碼的蛋白質(zhì)多樣性和蛋白質(zhì)魯棒性二等分. 這種平衡能力用于當(dāng)編碼序列突變發(fā)生時(shí)穩(wěn)定蛋白質(zhì)的氨基酸組成, 從而維護(hù)蛋白質(zhì)結(jié)構(gòu)的完整性.
(4) 遺傳密碼的最終拓展. 遺傳密碼的最終拓展是在DNA作為信息載體取代RNA使得信息載體具有更高的準(zhǔn)確性和穩(wěn)定性, 同時(shí)也產(chǎn)生了最為關(guān)鍵的從RNA到DNA的逆轉(zhuǎn)錄機(jī)制. 基于模板的DNA復(fù)制機(jī)制開辟了新的DNA-蛋白質(zhì)-RNA世界. 很多新分子機(jī)制的進(jìn)化包括DNA復(fù)制和修復(fù)、RNA的轉(zhuǎn)錄等, 使這個(gè)生物界里分子機(jī)制和細(xì)胞過程更趨于多元和完善. 同時(shí)當(dāng)C和其脫氧衍生物分別作為結(jié)構(gòu)模板加入RNA和DNA時(shí), 標(biāo)準(zhǔn)遺傳密碼也就隨之產(chǎn)生并被固定下來. 遺傳密碼本身得到新的補(bǔ)充并且編碼能力有了很大提高. 組氨酸(His)和Glu立刻加入進(jìn)來, 主要是由于它們具有相應(yīng)的催化性質(zhì)以及和原有的兩個(gè)堿性氨基酸的相似性, Thr擴(kuò)展了Ser的功能, 同時(shí)使蛋白質(zhì)的結(jié)構(gòu)增加了精細(xì)度, Ala同Ser相比具有類似的體積和尺度, 但其和Ser比具有很強(qiáng)的疏水性質(zhì)[32,33]
. 這些新引入的氨基酸在蛋白質(zhì)結(jié)構(gòu)和功能多樣性上起到非常關(guān)鍵的作用. 不容懷疑的是Pro的最后加入, 它具有其他氨基酸所不具備的性質(zhì), 即通過特有的方式使蛋白質(zhì)的骨架結(jié)構(gòu)扭曲達(dá)到蛋白質(zhì)結(jié)構(gòu)的緊密折疊. 相應(yīng)的擴(kuò)展模式在AARS同樣得到支持遺傳密碼擴(kuò)展的假設(shè), 除了3個(gè)六重簡(jiǎn)并的遺傳密碼外, 這次共有六組遺傳密碼最終被引入, 同時(shí)編碼6個(gè)氨基酸. 這6個(gè)氨基酸的AARS分類按照G和I 的配對(duì)原則延伸而來. 例如AARS對(duì)于雙重編碼的氨基酸His(CAR)和Gln(CAY)的對(duì)應(yīng), Glu(GAR)和Asp(GAY)的對(duì)應(yīng)等.
遺傳密碼的進(jìn)化就是密碼子的有序發(fā)生和合理分布, 這個(gè)分布的合理性一定經(jīng)過一個(gè)復(fù)雜選擇過程. 首先, 通過長(zhǎng)時(shí)間的創(chuàng)造和優(yōu)化, 使其在基因組核苷酸序列發(fā)生突變時(shí)對(duì)蛋白質(zhì)的結(jié)構(gòu)起到緩沖的作用; 第二, 密碼子采取這樣一種特殊的排布方式: 當(dāng)DNA組成從AU富集區(qū)到GC富集區(qū)改變時(shí), 氨基酸的分布傾向于從具有催化性質(zhì)的氨基酸轉(zhuǎn)到具有結(jié)構(gòu)性質(zhì)的氨基酸; 第三, 充分利用密碼子第三位多變的優(yōu)勢(shì)(通常體現(xiàn)在R和Y之間的轉(zhuǎn)換), 來改變編碼氨基酸的物理化學(xué)性質(zhì), 致使在趨變半?yún)^(qū)里大約有15個(gè)氨基酸對(duì)第三個(gè)位置R和Y之間的轉(zhuǎn)換呈現(xiàn)敏感.
(5) 分子機(jī)制與細(xì)胞過程的進(jìn)化. 盡管分子機(jī)制與細(xì)胞過程的根本界限有時(shí)會(huì)很模糊, 但還是將它們分開: 前者強(qiáng)調(diào)物理性的相互作用瀑晒、發(fā)生的空間和組分的存在, 后者強(qiáng)調(diào)化學(xué)反應(yīng)的結(jié)果绍坝、發(fā)生的時(shí)間和過程. 從一方面講, DNA的變異顯然是細(xì)胞過程的產(chǎn)物, 遺傳密碼的發(fā)生和最終形成也是它的產(chǎn)物. 從另一方面講, 密碼子與氨基酸的關(guān)系影響到細(xì)胞的蛋白質(zhì)組分的變化, 即分子機(jī)制的變化[21]
. 比如, 如果在RNA世界需要產(chǎn)生多個(gè)拷貝的RNA分子, 一定需要一個(gè)分子機(jī)制來實(shí)現(xiàn). 在現(xiàn)代生物世界里, 通常是由以DNA為模板的轉(zhuǎn)錄機(jī)制來完成, 但在RNA世界里沒有RNA的復(fù)制, 多個(gè)RNA分子產(chǎn)生是由多聚酶和編輯體(Editosome)共同來完成的. 也許就是那個(gè)最原始的細(xì)胞機(jī)制. RNA世界的第二個(gè)分子機(jī)制發(fā)明可能是就剪接體, 這個(gè)分子機(jī)制在現(xiàn)代生物世界里仍然在發(fā)揮其重要的作用. 第三個(gè)分子機(jī)制也許是翻譯體(Translatosome)的形成, 其用于直接進(jìn)行蛋白質(zhì)分子的加工, 這一分子機(jī)制是從原始的RNA世界到成熟的RNA世界再到現(xiàn)代生物世界里轉(zhuǎn)折的重要標(biāo)志. 在轉(zhuǎn)折期里, 分子機(jī)制在蛋白質(zhì)精確度的變化中不斷完善和復(fù)雜, 直到DNA通過RNA和蛋白質(zhì)的復(fù)合體引進(jìn)到生命世界和逆轉(zhuǎn)錄體(Reverse Transcriptosome)的誕生. 在現(xiàn)代生物世界里, 生命體又最終發(fā)明了復(fù)制體(Replisome)、修復(fù)體(Repairosome)和轉(zhuǎn)錄體(Transcriptosome), 所有這些分子機(jī)制均以DNA為物質(zhì)基礎(chǔ). 如果說翻譯體是RNA世界終止的標(biāo)志, 那么逆轉(zhuǎn)錄體也就意味著現(xiàn)代生物世界的誕生.
盡管遺傳密碼在現(xiàn)代生物世界里已經(jīng)基本固定, 但新的分子機(jī)制和細(xì)胞過程還在不斷地被創(chuàng)造, 它們不斷地趨于完善和復(fù)雜, 新的物種也在不斷地誕生. 代表生命的物種們也在不斷的進(jìn)化中走著不盡相同的道路, 要么維持魯棒性(Robustness, 如細(xì)菌), 要么尋覓多樣性(Diversity, 如節(jié)肢動(dòng)物和植物), 要么追求復(fù)雜性(Complexity, 如脊椎動(dòng)物). 很難相信遺傳密碼和它所編碼的氨基酸就是鋪墊所有這些道路的開創(chuàng)者和基石.
3 結(jié)束語
重排的密碼表從根本上解釋了DNA變異的規(guī)律與蛋白質(zhì)編碼序列(也就是氨基酸組成)之間的內(nèi)在關(guān)系. 從這個(gè)關(guān)系里, 不僅找到了氨基酸物理化學(xué)性質(zhì)與密碼起源的關(guān)系, 也找到了可能的密碼子進(jìn)化和完善的途徑, 并最終提出遺傳密碼的進(jìn)化是與細(xì)胞的分子機(jī)制進(jìn)化同步發(fā)生的. 理解遺傳密碼的起源和進(jìn)化, 也就是理解生命的起源和進(jìn)化.
盡管對(duì)于遺傳密碼的進(jìn)化有很多假說, 本文也不想否定它們的合理性, 但是本文強(qiáng)調(diào)現(xiàn)代遺傳密碼的基本變化規(guī)律和生物學(xué)機(jī)制對(duì)人們自由遐想的限制. 事實(shí)不容許無限制地去推論, 人們需要的是尋求與遺傳密碼的起源和進(jìn)化相關(guān)的事實(shí)或?qū)嶒?yàn)證據(jù). 本研究提出遺傳密碼分步進(jìn)化的機(jī)制, 不僅解釋了遺傳密碼的分配機(jī)制是平衡氨基酸多樣性和對(duì)DNA突變的魯棒性, 也同時(shí)解釋了AARS和遺傳密碼的共進(jìn)化特征. 本研究組未來要揭示的是生命賴以存在的分子機(jī)制和細(xì)胞過程的起源和進(jìn)化, 而不是單純地探討遺傳密碼的起源.
正如假說所預(yù)言: 如果AARS和tRNA聯(lián)手的話, 遺傳密碼就有被重新排列的可能性. 但是如果現(xiàn)代氨基酸的存在不發(fā)生變化的話, 重排的結(jié)果可能還會(huì)是一樣, 因?yàn)樗鼈兊睦砘再|(zhì)是確定的. 也許在地球甚至地下的某一個(gè)角落里, 會(huì)發(fā)現(xiàn)某個(gè)氨基酸的根本缺失, 那時(shí)密碼表顯然會(huì)被改寫, 但它的基本排列和對(duì)DNA突變壓力的分解是不會(huì)改變的.

進(jìn)化樹上Bootstrap和Identity區(qū)別
Bootstrap苔悦,即自展值轩褐,是用來檢驗(yàn)?zāi)闼?jì)算的進(jìn)化樹分支可信度的。簡(jiǎn)單地講就是把序列的位點(diǎn)都重排玖详,重排后的序列再用相同的辦法構(gòu)樹把介,如果原來樹的分枝在重排后構(gòu)的樹中也出現(xiàn)了,就給這個(gè)分枝打上一分竹宋,如果沒出現(xiàn)就給0分劳澄,這樣經(jīng)過你給定的repetitions次(至少1000次)重排構(gòu)樹打分后地技,每個(gè)分枝就都得出分值蜈七,計(jì)算機(jī)會(huì)給你換算成bootstrap值。
Bootstrap values (步長(zhǎng)值)是指在你選擇的遺傳距離算法(一般選擇鄰接法即NJ法)中軟件根據(jù)所比對(duì)序列得到結(jié)果 比如 bootstrap value設(shè)置為1000莫矗,即軟件構(gòu)建了相應(yīng)的1000”棵樹“飒硅,在每個(gè)節(jié)點(diǎn)上顯示的bootstrap value 即指在這1000次建樹過程中,有相應(yīng)的次數(shù)的頻率這個(gè)分枝內(nèi)的幾株菌或幾段序列在進(jìn)化速度上相似作谚,一般認(rèn)為節(jié)點(diǎn)處的bootstrap value大于500時(shí)分析結(jié)果可信三娩,bootstrap value 在mega ,philiphy,等軟件中常見。
而在SAS等軟件中妹懒,簡(jiǎn)述過程相對(duì)麻煩但是 最終顯示的是Identity scores 即遺傳距離雀监,或者指進(jìn)化距離,同樣表示了待分析菌或序列的進(jìn)化關(guān)系的遠(yuǎn)近。

分子進(jìn)化樹構(gòu)建及數(shù)據(jù)分析

一会前、方法的選擇首先是方法的選擇好乐。基于距離的方法有UPGMA瓦宜、ME(Minimum Evolution蔚万,最小進(jìn)化法)和NJ(Neighbor-Joining,鄰接法)等临庇。其他的幾種方法包括MP(Maximum parsimony反璃,最大簡(jiǎn)約法)、ML(Maximum likelihood假夺,最大似然法)以及貝葉斯(Bayesian)推斷等方法淮蜈。其中UPGMA法已經(jīng)較少使用。
一般來講已卷,如果模型合適礁芦,ML的效果較好。對(duì)近緣序列悼尾,有人喜歡MP柿扣,因?yàn)橛玫募僭O(shè)最少。MP一般不用在遠(yuǎn)緣序列上闺魏,這時(shí)一般用NJ或ML.對(duì)相似度很低的序列未状,NJ往往出現(xiàn)Long-branch attraction(LBA,長(zhǎng)枝吸引現(xiàn)象)析桥,有時(shí)嚴(yán)重干擾進(jìn)化樹的構(gòu)建司草。貝葉斯的方法則太慢。對(duì)于各種方法構(gòu)建分子進(jìn)化樹的準(zhǔn)確性泡仗,一篇綜述(Hall BG. Mol Biol Evol 2005埋虹,22(3):792-802)認(rèn)為貝葉斯的方法最好,其次是ML娩怎,然后是MP搔课。其實(shí)如果序列的相似性較高,各種方法都會(huì)得到不錯(cuò)的結(jié)果截亦,模型間的差別也不大爬泥。
對(duì)于NJ和ML,是需要選擇模型的崩瓤。對(duì)于各種模型之間的理論上的區(qū)別袍啡,這里不作深入的探討,可以參看Nei的書却桶。對(duì)于蛋白質(zhì)序列以及DNA序列境输,兩者模型的選擇是不同的。以作者的經(jīng)驗(yàn)來說,對(duì)于蛋白質(zhì)的序列嗅剖,一般選擇Poisson Correction(泊松修正)這一模型蛋逾。而對(duì)于核酸序列,一般選擇Kimura 2-parameter(Kimura-2參數(shù))模型窗悯。如果對(duì)各種模型的理解并不深入区匣,作者并不推薦初學(xué)者使用其他復(fù)雜的模型。
Bootstrap幾乎是一個(gè)必須的選項(xiàng)蒋院。一般Bootstrap的值>70亏钩,則認(rèn)為構(gòu)建的進(jìn)化樹較為可靠。如果Bootstrap的值太低欺旧,則有可能進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)有錯(cuò)誤姑丑,進(jìn)化樹是不可靠的。
對(duì)于進(jìn)化樹的構(gòu)建辞友,如果對(duì)理論的了解并不深入栅哀,作者推薦使用缺省的參數(shù)。需要選擇模型的時(shí)候(例如用NJ或者M(jìn)L建樹)称龙,對(duì)于蛋白序列使用Poisson Correction模型留拾,對(duì)于核酸序列使用Kimura-2參數(shù)模型。另外需要做Bootstrap檢驗(yàn)鲫尊,當(dāng)Bootstrap值過低時(shí)痴柔,所構(gòu)建的進(jìn)化樹其拓?fù)浣Y(jié)構(gòu)可能存在問題。并且疫向,一般推薦用兩種不同的方法構(gòu)建進(jìn)化樹咳蔚,如果所得到的進(jìn)化樹類似,則結(jié)果較為可靠搔驼。
二谈火、軟件的選擇構(gòu)建分子進(jìn)化樹相關(guān)的軟件:
ClustalX http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ 圖形化的多序列比對(duì)工具

ClustalW http://www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html 命令行格式的多序列比對(duì)工具

GeneDoc http://www.psc.edu/biomed/genedoc/ 多序列比對(duì)結(jié)果的美化工具

BioEdit http://www.mbio.ncsu.edu/BioEdit/bioedit.html 序列分析的綜合工具

MEGA http://www.megasoftware.net/ 圖形化、集成的進(jìn)化分析工具舌涨,不包括ML

PAUP http://paup.csit.fsu.edu/ 商業(yè)軟件糯耍,集成的進(jìn)化分析工具

PHYLIP http://evolution.genetics.washington.edu/phylip.html 免費(fèi)的、集成的進(jìn)化分析工具

PHYML http://atgc.lirmm.fr/phyml/ 最快的ML建樹工具

PAML http://abacus.gene.ucl.ac.uk/software/paml.html ML建樹工具

Tree-puzzle http://www.tree-puzzle.de/ 較快的ML建樹工具

MrBayes http://mrbayes.csit.fsu.edu/ 基于貝葉斯方法的建樹工具

MAC5 http://www.agapow.net/software/mac5/ 基于貝葉斯方法的建樹工具

TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 進(jìn)化樹顯示工具

上面中列出了一些與構(gòu)建分子進(jìn)化樹相關(guān)的軟件構(gòu)建NJ樹泼菌,可以用PHYLIP(寫得有點(diǎn)問題谍肤,例如比較慢啦租,并且Bootstrap檢驗(yàn)不方便)或者M(jìn)EGA哗伯。MEGA是Nei開發(fā)的方法并設(shè)計(jì)的圖形化的軟件,使用非常方便篷角。作者推薦MEGA軟件為初學(xué)者的首選焊刹。雖然多序列比對(duì)工具ClustalW/X自帶了一個(gè)NJ的建樹程序,但是該程序只有p-distance模型,而且構(gòu)建的樹不夠準(zhǔn)確虐块,一般不用來構(gòu)建進(jìn)化樹俩滥。
構(gòu)建MP樹,最好的工具是PAUP贺奠,但該程序?qū)儆谏虡I(yè)軟件霜旧,并不對(duì)學(xué)術(shù)免費(fèi)。因此儡率,作者并不建議使用PAUP挂据。而MEGA和PHYLIP也可以用來構(gòu)建進(jìn)化樹。這里儿普,作者推薦使用MEGA來構(gòu)建MP樹崎逃。理由是,MEGA是圖形化的軟件眉孩,使用方便个绍,而PHYLIP則是命令行格式的軟件,使用較為繁瑣浪汪。對(duì)于近緣序列的進(jìn)化樹構(gòu)建巴柿,MP方法幾乎是最好的。
構(gòu)建ML樹可以使用PHYML,速度最快死遭±航啵或者使用Tree-puzzle,速度也較快,并且該程序做蛋白質(zhì)序列的進(jìn)化樹效果比較好殃姓。而PAML則并不適合構(gòu)建進(jìn)化樹袁波。ML的模型選擇是看構(gòu)出的樹的likelihood值,從參數(shù)少蜗侈,簡(jiǎn)單的模型試起篷牌,到likelihood值最大為止。ML也可以使用PAUP或者PHYLIP來構(gòu)建踏幻。這里作者推薦的工具是BioEdit枷颊。BioEdit集成了一些PHYLIP的程序,用來構(gòu)建進(jìn)化樹该面。Tree-puzzle是另外一個(gè)不錯(cuò)的選擇夭苗,不過該程序是命令行格式的,需要學(xué)習(xí)DOS命令隔缀。PHYML的不足之處是沒有win32的版本题造,只有適用于64位的版本,因此不推薦使用猾瘸。值得注意的是界赔,構(gòu)建ML樹丢习,不需要事先的多序列比對(duì),而直接使用FASTA格式的序列即可淮悼。
貝葉斯的算法以MrBayes為代表咐低,不過速度較慢在一般的進(jìn)化樹分析中較少應(yīng)用,且該方法需要很多背景知識(shí)袜腥,這里不作介紹见擦。
需要注意的幾個(gè)問題是,其一羹令,如果對(duì)核酸序列進(jìn)行分析锡宋,并且是CDS編碼區(qū)的核酸序列,一般需要將核酸序列分別先翻譯成氨基酸序列特恬,進(jìn)行比對(duì)执俩,然后再對(duì)應(yīng)到核酸序列上。這一流程可以通過MEGA 3.0以后的版本實(shí)現(xiàn)癌刽。MEGA3現(xiàn)在允許兩條核苷酸役首,先翻成蛋白序列比對(duì)之后再倒回去,做后續(xù)計(jì)算显拜。其二衡奥,無論是核酸序列還是蛋白序列,一般應(yīng)當(dāng)先做成FASTA格式远荠。FASTA格式的序列矮固,第一行由符號(hào)“>”開頭,后面跟著序列的名稱譬淳,可以自定義档址,例如user1,protein1等等邻梆。將所有的FASTA格式的序列存放在同一個(gè)文件中守伸。文件的編輯可用Windows自帶的記事本工具,或者EditPlus(Google搜索可得)來操作浦妄。文件格式如圖1所示:


另外尼摹,構(gòu)建NJ或者M(jìn)P樹需要先將序列做多序列比對(duì)的處理。作者推薦使用ClustalX進(jìn)行多序列比對(duì)的分析剂娄。多序列比對(duì)的結(jié)果有時(shí)需要后續(xù)處理并應(yīng)用于文章中蠢涝,這里作者推薦使用GeneDoc工具。而構(gòu)建ML樹則不需要預(yù)先的多序列比對(duì)阅懦。
因此和二,作者推薦的軟件組合為:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
三故黑、數(shù)據(jù)分析及結(jié)果推斷一般碰到的幾類問題是:
(1)推斷基因/蛋白的功能儿咱;
(2)基因/蛋白家族分類庭砍;
(3)計(jì)算基因分化的年代场晶。
關(guān)于這方面的文獻(xiàn)非常多混埠,這里作者僅做簡(jiǎn)要的介紹。
推斷基因/蛋白的功能诗轻,一般先用BLAST工具搜索同一物種中與不同物種的同源序列钳宪,這包括直向同源物(Ortholog)和旁系同源物(Paralog)。如何界定這兩種同源物扳炬,網(wǎng)上有很多詳細(xì)的介紹吏颖,這里不作討論。然后得到這些同源物的序列恨樟,做成FASTA格式的文件半醉。一般通過NJ構(gòu)建進(jìn)化樹,并且進(jìn)行Bootstrap分析所得到的結(jié)果已足夠劝术。如果序列近緣缩多,可以再使用MP構(gòu)建進(jìn)化樹,進(jìn)行比較养晋。如果序列較遠(yuǎn)源衬吆,則可以做ML樹比較。使用兩種方法得到的樹绳泉,如果差別不大逊抡,并且Bootstrap總體較高,則得到的進(jìn)化樹較為可靠零酪。
基因/蛋白家族分類冒嫡。這方面可以細(xì)分為兩個(gè)問題。一是對(duì)一個(gè)大的家族進(jìn)行分類四苇,另一個(gè)就是將特定的一個(gè)或多個(gè)基因/蛋白定位到已知的大的家族上灯谣,看看屬于哪個(gè)亞家族。例如蛔琅,對(duì)驅(qū)動(dòng)蛋白(kinesin)超家族進(jìn)行分類胎许,屬于第一個(gè)問題。而假如得到一個(gè)新的驅(qū)動(dòng)蛋白的序列罗售,想分析該序列究竟屬于驅(qū)動(dòng)蛋白超家族的14個(gè)亞家族中的哪一個(gè)辜窑,則屬于后一個(gè)問題。這里寨躁,一般不推薦使用MP的方法穆碎。大多數(shù)的基因/蛋白家族起源較早,序列分化程度較大职恳,相互之間較為遠(yuǎn)源所禀。這里一般使用NJ方面、ME或者M(jìn)L的方法。
計(jì)算基因分化的年代色徘。這個(gè)一般需要知道物種的核苷酸替代率恭金。常見物種的核苷酸替代率需要查找相關(guān)的文獻(xiàn)。這里不作過多的介紹褂策。一般對(duì)于這樣的問題横腿,序列多數(shù)是近緣的,選擇NJ或者M(jìn)P即可斤寂。如果使用MEGA進(jìn)行分析耿焊,選項(xiàng)中有一項(xiàng)是“Gaps/Missing Data”,一般選擇“Pairwise Deletion”遍搞。其他多數(shù)的選項(xiàng)保持缺省的參數(shù)罗侯。
四、總結(jié)在實(shí)用中溪猿,只要方法钩杰、模型合理,建出的樹都有意義再愈,可以任意選擇自己認(rèn)為好一個(gè)榜苫。最重要的問題是:你需要解決什么樣 的問題?如果分析的結(jié)果能夠解決你現(xiàn)有的問題翎冲,那么垂睬,這樣的分析足夠了。因此抗悍,在做進(jìn)化分析前驹饺,可能需要很好的考慮一下自己的問題所在,這樣所作的分析才有針對(duì)性缴渊。
※※※名詞解釋※※※
1.FASTA
在生物信息學(xué)中赏壹,F(xiàn)ASTA格式(又稱為Pearson格式),是一種基于文本用于表示核苷酸序列或氨基酸序列的格式衔沼。在這種格式中堿基對(duì)或氨基酸用單個(gè)字母來編碼蝌借,且允許在序列前添加序列名及注釋。
2.MAFFT
主站:http://mafft.cbrc.jp/alignment/software/
維基百科:http://en.wikipedia.org/wiki/MAFFT
3. Bootstrap(摘自百度)
即自展值指蚁,是用來檢驗(yàn)?zāi)闼?jì)算的進(jìn)化樹分支可信度的菩佑。簡(jiǎn)單地講就是把序列的位點(diǎn)都重排,重排后的序列再用相同的辦法構(gòu)樹凝化,如果原來樹的分枝在重排后構(gòu)的樹中也出現(xiàn)了稍坯,就給這個(gè)分枝打上一分,如果沒出現(xiàn)就給0分搓劫,這樣經(jīng)過你給定的repetitions次(至少1000次)重排構(gòu)樹打分后瞧哟,每個(gè)分枝就都得出分值混巧,計(jì)算機(jī)會(huì)給你換算成bootstrap值。重排的序列有很多組合勤揩,值越小說明分枝的可信度越低咧党,最好根據(jù)數(shù)據(jù)的情況選用不同的構(gòu)樹方法和模型。
4.CDS****序列(摘自百度)
CDS(coding sequence)序列是編碼序列雄可,是用來編碼蛋白質(zhì)的那段序列凿傅,是mRNA的一部分缠犀。通常外顯子指的是編碼蛋白序列数苫。嚴(yán)格地說,外顯子是指保留在初級(jí)mRNA中不被剪切掉的區(qū)域辨液,包括5’非翻譯區(qū)(5’UTR)虐急、編碼序列和3’非翻譯區(qū)(3’UTR)。所以mRNA的外顯子的概念應(yīng)該要大于CDS序列的范疇滔迈。
問:知道了基因的mRNA止吁,怎樣通過mRNA找到它的內(nèi)含子序列......
要看這個(gè)物種是不是已經(jīng)全基因組測(cè)序了……如果已經(jīng)有了全基因組測(cè)序,就可以把整個(gè)mRNA序列拿去Genbank去blast(大概應(yīng)該是那個(gè)RNA到DNA的燎悍,還可以試一下蛋白blast DNA的敬惦,有時(shí)候這個(gè)blast會(huì)比較準(zhǔn)),然后把兩個(gè)高同源的部分中間的部分復(fù)制粘貼下來就行了谈山,如果需要實(shí)際拿到序列就根據(jù)兩邊的外顯子(如果短)或者中間的部分序列(如果長(zhǎng))設(shè)個(gè)引物俄删,用提取的核基因組做模板擴(kuò)一下就行了夏漱。如果沒有允乐,那就只好找一個(gè)親緣關(guān)系比較近的、已有全基因組測(cè)序結(jié)果的物種重復(fù)一下上面的blast癞埠,然后根據(jù)中間的長(zhǎng)度估一下擴(kuò)增的條件鸽粉,然后用兩端的外顯子設(shè)一下引物去擴(kuò)增獲得產(chǎn)物去測(cè)序斜脂,從而獲得內(nèi)含子序列。
本文地址:丁香通(稍作修改) http://www.biomart.cn/experiment/430/586/588/25195.htm
1.歐洲生物信息中心 http://www.ebi.ac.uk/
2.核酸和蛋白質(zhì)序列分析方法匯總
http://web.91bio.com/nucleic-acid-and-protein-sequence-analysis-methods-summary.html

  1. EditPlus Text Editor http://www.editplus.com/

MEGA軟件——系統(tǒng)發(fā)育樹構(gòu)建方法(圖文講解)
一触机、序列文本的準(zhǔn)備
構(gòu)樹之前先將目標(biāo)基因序列都分別保存為txt文本文件中(或者把所有序列保存在同一個(gè)txt文本中,可以用“>基因名稱”作為第一行帚戳,然后重起一行 編輯基因序列),序列只包含序列字母(ATCG或氨基酸簡(jiǎn)寫字母)儡首。文件名名稱可以已經(jīng)您的想法隨意編輯片任。



二、序列導(dǎo)入到Mega 5軟件
(1)打開Mega 5軟件椒舵,界面如下

(2)導(dǎo)入需要構(gòu)建系統(tǒng)發(fā)育樹的目的序列


OK
選擇分析序列類型(如果是DNA序列蚂踊,點(diǎn)擊DNA,如果是蛋白序列笔宿,點(diǎn)擊Protein)

出現(xiàn)新的對(duì)話框犁钟,創(chuàng)建新的數(shù)據(jù)文件

選擇序列類型

導(dǎo)入序列



導(dǎo)入序列成功棱诱。
(3)序列比對(duì)分析

點(diǎn)擊工具欄中“W”工具,進(jìn)行比對(duì)分析涝动,比對(duì)結(jié)束后刪除兩端不能夠完全對(duì)齊堿基

(4)系統(tǒng)發(fā)育分析

關(guān)閉窗口迈勋,選擇保存文件路徑,自定義文件名稱

三醋粟、系統(tǒng)發(fā)育樹構(gòu)建

根據(jù)不同分析目的靡菇,選擇相應(yīng)的分析算法,本例子以N—J算法為例

Bootstrap 選擇1000米愿,點(diǎn)擊Compute厦凤,開始計(jì)算

計(jì)算完畢后,生成系統(tǒng)發(fā)育樹育苟。

根據(jù)不同目的较鼓,導(dǎo)出分析結(jié)果,進(jìn)行簡(jiǎn)單的修飾违柏,保存

FastTree:快速對(duì)成千上萬條序列構(gòu)建進(jìn)化樹
今天搜了一下博烂,在PLoB中已經(jīng)有不少介紹構(gòu)建進(jìn)化樹的文章,目前構(gòu)建進(jìn)化樹的算法中比較常用的有ML(maximum likelihood漱竖,最大似然)禽篱,MP(maximum parsimony,最大簡(jiǎn)約)等等馍惹。尤其是最大似然法躺率,一直用的比較多。今天再給大家推薦一款基于近似最大似然法的算法構(gòu)建進(jìn)化樹的軟件讼积。
FastTree是一款從成千上萬條肥照,甚至更多的蛋白質(zhì)序列或者核苷酸序列中快速推斷近似最大似然的系統(tǒng)發(fā)生樹的軟件(approximately-maximum-likelihood phylogenetic trees)。號(hào)稱是比其他基于最大似然構(gòu)建進(jìn)化樹的軟件( PhyML 3.0 和 RAxML 7)要快100倍勤众,尤其是當(dāng)序列數(shù)目越多舆绎,優(yōu)勢(shì)越明顯。而且在這構(gòu)建進(jìn)化樹的短時(shí)間內(nèi)们颜,還能對(duì)每一個(gè)節(jié)點(diǎn)提供一個(gè)節(jié)點(diǎn)的可信度(local support value)吕朵。
關(guān)于FastTree的下載和安裝,以下是各個(gè)版本下載地址:
Linux 64-bit executable (+SSE) (64位linux)

Multi-threaded executable (+SSE +OpenMP) (還是64位linux版本窥突,但是支持多線程)

Windows 32-bit command-line executable (no SSE) (windows版本)

多重序列比對(duì)及系統(tǒng)發(fā)生樹的構(gòu)建
在現(xiàn)代分子進(jìn)化研究中努溃,根據(jù)現(xiàn)有生物基因或物種多樣性來重建生物的進(jìn)化史是一個(gè)非常重要的問題。一個(gè)可靠的系統(tǒng)發(fā)生的推斷阻问,將揭示出有關(guān)生物進(jìn)化過程的順序梧税,有助于我們了解生物進(jìn)化的歷史和進(jìn)化機(jī)制。
對(duì)于一個(gè)完整的進(jìn)化樹分析需要以下幾個(gè)步驟:
⑴ 要對(duì)所分析的多序列目標(biāo)進(jìn)行比對(duì)(alignment)。
⑵ 要構(gòu)建一個(gè)進(jìn)化樹(phyligenetic tree)第队。
構(gòu)建進(jìn)化樹的算法主要分為兩類:獨(dú)立元素法(discrete character methods)和距離依靠法(distance methods)哮塞。
所謂獨(dú)立元素法是指進(jìn)化樹的拓?fù)湫螤钍怯尚蛄猩系拿總€(gè)堿基/氨基酸的狀態(tài)決定的(例如:一個(gè)序列上可能包含很多的酶切位點(diǎn),而每個(gè)酶切位點(diǎn)的存在與否是由幾個(gè)堿基的狀態(tài)決定的凳谦,也就是說一個(gè)序列堿基的狀態(tài)決定著它的酶切位點(diǎn)狀態(tài)忆畅,當(dāng)多個(gè)序列進(jìn)行進(jìn)化樹分析時(shí),進(jìn)化樹的拓?fù)湫螤钜簿陀蛇@些堿基的狀態(tài)決定了)尸执。
而距離依靠法是指進(jìn)化樹的拓?fù)湫螤钣蓛蓛尚蛄械倪M(jìn)化距離決定的家凯。進(jìn)化樹枝條的長(zhǎng)度代表著進(jìn)化距離。獨(dú)立元素法包括最大簡(jiǎn)約性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods)如失;距離依靠法包括除權(quán)配對(duì)法(UPGMAM)和鄰位相連法(Neighbor-joining)绊诲。
⑶ 對(duì)進(jìn)化樹進(jìn)行評(píng)估,主要采用Bootstraping法岖常。
進(jìn)化樹的構(gòu)建是一個(gè)統(tǒng)計(jì)學(xué)問題驯镊,我們所構(gòu)建出來的進(jìn)化樹只是對(duì)真實(shí)的進(jìn)化關(guān)系的評(píng)估或者模擬葫督。如果我們采用了一個(gè)適當(dāng)?shù)姆椒ń甙埃敲此鶚?gòu)建的進(jìn)化樹就會(huì)接近真實(shí)的“進(jìn)化樹”。模擬的進(jìn)化樹需要一種數(shù)學(xué)方法來對(duì)其進(jìn)行評(píng)估橄镜。不同的算法有不同的適用目標(biāo)偎快。
一般來說,最大簡(jiǎn)約性法適用于符合以下條件的多序列:
i 所要比較的序列的堿基差別小洽胶,
ii 對(duì)于序列上的每一個(gè)堿基有近似相等的變異率晒夹,
iii 沒有過多的顛換/轉(zhuǎn)換的傾向,
iv 所檢驗(yàn)的序列的堿基數(shù)目較多(大于幾千個(gè)堿基)姊氓;

用最大可能性法分析序列則不需以上的諸多條件丐怯,但是此種方法計(jì)算極其耗時(shí)。如果分析的序列較多翔横,有可能要花上幾天的時(shí)間才能計(jì)算完畢读跷。UPGMAM(Unweighted pair group method with arithmetic mean)假設(shè)在進(jìn)化過程中所有核苷酸/氨基酸都有相同的變異率,也就是存在著一個(gè)分子鐘禾唁。這種算法得到的進(jìn)化樹相對(duì)來說不是很準(zhǔn)確效览,現(xiàn)在已經(jīng)很少使用。鄰位相連法是一個(gè)經(jīng)常被使用的算法荡短,它構(gòu)建的進(jìn)化樹相對(duì)準(zhǔn)確丐枉,而且計(jì)算快捷。其缺點(diǎn)是序列上的所有位點(diǎn)都被同等對(duì)待掘托,而且瘦锹,所分析的序列的進(jìn)化距離不能太大。另外,需要特別指出的是對(duì)于一些特定多序列對(duì)象來說可能沒有任何一個(gè)現(xiàn)存算法非常適合它弯院。
CLUSTALX和PHYLIP軟件能夠?qū)崿F(xiàn)上述的建樹步驟噩峦。CLUSTALX是Windows界面下的多重序列比對(duì)軟件。PHYLIP是多個(gè)軟件的壓縮包抽兆,功能極其強(qiáng)大识补,主要包括五個(gè)方面的功能軟件:
i,DNA和蛋白質(zhì)序列數(shù)據(jù)的分析軟件辫红。
ii凭涂,序列數(shù)據(jù)轉(zhuǎn)變成距離數(shù)據(jù)后,對(duì)距離數(shù)據(jù)分析的軟件贴妻。
iii切油,對(duì)基因頻率和連續(xù)的元素分析的軟件。
iv名惩,把序列的每個(gè)堿基/氨基酸獨(dú)立看待(堿基/氨基酸只有0和1的狀態(tài))時(shí)澎胡,對(duì)序列進(jìn)行分析的軟件。
v娩鹉,按照DOLLO簡(jiǎn)約性算法對(duì)序列進(jìn)行分析的軟件攻谁。
vi,繪制和修改進(jìn)化樹的軟件弯予。

測(cè)試數(shù)據(jù)查看源代碼
打印幫助

1
M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT

2
M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT

3
M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT

4
Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT

5
Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT

6
Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT

7
Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT

8
Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT

分析步驟一戚宦、用CLUSTALX軟件對(duì)已知DNA序列做多序列比對(duì)。操作步驟:
1锈嫩、以FASTA格式準(zhǔn)備8個(gè)DNA序列test.seq(或txt)文件受楼。


2、雙擊進(jìn)入CLUSTALX程序呼寸,點(diǎn)FILE進(jìn)入LOAD SEQUENCE艳汽,打開test.seq(或txt)文件。
2
2

3对雪、點(diǎn)ALIGNMENT河狐,在默認(rèn)alignment parameters下,點(diǎn)擊Do complete Alignment 慌植。在新出現(xiàn)的窗口中點(diǎn)擊ALIGN進(jìn)行比對(duì)甚牲,這時(shí)輸出兩個(gè)文件(默認(rèn)輸出文件格式為Clustal格式):比對(duì)文件test.aln和向?qū)湮募est.dnd。
3
3

4蝶柿、點(diǎn)FILE進(jìn)入Save sequence as,在format 框中選PHYLIP丈钙,文件在PHYLIP軟件目錄下以test.phy存在,點(diǎn)擊OK交汤。
5雏赦、將PHYLIP軟件目錄下的test.phy文件拷貝到EXE文件夾中劫笙。用計(jì)事本方式打開的test.phy文件的部分序列如下:
4
4

圖中的8和50分別表示8個(gè)序列和每個(gè)序列有50個(gè)堿基。
二星岗、用PHYLIP軟件推導(dǎo)進(jìn)化樹填大。1、進(jìn)入EXE文件夾俏橘,點(diǎn)擊SEQBOOT軟件輸入test.phy文件名允华,回車。
5
5

圖中的D寥掐、J靴寂、R、I召耘、O百炬、1、2代表可選擇的選項(xiàng)污它,鍵入這些字母剖踊,程序的條件就會(huì)發(fā)生改變。D選項(xiàng)無須改變衫贬。J選項(xiàng)有三種條件可以選擇德澈,分別是Bootstrap、Jackknife和Permute祥山。文章上面提到用Bootstraping法對(duì)進(jìn)化樹進(jìn)行評(píng)估圃验,所謂Bootstraping法就是從整個(gè)序列的堿基(氨基酸)中任意選取一半,剩下的一半序列隨機(jī)補(bǔ)齊組成一個(gè)新的序列缝呕。這樣,一個(gè)序列就可以變成了許多序列斧散。一個(gè)多序列組也就可以變成許多個(gè)多序列組供常。根據(jù)某種算法(最大簡(jiǎn)約性法、最大可能性法鸡捐、除權(quán)配對(duì)法或鄰位相連法)每個(gè)多序列組都可以生成一個(gè)進(jìn)化樹栈暇。將生成的許多進(jìn)化樹進(jìn)行比較,按照多數(shù)規(guī)則(majority-rule)我們就會(huì)得到一個(gè)最“逼真”的進(jìn)化樹箍镜。Jackknife則是另外一種隨機(jī)選取序列的方法源祈。它與Bootstrap法的區(qū)別是不將剩下的一半序列補(bǔ)齊,只生成一個(gè)縮短了一半的新序列色迂。Permute是另外一種取樣方法香缺,其目的與Bootstrap和Jackknife法不同,這里不再介紹歇僧。R選項(xiàng)讓使用者輸入republicate的數(shù)目图张。所謂republicate就是用Bootstrap法生成的一個(gè)多序列組。根據(jù)多序列中所含的序列的數(shù)目的不同可以選取不同的republicate,此處選200祸轮,輸入Y確認(rèn)參數(shù)并在Random number seed (must be odd) ?的下面輸入一個(gè)奇數(shù)(比如3)兽埃。當(dāng)我們?cè)O(shè)置好條件后按回車,程序開始運(yùn)行适袜,并在EXE文件夾中產(chǎn)生一個(gè)文件outfile柄错,Outfile用記事本打開如下:
6
6

這個(gè)文件包括了200個(gè)republicate。
2苦酱、文件outfile改為infile鄙陡。點(diǎn)擊DNADIST程序。選項(xiàng)M是輸入剛才設(shè)置的republicate的數(shù)目躏啰,輸入D選擇data sets趁矾,輸入200。
7
7

設(shè)置好條件后给僵,輸入Y確認(rèn)參數(shù)毫捣。程序開始運(yùn)行,并在EXE文件夾中產(chǎn)生outfile帝际,部分內(nèi)容如下:
8
8

將outfile文件名改為infile蔓同,為避免與原先infile文件重復(fù),將 原先文件名改為infile1蹲诀。
3斑粱、EXE文件夾中選擇通過距離矩陣推測(cè)進(jìn)化樹的算法,點(diǎn)擊NEIGHBOR程序脯爪。輸入M更改參數(shù)则北,輸入D選擇data sets。輸入200痕慢。輸入奇數(shù)種子3尚揣。
9
9

輸Y確認(rèn)參數(shù)。程序開始運(yùn)行掖举,并在EXE文件夾中產(chǎn)生outfile和outtree兩個(gè)結(jié)果輸出快骗。outtree文件是一個(gè)樹文件,可以用treeview等軟件打開塔次。outfile是一個(gè)分析結(jié)果的輸出報(bào)告方篮,包括了樹和其他一些分析報(bào)告,可以用記事本直接打開励负。部分內(nèi)容如下:
10
10

4藕溅、將outtree文件名改為intree,點(diǎn)擊DRAWTREE程序熄守,輸入font1文件名蜈垮,作為參數(shù)耗跛。輸Y確認(rèn)參數(shù)。程序開始運(yùn)行攒发,并出現(xiàn)Tree Preview圖调塌。
11
11

5、點(diǎn)擊DRAWGRAM程序惠猿,輸入font1文件名羔砾,作為參數(shù)。輸Y確認(rèn)參數(shù)偶妖。程序開始運(yùn)行姜凄,并出現(xiàn)Tree Preview圖。
12
12

6趾访、將EXE文件夾中的outfile文件名改為outfile1态秧,以避免被新生成的outfile 文件覆蓋。點(diǎn)擊CONSENSE程序扼鞋。輸入Y確認(rèn)設(shè)置申鱼。EXE文件夾中新生成outfile和outtree。Outfile文件用記事本打開云头,內(nèi)容如下:
13
13

7捐友、將EXE文件夾中的intree文件名改為intree1,將outtree改intree溃槐。點(diǎn)擊DRAWTREE程序匣砖,輸入font1文件名,作為參數(shù)昏滴。輸Y確認(rèn)參數(shù)猴鲫。程序開始運(yùn)行,并出現(xiàn)Tree Preview圖影涉。
14
14

8变隔、點(diǎn)擊DRAWGRAM程序,輸入font1文件名蟹倾,作為參數(shù)。輸Y確認(rèn)參數(shù)猖闪。程序開始運(yùn)行鲜棠,并出現(xiàn)Tree Preview圖。
15
15

推薦一款強(qiáng)大的進(jìn)化樹編輯軟件
最近一個(gè)同學(xué)開發(fā)了一款很強(qiáng)大的進(jìn)化樹編輯培慌、管理的在線服務(wù)程序豁陆,EvolViewEvolView是一個(gè)進(jìn)化樹可視化的軟件吵护,同時(shí)可以做各種編輯和處理盒音,同時(shí)還支持額外增加一些數(shù)據(jù)上去表鳍,譬如把進(jìn)化樹和其他的表格數(shù)據(jù)關(guān)聯(lián)起來等。最喜歡的另外一點(diǎn)祥诽,他是我目前用到的可視化編輯軟件中譬圣,畫出來的圖形最漂亮的。EvolView支持一些列的數(shù)據(jù)格式例如雄坪,Newick, Nexus, Nhx and PhyloXML厘熟。圖片可以導(dǎo)出高質(zhì)量的PNG,JPEG,SVG等圖片。
有興趣的可以了解一下维哈,附上其中的一個(gè)UI界面(點(diǎn)擊圖片查看大圖)绳姨。


EvolView在線網(wǎng)站地址:http://www.evolgenius.info/evolview.html
這款軟件發(fā)表在Nucleic Acids Research,下面是論文的相關(guān)信息:
EvolView, an online tool for visualizing, annotating and managing phylogenetic treesHuangkai Zhang, Shenghan Gao, Martin J. Lercher, Songnian Hu1, and Wei-Hua Chen
EvolView is a web application for visualizing, annotating and managing phylogenetic trees. First, EvolView is a phylogenetic tree viewer and customization tool; it visualizes trees in various formats, customizes them through built-in functions that can link information from external datasets, and exports the customized results to publication-ready figures. Second, EvolView is a tree and dataset management tool: users can easily organize related trees into distinct projects, add new datasets to trees and edit and manage existing trees and datasets. To make EvolView easy to use, it is equipped with an intuitive user interface. With a free account, users can save data and manipulations on the EvolView server. EvolView is freely available at: http://www.evolgenius.info/evolview.html.

上篇下篇

果蠅性染色體的進(jìn)化過程追蹤

Drosophila
Drosophila

果蠅常被用來進(jìn)行遺傳研究阔挠,因?yàn)槠鋲勖容^短飘庄,而且在實(shí)驗(yàn)室可以很容易繁殖,其突變體可以被廣泛使用购撼。目前果蠅有1500中已知的種跪削。近日一項(xiàng)刊登在Science上的研究追蹤了果蠅一對(duì)性染色體進(jìn)化歷程,這對(duì)染色體大約在100萬年之前出現(xiàn)份招。
果蠅的X切揭、Y染色體和人類的很像,在尺寸和基本序列上存在很多不同锁摔;人類的染色體對(duì)被認(rèn)為是出現(xiàn)于200萬年之前廓旬,Y染色體僅僅包含有50個(gè)基因,而X染色體包含著將近1000個(gè)基因谐腰。在許多物種中孕豹,從常染色體到性染色體進(jìn)化發(fā)生的時(shí)間非常之久,而且難以追蹤十气。
來自加州大學(xué)的研究者通過研究果蠅屬米蘭達(dá)果蠅(miranda flies)的全基因組励背,試圖去尋找性染色體進(jìn)化過程。
當(dāng)果蠅近X和近Y染色體形成的時(shí)候砸西,大約3000個(gè)基因和性染色體相關(guān)叶眉,雌性果蠅X染色體有兩個(gè)拷貝,而雄性X和Y各有一個(gè)拷貝芹枷。在數(shù)百萬年的進(jìn)化之中衅疙,Y染色體顯現(xiàn)出大的退化跡象,有近乎三分之一的Y染色體失去了功能鸳慈。隨著基因失去功能饱溢,Y染色體上的其它基因開始進(jìn)化變得對(duì)雄性更加有益,并且表達(dá)諸如男性的一些標(biāo)志性特征走芋,如前列腺以及睪丸等绩郎。相似的進(jìn)化也發(fā)生在X染色體上潘鲫,隨之表現(xiàn)而來的是基因表達(dá)成為特定的雌性組織。
基因表達(dá)的過程對(duì)于雌性比較有益肋杖,因?yàn)樾坌詢H僅含有一個(gè)拷貝的X染色體溉仑,相比Y染色體而言,X染色體的表達(dá)分配會(huì)更慢一些兽愤。然而X染色體的進(jìn)化并不緩慢彼念,當(dāng)然包括一些大事件的發(fā)生,比如其它染色體上的基因摻入X染色體中浅萧。
研究者Bachtrog表示逐沙,果蠅中某些性染色體也會(huì)轉(zhuǎn)變成為常染色體,而且很有可能米蘭達(dá)果蠅的Y染色體最終會(huì)消失洼畅,或者有可能另外一種決定性別的機(jī)制正在進(jìn)化之中吩案。
相關(guān)文獻(xiàn):
Sex-Specific Adaptation Drives Early Sex Chromosome Evolution in Drosophila
Most species’ sex chromosomes are derived from ancient autosomes and show few signatures of their origins. We studied the sex chromosomes of Drosophila miranda, where a neo-Y chromosome originated only approximately 1 million years ago. Whole-genome and transcriptome analysis reveals massive degeneration of the neo-Y, that male-beneficial genes on the neo-Y are more likely to undergo accelerated protein evolution, and that neo-Y genes evolve biased expression toward male-specific tissues—the shrinking gene content of the neo-Y becomes masculinized. In contrast, although older X chromosomes show a paucity of genes expressed in male tissues, neo-X genes highly expressed in male-specific tissues undergo increased rates of protein evolution if haploid in males. Thus, the response to sex-specific selection can shift at different stages of X differentiation, resulting in masculinization or demasculinization of the X-chromosomal gene content.
全文鏈接:http://www.sciencemag.org/content/337/6092/341

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市帝簇,隨后出現(xiàn)的幾起案子徘郭,更是在濱河造成了極大的恐慌,老刑警劉巖丧肴,帶你破解...
    沈念sama閱讀 206,602評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件残揉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡芋浮,警方通過查閱死者的電腦和手機(jī)抱环,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來纸巷,“玉大人镇草,你說我怎么就攤上這事×鲋迹” “怎么了梯啤?”我有些...
    開封第一講書人閱讀 152,878評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)存哲。 經(jīng)常有香客問我因宇,道長(zhǎng),這世上最難降的妖魔是什么祟偷? 我笑而不...
    開封第一講書人閱讀 55,306評(píng)論 1 279
  • 正文 為了忘掉前任羽嫡,我火速辦了婚禮志膀,結(jié)果婚禮上各拷,老公的妹妹穿的比我還像新娘葛账。我一直安慰自己,他們只是感情好氛赐,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,330評(píng)論 5 373
  • 文/花漫 我一把揭開白布魂爪。 她就那樣靜靜地躺著,像睡著了一般艰管。 火紅的嫁衣襯著肌膚如雪滓侍。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,071評(píng)論 1 285
  • 那天牲芋,我揣著相機(jī)與錄音撩笆,去河邊找鬼。 笑死缸浦,一個(gè)胖子當(dāng)著我的面吹牛夕冲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播裂逐,決...
    沈念sama閱讀 38,382評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼歹鱼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了卜高?” 一聲冷哼從身側(cè)響起弥姻,我...
    開封第一講書人閱讀 37,006評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎掺涛,沒想到半個(gè)月后庭敦,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,512評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡薪缆,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,965評(píng)論 2 325
  • 正文 我和宋清朗相戀三年秧廉,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矮燎。...
    茶點(diǎn)故事閱讀 38,094評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡定血,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出诞外,到底是詐尸還是另有隱情澜沟,我是刑警寧澤,帶...
    沈念sama閱讀 33,732評(píng)論 4 323
  • 正文 年R本政府宣布峡谊,位于F島的核電站茫虽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏既们。R本人自食惡果不足惜濒析,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,283評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望啥纸。 院中可真熱鬧号杏,春花似錦、人聲如沸斯棒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至庭惜,卻和暖如春罩驻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背护赊。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評(píng)論 1 262
  • 我被黑心中介騙來泰國打工惠遏, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人骏啰。 一個(gè)月前我還...
    沈念sama閱讀 45,536評(píng)論 2 354
  • 正文 我出身青樓节吮,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國和親器一。 傳聞我的和親對(duì)象是個(gè)殘疾皇子课锌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,828評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 《DNA:生命的秘密》 作者: 詹姆斯·沃森(James D. Watson) / 安德魯·貝瑞(Andrew B...
    kevinou2007閱讀 8,432評(píng)論 0 8
  • 你有哪些基因可能并不重要渺贤,是基因網(wǎng)絡(luò)而非單個(gè)基因在發(fā)揮作用。通常有幾十到幾百個(gè)基因網(wǎng)絡(luò)對(duì)應(yīng)一個(gè)相同的表現(xiàn)型请毛;而構(gòu)成...
    innesfry閱讀 577評(píng)論 0 2
  • 2016年9月3日志鞍、4日 做了一次志工,填充了人生中想要做一次志愿者的空白方仿! 志工固棚,也叫義工,就是志愿工作者仙蚜。顧名...
    愛我青春閱讀 297評(píng)論 0 0
  • 【執(zhí)子之手】?jī)和瘜W(xué)習(xí)力六期 踐行記錄20170914Day122 1此洲、聽了鵝媽媽音頻。2委粉、寶寶今天不舒服呜师,其他沒有踐行。
    cancan媽閱讀 186評(píng)論 0 0
  • 姓名:周文福 公司:東莞耀升機(jī)電有限公司 反省組 【日精進(jìn)打卡第107天】 【知-學(xué)習(xí)】 1.朗誦六項(xiàng)精進(jìn)大綱0遍...
    周文福閱讀 186評(píng)論 0 0