分子進(jìn)化與系統(tǒng)發(fā)生
進(jìn)化的故事:拉馬克與用進(jìn)廢退
拉馬提出進(jìn)廢退理論不从。他說(shuō)生物經(jīng)常使用的器官會(huì)逐漸發(fā)達(dá)剑逃,不經(jīng)常使用的器官會(huì)逐漸退化揩徊。而且這種后天獲得的性狀是可以遺傳的似芝,因此生物可以把后天鍛煉的成果遺傳給下一代线脚。拉馬克舉了長(zhǎng)頸鹿的例子赐稽。
反對(duì)
拉馬克主義提出后,生物界支持聲和反對(duì)聲此起彼伏浑侥。先來(lái)聽(tīng)聽(tīng)反對(duì)他的聲音姊舵。德國(guó)科學(xué)家魏斯曼做了一個(gè)實(shí)驗(yàn)。他把老鼠的尾巴都切斷寓落,之后再讓沒(méi)有尾巴的老鼠互相交配括丁,生出的下一代老鼠依然是有尾巴的。然后再把子代老鼠的尾巴切斷之后交配伶选,生出的下一代老鼠依然是有尾巴的史飞。實(shí)驗(yàn)一直重復(fù)至第 21 代,但是老鼠的尾巴依然長(zhǎng)長(zhǎng)的仰税,一點(diǎn)兒都沒(méi)短构资。于是魏斯曼說(shuō)拉馬克是錯(cuò)的!
支持
再來(lái)聽(tīng)聽(tīng)支持的聲音陨簇。水生的雄蟾蜍都有一個(gè)黑色的趾墊吐绵,而陸生的沒(méi)有。奧地利科學(xué)家卡姆梅勒,強(qiáng)迫陸生的產(chǎn)婆蟾在水中生活拦赠。繁殖了幾代之后就絕種了巍沙。但是在絕種之前,產(chǎn)婆蟾的雄蟾蜍據(jù)稱(chēng)是長(zhǎng)出了黑色的指墊荷鼠,而且水中生活的這幾代句携,趾墊越來(lái)越明顯。
進(jìn)化的故事:達(dá)爾文與自然選擇
達(dá)爾文認(rèn)為“物競(jìng)天擇”意味著允乐,存在一種最初的生物矮嫉,之后通過(guò)某種方式得到了改良。如果環(huán)境對(duì)你施加壓力牍疏,壓力有可能是捕食者的威脅或類(lèi)似的情況蠢笋,那些通過(guò)某種手段生存下來(lái),并且繁衍后代的生物鳞陨,他們的后代也能生存下來(lái)昨寞,并且繼續(xù)繁衍生息。因此厦滤,如今我們所見(jiàn)到的動(dòng)植物都擁有很強(qiáng)的適應(yīng)性援岩。
基本概念:如何研究進(jìn)化
分子水平是指 DNA、RNA掏导、以及蛋白質(zhì)序列享怀。
基本概念:不同的同源
同源(Homologs),相同來(lái)源趟咆。
它的確切定義是添瓷,來(lái)源于共同祖先的相似序列為同源序列。
也就是說(shuō)值纱,相似序列有兩種鳞贷,一種是來(lái)源于共同祖先的,那么他們可以叫同源计雌,另一種不是來(lái)源于共同祖先的悄晃,那么他們盡管相似也不能叫同源玫霎。
第二種情況出現(xiàn)的概率雖然低凿滤,但還是存在的,所以相似序列并不一定是同源序列庶近。
同源又分為三種翁脆,直系同源,旁系同源和異同源鼻种。
直系同源(Orthologs)
是指反番,來(lái)自于不同物種的由垂直家系,也就是物種形成,進(jìn)化而來(lái)的基因罢缸,并且典型的保留與原始基因相同的功能篙贸。也就是說(shuō),隨著進(jìn)化分支枫疆,一個(gè)基因進(jìn)入了不同的物種爵川,并保留了原有功能。這時(shí)息楔,不同物種中的這個(gè)基因就屬于直系同源寝贡。
旁系同源(Paralogs)
是指在同一物種中的來(lái)源于基因復(fù)制的基因,可能會(huì)進(jìn)化出新的但與原功能相關(guān)的功能來(lái)值依。
基因復(fù)制產(chǎn)生了兩個(gè)重復(fù)的基因圃泡,多出來(lái)的這個(gè)有幾種命運(yùn),一個(gè)是又丟了愿险。復(fù)制出來(lái)發(fā)現(xiàn)沒(méi)有用颇蜡,又刪了。另一種命運(yùn)是演化出了新的功能辆亏。
如果這個(gè)新功能是往好的方向發(fā)展澡匪,就會(huì)被保留下了,如果是往不好的方面發(fā)展褒链,就會(huì)被自然選擇淘汰唁情。
還有一種命運(yùn),就是被放置不用甫匹。復(fù)制出來(lái)以后甸鸟,又加了個(gè)終止子,既不表達(dá)兵迅,也不刪除抢韭,擱那里擱著不管,成了偽基因恍箭。
被保留下來(lái)的具有新功能的基因與另一個(gè)復(fù)制出來(lái)的基因之間就是旁系同源刻恭。
異同源(Xenologs)
是指通過(guò)水平基因轉(zhuǎn)移,來(lái)源于共生或病毒侵染所產(chǎn)生的相似基因扯夭。
異同源的產(chǎn)生不是垂直進(jìn)化而來(lái)的鳍贾,也不是平行復(fù)制產(chǎn)生的,而是由于原核生物與真核生物的接觸交洗,比如病毒感染骑科,在跨度巨大的物種間跳躍轉(zhuǎn)移產(chǎn)生的。
基本概念:“樹(shù)狀”還是“網(wǎng)狀”
在計(jì)算機(jī)科學(xué)領(lǐng)域构拳,樹(shù)的定義規(guī)定咆爽,樹(shù)上從一個(gè)點(diǎn)到另一個(gè)點(diǎn)的路徑只有唯一的一條梁棠。而當(dāng)兩點(diǎn)之間的路徑個(gè)數(shù)≥2 的時(shí)候,就形成了網(wǎng)斗埂。
編織生命網(wǎng)的要素之一就是水平基因轉(zhuǎn)移符糊。水平基因轉(zhuǎn)移,是指生物將遺傳物質(zhì)傳遞給其他細(xì)胞而非其
子代細(xì)胞的過(guò)程呛凶。
系統(tǒng)發(fā)生樹(shù):系統(tǒng)發(fā)生樹(shù)的樣子
研究分子進(jìn)化所要構(gòu)建的系統(tǒng)發(fā)生樹(shù)(Phylogenetic tree)濒蒋,也叫分子樹(shù)。
樹(shù)是從根(root)長(zhǎng)出來(lái)的把兔。從根延伸出的樹(shù)枝就叫枝(branch/lineage)沪伙。枝上有分叉,分叉的地方就叫節(jié)(node)县好。枝的頂端頂著的就是葉(leaf)围橡。根、節(jié)和葉都可以叫做節(jié)點(diǎn)(node)缕贡。但是葉后面不再有枝了翁授,是最外面的節(jié)點(diǎn),所以叫外節(jié)點(diǎn)(outer node)晾咪。而節(jié)的前后都有枝收擦,所以叫內(nèi)節(jié)點(diǎn)(inner node)。根是一切的起源谍倦,習(xí)慣上就叫根塞赂。根和節(jié)都表示理論上曾經(jīng)存在的祖先,葉子是現(xiàn)存的物種昼蛀。
形狀表示生物學(xué)意義都一樣宴猾。如序列多,用原型叼旋,方便paper排版仇哆。
系統(tǒng)發(fā)生樹(shù):系統(tǒng)發(fā)生樹(shù)的種類(lèi)
根,它應(yīng)該是所有葉子的共同祖先夫植。
外類(lèi)群(outgroup)來(lái)確定讹剔,從而把無(wú)根樹(shù)變成有根樹(shù)。
有根樹(shù)反映了樹(shù)上基因或蛋白質(zhì)進(jìn)化的時(shí)間順序,通過(guò)分析有根樹(shù)的樹(shù)枝的長(zhǎng)度详民,可以了解不同的基因或蛋白質(zhì)以什么方式和速率進(jìn)化延欠。
而無(wú)根樹(shù)只反映分類(lèi)單元之間的距離,而不涉及誰(shuí)是誰(shuí)的祖先問(wèn)題。
做有根樹(shù)需要指定外類(lèi)群阐斜。所謂外類(lèi)群衫冻,就是你所研究的內(nèi)容之外的一個(gè)群。
1998 年谒出,伍斯提出了一個(gè)涵蓋整個(gè)生命界的系統(tǒng)樹(shù)隅俘。
物種樹(shù)是基于每個(gè)物種整體的進(jìn)化關(guān)系,也就是基于整個(gè)基因組構(gòu)建的笤喳,而分子樹(shù)是基于不同物種里某一個(gè)基因或蛋白質(zhì)序列之間的關(guān)系構(gòu)建的为居。
系統(tǒng)發(fā)生樹(shù)的構(gòu)建
4.4系統(tǒng)發(fā)生樹(shù)的構(gòu)建
從實(shí)用的角度,建議使用最大似然法杀狡。因?yàn)檫@種方法無(wú)論從速度還是準(zhǔn)確度都比較適中蒙畴。
最近鄰居法雖然算得快,但是當(dāng)序列多呜象,彼此差別小的時(shí)候膳凝,這種方法不適合。
最大簡(jiǎn)約法恭陡,似乎是個(gè)掉空里的方法蹬音,高不成低不就,所以很少有人使用休玩。
貝葉斯法不是所有的建樹(shù)軟件都提供著淆,算法開(kāi)發(fā)上還有待提高,而且計(jì)算時(shí)間過(guò)長(zhǎng)拴疤。
目前流行的建樹(shù)軟件,PHILIP 和 MEGA永部,基本能夠包括上述所有算法。
軟件 說(shuō)明 網(wǎng)址
PHYLIP 免費(fèi)的呐矾、集成的進(jìn)化分析工具 http://evolution.genetics.washington.edu/
phylip.html
MEGA 圖形化苔埋、集成的進(jìn)化分析工具 http://www.megasoftware.net/
PAUP 商業(yè)軟件,集成的進(jìn)化分析工具 http://paup.csit.fsu.edu/
PHYML 最快的 ML 建樹(shù)工具 http://www.atgc-montpellier.fr/phyml/
MrBayes 基于貝葉斯方法的建樹(shù)工具 http://mrbayes.csit.fsu.edu/
以非加權(quán)分組平均法(UPGMA 法)為例蜒犯,介紹如何通過(guò)計(jì)算所有序列兩兩間的距離讲坎,再根據(jù)距離遠(yuǎn)近構(gòu)建系統(tǒng)發(fā)生樹(shù)。序列兩兩間的距離可以用雙序列比對(duì)得出的一致度/相似度代表愧薛,或用其他簡(jiǎn)化值代替晨炕。
經(jīng)單堿基計(jì)算后,AB序列距離最小毫炉。按0.5,0.5長(zhǎng)度構(gòu)建AB的的系統(tǒng)發(fā)生樹(shù)瓮栗。
將AB看成整體,分別計(jì)算C瞄勾、D的距離费奸。在新表中,最小距離為C进陡、D愿阐。按1,1距離進(jìn)行構(gòu)建C、D的系統(tǒng)發(fā)生樹(shù)
將CD與AB進(jìn)行比較趾疚,為3缨历,構(gòu)建1.5以蕴,1.5距離的系統(tǒng)發(fā)生樹(shù)。完成四條序列的建樹(shù)辛孵。
序列的選取要遵循以下原則:
1)如果 DNA 序列兩兩間的一致度≥70%丛肮,選用 DNA 序列。
因?yàn)槠歉浚绻?DNA 序列都如此相似宝与,它們對(duì)應(yīng)的蛋白質(zhì)序列會(huì)相似到幾乎看不出區(qū)別。這對(duì)于構(gòu)建系統(tǒng)發(fā)生樹(shù)是不利的冶匹。所以這種情況選用 DNA 序列习劫,而不選蛋白質(zhì)序列。
2)如果 DNA 序列兩兩間的一致度<70%嚼隘,DNA 序列和蛋白質(zhì)序列都可以選用
MEGA7 構(gòu)建 NJ 樹(shù):建樹(shù)前準(zhǔn)備
1)軟件免費(fèi)诽里;
2)軟件在默認(rèn)設(shè)置下建樹(shù)的效果就很好;
3)軟件被業(yè)界普遍認(rèn)可嗓蘑,做出結(jié)果可以用于文章發(fā)表须肆;
4)軟件支持多操作系統(tǒng),而且安裝簡(jiǎn)單桩皿。
MEGA7 是完全的圖形化界面操作(http://www.megasoftware.net/)豌汇。
示例
在接下來(lái)的例子里我們要為附件中 TIR.fasta 里的序列構(gòu)建 NJ 樹(shù)。
TIR.fasta 里存儲(chǔ)了 10 條人的不同 Toll 樣受體胞內(nèi)域的氨基酸序列泄隔。只有具有一定親緣關(guān)系拒贱,也就是彼此比較相似,但又存在一定差別的序列拿來(lái)做多序列比對(duì)佛嬉,或拿來(lái)構(gòu)建系統(tǒng)發(fā)生樹(shù)才有意義。
File輸入數(shù)據(jù)
Align方式打開(kāi)文件
成功導(dǎo)入后暖呕,排列不整齊
選擇“Align”之后斜做,在彈出的 Alignment Explorer窗口上點(diǎn)擊 Alignment ?Align by ClustalW。
MEGA 提供 ClustalW 和 Muscle 兩種多序列比對(duì)方法湾揽。
這里選擇熟悉的 ClustalW 方法瓤逼。彈出窗口詢(xún)問(wèn)“Nothing selected for alignment.Select all? (是否要選擇所有序列來(lái)做多序列比對(duì)) ”,選擇 OK库物。
MEGA 的所有默認(rèn)參數(shù)都不是隨便設(shè)置的霸旗,這些經(jīng)過(guò)反復(fù)考量默認(rèn)設(shè)置好的參數(shù)保證了 MEGA 傻瓜機(jī)全自動(dòng)檔的品質(zhì)。
所以戚揭,當(dāng)你無(wú)從下手的時(shí)候诱告,直接點(diǎn) OK,接受這些默認(rèn)參數(shù)民晒,開(kāi)始計(jì)算多序列比對(duì)精居。
Alignment Explorer 窗口上點(diǎn) Data 》 Export Alignment 》MEGA Format锄禽。注意這里一定選 MEGA format 以方便
MEGA 繼續(xù)加工。其他格式適用于其他軟件箱蟆。
多序列中沟绪,出現(xiàn)最多的字母刮便,為共有序列
點(diǎn)擊C按鈕空猜,出現(xiàn)保守序列,標(biāo)黃色
點(diǎn)擊V按鈕恨旱,標(biāo)黃不保守的列辈毯,可以取消打勾淘汰序列,不參與建樹(shù)
點(diǎn)擊分頁(yè)搜贤,創(chuàng)建分組
點(diǎn)彩色方塊谆沃,修改為短名字。名字來(lái)源于fasta的>標(biāo)題
準(zhǔn)備工作全部完成仪芒。
MEGA7 構(gòu)建 NJ 樹(shù):構(gòu)建 NJ 樹(shù)
選 Neighbor Joining(最近鄰居法)
點(diǎn)擊yes唁影,是使用TIR.meg的數(shù)據(jù)。
參數(shù)設(shè)置掂名,影響樹(shù)的構(gòu)造据沈,一般默認(rèn)建樹(shù)后,重新調(diào)整參數(shù)饺蔑,讓樹(shù)更美觀锌介。
第一個(gè)參數(shù):
Test of Pylogery 建樹(shù)的檢驗(yàn)方法設(shè)置,默認(rèn)為不進(jìn)行檢驗(yàn)猾警,檢驗(yàn)方法孔祸,可以選常用的 Bootstrap method(步長(zhǎng)檢驗(yàn))
并設(shè)置檢驗(yàn)的倍數(shù),通常設(shè)為500发皿。
步長(zhǎng)檢驗(yàn)是根據(jù)所選的建樹(shù)方法崔慧,計(jì)算并繪制指定次數(shù)株系統(tǒng)發(fā)生樹(shù)。因?yàn)榇蠖鄶?shù)建樹(shù)方法的核心算法都是統(tǒng)計(jì)概率模型穴墅,所以每次計(jì)算出的樹(shù)都會(huì)有所差別惶室。而建好的系統(tǒng)發(fā)生樹(shù)上每個(gè)節(jié)點(diǎn)上都會(huì)標(biāo)記一個(gè)數(shù)字,它代表了指定次數(shù)次計(jì)算所得出的系統(tǒng)發(fā)生樹(shù)中有百分之多少棵樹(shù)都含有這一節(jié)點(diǎn)封救。一般來(lái)說(shuō)拇涤,絕大多數(shù)節(jié)點(diǎn)上的數(shù)值都大于 70%的樹(shù)才可信。個(gè)別低于 70%的節(jié)點(diǎn)可以暫且容忍誉结,或通過(guò)添加鹅士,刪減序列來(lái)改善質(zhì)量。
第二個(gè)參數(shù):
Substitution Model惩坑。它是選擇計(jì)算遺傳距離時(shí)使用的計(jì)算模型掉盅。理論上應(yīng)該嘗試各種模型也拜,根據(jù)檢驗(yàn)結(jié)果選擇最合適的模型進(jìn)行計(jì)算。但在實(shí)際操作中趾痘,可先嘗試選用較簡(jiǎn)單的距離模型慢哈,比如 p-distance。
第三個(gè)參數(shù)是 Gap/Missing Data Treatment永票。
大多數(shù)建樹(shù)方法會(huì)要求刪除多序列比對(duì)中含有空位的列卵贱。但是根據(jù)遺傳距離度量方法的不同,刪除原則也不同侣集。如果是以序列間不同殘基的個(gè)數(shù)來(lái)度量遺傳距離的話(huà)键俱,這里需要選擇 Complete deletion(全部刪除)。如果是其他方
法世分,比如這里選用的 NJ 方法编振,可以選擇 Partial deletion(部分刪除)。刪除程度定在 50%臭埋,即踪央,保留一半含有空位的列。
按compute瓢阴,開(kāi)始計(jì)算系統(tǒng)發(fā)生樹(shù)畅蹂。
這個(gè)窗口里有兩個(gè)標(biāo)簽頁(yè)。
第一個(gè)是 Original Tree(原始樹(shù))炫掐,
第二個(gè)是 Bootstrap consensus tree(步長(zhǎng)檢驗(yàn)合并出來(lái)的樹(shù))魁莉。
當(dāng)前構(gòu)
建的這株系統(tǒng)發(fā)生樹(shù)中,絕大多數(shù)節(jié)點(diǎn)處的數(shù)值都是≥70 的募胃,所以這株樹(shù)整體上是可信的旗唁。
Original Tree 是步長(zhǎng)檢驗(yàn)構(gòu)建的 500 株樹(shù)中的一株,未經(jīng)過(guò)多棵樹(shù)合并痹束,所以樹(shù)枝的長(zhǎng)短可以精確代表遺傳距離检疫。
比如,TLR5 似乎脫離了CM 組祷嘶,成為了外類(lèi)群屎媳,從而確定了樹(shù)根。