如何用MEGA-X構(gòu)建進(jìn)化樹_生物研究_實(shí)用技巧_科研星球 (51xxziyuan.com)原文鏈接
通過進(jìn)化樹,我們可以得到一些非常有價值的信息荆永,比如說某幾個物種在同一分支上,說明他們有著較近的親緣關(guān)系劫映,更有可能他們之間存在著祖先與進(jìn)化的關(guān)系芜壁。比如最近來勢洶洶的新冠肺炎典徘,下圖為從網(wǎng)上找的冠狀病毒遺傳進(jìn)化分析碰缔,其中圖中2019-nCoV即為本次新型冠狀病毒喇颁。
今天我們就來簡單介紹一下進(jìn)化樹構(gòu)建的基本過程袋马。這次我們以YTHDF家族和YTHDC家族作為例子來進(jìn)行演示初澎。
PART1
準(zhǔn)備
1. 基因蛋白序列
打開NCBI gene數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/gene/),將所要查詢的基因名稱輸進(jìn)去即可虑凛,例如分析人YTH家族碑宴,將該家族的5個基因(YTHDF1/2/3、YTHDC1/2)依次輸進(jìn)基因欄桑谍。
選擇對應(yīng)物種延柠,例如此處分析人,選擇Homo sapiens锣披,
選擇要分析的序列贞间,本文分析蛋白序列,點(diǎn)擊NP鏈接雹仿,若要分析mRNA序列增热,點(diǎn)NM即可。
轉(zhuǎn)進(jìn)來后點(diǎn)擊FASTA后即可看到該基因的蛋白序列胧辽,通過右上方send to發(fā)送至本地保存為fasta格式峻仇。
然后將5個基因蛋白序列合在一個fasta格式文件。具體合并就是把文件用文本打開邑商,然后粘貼到一起就行摄咆。注意:所有序列的方向都要保持一致?(?5’-3’)。序列工作就做好啦
另:Uniprot數(shù)據(jù)庫(http://www.uniprot.org/)也可獲取蛋白序列哦人断,步驟與此類似吭从,自行探索即可
2.下載MEGA軟件
? ? ?行星資源站內(nèi)搜索下載即可,有多種版本可供下載恶迈,由于本人電腦上為MEGA-X版本涩金,下面就此版本介紹具體用法。
PART2
序列比對
做系統(tǒng)進(jìn)化樹之前要做多序列比對蝉绷,將比對結(jié)果提交給MEGA建樹鸭廷。打開MEGA,點(diǎn)擊File→Open?A?File/Session…→找到自己要比對的序列熔吗,打開
? ? ? 彈出對話框辆床,選Align
? ? ? 然后5條要比對的序列就進(jìn)來啦!
接下來我們進(jìn)行序列比對桅狠,在Alignment里面有Alignment by ClustalW和Muscle兩個選項讼载。其中ClustalWClustalW是現(xiàn)在用的最廣和最經(jīng)典的多序列比對軟件轿秧,基本原理是首先做序列的兩兩比對,根據(jù)該兩兩比對計算兩兩距離矩陣,然后用NJ或者UPGMA方法構(gòu)建Binary進(jìn)化樹作為guide tree,最后用progressive的方法根據(jù)guide tree逐步添加序列進(jìn)行比對,一直到所有序列都比對好。
Muscle速度快咨堤,用于序列多的時候進(jìn)行的比對菇篡。
? ? ? 這里我們選擇ClustalW:
彈出對話框選OK,之后彈出多序列比對參數(shù)設(shè)置窗口一喘。由于MEGA的參數(shù)都是經(jīng)過考量的驱还,所以當(dāng)看不懂時默認(rèn)就好。運(yùn)行后下面就是比對完的結(jié)果啦凸克!
因為不同序列的堿基议蟆、長度不同,所以為了最大的尋找相似堿基而插入空位萎战,其中-------表示序列內(nèi)插入的空位咐容。
可以將比對結(jié)果保存下來。
保存文件格式選擇.meg
雙擊剛才建好的.meg文件蚂维,文件就直接導(dǎo)入MEGA啦戳粒,點(diǎn)擊,會出現(xiàn)“Sequence?Data?Explorer”窗口虫啥,最上面一行是consensus?sequence蔚约,也就是一列里出現(xiàn)次數(shù)最多的字母。
PART3
最優(yōu)模型選擇
(與原作者觀點(diǎn)出現(xiàn)分歧孝鹊,當(dāng)出現(xiàn)JTT+G時則第一個MODEL處選JTT炊琉,第二個RATE處選G,若出現(xiàn)JTT+G+I時則第一個MODEL處選JTT,第二個RATE處選G+I)
? ? ? 點(diǎn)擊Data中的Phylogenetic Analysis又活,然后返回主頁面。
點(diǎn)擊MODELS中的Find Best DNA/Protein Models(ML)?锰悼,軟件會根據(jù)你的數(shù)據(jù)幫你計算尋找最適合的模型柳骄,提高建樹的精確度。
? 參數(shù)默認(rèn)即可
? ? ? 運(yùn)行界面如下箕般,序列較多時耐薯,分析時間較長,閑的話可以去跑個PCR......
運(yùn)行后結(jié)果如下丝里。最重要的是BIC(BayesianInformation Criterion)曲初,越低代表模型越好。在這里就可以看到杯聚,BIC分?jǐn)?shù)最低的模型是JTT+G臼婆,但軟件不支持組合模型,所以我們選擇單個模型中BIC分?jǐn)?shù)最小的幌绍,此處為JTT颁褂。
PART4
建樹
好故响,下面開始建樹~
? ? ? 點(diǎn)擊Phylogeny構(gòu)建進(jìn)化樹,有多種建樹方法颁独,適用情況自行摸索哈彩届,此處選擇NJ鄰接法建樹。
彈出設(shè)置窗口誓酒,沒有什么要求時默認(rèn)即可樟蠕。
Test?of?Phylogeny(建樹的檢驗方法),是用來檢驗建樹的質(zhì)量的靠柑。默認(rèn)的檢驗方法是Bootstrp?method?(步長檢驗)坯墨。步長檢驗需要設(shè)定檢驗次數(shù),通常為100的倍數(shù)病往,默認(rèn)設(shè)置為500捣染,通常1000次以上較為可靠,這里設(shè)置1000停巷。
Model處選擇上文計算好的JTT耍攘。
Gap/Missing Date Treatment,大多數(shù)建樹方法會要求刪除多序列比對中含有空位較多的列畔勤。但是根據(jù)遺傳距離度量方法的不同蕾各,刪除原則不同。如果是以序列間不同殘基的個數(shù)來度量遺傳距離的話庆揪,選擇Complete deletion式曲;如果其他方法例如NJ,可以選擇Partial deletion缸榛,程度約50%吝羞。
噔噔噔~~進(jìn)化樹就出來啦!
首先出來的是Original?Tree(原始樹)内颗,是步長檢驗構(gòu)建的?1000?株樹中的一株钧排,未經(jīng)過多棵樹合并,所以樹枝的長短可以精確代表遺傳距離均澳,即進(jìn)化的距離遠(yuǎn)近恨溜。
Bootstrap?consensus?tree(步長檢驗合并出來的樹),只反映進(jìn)化關(guān)系找前,樹枝的長短與遺傳距離無關(guān)糟袁。
節(jié)點(diǎn)處的數(shù)字表示,經(jīng)步長檢驗有百分之幾的樹具有這根樹枝躺盛,即项戴,反應(yīng)了該樹枝的可信度。當(dāng)前構(gòu)建的這株系統(tǒng)發(fā)生樹中颗品,絕大多數(shù)節(jié)點(diǎn)處的數(shù)值都是≥70?的話肯尺,這株樹整體上就是可信的沃缘。
如果覺得樹太中規(guī)中矩,
可對樹的形狀進(jìn)行調(diào)整则吟。
可以看出基因名字過長槐臀,是因為基因序列導(dǎo)出后,未對基因名做簡化處理氓仲,大家可以將導(dǎo)出的fasta格式以文本文件打開水慨,將多余字符刪除,只保留想要信息即可敬扛;當(dāng)然晰洒,忘了處理的,在序列導(dǎo)入MEGA后也可對基因名進(jìn)行編輯啥箭,雙擊下圖所示位置就可以啦谍珊!
View:可以更改枝的線條,字體樣式等急侥。
Image:輸出圖片砌滞。
Caption:單擊后生成文獻(xiàn)中該圖的標(biāo)題、備注說明坏怪,使用到的文獻(xiàn)等贝润,這個功能很好用,寫文章會需要的铝宵。
最后記得將建樹結(jié)果保存為.nwk格式打掘,這個結(jié)果保存很重要哦,下次直接雙擊就可進(jìn)入MEGA對其操作鹏秋。
以上是對于進(jìn)化樹的簡單構(gòu)建尊蚁,如果我們要做出好看的進(jìn)化樹的話,還是推薦使用TBtools或者如果有R語言基礎(chǔ)的可以嘗試ggtree拼岳。