編譯:王采荷
關(guān)于進化樹(
系統(tǒng)發(fā)育進化樹劫瞳,Phylogenetic tree
)和媳,一般也叫作系統(tǒng)進化樹它的用途我這里就不在贅述了巴刻。因為遠的不說,就拿離我們較近的新冠病毒來說傍妒,當(dāng)然也得益于測序技術(shù)的飛速發(fā)展幔摸,我們可以在分離到病毒株后很快的就將病毒的序列測序,然后和已知序列進行比對颤练,并構(gòu)建進化樹既忆,比較新發(fā)現(xiàn)的病毒株與已有數(shù)據(jù)庫的病毒庫在進化上的相關(guān)性。
一、新冠病毒數(shù)據(jù)庫及數(shù)據(jù)下載
我們來看看SARS-Cov-2數(shù)據(jù)庫(國家生物信息中心尿贫,2019新型冠狀病毒信息庫)电媳,截止目前,我們發(fā)現(xiàn)該數(shù)據(jù)庫已經(jīng)收藏了64,789
條新冠病毒序列庆亡,點擊后可根據(jù)個人喜好(國家和地區(qū))下載匾乓,那么我是下載了截止當(dāng)時時間點的全部序列。
二又谋、MEGA X軟件構(gòu)建tree文件
序列分析的軟件很多拼缝,這里我選用的是MEGA(Molecular Evolutionary Genetics Analysis)軟件,關(guān)于該軟件的用途網(wǎng)上資源很多彰亥,我就不多說了咧七。
- 導(dǎo)入fasta序列文件
這里因為下載的全部病毒序列很大,運行需要很長時間任斋,為了展示我只截取一小部分(
6條序列
)
- 序列比對
-
點擊Alignment(序列比對)
-
采用ClustalW方法進行比對
-
Phylogeny Reconstruction進化樹構(gòu)建
-
導(dǎo)出tree文件
三、ggtree包構(gòu)建系統(tǒng)進化樹
雖然在mega軟件里也能構(gòu)建系統(tǒng)進化樹废酷,而且也可以對可視化圖形的美觀進行調(diào)整瘟檩,本身親測也能調(diào)的非常好看,但是我還是喜歡用R語言來進行可視化澈蟆。得知Y叔(國內(nèi)用R語言做可視化可以說是數(shù)一數(shù)二的墨辛,但要知道他是南方醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院的一名老師,膜拜)的ggtree包之后趴俘,我覺得我學(xué)習(xí)系統(tǒng)進化樹構(gòu)建及可視化方面找到了港灣睹簇。
- ggtree需從bioconductor處下載安裝
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ggtree")
- 讀取tree文件并進行可視化
rm(list = ls())
library(ggtree)
setwd("C:\\Users\\jnzd_\\Desktop")
my_tree <- read.tree("test.nwk")
ggtree(my_tree, color="firebrick",size=2,linetype="dotted")
# displaying tree scale (evolution distance)
ggtree(my_tree) + geom_treescale() # 簡單出圖
ggtree(my_tree) + geom_treescale(fontsize=6, linesize=2, offset=1)
# Displaying nodes/tips and other attributions
p <- ggtree(my_tree) +
geom_nodepoint(color="#b5e521", alpha=1/2, size=6) + # node位置加上一個符號
geom_treescale(fontsize=4, linesize=2, offset=0.2) + # 樹的標(biāo)尺
geom_tiplab(size=5, color="purple") + # 外部節(jié)點標(biāo)簽,即基因或者樣本信息
geom_text2(aes(subset=!isTip, label=node), hjust=-.3) + # 顯示node值
geom_hilight(10, "steelblue") # 根據(jù)node值給特定分支進行高亮
參考
1.https://www.megasoftware.net/
2.https://zhuanlan.zhihu.com/p/140061893