在常規(guī)的基因組分析中,當(dāng)我們對某一物種的基因組進行從頭組裝與注釋獲得其的基本信息后恳啥,通常會想知道該物種與一些其他近源物種之間的進化關(guān)系毛萌,此時就需要構(gòu)建不同物種之間的系統(tǒng)發(fā)育樹以探究該物種的進化地位肖抱。
我們這里將以不同物種之間保守的
單拷貝核基因
為基礎(chǔ)灸促,分別運用串聯(lián)法(Concatenation)(先將不同物種之間的每個單拷貝基因單獨進行多序列比對,然后將這些比對后的單拷貝基因進行首尾相連串接成一個supergene矩陣升薯,最后將這個supergene用于構(gòu)建系統(tǒng)發(fā)育樹)和并聯(lián)法(Coalescence)(先將不同物種之間的每個單拷貝基因單獨進行多序列比對莱褒,并構(gòu)建每一個單拷貝基因?qū)?yīng)的基因樹,然后將所有單拷貝基因?qū)?yīng)的基因樹進行合并重構(gòu)出相應(yīng)的物種樹)進行ML系統(tǒng)發(fā)育樹
的構(gòu)建涎劈。
準(zhǔn)備文件:不同物種的蛋白序列文件: AT.fas Bradi.fas LOC_Os.fas Potri.fas scaffold.fas VIT.fas
所需軟件:OrthoFinder, Mafft, TrimAI, RAxML, ASTRAL
所用腳本:EasySpeciesTree.py
1.使用OrthoFinder尋找不同物種之間的單拷貝基因
下載OrthoFinder程序包解壓后即可使用(該軟件需要依賴blast橡类,mcl猖闪,fastme党觅,fasttree等程序萝玷,需要提前安裝好并添加到環(huán)境變量中,詳細(xì)信息可查看軟件的README文件)
查看軟件幫助信息:./orthofinder -h
新建一個文件夾test蹦浦,將所用物種的蛋白序列放入到該文件夾中
軟件使用:./orthofinder -f test/ -S diamond
-f參數(shù)
指定所用文件夾扭吁,默認(rèn)使用blastp進行蛋白序列的比對,可加-S參數(shù)
指定使用diamond程序進行比對(diamond需提前安裝并添加到環(huán)境變量中盲镶,比對速度比blast快很多)
程序運行結(jié)束后會在test文件夾中生成一個Results文件侥袜,里面即為不同物種之間的Orthogroups和單拷貝基因等相關(guān)信息。
我們所需的單拷貝基因和對應(yīng)的每個Orthogroups的具體信息在
SingleCopyOrthogroups.txt
和Orthogroups.csv
文件中溉贿。
2.使用EasySpeciesTree腳本進行物種系統(tǒng)發(fā)育樹的構(gòu)建
該腳本依賴Mafft, TrimAI, RAxML和ASTRAL程序枫吧,需要自己提前安裝好
修改腳本中相應(yīng)依賴程序的絕對路徑:vim EasySpeciesTree.py
查看腳本幫助信息:python EasySpeciesTree.py -h
或添加腳本執(zhí)行權(quán)限(chmod +x EasySpeciesTree.py)后運行./EasySpeciesTree.py -h
運行該腳本需要提供四個文件:所用物種基因名的縮寫前綴文件,單拷貝基因文件SingleCopyOrthogroups.txt宇色,所有物種的Orthogroups文件Orthogroups.csv九杂,以及所有物種的蛋白序列合并后的文件all-pep.fas
合并所有物種的蛋白序列文件:for i inls *.fas
;do cat $i >>all-pep.fas;done
新建所有物種基因名的縮寫前綴文件:vim species_id.txt
運行腳本構(gòu)建物種系統(tǒng)發(fā)育樹:nohup ~/EasySpeciesTree.py -in1 species_id.txt -in2 SingleCopyOrthogroups.txt -in3 Orthogroups.csv -in4 all-pep.fas -nb 10 -t 16 &
這里為了演示快速生成結(jié)果加上-nb參數(shù)
設(shè)定bootstrap值為10,-t參數(shù)
設(shè)定線程數(shù)為16宣蠕,默認(rèn)bootstrap值為100例隆,thread值為10,氨基酸替換模型選擇默認(rèn)的PROTGAMMAJTT模型植影。
程序運行結(jié)束后會在當(dāng)前路徑下生成四個文件夾:SingleGene裳擎,SingleGene_MSA涎永,Concatenation思币,Coalescence
鹿响,分別存放著所有單拷貝基因的序列,單拷貝基因比對后的序列谷饿,串聯(lián)法建樹的結(jié)果惶我,并聯(lián)法建樹的結(jié)果。
詳細(xì)運行過程可查看nohup.out文件中的日志信息博投。
Concatenataion文件夾中的
RAxML_bipartitions.concatenation_out.nwk
即為串聯(lián)法最終生成的樹文件
Coalescence文件夾中的
Astral.coalescence_tree.nwk
即為并聯(lián)法最終生成的樹文件
3.使用FigTree或MEGA進行可視化
將串聯(lián)法和并聯(lián)法生成的結(jié)果文件
RAxML_bipartitions.concatenation_out.nwk绸贡,Astral.coalescence_tree.nwk
導(dǎo)入FigTree中進行可視化
串聯(lián)法FigTree可視化結(jié)果
并聯(lián)法FigTree可視化結(jié)果
EasySpeciesTree程序下載鏈接:https://github.com/dongwei1220/EasySpeciesTree.git
可用git clone https://github.com/dongwei1220/EasySpeciesTree.git 直接下載使用。