當(dāng)我們用多個(gè)串聯(lián)基因建樹時(shí),如果把多基因串聯(lián)數(shù)據(jù)看做一個(gè)整體汤徽,只計(jì)算整體的核苷酸替換模型及參數(shù),那么就是不分區(qū)建樹,操作方法和單基因的建樹相同谋国,具體的操作方法參照之前寫過的文章。
但是迁沫,如果我們考慮到多個(gè)基因的變異速率存在差異芦瘾,而且同一蛋白編碼基因中編碼同一氨基酸的三個(gè)位點(diǎn)的核苷酸的變異速率也存在差異,希望分別對(duì)這些位點(diǎn)設(shè)置其最優(yōu)的核苷酸替換模型集畅,就要對(duì)數(shù)據(jù)進(jìn)行分區(qū)近弟,分別計(jì)算不同區(qū)的最優(yōu)模型,這就是分區(qū)建樹挺智。支持分區(qū)建樹的軟件包括:RaxML祷愉,MrBayes和Beast等。
PartitionFinder安裝的方法參考之前寫過的這個(gè):
http://www.reibang.com/p/3ef9e6041dee
以下內(nèi)容主要參考了官方教程和幫助手冊(cè),詳見:
http://www.robertlanfear.com/partitionfinder/tutorial/
http://www.robertlanfear.com/partitionfinder/assets/Manual_v2.1.x.pdf
1獲取phylip格式的已完成比對(duì)的數(shù)據(jù)文件
首先二鳄,把比對(duì)好的序列轉(zhuǎn)換為phylip格式的文件赴涵,這一步軟件geneious( http://www.geneious.com/)的試用版(免費(fèi))就可以完成。
打開geneious订讼,上方工具欄File-Import-files髓窜,在彈出的Choose Files to Import對(duì)話框中,選擇要導(dǎo)入的fasta或其他格式的已經(jīng)完成多序列比對(duì)的序列文件欺殿,點(diǎn)擊右下方Import寄纵。
上方工具欄File-Export-Documents,在彈出的Select Expror Location對(duì)話框中脖苏,選擇輸出文件的路徑程拭,在Files of Type選項(xiàng)框中選擇phylip alignment,點(diǎn)擊右下方Export帆阳。忽略第一個(gè)對(duì)話框哺壶,在彈出的第二個(gè)對(duì)話框Phylip alignment Export中選擇Relaxed Phylip-Full length names followed by a single space。
2建立partition_finder.cfg文件
cfg文件就是告訴partitionfinder你想要怎么分析的文件蜒谤,需要和phylip文件放在同一個(gè)文件夾下山宾。
建立自己的cfg文件最簡(jiǎn)單的方法就是在/PartitionFinder/examples/nucleotide folder下的已有的partition_finder.cfg文件的基礎(chǔ)上進(jìn)行修改:
alignment選項(xiàng)后是要分析的比對(duì)文件的名稱。
branchlengths選項(xiàng)鳍徽,因?yàn)椴缓米鲱A(yù)判资锰,這里選擇linked,詳見manual文件阶祭。
models選項(xiàng)是定義每個(gè)分區(qū)要分析的核苷酸替換模型绷杜,可以根據(jù)你要做的分析選擇,詳見manual文件濒募。
model_selection選項(xiàng)指的是選擇核苷酸替換模型的指標(biāo)鞭盟,一般在aicc(Aikaike Information Criterion)和bic(Bayesian Information Criterion)之間選擇。
data_blocks是很重要的瑰剃,是你通過預(yù)判齿诉,告訴軟件哪些部分應(yīng)該具有相同的演化方式,partitionfinder不會(huì)拆分datablocks里的subset晌姚。這里例子中的12S和16S是兩個(gè)rRNA基因粤剧,把單個(gè)基因整體作為一個(gè)subset。COX1挥唠、COX2抵恋、COX3等是蛋白編碼基因,因此宝磨,分別把同一基因中編碼氨基酸的第一位弧关、第二位和第三位密碼子的核苷酸位點(diǎn)作為一個(gè)subset盅安。
需要注意的是,因?yàn)樵谶@里我對(duì)編碼同一氨基酸的三個(gè)核苷酸位點(diǎn)進(jìn)行了分區(qū)梯醒,因此在對(duì)序列文件進(jìn)行比對(duì)時(shí)宽堆,為了不破壞編碼同一氨基酸的三個(gè)核苷酸腌紧,我選擇的比對(duì)方式是translation align茸习。
schemes選擇greedy。
?之后我們把phy.格式的比對(duì)文件和partitionfinder.cfg文件放在名為test的同一文件夾下壁肋,test文件夾放在partitionfinder-2.1.1下的examples文件夾下号胚。
3 運(yùn)行partitionfinder
如果是在linux系統(tǒng)下,在命令行交互界面中輸入(默認(rèn)已經(jīng)成功安裝了partitionfinder浸遗,并進(jìn)入到partitionfinder-2.1.1路徑下):
python PartitionFinder.py examples/test
幸運(yùn)的話猫胁,應(yīng)該開始正常運(yùn)行了。任務(wù)完成后跛锌,結(jié)果會(huì)出現(xiàn)在test文件中的analysis中的best_scheme.txt文件中弃秆。
但是我沒有那么幸運(yùn),沒有正常運(yùn)行髓帽,于是我又嘗試了用window系統(tǒng)菠赚,下面是在windows系統(tǒng)下運(yùn)行的方法:
首先是在windows系統(tǒng)下安裝conda,python2.7郑藏,然后用conda安裝partitionfinder依賴的包衡查。去官網(wǎng)下載partitionfinder的windows版本,解壓后放置在任一文件夾下必盖。
conda在win10系統(tǒng)下的安裝詳情見http://www.reibang.com/p/3ef9e6041dee
現(xiàn)在假設(shè)已經(jīng)安裝完成anaconda
在win10左下角的搜索框中輸入anaconda拌牲,打開Anaconda Powershell Prompt
#創(chuàng)建一個(gè)名為partitionfinder,安裝2.7版本的python的環(huán)境
conda create -n partitionfinder python=2.7
#激活環(huán)境
conda activate partationfinder
#安裝partitionfinder所依賴的軟件包(如果在安裝包的時(shí)候報(bào)錯(cuò)歌粥,可以試試去官網(wǎng)上查看安裝命令:https://anaconda.org/anaconda/repo)
conda install numpy pandas pytables pyparsing scipy
conda install -c anaconda scikit-learn
#運(yùn)行partitionfinder塌忽,其中D:\partitionfinder-2.1.1\partitionfinder-2.1.1\partitionfinder.py是告訴電腦partitionfinder.py所在的位置,partitionfinder.py就在解壓后的partitionfinder下載包里面失驶,D:\partitionfinder-2.1.1\partitionfinder-2.1.1\examples\nucleotide告訴電腦要分析的數(shù)據(jù)文件所在的位置土居,數(shù)據(jù)文件里就是phy.格式的比對(duì)文件和partitionfinder.cfg文件
python D:\partitionfinder-2.1.1\partitionfinder-2.1.1\partitionfinder.py D:\partitionfinder-2.1.1\partitionfinder-2.1.1\examples\nucleotide
4 結(jié)果解讀
打開best_scheme.txt文件,我們找到其中用于最大似然法分區(qū)的結(jié)果部分:
我們把以下結(jié)果復(fù)制到一個(gè).txt文件中突勇,:
如果使用CIPRES網(wǎng)站構(gòu)建最大似然屬装盯,首先在把該.txt文件上傳到Data文件夾下(詳細(xì)介紹參考之前的這篇文章http://www.reibang.com/p/cdd3b3adc16f),然后在設(shè)定參數(shù)的時(shí)候甲馋,在Use a mixed/partitioned model? (-q) 一欄中選擇該.txt 文件埂奈,就把能夠分區(qū)構(gòu)建最大似然樹了。
如果是構(gòu)建貝葉斯樹定躏,那么在best_scheme.txt文件中找到其中用于貝葉斯樹分區(qū)的結(jié)果部分:
參考之前貝葉斯法建樹的文章(http://www.reibang.com/p/8b10ef5c26e1)账磺,在準(zhǔn)備.nex文件的時(shí)候芹敌,把上述的分區(qū)結(jié)果添加上去就可以了: