系統(tǒng)發(fā)育推斷(phylogenetic inference)的算法五花八門楼雹,從最簡單的UPGMA法得湘,到鄰接法(neighbor joining)匹层、最大簡約法(maximum parsimony)极谊,再到復(fù)雜的的最大似然法(maximum likelihood)與貝葉斯推斷法(Bayesian inference),每種方法都有不少可選擇的實現(xiàn)工具碘赖。這些方法無一例外都遵循一個規(guī)律:越精確則速度越慢。而隨著分析的數(shù)據(jù)越來越龐大外构,對于用戶來說普泡,需要尋找一個盡可能快速而且錯誤率可以容忍的算法是十分必要的。
原文鏈接:Iqtree2:新模型高效構(gòu)建系統(tǒng)發(fā)育樹
貝葉斯法可以準(zhǔn)確地推斷時間樹审编,但速度最慢撼班;而鄰接法與最大簡約法在處理有較大分歧的序列時容易出現(xiàn)長枝吸引(long branch attraction,LBA)現(xiàn)象垒酬,因此目前來說最大似然法還是最常用的方法砰嘁。目前實現(xiàn)最大似然法建樹的工具有MEGA件炉、PhyML、RaxML等矮湘,然而這些軟件參數(shù)設(shè)置十分復(fù)雜斟冕,尤其是核苷酸與氨基酸替代矩陣的選擇往往對結(jié)果的準(zhǔn)確性有著很大的影響,而普通用戶往往難以選擇缅阳。而且磕蛇,這些工具的分析速度也較慢。
近幾年悄然興起一個新的系統(tǒng)發(fā)育推斷工具Iqtree(http://www.iqtree.org/)十办,其簡化了參數(shù)設(shè)置秀撇,可以幫助用戶選擇最佳的進化模型,而且在速度上有很大提升向族。最新版的是Iqtree2呵燕,其安裝方法如下所示:
tar-zxvf iqtree-2.0.6-Linux.tar.gz
cdiqtree-2.0.6-Linux
解壓后iqtree執(zhí)行文件就在bin/目錄下,其使用方法如下所示:
iqtree [-s ALIGNMENT][-p PARTITION] [-m MODEL] [-t TREE] ...
-s:序列比對文件(支持多個文件逗號隔開件相,或者包含比對文件的文件夾)再扭,可選PHYLIP、FASTA适肠、NEXUS霍衫、CLUSTAL、MSF
--seqtype:序列類型侯养,可選BIN敦跌、DNA、AA逛揩、NT2AA柠傍、CODON、MORPH默認(rèn)為自動檢測
-o:外類群列表辩稽,不同物種之間逗號隔開
--prefix:結(jié)果文件名前綴
--seed:隨機數(shù)種子惧笛,主要出于調(diào)試目的
--mem:最大可使用內(nèi)存,單位為G逞泄、M或百分?jǐn)?shù)%
--redo:忽略檢查重寫輸出文件患整,默認(rèn)為off,也即從上次意外中斷處開始
-T:程序運行使用的核數(shù)喷众,可設(shè)置具體數(shù)字或者AUTO(推薦)各谚,默認(rèn)為1
--threads-max:最大可使用的核數(shù),默認(rèn)為所有核
--fast:快速模式到千,類似FastTree
-b:非參數(shù)bootstrap次數(shù)昌渤,大于等于100
-B:超快速bootstrap次數(shù),大于等于1000
--bnni:使用NNI優(yōu)化超快速bootstrap的樹憔四,搭配-B使用
--alrt:SH近似似然比檢驗重復(fù)次數(shù)
-m:模型選擇膀息,設(shè)置MF自動選擇最佳模型但不建樹般眉;設(shè)置MFP自動檢測最佳模型并建樹。此外還可以設(shè)置具體的模型潜支,或者多個可選模型甸赃,例如-m LG,WAG
--ancestral:基于經(jīng)驗貝葉斯的祖先狀態(tài)重建
接下來看這個工具如何使用。首先從最簡單的建樹開始:
iqtree-s example.phy -T AUTO
假如設(shè)置自動選擇最佳模型并建樹:
iqtree-s example.phy -m MFP -T AUTO
選擇最佳模型并只輸出模型選擇結(jié)果:
iqtree-s example.phy -m MF -T AUTO
Iqtree會測試多達546個蛋白模型并給出最佳模型毁腿,結(jié)果如下所示:
使用bootstrap自助法計算節(jié)點支持率:
iqtree-s example.phy -m MFP -b 100 -T AUTO
使用SH近似似然比檢驗計算節(jié)點支持率:
iqtree-s example.phy -m MFP --alrt 100 -T AUTO
同時使用兩種方法計算節(jié)點支持率:
iqtree-s example.phy -m MFP --alrt 100 -b 100 -T AUTO
使用超快速bootstrap自助法計算節(jié)點支持率:
iqtree-s example.phy -m MFP -B 1000 --bnni -T AUTO
使用上述設(shè)置構(gòu)建500個基因組的120個串聯(lián)蛋白樹需要兩天左右辑奈。超快自助法ultrafast bootstrap1000次比普通自助法100次要快10倍左右,是該軟件的特有算法已烤,所以一般使用Iqtree的超快自助法建樹鸠窗。