http://www.reibang.com/p/df234ca0de71
IQ-TREE:最大似然法構(gòu)建精確常遂、快速酪呻、靈活、廣泛的系統(tǒng)發(fā)育樹
IQ-TREE自2011年就已經(jīng)開發(fā)并開源斑举,至今都有專業(yè)團(tuán)隊(duì)維護(hù),其名字來源于IQPNNI和TREE-PUZZLE的前綴,IQ-TREE具有四大特征:
- 算法高效,通過最大似然法高速高效隨機(jī)重建系統(tǒng)發(fā)育樹描睦,如RAxMl和PhyML相比類似計(jì)算時(shí)間具有較好的結(jié)果
- 超快的支持率,自檢值(bootstrap)是RAxML的10-40倍导而,同時(shí)出現(xiàn)偏見支持率值更少
- 數(shù)據(jù)分析忱叭,支持成千上萬條序列或比對(duì)位點(diǎn)的數(shù)據(jù)集分析
- 系統(tǒng)發(fā)育樹測(cè)試,有SH-aLRT和aBayes測(cè)試進(jìn)化枝今艺,樹拓?fù)浣Y(jié)構(gòu)近似無偏見測(cè)試(approximately unbiased)
此外韵丑,IQ-TREE提供大量的構(gòu)建系統(tǒng)發(fā)育樹模型供選擇,包括四種:
- common models: 所有常見的DNA洼滚,蛋白質(zhì)埂息,密碼子的替代模型,二元和形態(tài)數(shù)據(jù)之間的比率異質(zhì)性和確定偏差校正遥巴,例如SNP數(shù)據(jù)千康。
- Partition models: 混合數(shù)據(jù)、不同基因位點(diǎn)铲掐、異質(zhì)性等分開的模型選擇
- Mixture models: 完全自定義模型和經(jīng)驗(yàn)?zāi)P?/li>
- Polymorphism-aware models: 考慮物種不完整的譜系分類以推測(cè)物種樹
簡(jiǎn)單測(cè)試
說明拾弃,現(xiàn)在軟件已經(jīng)更新到version2版本,我們默認(rèn)使用iqtree調(diào)用(新版本為iqtree2)摆霉,此外本文所述均是基于命令行操作豪椿,解釋不同選項(xiàng)及對(duì)應(yīng)參數(shù)作用,網(wǎng)頁版使用過于簡(jiǎn)單携栋,可點(diǎn)擊跳轉(zhuǎn)搭盾。
輸入文件格式:phylip、fasta婉支、nexus鸯隅、clustalw
# 參數(shù)s為指定輸入比對(duì)好的文件格式,為必備的向挖,1.5.4版本默認(rèn) -m MFP自動(dòng)尋找最適模型
iqtree -s example.phy
結(jié)果文件包括三個(gè):
example.phy.iqtree:主要計(jì)算結(jié)果的報(bào)告文件蝌以,也包含最終構(gòu)建系統(tǒng)發(fā)育樹樹的文本展示
example.phy.treefile:NEWICK格式的ML tree,該文件可用Figtree和iTOL查看
example.phy.log:整個(gè)運(yùn)行過程的日志文件何之,記錄報(bào)錯(cuò)等信息
注意:在運(yùn)行的過程中跟畅,程序會(huì)定期將執(zhí)行進(jìn)程(結(jié)果)寫入一個(gè)gzip壓縮的example.phy.ckp.gz文件,該文件可以在出現(xiàn)程序運(yùn)行終止或遇到較大文件而內(nèi)存不足時(shí)溶推,再次使用相同的命令運(yùn)行IQ-TREE徊件,程序?qū)?huì)從上次停止的地方繼續(xù)運(yùn)行奸攻。當(dāng)然對(duì)運(yùn)行完成的結(jié)果,再次運(yùn)行會(huì)顯示當(dāng)前任務(wù)已經(jīng)成功運(yùn)行庇忌。
-redo
選項(xiàng)表示覆蓋運(yùn)行之前的結(jié)果舞箍,如
iqtree -s example.phy -redo
-pre
選項(xiàng)舰褪,自定義輸出結(jié)果文件前綴皆疹,默認(rèn)情況下所有輸出文件的前綴與輸入文件的名字一致,如指定myprefix為前綴:
iqtree -s example.phy -pre myprefix
如何選擇最適合模型
IQ-TREE支持針對(duì)DNA占拍、protein略就、codon等大量的模型可供選擇,但是通常情況下晃酒,我們不知道哪個(gè)模型最適合我們的數(shù)據(jù)表牢,而調(diào)用軟件內(nèi)置ModelFinder確定最合適的模型。
#for IQ-TREE version >= 1.5.4:
iqtree -s example.phy -m MFP # -m 指定模型選項(xiàng)贝次,MFP表示ModelFinder Plus(自動(dòng)默認(rèn))
#for IQ-TREE version <= 1.5.3:
iqtree -s example.phy -m TESTNEW
MFP為ModelFinder Plus的縮寫崔兴,該參數(shù)使程序執(zhí)行ModelFinder選擇最適模型并完成建樹分析。ModelFinder為許多不同的模型計(jì)算初始簡(jiǎn)約樹的邏輯概率蛔翅,并產(chǎn)生Akaike
information criterion (AIC),* corrected Akaike information criterion* (AICc), and* the Bayesian information criterion* (BIC)三個(gè)結(jié)果標(biāo)準(zhǔn)值敲茄,通常ModelFinder選擇BIC分?jǐn)?shù)最低的模型(當(dāng)然也可以指定AIC和AICc通過指定選項(xiàng)-AIC
或者-AICc
)。
此時(shí)會(huì)增加一個(gè)額外輸出結(jié)果文件:
example.phy.model:所有測(cè)試模型的對(duì)數(shù)概率值山析,它充當(dāng)檢查點(diǎn)文件堰燎,用于恢復(fù)中斷的模型選擇。
有時(shí)笋轨,我們僅僅只想知道數(shù)據(jù)分析的最適合模型并不想建樹秆剪,那么可以分別指定MF或TESTNEWONLY參數(shù)
值得注意一下,我們這里選擇ModelFinder而不調(diào)用jModelTest/ProTest爵政,其優(yōu)點(diǎn)如下:(如果仍然想用jModelFinder/ProTest仅讽,添加-m TEST
或者-m TESTONLY
)
如果序列比對(duì)文件特別長(zhǎng)(考慮添加-cmax 15
,默認(rèn)為10)
用超快的bootstrap近似評(píng)估分支支持值
為了克服非參數(shù)bootstrap所需的計(jì)算負(fù)擔(dān)钾挟,IQTREE引入了ultrafast bootstrap approximation (UFBoot)提供相對(duì)公正的分支支持?jǐn)?shù)值洁灵,選項(xiàng)為- bb
通常為百分比數(shù)值。
iqtree -s example.phy -m TIM2+I+G -bb 1000
與前面相比等龙,又額外增加三個(gè)輸出結(jié)果文件:
example.phy.contree:樹支持值一致的樹(consensus tree)的且分支長(zhǎng)度在原始比對(duì)上優(yōu)化過
example.phy.splits.nex:所有分割(雙分區(qū))的支持值的百分比处渣,作為引導(dǎo)樹中出現(xiàn)的頻率計(jì)算,該文件可以通過程序SplitsTree查看數(shù)據(jù)中的矛盾信號(hào)蛛砰,因此因此罐栈,該文件一致樹更能提供信息
example.phy.splits (使用-wsplits
選項(xiàng)):此文件包含與example.phy.split相同的信息,格式為star-dot泥畅。
有時(shí)荠诬,-bnni
減少由于嚴(yán)重的模型違規(guī)而高估了UFBoot對(duì)分支的支持風(fēng)險(xiǎn)。
評(píng)估分枝支持率使用標(biāo)準(zhǔn)的分參數(shù)bootstrap
iqtree -s example.phy -m TIM2+I+G -b 100
-b指定bootstrap的重復(fù)次數(shù),其中100為推薦的推薦的最小數(shù)柑贞。輸出結(jié)果文件與UFBoot過程生成的文件相似方椎。
使用單個(gè)分枝測(cè)試評(píng)估分枝支持值
IQ-TREE提供一個(gè)SH類近似似然比測(cè)試,-alrt
指定SH-aLRT的bootstrap的重復(fù)個(gè)數(shù)钧嘶,1000為最下的棠众。
iqtree -s example.phy -m TIM2+I+G -alrt 1000
iqtree -s example.phy -m TIM2+I+G -alrt 1000 -bb 1000
CPUs核心線程的利用
IQ-TREE可以利用多個(gè)CPU核來加速分析。選項(xiàng)-nt
允許指定要使用的CPU內(nèi)核數(shù)量
iqtree -s example.phy -m TIM2+I+G -nt 2
iqtree -s example.phy -m TIM2+I+G -nt AUTO #通常使用這個(gè)
iqtree -s example.phy -m TIM2+I+G -nt AUTO -ntmax 8 #cpu的上限為8核心線程
后記有决,以上主要介紹了iqtree軟件關(guān)于輸入文件闸拿、輸出文件的介紹及解讀,同時(shí)詳細(xì)介紹了不同選項(xiàng)及參數(shù)的功能书幕。
關(guān)于特異性指定替換模型
-m
是指定替代模型新荤、狀態(tài)頻率和速率異質(zhì)性類型的實(shí)用選項(xiàng)。一般的語法是:
-m MODEL+FreqType+RateType
MODEL:model name
+FreqType:(可選項(xiàng))frequency type
+RateType:(可選項(xiàng))rate heterogeneity type
參見下圖:
MODEL:
FreqType:
RateType:
IQ-TREE官網(wǎng)鏈接:http://iqtree.cibiv.univie.ac.at/