進(jìn)化樹軟件iqtree升級至2.0永脓!

自2015年文章正式發(fā)表以來鞋仍,iqtree以其快速精準(zhǔn)的建樹和全面的功能在競爭激烈的系統(tǒng)發(fā)育樹(phylogenetics)領(lǐng)域快速躥紅威创,并廣受好評,目前砍下谷歌學(xué)術(shù)4471次引用肚豺。5年后吸申,來自澳大利亞國立大學(xué)的Bui Quang Minh(裴光明,有沒有懂越南語的朋友看下譯的對不對)團(tuán)隊(duì)終于推出了iqtree 2.0版【1】梳侨!

此次2.0版改進(jìn)的主要功能在iqtree的官方網(wǎng)站(www.iqtree.org)已經(jīng)寫的很清楚了:


簡單說一下:

1. –s以前只是針對單獨(dú)的序列文件日丹,現(xiàn)在可以加入含多條序列的文件夾哲虾,更加方便多基因聯(lián)合建樹

2. 對有根樹利用不可逆替換模型的推斷

3. 限定拓?fù)浣Y(jié)構(gòu)推斷(-g)時建樹速度更快

4. -S、—gcf以及--scf:由于不同位點(diǎn)以及多基因建樹中不同基因(或partition)可能得出不同的樹形彼哼,而這些可能在最終的樹中反映不出來湘今,即便樹的內(nèi)部節(jié)點(diǎn)的支持度很高。舉個不恰當(dāng)?shù)睦樱?6年美國大選拴签,按照選舉規(guī)則川普以304比227選舉人票數(shù)的絕對優(yōu)勢擊敗了希拉里,但這絕不意味著選民的投票是一邊倒支持川普构灸,甚至總得票率川普還落后希拉里2個百分點(diǎn)岸梨。那么,你的dataset是鐵板一塊嗎半开?其中是否存在這樣的現(xiàn)象呢赃份?iqtree 2.0這兩個選項(xiàng)(-S和--gcf)為用戶提供了類似情形的便捷方法【2】

5. –modelomatic:對于不同類型序列的最佳模型選擇。如你的dataset內(nèi)既有protein纠永,也包括核酸谒拴,還有形態(tài)學(xué)數(shù)據(jù),那么記得考慮這個參數(shù)【3】茂装。

6. --symtest:目前一般的建樹方法善延,都是基于所謂的SRH原則易遣,即stationary, reversible, and homogeneous。裴光明及其合作者的研究指出豆茫,對于SRH原則的違背在文獻(xiàn)中十分普遍【4】揩魂,于是乎建出來的樹是否真的可靠就要打上問號了。你的dataset是否存在對該原則的違背呢牵舵?不妨用--symtest檢測一下。

7. –tbe:Transfer bootstrap expectation:一種新的對進(jìn)化樹拓?fù)浣Y(jié)構(gòu)支持度的評價方法【5】担巩,該法在raxml-ng中也已配備【6】没炒。

8. –mlrate:對每個位點(diǎn)(site)的替換速率的最大似然估計(jì)

9. 塔拉什分析送火?慚愧了,我只知道國際象棋里有一個塔拉什防御漾脂。

10. 再補(bǔ)充一個骨稿,2.0.3版本中增加了LSD2法對進(jìn)化時間的推算姜钳。該法由旅法越南學(xué)者蘇秋賢 (Thu-Hien To) 和 Gascuel等人于16年開發(fā)。不過目前有兩個不足之處辙浑,一是給出的結(jié)果屬于點(diǎn)估計(jì)(2.0.6版本中可使用--date-ci對confidence interval進(jìn)行估計(jì)但作者提示暫時可能有bug)拟糕,二是當(dāng)不同序列或物種間進(jìn)化速率差異較大時,可能不太靈光侠草,詳情請瀏覽http://www.iqtree.org/doc/Dating犁嗅。


關(guān)于iqtree2.0版的內(nèi)容就說完了褂微。不過我想再多嘮叨幾句關(guān)于iqtree的東西。

幾年前式撼,最大似然法進(jìn)化樹構(gòu)建就已經(jīng)有像raxml求厕、MEGA、phyml等居于主導(dǎo)地位的優(yōu)秀軟件了旅东。在這樣的大背景下,為何裴教授要開發(fā)iqtree呢腾节?19年美國馬薩諸塞州舉行的Workshop on Molecular Evolution上荤牍,裴教授講到了以下三點(diǎn):

1. 迎合大數(shù)據(jù)康吵,以及系統(tǒng)發(fā)育基因組學(xué)(phylogenomics analysis)的分析需求

2. 提供豐富的進(jìn)化模型(就模型選擇是否有價值,去年有不同實(shí)驗(yàn)室提出了新的不同觀點(diǎn)同辣,詳情請見生信人往期推送19年五次生信爭議事件

3. 同其他軟件進(jìn)行比較和友好競爭惭载,給予用戶選擇空間,這對整個領(lǐng)域的發(fā)展是有益處的棒妨。


一般來講含长,由于計(jì)算復(fù)雜拘泞,最大似然法進(jìn)化樹構(gòu)建需要采取啟發(fā)式算法(Heuristic)。也就是涛酗,我們無法找到那棵最佳的樹偷厦,但在有限時間內(nèi),可以退而求其次找到一個足夠好的樹剖笙。

舉個例子请唱。圣誕節(jié)要到了过蹂,我們要布置一顆圣誕樹聚至,那么怎樣裝飾才是最好的呢扳躬?假如存在一個所謂的最美圣誕樹,大概窮盡畢生之力也是無法構(gòu)建出來的击胜,因?yàn)榭赡苌砸桓淖円畚疲赡芫湍艿玫揭活w更美的圣誕樹,更不要完全不同的裝飾思路了辰斋。所以我們一般的思路是嘲叔,先找到一個感覺上不錯的設(shè)計(jì)方案搞出來硫戈。接著下硕,我們通過對圣誕樹的分枝的裁剪和安裝,裝飾物的變換霜幼,涉及不同的圣誕樹的造型誉尖。我們還要注意有沒有另外的“圣誕樹結(jié)構(gòu)”铡恕,提防由于只見樹木不見森林忽略了其他的圣誕樹結(jié)構(gòu)陷入“局部最佳”的幻境而渾然不知。當(dāng)我們小心翼翼地搞定了一切驹针,最終诀艰,會得到一個雖然不十全十美但大部分時候也能令人滿意的樹饮六。當(dāng)然卤橄,如果不夠走運(yùn)臂外,經(jīng)過反復(fù)修改都不能滿意,那么園丁們有兩個選擇辜膝,要么將就厂抖,要么推倒重建克懊。

在系統(tǒng)發(fā)育分析中谭溉,對進(jìn)化樹的構(gòu)建與裝飾圣誕樹有很多相似之處,也是通過對樹的不斷剪切變化一步步優(yōu)化樹损搬,只不過算法十分復(fù)雜柜与,而且初始樹未見得只有一棵。具體到iqtree颅悉,它采用了Hill climbing NNI and downhill NNI方法試圖找尋答案(見下圖迁匠,由于這里完全超出了我的知識水平城丧,故此略去)。

Iqtree的hill climbing NNI and downhill NNI示意圖搂鲫,類比爬山【7】


對一般用戶而言魂仍,iqtree速度的優(yōu)勢也許體現(xiàn)在其ultrafast bootstrap。提醒大家俱诸,如果選擇ultrafast bootstrapping,進(jìn)化樹上的支持度大致上代表拓?fù)浣Y(jié)構(gòu)“正確”的概率赊舶,以95%以上為基準(zhǔn)認(rèn)為所謂可靠睁搭,大致相當(dāng)于傳統(tǒng)bootstrap 80左右【8】。

此外笼平,傳統(tǒng)的替代模型假設(shè)各個位點(diǎn)都按照相同的平衡頻率(equilibrium frequency)园骆。然而,這在生物學(xué)意義上說并不正確寓调。比如某些催化位點(diǎn)特別保守锌唾,保守到甚至只容許有一種氨基酸,而有些無關(guān)痛癢的區(qū)域卻是20種氨基酸群魔亂舞夺英。對此有兩個解決方案晌涕。一是像phylobayes那樣對不同位點(diǎn)的平衡頻率進(jìn)行估測,二是采用iqtree中的經(jīng)驗(yàn)方法——在iqtree中已經(jīng)內(nèi)置了6個mixture model痛悯,從C10余黎,C20一直到C60载萌,該法最初由法國國家科學(xué)研究中心CNRS的黎士光(Le Si Quang惧财,再次呼叫懂越南語的朋友)、Gascuel和Lartillot提出【9】炒考。這些mixture model被認(rèn)為是目前比較先進(jìn)的策略可缚,多次在解決重要phylogenomics難題中發(fā)揮作用(這里說phylogenomics,顯然是對于多基因聯(lián)合構(gòu)建物種樹的情形斋枢,對于單基因樹因要估計(jì)的參數(shù)過多,mixture model往往效果不佳)知给,其缺點(diǎn)是對內(nèi)存要求較高瓤帚。具體操作請大家參考【10】。此外涩赢,年初的時候戈次,匈牙利E?tv?s Loránd University的Gergely Sz?ll?s實(shí)驗(yàn)室推出了一個叫做EDCluster的軟件【11】,想為你的dataset量身打造特定mixture profile的朋友推薦試下筒扒。

其實(shí)怯邪,iqtree2.0早在去年年底就在biorxiv上投放了,并于年初正式見刊【1】花墩,只是由于iqtree內(nèi)容豐富悬秉,怕自己才疏學(xué)淺澄步、誤人子弟,所以一直未能騰出手來完成iqtree2.0的推送和泌。不知不覺已經(jīng)加入生信人團(tuán)創(chuàng)作隊(duì)兩年了村缸,本文正好是我創(chuàng)作的第100篇微信推送,思來想去決定還是在自己相對熟悉的領(lǐng)域?qū)扅c(diǎn)東西武氓,也正好是一個合適的時機(jī)把iqtree2.0補(bǔ)上梯皿。以上,小編走馬觀花地對iqtree和其升級版抒發(fā)了一些自己的觀點(diǎn)县恕,難免淺嘗輒止东羹、錯進(jìn)錯出。有關(guān)iqtree的更多更深入的內(nèi)容忠烛,還請參考官網(wǎng)和使用手冊百姓。此外,iqtree還提供在線服務(wù):http://iqtree.cibiv.univie.ac.at况木,值得一試垒拢。


引文

1. B.Q. Minh, H.A. Schmidt, O. Chernomor, D. Schrempf, M.D. Woodhams, A. von Haeseler, R. Lanfear (2020) IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era. Mol. Biol. Evol., 37:1530-1534.

2. B.Q. Minh, M.W. Hahn, R. Lanfear (2020) New methods to calculate concordance factors for phylogenomic datasets. Mol. Biol. Evol. https://doi.org/10.1093/molbev/msaa106

3. Naser-Khdour, Suha, et al. "The prevalence and impact of model violations in phylogenetic analysis." Genome biology and evolution 11.12 (2019): 3341-3352.

4. Whelan, Simon, et al. "ModelOMatic: fast and automated model selection between RY, nucleotide, amino acid, and codon substitution models." Systematic biology 64.1 (2015): 42-55.

5. Lemoine, Fréderic, et al. "Renewing Felsenstein’s phylogenetic bootstrap in the era of big data." Nature 556.7702 (2018): 452-456.

6. Lutteropp, Sarah, Alexey M. Kozlov, and Alexandros Stamatakis. "A fast and memory-efficient implementation of the transfer bootstrap." Bioinformatics 36.7 (2020): 2280-2281.

7. Bui QM, Workshop on Molecular Evolution. 2019

8. http://www.iqtree.org/doc/Frequently-Asked-Questions

9. Si Quang, Le, Olivier Gascuel, and Nicolas Lartillot. "Empirical profile mixture models for phylogenetic reconstruction." Bioinformatics 24.20 (2008): 2317-2323.

10. http://www.iqtree.org/doc/Complex-Models

11. Scalable empirical mixture models that account for across-site compositional heterogeneityDominik Schrempf, Nicolas Lartillot, Gergely Sz?ll?si. bioRxiv 794263

拓展閱讀:

1. Montreal,號外|RAxML進(jìn)化樹構(gòu)建換代啦(2018) 生信人

2. Montreal火惊,新一代建樹工具IQ-Tree介紹(2018) 生信人

作者原創(chuàng)求类,2020年八月原載于生信人

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市屹耐,隨后出現(xiàn)的幾起案子尸疆,更是在濱河造成了極大的恐慌,老刑警劉巖惶岭,帶你破解...
    沈念sama閱讀 216,324評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寿弱,死亡現(xiàn)場離奇詭異,居然都是意外死亡按灶,警方通過查閱死者的電腦和手機(jī)症革,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鸯旁,“玉大人噪矛,你說我怎么就攤上這事∑贪眨” “怎么了艇挨?”我有些...
    開封第一講書人閱讀 162,328評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長韭赘。 經(jīng)常有香客問我缩滨,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,147評論 1 292
  • 正文 為了忘掉前任脉漏,我火速辦了婚禮苞冯,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鸠删。我一直安慰自己抱完,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評論 6 388
  • 文/花漫 我一把揭開白布刃泡。 她就那樣靜靜地躺著巧娱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪烘贴。 梳的紋絲不亂的頭發(fā)上禁添,一...
    開封第一講書人閱讀 51,115評論 1 296
  • 那天,我揣著相機(jī)與錄音桨踪,去河邊找鬼老翘。 笑死,一個胖子當(dāng)著我的面吹牛锻离,可吹牛的內(nèi)容都是我干的铺峭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼汽纠,長吁一口氣:“原來是場噩夢啊……” “哼卫键!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起虱朵,我...
    開封第一講書人閱讀 38,867評論 0 274
  • 序言:老撾萬榮一對情侶失蹤莉炉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后碴犬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體絮宁,經(jīng)...
    沈念sama閱讀 45,307評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評論 2 332
  • 正文 我和宋清朗相戀三年服协,在試婚紗的時候發(fā)現(xiàn)自己被綠了绍昂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蚯涮,死狀恐怖治专,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情遭顶,我是刑警寧澤,帶...
    沈念sama閱讀 35,409評論 5 343
  • 正文 年R本政府宣布泪蔫,位于F島的核電站棒旗,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜铣揉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評論 3 325
  • 文/蒙蒙 一饶深、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逛拱,春花似錦敌厘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至曹步,卻和暖如春宪彩,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讲婚。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評論 1 268
  • 我被黑心中介騙來泰國打工尿孔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人筹麸。 一個月前我還...
    沈念sama閱讀 47,685評論 2 368
  • 正文 我出身青樓活合,卻偏偏與公主長得像,于是被迫代替她去往敵國和親物赶。 傳聞我的和親對象是個殘疾皇子白指,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評論 2 353