寫在前面
前些日子,小朋友趕課題缭付,用了下 TBtools Find the Best Homolgy 的命令行版本,然后就報(bào)錯(cuò)了陷猫。為什么報(bào)錯(cuò)只厘,排查了一下原因,“MUSCLE 命令行參數(shù)找不到羔味?”
隨后就發(fā)現(xiàn),現(xiàn)在 conda 默認(rèn)安裝的都是 muscle version 5忘蟹,而 TBtools 一直用的還是 version 3 搁凸。兩個(gè)版本的 MUSCLE 比對(duì)軟件參數(shù)不能說有差別媚值,只能說完全不同护糖。趁著假期,我干脆就還是學(xué)習(xí)了 2021年 MUSCLE v5 的 Nat Comm 論文锰扶。Emmm...新版本的muscle從算法上和v3完全不同寝受,基于文稿描述,現(xiàn)在的 MUSCLE v5 就是又快又準(zhǔn)很澄。早前有評(píng)測(cè)論文颜及,提出 MUSCLE 最快蹂楣,MAFFT最準(zhǔn),但評(píng)測(cè)的是 MUSCLE v3捐迫。對(duì)于 MUSCLE v5,作者給出結(jié)論“On large datasets, Muscle v5 is 20-30% more accurate than MAFFT and Clustal-Omega.”反浓。當(dāng)然赞哗,最有意思的還是 MUSCLE v5 現(xiàn)在支持多線程....這對(duì)于現(xiàn)代CPU來說非常有用雷则。
今天也有公司的朋友提到 MUSCLE v3 無法處理大數(shù)據(jù)集肪笋。我測(cè)試了下才發(fā)現(xiàn),原來 MUSCLE v3 其實(shí)是一個(gè) 32bit 的軟件...在windows下就無法處理超過 2G 的比對(duì)中間數(shù)據(jù)猜揪。這些問題坛梁,在MUSCLE v5 全部解決了。
為此划咐,TBtools 新增一個(gè) MUSCLE v5 界面化接口,為大伙提供方便政鼠。如果你想要最快,同時(shí)最準(zhǔn)公般。
使用方法
打開應(yīng)用后胡桨,所有從操作和前述 MUSCLE Wrapper 相同
比對(duì)速度不能說很快吧,就是超級(jí)快。比 MUSCLE v3 快了非常多挖炬,畢竟多線程嘛,可以理解馅巷。
至于比對(duì)結(jié)果很有意思,或許可以理解為準(zhǔn)確的把起始密碼子對(duì)齊了
再看看 MUSCLE v3 的結(jié)果稍刀,Emmm,有點(diǎn)區(qū)別账月。但是哪個(gè)更好就大伙自己評(píng)判了澳迫。
寫在最后
2023年最后一天,就這樣吧橄登。我發(fā)誓,今年絕對(duì)不會(huì)再更新 TBtools !!!