我從多災多難的2020年的11月開始正式學習構(gòu)建系統(tǒng)發(fā)育樹趟脂,拖拖拉拉地學到12月励稳。星座運勢告訴我:“你想掌握地大部分技能都可以通過持續(xù)地堅持來獲得〉是”我心想:信了你的邪。
下面進入正題坛善。
最大似然法的原理在之前的文章有過介紹晾蜘。這里只講建樹方法邻眷。最大似然法的計算強度大眠屎,非常耗時,用自己的電腦跑太耗時耗力肆饶,因此在這里給出幾個線建樹的方法改衩。
1 IQ-TREE web server
IQ-TREE有本地地軟件(下載地址:http://www.iqtree.org/),也有在線地建樹平臺IQ-TREE web server (http://iqtree.cibiv.univie.ac.at/)驯镊,可以通過閱讀它提供的教程(http://www.iqtree.org/doc/Web-Server-Tutorial)學習如何使用葫督,下面我也說一下:
在頁面上方有三個主要的選項:Tree Inference竭鞍、Model Selection和Analysis Results。這里我們主要用的是Tree Inference橄镜。
Model Selection是當你不想建樹偎快,只要選擇最佳的核苷酸替代模型。什么是最佳的核苷酸替代模型洽胶?為什么要選擇最佳的核苷酸替代模型晒夹?請參考本人之前對最大似然法介紹的文章http://www.reibang.com/p/23198baef227和http://www.reibang.com/p/8a26a5c24232。
在Input data選項框中姊氓,點擊Alignment file后的Browse…選擇要進行構(gòu)建系統(tǒng)發(fā)育樹的序列文件(注意丐怯,是已經(jīng)完成多重序列比對的序列文件)。
Sequence type可以選擇也可以不選翔横,默認是自動識別读跷。
在Substitution Model Options選項框中的Substitution model一欄中提供了核苷酸替代模型選項,默認是Auto禾唁,就是它會自動選擇最佳的核苷酸替代模型效览。
其他的選項默認就好,其實到頭來發(fā)現(xiàn)蟀俊,我們除了選擇要分析的序列外钦铺,別的都是默認就好,還是很方便的肢预。
在最下面的Email中給出自己的郵箱矛洞,任務(wù)結(jié)束時會發(fā)郵件提醒。點擊郵件中的鏈接烫映,進入下方的網(wǎng)頁:
點擊Full Result欄沼本,仔細閱讀一下里面的內(nèi)容,會告訴你為你的數(shù)據(jù)選擇了哪個最優(yōu)核苷酸替代模型等信息锭沟,還有用到哪些相關(guān)程序抽兆,在論文的參考文獻部分要怎么引用。
點擊左下角的DOWNOAD SELECTED JOBS下載壓縮文件族淮,解壓后辫红,用查看系統(tǒng)發(fā)育樹的軟件打開其中的.treefile文件進行查看。
我發(fā)現(xiàn)我的樹上有兩個支持率的值祝辣,閱讀Full Result欄的解釋后發(fā)現(xiàn)是SH-aLRT support (%) / ultrafast bootstrap support (%)
2 CIPRES
IQ-TREE只能進行最大似然法的建樹贴妻,但是CIPRES能進行多個建樹方法的建樹。
這個需要注冊蝙斜,然后登陸名惩,點擊首頁藍色背景的Use the CRIPRESScience Gateway
先Create New Folder,在新建文件夾下會有Data和Tasks兩個文件
點擊左邊的Data文件,點擊Upload Data上傳自己的序列文件(已經(jīng)完成多重序列比對):
點擊左邊Tasks文件孕荠,點擊Create New Task娩鹉,在Description一欄中攻谁,可以寫入對這個任務(wù)的描述:
在Input一欄中,選擇要分析的序列文件弯予。在Tool一欄中戚宦,選擇建樹的方法,彈出以下頁面:
一般選擇RAxML-HPC2 on XSEDE锈嫩。
然后是Ser Parameters阁苞,設(shè)置參數(shù):
需要改動的參數(shù)有
Maximum hours to run:128
Set a name for output files:給輸出結(jié)果一個名字
Enter the number of patterns in your dataset:這里給出的是進行多序列比對之后的總體序列長度
Please select the data type:選擇數(shù)據(jù)類型,這里默認是核苷酸序列
Estimate proportion of invariable sites:默認是No祠挫,選擇Yes那槽。
最后選擇save and run task。
任務(wù)完成之后郵箱會收到郵件提醒等舔。
然后打開對應(yīng)的任務(wù)骚灸,出現(xiàn)如下界面,點擊右面的View Output:
之后會出現(xiàn)一堆output文件慌植,我們要下載的甚牲,包含支持率的樹文件是:RAxML_bipartitions.result
點擊右面的Download,就可以下載了蝶柿。
不過好像CIPRES最近開始收費了丈钙,唉。
https://www.hiv.lanl.gov/content/sequence/PHYML/interface.html
3 HIV database
https://www.hiv.lanl.gov/content/index
這個網(wǎng)站主要是收集HIV遺傳數(shù)據(jù)的交汤,但是也有一些在線的分析軟件
構(gòu)建最大似然樹的軟件包括:
PhyML:https://www.hiv.lanl.gov/content/sequence/PHYML/interface.html
IQ-tree:https://www.hiv.lanl.gov/content/sequence/IQTREE/iqtree.html
但是數(shù)據(jù)太大的話雏赦,可能會受到限制,不能跑芙扎。
4 RaxML
https://raxml-ng.vital-it.ch/#/
這個是用RaxML構(gòu)建最大似然樹的在線平臺星岗,但同樣的,如果數(shù)據(jù)太大的話戒洼,可能會受到限制俏橘,不能跑。