系統(tǒng)發(fā)育樹的構(gòu)建
現(xiàn)有的方法
鄰接法(NJ) | phylip | fasta/phy |
---|---|---|
最大似然法(ML) | raxml/paml | fasta/phy |
最大簡(jiǎn)約法(MP) | phylip/paup | fasta/phy |
貝葉斯法 | MrBayes | nexus |
溯祖法 | BEAST | xml |
系統(tǒng)發(fā)育樹構(gòu)建方法的優(yōu)劣
- link
- 選擇:一般情況下,若有合適的分子進(jìn)化模型可供選擇卖毁,用最大似然法構(gòu)樹獲得的結(jié)果較好捧请;對(duì)于近緣物種序列,通常情況下使用最大簡(jiǎn)約法搂鲫;而對(duì)于遠(yuǎn)緣物種序列,一般使用鄰接法或最大似然法磺平。
其他資料
數(shù)據(jù)準(zhǔn)備
- vcf/genotype to phy/fasta
- phy與fasta相互轉(zhuǎn)換魂仍,最好是準(zhǔn)備好fasta格式文件拐辽,使用工具轉(zhuǎn)化成相互式的phy格式。
- 腳本位置:
- /lustre/project/og04/shichunwei/project/temp/Tree/fasta2phy.pl
- /lustre/project/og04/shichunwei/project/temp/Tree/phy2fasta.pl
- 腳本位置:
model test
modelgenerator
- 參考
- 示例:
java -jar modelgenerator.jar align_file num_gamma_categories
java -jar modelgenerator.jar test.phy 4
- 問題:采用ModelGenerator的時(shí)候擦酌,gamma categories 具體是什么意思
- the number of discrete gamma categories 俱诸? 4,8 or bigger? maybe default if 4.
- link
jModeltest
- 一般只需 -AIC即可
java -jar /lustre/project/og04/shichunwei/biosoft/jmodeltest-2.1.7/jModelTest.jar -d jmodel.fasta -s 11 -i -g 4 -f -AIC -AICc -DT -BIC -a -tr 8 > jmodel.out
fasttree
fasta/phy,有多個(gè)模型可選赊舶,鄰接→最大簡(jiǎn)約→最大似然睁搭?我的理解是多種結(jié)合。模型采用的是Jukes-Cantor or generalized time-reversible(核酸); JTT (Jones-Taylor-Thorton) or WAG (Whelan Goldman)(蛋白)
數(shù)據(jù):核酸或蛋白(fasta/phy)
說明書中指出其準(zhǔn)確性優(yōu)于鄰接法BIONJ和FastME笼平,弱于最大似然法RaxML和PhyML园骆,但是速度更快。
示例:
/lustre/project/og04/shichunwei/biosoft/fasttree/FastTreeMP -nt -gtr -fastest -boot 1000 -gamma -log crab.log cds.clustalw.phy > fasttree.tree
-
參數(shù)選擇:(GTR model)
-nt 核酸
-boot 1000
-n read multiple alignments
-fastest -- speed up the neighbor joining phase & reduce memory usage(recommended for >50,000 sequences)
-gamma
-log log file
-run cpus : 通過在終端中輸入export OMP_NUM_THREADS=3來控制運(yùn)行的線程數(shù)寓调。fasttree -help 會(huì)告訴你程序最終會(huì)用多少個(gè)線程運(yùn)行锌唾。上例中為3.
- fasttree model choice
- GTR+CAT ; FastTree -gtr -nt alignment_file > tree_file
- JC+CAT ; FastTree -nt alignment_file > tree_file
fastme
- Nearest Neighbor Interchange (NNI)、 Subtree Pruning and Regrafting (SPR) 鄰接法
- 數(shù)據(jù):nucleotide or amino acid multiple sequences alignments (MSA)
- 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree\
perl fasta2phy.pl test.fasta\
perl -p -i -e 's/\./\-/g' test.phy\
/lustre/project/og04/shichunwei/biosoft/fastme-2.1.5/src/fastme -i test.phy -T 8 -B -b 1000 -d F84 -o outtree
-
參數(shù)選擇:
-T number of threads
-i input data file
-o output tree file
-B output bootstrap trees file
BIONJ
- 鄰接法
- 輸入數(shù)據(jù):distance matrix from phylip
mega
- 圖形化交互式界面夺英,不適合集群上使用晌涕。
phylip
- 涵蓋了鄰接法、最大似然法和最大簡(jiǎn)約法構(gòu)建發(fā)育樹痛悯。重點(diǎn)還是數(shù)據(jù)準(zhǔn)備(phy格式)渐排,使用起來比較簡(jiǎn)單,交互式的命令灸蟆,故可能不適合串成自動(dòng)運(yùn)算的腳本驯耻。
- link
- /lustre/project/og04/shichunwei/biosoft/phylip-3.696/exe
- 操作步驟(bootstrap檢驗(yàn)):
- bootstrap:先產(chǎn)生多套數(shù)據(jù),再構(gòu)樹炒考,然后合并得到最優(yōu)樹
- MP法
- seqboot 產(chǎn)生 1000套偽序列
- dnapars可缚,M選項(xiàng)為分析multiple data sets改為yes,產(chǎn)生1000個(gè)樹結(jié)果
- consence斋枢,得到一致樹
- 參數(shù)選擇:
- O 選擇外類群
- I inputfile interleaved or not
- ML法
- seqboot 產(chǎn)生 1000套偽序列
- dnaml帘靡,M選項(xiàng)為分析multiple data sets改為yes,產(chǎn)生1000個(gè)樹結(jié)果
- consence瓤帚,得到一致樹
- 距離法
- seqboot 產(chǎn)生 1000套偽序列
- dnadist 計(jì)算距離描姚,更改M選項(xiàng)
- neighbour 更改M選項(xiàng),產(chǎn)生1000個(gè)樹結(jié)果
- consence 得到一致樹
RaxML
- 最大似然戈次,起初來源于phylip的dnaml link
- 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree/RAxML
/lustre/project/og04/shichunwei/biosoft/standard-RAxML-master/raxmlHPC -x 12345 -p 12345 -# 1000 -m GTRGAMMA -s test.phy -n out -f a -o EL -T 8
- 1000次 bootstrap轩勘,得到最優(yōu)樹;-m 選擇模型怯邪;-f a : fast bootstrap绊寻;-o 設(shè)置外類群;-T 線程數(shù)
phyml
- 最大似然法搞乏,
/lustre/project/og04/shichunwei/biosoft/mpich-3.2/install_dir/bin/mpirun -n 4 /lustre/project/og04/shichunwei/biosoft/PhyML-3.1/PhyML-3.1_linux64 -i test.phy -d nt -b 1000 -m GTR -c 4 -a e -s BEST
-
-m 選擇模型仲锄;
-b bootstrap;
-i 默認(rèn)DNA interleaved sequence评汰;
-d type村缸,nt核酸祠肥,aa氨基酸;
-q 更改 -i 為sequential format梯皿;
-n dataset num
-m model:HKY85 (default) | JC69 | K80 | F81 | F84 |TN93 | GTR | custom
-a gamma:e
-c number of relative substitution rate categories仇箱,default = 4
-s BEST
-多線程 mpirun -n 4
-外類群設(shè)置:add “ * ” at the end of sequence name
LVB
/lustre/project/og04/shichunwei/biosoft/lvb_3.4_source/lvb/lvb -b 1000 -c l -i infile -o outtree -p 4 -s 12345 -t 1
- -b bootstrap ; -p thread ; -t tree number ; -c cooling schedule,g is faster & l is more accurate ; -s random seed ;
- the max sites : 500,0000.
- bootstrap 之后,調(diào)用phylip consence ,指定 outgroup 得到最大簡(jiǎn)約有根樹索烹;也可以用 phylip retree 得到有根樹
- tree length ? shortest tree?
存在問題:
- 不同軟件得出的modeltest結(jié)果不一致工碾;基于多種標(biāo)準(zhǔn)有不同的結(jié)果弱睦,該選擇哪種標(biāo)準(zhǔn)百姓,AIC?是否需要自定義氨基酸模型况木?
- 取交集垒拢,或任選一個(gè);標(biāo)準(zhǔn)基于AIC火惊;傾向于選擇而不是自定義
- 有的軟件輸入文件是基于sequence的求类,不能用SNP簡(jiǎn)單連接成fasta或phy,故需標(biāo)明只能用sequence的軟件
- 注意輸入文件的格式屹耐,phy有兩種格式
測(cè)試數(shù)據(jù)
測(cè)試地址:/lustre/project/og04/project/KF-JL-B1-20150203-01_soybean/version3/02.pop_structure/tree/ML
測(cè)試地址2: /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_sequence/crab_cds_sequence.phy
/lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_snp/crab_snp.phy