構(gòu)建系統(tǒng)發(fā)育樹

系統(tǒng)發(fā)育樹的構(gòu)建


現(xiàn)有的方法

鄰接法(NJ) phylip fasta/phy
最大似然法(ML) raxml/paml fasta/phy
最大簡(jiǎn)約法(MP) phylip/paup fasta/phy
貝葉斯法 MrBayes nexus
溯祖法 BEAST xml

系統(tǒng)發(fā)育樹構(gòu)建方法的優(yōu)劣

  • link
  • 選擇:一般情況下,若有合適的分子進(jìn)化模型可供選擇卖毁,用最大似然法構(gòu)樹獲得的結(jié)果較好捧请;對(duì)于近緣物種序列,通常情況下使用最大簡(jiǎn)約法搂鲫;而對(duì)于遠(yuǎn)緣物種序列,一般使用鄰接法或最大似然法磺平。

其他資料


數(shù)據(jù)準(zhǔn)備

  • vcf/genotype to phy/fasta
  • phy與fasta相互轉(zhuǎn)換魂仍,最好是準(zhǔn)備好fasta格式文件拐辽,使用工具轉(zhuǎn)化成相互式的phy格式。
    • 腳本位置:
      • /lustre/project/og04/shichunwei/project/temp/Tree/fasta2phy.pl
      • /lustre/project/og04/shichunwei/project/temp/Tree/phy2fasta.pl

model test

modelgenerator

java -jar modelgenerator.jar align_file num_gamma_categories
java -jar modelgenerator.jar test.phy 4
  • 問題:采用ModelGenerator的時(shí)候擦酌,gamma categories 具體是什么意思
  • the number of discrete gamma categories 俱诸? 4,8 or bigger? maybe default if 4.
  • link

jModeltest

  • 一般只需 -AIC即可
java -jar /lustre/project/og04/shichunwei/biosoft/jmodeltest-2.1.7/jModelTest.jar -d  jmodel.fasta -s 11 -i -g 4 -f -AIC -AICc -DT -BIC -a -tr 8 > jmodel.out

fasttree

  • fasta/phy,有多個(gè)模型可選赊舶,鄰接→最大簡(jiǎn)約→最大似然睁搭?我的理解是多種結(jié)合。模型采用的是Jukes-Cantor or generalized time-reversible(核酸); JTT (Jones-Taylor-Thorton) or WAG (Whelan Goldman)(蛋白)

  • 數(shù)據(jù):核酸或蛋白(fasta/phy)

  • 網(wǎng)址

  • 說明書中指出其準(zhǔn)確性優(yōu)于鄰接法BIONJ和FastME笼平,弱于最大似然法RaxML和PhyML园骆,但是速度更快。

  • 示例:

/lustre/project/og04/shichunwei/biosoft/fasttree/FastTreeMP -nt -gtr  -fastest -boot 1000 -gamma -log crab.log cds.clustalw.phy > fasttree.tree
  • 參數(shù)選擇:(GTR model)

    -nt 核酸

    -boot 1000

    -n read multiple alignments

    -fastest -- speed up the neighbor joining phase & reduce memory usage(recommended for >50,000 sequences)

    -gamma

    -log log file

    -run cpus : 通過在終端中輸入export OMP_NUM_THREADS=3來控制運(yùn)行的線程數(shù)寓调。fasttree -help 會(huì)告訴你程序最終會(huì)用多少個(gè)線程運(yùn)行锌唾。上例中為3.


  • fasttree model choice
    • GTR+CAT ; FastTree -gtr -nt alignment_file > tree_file
    • JC+CAT ; FastTree -nt alignment_file > tree_file

fastme

  • Nearest Neighbor Interchange (NNI)、 Subtree Pruning and Regrafting (SPR) 鄰接法
  • 數(shù)據(jù):nucleotide or amino acid multiple sequences alignments (MSA)
  • 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree\
perl fasta2phy.pl test.fasta\
perl -p -i -e 's/\./\-/g' test.phy\
/lustre/project/og04/shichunwei/biosoft/fastme-2.1.5/src/fastme -i test.phy -T 8 -B -b 1000 -d F84 -o outtree
  • 參數(shù)選擇:

    -T number of threads

    -i input data file

    -o output tree file

    -B output bootstrap trees file


BIONJ

  • 鄰接法
  • 輸入數(shù)據(jù):distance matrix from phylip

mega

  • 圖形化交互式界面夺英,不適合集群上使用晌涕。

phylip

  • 涵蓋了鄰接法、最大似然法和最大簡(jiǎn)約法構(gòu)建發(fā)育樹痛悯。重點(diǎn)還是數(shù)據(jù)準(zhǔn)備(phy格式)渐排,使用起來比較簡(jiǎn)單,交互式的命令灸蟆,故可能不適合串成自動(dòng)運(yùn)算的腳本驯耻。
  • link
  • /lustre/project/og04/shichunwei/biosoft/phylip-3.696/exe
  • 操作步驟(bootstrap檢驗(yàn)):

  • bootstrap:先產(chǎn)生多套數(shù)據(jù),再構(gòu)樹炒考,然后合并得到最優(yōu)樹

  • MP法
    • seqboot 產(chǎn)生 1000套偽序列
    • dnapars可缚,M選項(xiàng)為分析multiple data sets改為yes,產(chǎn)生1000個(gè)樹結(jié)果
    • consence斋枢,得到一致樹
    • 參數(shù)選擇:
      • O 選擇外類群
      • I inputfile interleaved or not

  • ML法
    • seqboot 產(chǎn)生 1000套偽序列
    • dnaml帘靡,M選項(xiàng)為分析multiple data sets改為yes,產(chǎn)生1000個(gè)樹結(jié)果
    • consence瓤帚,得到一致樹

  • 距離法
    • seqboot 產(chǎn)生 1000套偽序列
    • dnadist 計(jì)算距離描姚,更改M選項(xiàng)
    • neighbour 更改M選項(xiàng),產(chǎn)生1000個(gè)樹結(jié)果
    • consence 得到一致樹

RaxML

  • 最大似然戈次,起初來源于phylip的dnaml link
  • 示例:
cd /lustre/project/og04/shichunwei/project/temp/Tree/RAxML
/lustre/project/og04/shichunwei/biosoft/standard-RAxML-master/raxmlHPC -x 12345 -p 12345 -# 1000 -m GTRGAMMA -s test.phy -n out -f a -o EL -T 8
  • 1000次 bootstrap轩勘,得到最優(yōu)樹;-m 選擇模型怯邪;-f a : fast bootstrap绊寻;-o 設(shè)置外類群;-T 線程數(shù)

phyml

  • 最大似然法搞乏,
/lustre/project/og04/shichunwei/biosoft/mpich-3.2/install_dir/bin/mpirun -n 4 /lustre/project/og04/shichunwei/biosoft/PhyML-3.1/PhyML-3.1_linux64 -i test.phy  -d nt -b 1000 -m GTR -c 4 -a e -s BEST
  • -m 選擇模型仲锄;

    -b bootstrap;

    -i 默認(rèn)DNA interleaved sequence评汰;

    -d type村缸,nt核酸祠肥,aa氨基酸;

    -q 更改 -i 為sequential format梯皿;

    -n dataset num

    -m model:HKY85 (default) | JC69 | K80 | F81 | F84 |TN93 | GTR | custom

    -a gamma:e

    -c number of relative substitution rate categories仇箱,default = 4

    -s BEST

    -多線程 mpirun -n 4

    -外類群設(shè)置:add “ * ” at the end of sequence name


LVB

/lustre/project/og04/shichunwei/biosoft/lvb_3.4_source/lvb/lvb -b 1000 -c l -i infile -o outtree -p 4 -s 12345 -t 1
  • -b bootstrap ; -p thread ; -t tree number ; -c cooling schedule,g is faster & l is more accurate ; -s random seed ;
  • the max sites : 500,0000.
  • bootstrap 之后,調(diào)用phylip consence ,指定 outgroup 得到最大簡(jiǎn)約有根樹索烹;也可以用 phylip retree 得到有根樹
  • tree length ? shortest tree?

存在問題:

  • 不同軟件得出的modeltest結(jié)果不一致工碾;基于多種標(biāo)準(zhǔn)有不同的結(jié)果弱睦,該選擇哪種標(biāo)準(zhǔn)百姓,AIC?是否需要自定義氨基酸模型况木?
  • 取交集垒拢,或任選一個(gè);標(biāo)準(zhǔn)基于AIC火惊;傾向于選擇而不是自定義
  • 有的軟件輸入文件是基于sequence的求类,不能用SNP簡(jiǎn)單連接成fasta或phy,故需標(biāo)明只能用sequence的軟件
  • 注意輸入文件的格式屹耐,phy有兩種格式

測(cè)試數(shù)據(jù)

  • 測(cè)試地址:/lustre/project/og04/project/KF-JL-B1-20150203-01_soybean/version3/02.pop_structure/tree/ML

  • 測(cè)試地址2: /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_sequence/crab_cds_sequence.phy
    /lustre/project/og04/yuewei/project/KF-QD-A-20150512-01_crab/version2/06.analysis/paml/cds_sequences/cds_snp/crab_snp.phy

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末尸疆,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子惶岭,更是在濱河造成了極大的恐慌寿弱,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件按灶,死亡現(xiàn)場(chǎng)離奇詭異症革,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)鸯旁,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門噪矛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人铺罢,你說我怎么就攤上這事艇挨。” “怎么了韭赘?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵雷袋,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我,道長(zhǎng)楷怒,這世上最難降的妖魔是什么蛋勺? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮鸠删,結(jié)果婚禮上抱完,老公的妹妹穿的比我還像新娘。我一直安慰自己刃泡,他們只是感情好巧娱,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著烘贴,像睡著了一般禁添。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上桨踪,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天老翘,我揣著相機(jī)與錄音,去河邊找鬼锻离。 笑死铺峭,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的汽纠。 我是一名探鬼主播卫键,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼虱朵!你這毒婦竟也來了莉炉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤碴犬,失蹤者是張志新(化名)和其女友劉穎絮宁,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翅敌,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡羞福,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蚯涮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片治专。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖遭顶,靈堂內(nèi)的尸體忽然破棺而出张峰,到底是詐尸還是另有隱情,我是刑警寧澤棒旗,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布喘批,位于F島的核電站撩荣,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏饶深。R本人自食惡果不足惜餐曹,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望敌厘。 院中可真熱鬧台猴,春花似錦、人聲如沸俱两。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宪彩。三九已至休讳,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間尿孔,已是汗流浹背俊柔。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留纳猫,地道東北人婆咸。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓竹捉,卻偏偏與公主長(zhǎng)得像芜辕,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子块差,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容