個(gè)人進(jìn)行SNP分析用的軟件是snippy,主要是可以一次批量完成。
準(zhǔn)備工作:
1.待分析的序列文件(fastq/fasta)简识,可以先篩選掉冗余的序列文件婴氮。
- 包含每個(gè)序列文件名、所在路徑的txt文件玉吁。每行一個(gè),tab鍵分隔文件名和所在完整路徑腻异,并且注意該txt的編碼格式(用notepad轉(zhuǎn)換為unix)进副。例如:
a /path/to/file/a.fasta
b /path/to/file/b.fasta
...
3.參考基因組的gbk或者fasta文件。
運(yùn)行開始 用到軟件自帶的批量運(yùn)行程序
第一步
snippy-multi 文件名及路徑.txt --reference 參考基因組.gbk --cpus 8 > run_snp.sh
第一步運(yùn)行完會(huì)提示共有多少個(gè)基因組參與SNP分析,注意檢查影斑。
第二步
就是直接運(yùn)行第一步輸出的.sh文件:
nohup sh ./run_snp.sh &
注意運(yùn)行run_snp.sh的時(shí)候所在目錄即為輸出文件目錄给赞,最好新建一個(gè)文件夾再把run_snp.sh轉(zhuǎn)移到該文件夾后再運(yùn)行。
第三步
核心SNP聚類矫户,去掉基因重組后用snp-sites進(jìn)行核心SNP分析片迅,最后用Fasttree作樹。
snippy-clean_full_aln core.full.aln > clean.full.aln
run_gubbins.py -p gubbins clean.full.aln
snp-sites -c gubbins.filtered_polymorphic_sites.fasta > clean.core.aln
FastTreeMP -gtr -nt clean.core.aln > clean.core.tree.newick
輸出的newick文件就可以拿去繪制進(jìn)化樹了皆辽,每個(gè)基因組的SNP VCF文件保存在該文件名的文件夾中柑蛇。
參考
snippy官網(wǎng):https://github.com/tseemann/snippy