導(dǎo)讀
BPGA是Bacterial Pan Genome Analysis tool的簡寫盆偿,16年發(fā)表的工具淮野,17年最后一版更新痊远,內(nèi)置KEGG COG數(shù)據(jù)(老了)伸头,依賴usearch(32bit 可免費(fèi)用),速度很快陆盘,其他一般普筹,win linux均支持,可做參考隘马。
文獻(xiàn):BPGA- an ultra-fast pan-genome analysis pipeline. sci rep 2016
引用:293
1 下載太防,解壓,獲取依賴usearch gnuplot酸员,配置蜒车,啟動(dòng)
官網(wǎng):https://iicb.res.in/bpga/index.html,下載幔嗦,解壓酿愧,BPGA
usearch官網(wǎng):http://www.drive5.com/usearch/download.html
下載,解壓邀泉,重命名為usearch.exe嬉挡,移動(dòng)到BPGA bin文件夾,
根據(jù)BPGA User Guide呼渣,下載安裝gnuplot棘伴。
啟動(dòng)BPGA進(jìn)行初始化,正常啟動(dòng)屁置,
2 泛基因組分析 -- 默認(rèn)
準(zhǔn)備【1】> 蛋白文件【4】> 選擇文件 > 默認(rèn)分析【2】> usearch聚類 > 50%一致性 > 等待焊夸。。蓝角。
一大堆結(jié)果文件阱穗,然后,
exclusively absent genes/proteins:
orthologous families that contain genes from all genomes except one specific genome
這里列出的是每個(gè)基因組的基因分類使鹅,全部加和是遠(yuǎn)高于泛基因組基因數(shù)的揪阶。Supporting_files/pan_default.txt給出了泛基因組基因數(shù),如下患朱。不僅如此Sequences中的代表性序列的加和也是泛基因組基因數(shù)鲁僚。
泛基因組和核心基因組增長趨勢:
各基因組基因家族數(shù):
新基因數(shù)(與某一基因組相比?裁厅?冰沙?):
3 高級(jí)分析
完成后一大堆結(jié)果,
泛基因組和核心基因組执虹,又來拓挥??袋励?:
系統(tǒng)發(fā)生樹 -- 泛基因組 & 核心基因組:
KEGG注釋分類:
COG注釋分類:
實(shí)戰(zhàn):Linux中使用BPGA
獲取Linux版BPGA侥啤,獲取Linux版usearch到BPGA bin文件夾
啟動(dòng)
./BPGA-Version-1.3
基礎(chǔ)pangenome分析:
1 INPUT PREPARATION FOR CLUSTERING
2 Use any Protein Fasta files
3 enter full path to the Directory where *.fasta
4 DEFAULT PAN GENOME ANALYSIS
5 Use USEARCH Clustring Algorithm (Ultra-fast)
6 Choose Sequence Identity Cut-off for Clustering: 0.8
其他過程同window版本当叭,其實(shí)也就是輸入文件指定略有不同,似乎如此盖灸。
節(jié)點(diǎn)132G內(nèi)存蚁鳖,使用4G足以,大數(shù)據(jù)更加耗內(nèi)存
高級(jí)分析 - 進(jìn)化分析:
1 Neighbour Joining Tree (NJ):pan phylogeny
2 MLST based core phylogeny
3 Neighbour Joining Tree (NJ): core gene phylogeny
默認(rèn)僅獲得pan phylogenetic nwk赁炎,在此建樹則有core phylogenetic nwk
結(jié)果整理
out="result"
mkdir $out
mv gi_name $out
mv INPUT_all.seq $out
mv list $out
mv Results $out
mv Sequences $out
mv Supporting_files $out
更多閱讀:
BPGA - 一款泛基因組分析軟件