導讀
從本篇開始箫锤,我將介紹宏基因組分箱的生物信息分析方法。若想了解更多宏基因組分箱的知識請閱讀:1. 宏基因組分箱(Binning)技術(shù)官份;2. 宏基因組組裝工具比較;3. 宏基因組最佳分箱工具Metabat2。本篇將介紹Megahit組裝宏基因組測序序列的操作方法榜田。
一牍白、準備工作
Megahit
用途:序列組裝
地址:https://github.com/voutcn/megahit
QUAST
用途:組裝評估
地址:http://quast.sourceforge.net/
原始數(shù)據(jù)
下載:
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011347/ERR011347_2.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011348/ERR011348_2.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_1.fastq.gz
wget ftp.sra.ebi.ac.uk/vol1/fastq/ERR011/ERR011349/ERR011349_2.fastq.gz
處理:
下載脊凰、解壓、質(zhì)控后茂腥,將3個樣品的上下游序列分別合并成ALL_READS_1.fastq和ALL_READS_2.fastq
二狸涌、Megahit組裝
雙端組裝:
mkdir raw_merge
mv ALL_READS_[12].fastq raw_merge
ll -alh raw_merge/
-rw-rw-r-- 1 cheng WST 4.5G 9月 25 16:21 ALL_READS_1.fastq
-rw-rw-r-- 1 cheng WST 4.7G 9月 25 16:22 ALL_READS_2.fastq
time megahit \
-1 raw_merge/ALL_READS_1.fastq \
-2 raw_merge/ALL_READS_2.fastq \
-o assembly_megahit \
-t 16
# 耗時15分鐘
ll -alh assembly_megahit/
-rw-rw-r-- 1 cheng WST 87M 9月 26 09:53 final.contigs.fa
結(jié)果文件final.contigs.fa中包含所有contig的長度、序列等關(guān)鍵信息
單端組裝:
可用gz文件
mkdir tmp
megahit \
-r SRR341593_bowtie2.1.fastq \
--tmp-dir tmp --out-dir out_megahit -t 20
三最岗、QUAST評估
time quast assembly_megahit/final.contigs.fa -o assembly_quality/final.contigs -t 16
# 耗時10秒
ll -alh assembly_quality/final.contigs/
drwxrwxr-x 2 cheng WST 4096 9月 26 10:18 basic_stats/
-rw-rw-r-- 1 cheng WST 53358 9月 26 10:18 icarus.html
drwxrwxr-x 2 cheng WST 4096 9月 26 10:18 icarus_viewers/
-rw-rw-r-- 1 cheng WST 2853 9月 26 10:18 quast.log
-rw-rw-r-- 1 cheng WST 509637 9月 26 10:18 report.html
-rw-rw-r-- 1 cheng WST 29022 9月 26 10:18 report.pdf
-rw-rw-r-- 1 cheng WST 1207 9月 26 10:18 report.tex
-rw-rw-r-- 1 cheng WST 527 9月 26 10:18 report.tsv
-rw-rw-r-- 1 cheng WST 1083 9月 26 10:18 report.txt
-rw-rw-r-- 1 cheng WST 1048 9月 26 10:18 transposed_report.tex
-rw-rw-r-- 1 cheng WST 527 9月 26 10:18 transposed_report.tsv
-rw-rw-r-- 1 cheng WST 985 9月 26 10:18 transposed_report.txt
QUAST評估結(jié)果包含contig總數(shù)量帕胆、每個長度段的contig數(shù)量、最大contig長度般渡、contig總長度懒豹、N50、GC含量等信息驯用。QUAST分析得到了一大堆結(jié)果文件脸秽,report.html中有關(guān)鍵信息。打開report.html網(wǎng)頁文件晨汹,結(jié)果如下:
圖片.png
可視化統(tǒng)計結(jié)果如下:
圖片.png
圖片.png
圖片.png
結(jié)束語
本篇宏基因組Megahit組裝宏基因組序列的操作方法介紹完了豹储,下期將介紹Metabat2分箱的操作方法。