1.上Genome Announcements網(wǎng)站(https://mra.asm.org/)找一篇細菌基因組文章昔榴;找到文章記載的SRA號蕴潦;
image.png
image.png
image.png
image.png
2.從SRA數(shù)據(jù)庫上用prefetch下載該文件
prefetch SRR9937595
軟件自動建立~/ncbi/public/sra文件夾辞做,prefetch下載的sra文件存于其中image.png
3.Fastq-dump解壓(--gzip 解壓為gz文件,省空間)
fastq-dump --gzip --split-files SRR9937595.sra
image.png
4.Fastqc數(shù)據(jù)質(zhì)量評價
fastqc SRR9937595_1.fastq.gz
fastqc SRR9937595_2.fastq.gz
image.png
image.png
image.png
5.用Trimmomatic進行數(shù)據(jù)的過濾
- 相關(guān)參數(shù)和操作參照http://www.360doc.com/content/18/0423/16/54810519_748099048.shtmlimage.pngimage.png
java -jar ~/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR9937595_1.fastq.gz SRR9937595_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75
由于是雙端測序(PE):輸入兩個序列文件镣隶,輸出四個輸出文件。
- PE -phred33 進行雙端測序且將reads的堿基質(zhì)量值體系設(shè)置為phred-33.
- ILLUMINACLIP:/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10
接頭和引物序列在文件/home/ada/04-Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa中
seed允許2個堿基的錯配
指定針對PE的palindrome clip模式下需要R1和R2之間至少多少比對分值(此處該比分的閾值為30,當大于等于該值時才會進行接頭的切除)
結(jié)果如下
image.png
輸出的四個文件如下:
image.png
image.png
image.png
- 對輸出的兩個paired文件再fastqc進行數(shù)據(jù)質(zhì)量評價用于與未去接頭的原序列對比
fastqc output_forward_paired.fq.gz
fastqc output_reverse_paired.fq.gz
得到的兩個.html文件download下來查看forward.JPG
reserve.JPG
6.Spades組裝基因組草圖
- 關(guān)于spades的參數(shù)參照http://www.reibang.com/p/6926a2a22d24
spades.py --careful --only-assembler --pe1-1 SRR9937595_1.fastq.gz --pe1-2 SRR9937595_2.fastq.gz -o ./SPAdesout_9937595_new1
--careful 減少錯誤和插入的缺失澡为,當添加此項時會消耗更多的時間
--only-assembler 只組裝不做數(shù)據(jù)糾錯
--pe1-1 表示第一個文庫的reads1文件即forword文件
--pe1-2 表示第一個文庫的reads2文件即reverse文件
注意該命令應(yīng)在上述兩個fastq文件所在的目錄下才可執(zhí)行!>鞍!媒至!
-
由于數(shù)據(jù)太大此處報錯為內(nèi)存不夠,將虛擬機設(shè)置中的系統(tǒng)內(nèi)存大小適當增大即可谷徙。
spa 1.JPGkmer.JPGspa結(jié)果.JPGspa結(jié)果文件.JPG
7.Quast評價組裝的基因組效果
在組裝結(jié)果文件夾SPAdesout_9937595_new1下
quast.py contigs.fasta -o ./quast_out
image.png
image.png
image.png
由于上述組裝過程中only-assembler沒有進行error correction由于數(shù)據(jù)較大運行時間過長就不with error correction再次組裝拒啰,故在此就不用quast.py compare_correction比較error correction對組裝的結(jié)果