- 基因組組裝一般分為三個層次,contig, scaffold和chromosomes.
contig表示從大規(guī)模測序得到的短讀(reads)中找到的一致性序列倾剿。組裝的第一步就是從短片段(pair-end)文庫中組裝出contig蚂会。進一步基于不同長度的大片段(mate-pair)文庫蚤霞,將原本孤立的contig按序前后連接东且,這一步會得到scaffolds埃跷。最后基于遺傳圖譜或光學圖譜將scaffold合并調(diào)整,形成染色體級別的組裝(chromosome)
一. 下載短序列
首先到Microbiology Resource Annocements(https://mra.asm.org)上找到需要下載reads的SRA號心赶,比如我們找到兩篇文章中的SRA號扣讼,分別為 SRR020180 和 SRR028694
prefetch下載序列:下載的SRA文件默認保存在/ncbi/public/sra中
prefetch SRR020180
prefetch SRR028694
結(jié)果
- fasterq -dump解壓sra文件,將sra文件轉(zhuǎn)化為fastq文件
也可以用fastq -dump命令缨叫,但相對于fasterq -dump椭符,fastq -dump的速度太慢了
--split-spot: 將雙端測序分為兩份,但是都放在同一個文件中
--split-files: 將雙端測序分為兩份,放在不同的文件,但是對于一方有而一方?jīng)]有的reads直接丟棄
--split-3 : 將雙端測序分為兩份,放在不同的文件,但是對于一方有而一方?jīng)]有的reads會單獨放在一個文件夾里
fastq-dump --gzip --split-3 SRR020180.sra
fastq-dump --gzip --split-3 SRR028694.sra
結(jié)果:看到兩個SRA文件都分別只生成了一個文件,所以兩個SRA文件都是單端測序的結(jié)果
二. Fastqc質(zhì)控
FastQC可以快速地對測序數(shù)據(jù)進行質(zhì)量評估
-
輸入fastqc -h可以查看fastqc的基本使用參數(shù)
10.PNG
-o --outdir 生成的報告文件的存儲路徑
--(no)extract 是否將生成的報告打包成一個壓縮文件
--c contaminant file 污染序列選項
-t --threads 選擇程序運行的線程數(shù)
-q --quiet 安靜運行模式耻姥,不設(shè)置這個參數(shù)時艰山,程序?qū)崟r報告運行狀況
- 對fastq文件進行質(zhì)控檢驗
fastqc SRR020180.fastq.gz
fastqc SRR028694.fastq.gz
結(jié)果
紅色:數(shù)據(jù)質(zhì)量很差
黃色:數(shù)據(jù)質(zhì)量一般
綠色:數(shù)據(jù)質(zhì)量很好
SRR020180:
SRR028694:
可以看到第二條序列的質(zhì)量很差,我們接下來需要進行數(shù)據(jù)的過濾
三. Trimmomatic數(shù)據(jù)過濾
Trimmomatic 支持多線程咏闪,處理數(shù)據(jù)速度快,主要用來去除 Illumina 平臺的 Fastq 序列中的接頭摔吏,并根據(jù)堿基質(zhì)量值對 Fastq 進行修剪鸽嫂。
- 運行命令行查看Trimmomatic的使用方法
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar
Trimmomatic有兩種過濾模式,分別對應 SE 和 PE 測序數(shù)據(jù)征讲。SE指單末端測序模式据某,過濾單端測序產(chǎn)生的數(shù)據(jù),PE指雙末端測序模式诗箍,過濾雙端測序產(chǎn)生的數(shù)據(jù)癣籽。
之前在fast-dump解壓后兩個SAR文件都分別只有一個輸出文件,所以2個序列都為單端測序產(chǎn)生的序列滤祖,所以我們這里選擇SE模式筷狼。
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR020180.fastq.gz SRR020180_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR028694.fastq.gz SRR028694_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50
參數(shù):
—— phred33:指質(zhì)量值體系為phred33,還有phred64匠童,如果不設(shè)置默認為phred64埂材,但因為現(xiàn)在基本都用phred33的了,所以這里一定要設(shè)置
—— SRR020180.fastq.gz:輸入文件
—— SRR020180_clean.fastq.gz:輸出文件
—— ILLUMINACLIP:過濾 reads 中的 Illumina 測序接頭和引物序列汤求。TruSeq3-PE.fa是接頭序列俏险,2是比對時接頭序列時所允許的最大錯配數(shù);30指的是要求PE的兩條read同時和PE的adapter序列比對扬绪,匹配度加起來超30%竖独,那么就認為這對PE的read含有adapter,并在對應的位置需要進行切除挤牛。
—— SLIDINGWINDOW:滑動窗口長度的參數(shù)莹痢,SLIDINGWINDOW:5:20代表窗口長度為5,窗口中的平均質(zhì)量值至少為20,否則會開始切除格二;
—— LEADING:規(guī)定read開頭的堿基是否要被切除的質(zhì)量閾值劈彪;
—— TRAILING:規(guī)定read末尾的堿基是否要被切除的質(zhì)量閾值;
—— MINLEN:規(guī)定read被切除后至少需要保留的長度顶猜,如果低于該長度沧奴,會被丟掉。
- 數(shù)據(jù)過濾后我們再用Fastqc質(zhì)控长窄,查看過濾后的結(jié)果如何
fastqc SRR020180_clean.fastq.gz
fastqc SRR028694_clean.fastq.gz
結(jié)果:
SRR020180:
數(shù)據(jù)過濾前:
數(shù)據(jù)過濾后:
SRR028694:
數(shù)據(jù)過濾前:
數(shù)據(jù)過濾后:
四. SPAdes短序列拼接
SPAdes 主要用于進行單細胞測序的細菌與基因組拼接滔吠,也能用于非單細胞測序數(shù)據(jù)。現(xiàn)在的SPAdes版本基本都支持paired-end reads,mate pairs和unpairede reads,多個paired-end和mate pairs可以同時輸入挠日。
spades.py --only-assembler --phred-offset 33 -k 55 --s1 SRR020180_clean.fastq.gz -o ./SPAdes2
spades.py --only-assembler --careful --phred-offset 33 -k 33,55,77 --s1 SRR028694_clean.fastq.gz -o ./SPAdes1
- 參數(shù):
—— only-error-correction:只做數(shù)據(jù)糾錯
—— only-assembler:只組裝疮绷,不做數(shù)據(jù)糾錯
—— careful:減少錯誤和插入缺失,添加此選項嚣潜,會消耗更多的時間
—— phred-offset 33:phred質(zhì)量體系冬骚,在數(shù)據(jù)糾錯中會用到,現(xiàn)在illumina數(shù)據(jù)一般采用phred 33懂算,并且我們之前數(shù)據(jù)過濾時采用的就是phred 33
—— k:k值只冻,一次可以輸入多個,用逗號分隔计技,kmer最大為127喜德,并且注意只能是奇數(shù),不設(shè)置時會自動計算合適的k值垮媒,但運算時間較長
——s1:表明是single reades
——pel:表明是paired-end和mate-pair reades
—— o:輸出目錄
- 結(jié)果
SRR020180:
SRR028694:
五.Quast評價序列拼接結(jié)果
- 評價結(jié)果
#評價SRR020180序列結(jié)果
quast.py ~/ncbi/public/sra/SPAdes2/contigs.fasta
#評價SRR028694序列結(jié)果
quast.py ~/ncbi/public/sra/SPAdes1/contigs.fasta
-
結(jié)果
SRR020180:
9.PNG
SRR028694:
這個序列文件本來就很小舍悯,經(jīng)過了數(shù)據(jù)過濾,數(shù)據(jù)糾錯等等數(shù)據(jù)優(yōu)化后已經(jīng)沒有剩下可以連接的contig了