Fastq文件
fastq文件命名規(guī)則
Illumina測(cè)序儀下機(jī)FASTQ命名為(NextSeq CN500下機(jī)數(shù)據(jù)為bcl格式妥箕,經(jīng)過bcl2fastq轉(zhuǎn)化后名稱類似)吠裆,例如:
Samplexx_S53_L002_R1_001.fastq.gz
Samplexx: 樣本名岂津,與上機(jī)時(shí)在sampleSheet中填寫的一致
S53: S后跟的數(shù)字與
樣本在sampleSheet中的順序一致秧耗,從1開始
L001/2: 表示lane1 lane2,還可以有l(wèi)ane3,4,5...
I1/2: I1表示p7接頭前的index怒见,I2表示P5接頭前的index诱咏。這兩個(gè)接頭序列是為了區(qū)分混合樣本也殖,有的軟件需要使用
R1/2: R1表示read1窍蓝,R2表示read2萌衬。R1文件的序列為barcode(16bp)+umi(12bp 和試劑有關(guān),雖然10x官網(wǎng)寫著10bp)它抱,R2文件的序列為測(cè)序序列(90bp 可能實(shí)際測(cè)出了150bp),一般是10x認(rèn)為剪掉了一大段朴艰,怕poly(dT)序列產(chǎn)生干擾和一些測(cè)序質(zhì)量差的序列
Undetermined_S0_L001_R1_001.fastq.gz: 存儲(chǔ)index不匹配的reads
理論上fastqc只需要對(duì)R2文件進(jìn)行
fastq序列規(guī)則
第一行以“@”開頭观蓄,隨后為Illumina 測(cè)序標(biāo)識(shí)符(Sequence Identifiers)和描述文字(選擇性部分)
第二行是測(cè)序堿基序列
第三行以“+”開頭混移,隨后為Illumina 測(cè)序標(biāo)識(shí)符(選擇性部分)
第四行是對(duì)應(yīng)序列的測(cè)序質(zhì)量
FastQC軟件
基本命令
fastqc -o <outdir> -t <threads num> <fastq1> <fastq2> ...
結(jié)果解讀
Duplicate模塊: 總的來說,total線=duplicated reads(unique) / total reads侮穿,因此當(dāng)level=1時(shí)歌径,若該值很小,則說明reads的種類很少亲茅,當(dāng)level>1k時(shí)回铛,若該值很大,則說明>1k重復(fù)的reads很多克锣。