讀懂FastQC報(bào)告 Part I
通過(guò)前面的5個(gè)問(wèn)題蚓哩,我相信大家對(duì)Illumina測(cè)序帖汞,測(cè)序的儲(chǔ)存文件格式纬朝,一些簡(jiǎn)單的建庫(kù)原理已經(jīng)有了一個(gè)初步的認(rèn)識(shí)个绍。那么接下來(lái)粹懒,我們就要用我們學(xué)到的知識(shí)去解決一些問(wèn)題啦重付。
在實(shí)際操作和處理過(guò)程中,我們拿到的Illumina測(cè)序數(shù)據(jù)應(yīng)該是.fastq.gz格式凫乖,其中g(shù)z表示的是使用gzip進(jìn)行壓縮确垫,fastq表示使用fastq格式進(jìn)行存儲(chǔ)。獲得數(shù)據(jù)的第一步帽芽,通常就是使用FastQC軟件進(jìn)行質(zhì)控删掀。
FastQC會(huì)對(duì)每一個(gè)輸入的fastq.gz文件生成1個(gè)html網(wǎng)頁(yè)和一個(gè)zip的壓縮包。壓縮包里是網(wǎng)頁(yè)中包含的圖片信息导街,因此我們只需要看網(wǎng)頁(yè)里面整理好的內(nèi)容就好披泪。
今天的問(wèn)題圍繞著FastQC的質(zhì)控圖來(lái)展開(kāi),請(qǐng)看下面2張圖搬瑰。
圖1 - 1個(gè)Illumina測(cè)序結(jié)果款票, reads1 的 per-base quality boxplot
圖2 - 1個(gè)Illumina測(cè)序結(jié)果, reads2 的 per-base quality boxplot
問(wèn)題如下:
1. 圖中的橫坐標(biāo)表示什么意思泽论?
橫軸是測(cè)序序列的第1個(gè)堿基到第150個(gè)堿基
2. 圖中的縱坐標(biāo)表示什么意思艾少?
- 縱坐標(biāo)越小錯(cuò)誤概率越大;
- 縱坐標(biāo)表示每一個(gè)bp所對(duì)應(yīng)的測(cè)序質(zhì)量值Q翼悴,
- 這個(gè)數(shù)值Q是這樣計(jì)算的:Q = -10*log10(error P);
- 將該堿基判斷錯(cuò)誤概率值P取log10之后再乘以-10,得到的結(jié)果再加上Phred值對(duì)應(yīng)ASCII表所得到的的值就是該堿基測(cè)序的質(zhì)量值;
- 即20表示1%的錯(cuò)誤率缚够,30表示0.1%的錯(cuò)誤率;
3. 圖中的藍(lán)色線(xiàn)是什么意思?
藍(lán)色的細(xì)線(xiàn)是各個(gè)位置的質(zhì)量值的平均值的連線(xiàn)
4. 圖中的box 下面的bar 鹦赎, 上面的bar谍椅,箱體的下沿,箱體的上沿古话,箱體內(nèi)部的橫線(xiàn)分別代表什么意思雏吭?
每一個(gè)boxplot,都是該位置的所有序列的測(cè)序質(zhì)量的一個(gè)統(tǒng)計(jì)陪踩,
上面的bar是90%分位數(shù)杖们,
下面的bar是10%分位數(shù),
箱子的中間的橫線(xiàn)是50%分位數(shù)膊毁,
箱體的上緣是75%分位數(shù)胀莹,
箱體的下緣是25%分位數(shù)
什么是分位數(shù):如果一組數(shù)的25%分位數(shù)是a基跑,意味著a超過(guò)了這組數(shù)中25%數(shù)字的大小
5. 圖1與圖2最主要的區(qū)別在哪里婚温?結(jié)合我們之前的問(wèn)題,為什么會(huì)出現(xiàn)這種情況媳否?
相比于reads 1的測(cè)序結(jié)果栅螟,reads 2的測(cè)序質(zhì)量均勻性差荆秦,準(zhǔn)確率低,
主要原因:
- reads 2的測(cè)序是在reads 1150bp 測(cè)序完成以后
- forward strands 再通過(guò)1次橋式PCR合成reverse strands
- 這之后再進(jìn)行熒光測(cè)序
- 測(cè)序質(zhì)量差的主要原因是因?yàn)殚L(zhǎng)時(shí)間測(cè)序結(jié)束以后力图,合成酶的活性降低步绸,導(dǎo)致合成時(shí)加不上一些堿基,最終同步性變差吃媒,主要是phasing錯(cuò)誤瓤介。