一般FastQC分析結(jié)果產(chǎn)生有2種類型的文件宴咧,一種.zip,一種.html径缅。直接點擊.html文件掺栅,即可在瀏覽器中查看質(zhì)控結(jié)果報告。
Summary
首先是Summary芥驳,這一部分是整個報告的目錄柿冲,整個報告分成若干個部分。合格會有綠色的對勾兆旬,警告是黃色感嘆號假抄,不合格是紅叉。
The analysis in FastQC is performed by a series of analysis modules. The left hand side of the main interactive display or the top of the HTML report show a summary of the modules which were run, and a quick evaluation of whether the results of the module seem entirely normal (green tick), slightly abnormal (orange triangle) or very unusual (red cross).
1.1 Basic Statistics
Filename: 文件名
File type: 文件類型
Encoding: 測序平臺的版本和相應(yīng)的編碼版本號丽猬,在計算Phred反推error P時有用
Total Sequences: 輸入文本的reads數(shù)量
Sequence length: 測序長度
%GC: GC含量宿饱,表示整體序列的GC含量。
1.2 Per base sequence quality
縱坐標(biāo)為測序質(zhì)量脚祟,用單堿基錯誤率Q表示谬以,其中Q = -10*log10(error P)。根據(jù)測序質(zhì)量劃分成3個區(qū)間由桌,0-20之間为黎,紅色背景邮丰,測序質(zhì)量差;20-28之間铭乾,黃色背景剪廉,測序質(zhì)量一般;28以上炕檩,綠色背景斗蒋,測序質(zhì)量高。
橫坐標(biāo)為序列長度笛质,從序列的起始位置開始泉沾,統(tǒng)計所有序列在該位置上堿基的質(zhì)量,并用箱線圖表示妇押,箱線圖上紅色的線代表所有堿基質(zhì)量的中位數(shù)跷究,藍(lán)色的線帶代表所有堿基質(zhì)量的平均數(shù),黃色箱體的上下邊緣分別代表上下四分位數(shù)敲霍,箱體圖最下方的橫線代表第10百分位數(shù)揭朝,最上方的橫線代表第90百分位數(shù)。
1.3 Per tile sequence quality
每個tail測序情況色冀,橫軸表示堿基位置,縱軸表示tail的index編號柱嫌,這個圖主要是為了防止在測序過程中某些tail受到不可控因素的影響而出現(xiàn)測序質(zhì)量偏低锋恬,藍(lán)色表示測序質(zhì)量很高,暖色表示測序質(zhì)量不高编丘。當(dāng)某些tail出現(xiàn)暖色与学,可以在后續(xù)分析中把該tail測序的結(jié)果全部去除。
1.4 Per sequence quality scores
假如1條序列長度為63bp嘉抓,那么這63個位置每個位置Q值的平均值就是這條reads的質(zhì)量值索守。
橫軸是0-40,表示Q值抑片,縱軸是每個值對應(yīng)的reads數(shù)目卵佛。
1.5 Per base sequence content
橫坐標(biāo)為序列長度,縱坐標(biāo)為各堿基的百分比敞斋。理論上來說截汪,A和T應(yīng)該相等,G和C應(yīng)該相等植捎。
1.6 Per sequence GC content
橫坐標(biāo)為reads GC含量(0 - 100%)衙解,縱坐標(biāo)為每條序列GC含量對應(yīng)的數(shù)量。
藍(lán)線是程序根據(jù)經(jīng)驗分布給出的理論值焰枢,紅色是真實值蚓峦,兩條線應(yīng)該比較接近才比較好舌剂。當(dāng)紅色出現(xiàn)雙峰時表示混入了其它物種DNA序列。
1.7 Per base N content
當(dāng)出現(xiàn)測序儀不能分辨的堿基時會產(chǎn)生N暑椰,該圖統(tǒng)計了N堿基的含量分布霍转。橫坐標(biāo)為序列長度,縱坐標(biāo)為N堿基的比例干茉。
1.8 Sequence Length Distribution
1.9 Sequence Duplication Levels
統(tǒng)計序列完全一致的reads的頻率谴忧,橫坐標(biāo)表示重復(fù)的次數(shù),縱坐標(biāo)表示重復(fù)的reads的數(shù)目( 以unique reads的總數(shù)作為100%)角虫。測序深度越高沾谓,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象戳鹅,但如果duplication的程度很高均驶,就提示我們可能有bias的存在。
發(fā)現(xiàn)一個講得非常好的文章枫虏,鏈解放在這里:https://zhuanlan.zhihu.com/p/44914479
1.10 Overrepresented Sequences
反復(fù)出現(xiàn)的序列妇穴。
1.11 Adapter Content
此圖衡量的是序列中兩端adapter的情況,橫坐標(biāo)為堿基在reads中的位置隶债,縱坐標(biāo)表示該位置的堿基為測序接頭序列堿基的百分比腾它。
參考:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/
https://cloud.tencent.com/developer/article/1625196
https://zhuanlan.zhihu.com/p/20731723