目的
現(xiàn)在的NGS測(cè)序矗烛,以illumina為首基本都是運(yùn)用邊合成邊測(cè)序的技術(shù)瞭吃。堿基的合成依靠的是化學(xué)反應(yīng)歪架,這使得堿基鏈可以不斷地從5'端一直往3'端合成并延伸下去和蚪。但在這個(gè)合成的過程中隨著合成鏈的增長(zhǎng)攒霹,DNA聚合酶的效率會(huì)不斷下降剔蹋,特異性也開始變差少梁,這就會(huì)帶來一個(gè)問題——越到后面堿基合成的錯(cuò)誤率就會(huì)越高矫付;有時(shí)候測(cè)序儀在剛開始進(jìn)行合成反應(yīng)的時(shí)候也會(huì)由于反應(yīng)還不夠穩(wěn)定买优,同樣會(huì)帶來質(zhì)量值的波動(dòng)杀赢。由于測(cè)序數(shù)據(jù)的質(zhì)量好壞會(huì)影響我們的下游分析脂崔,所以在開始進(jìn)行下游分析之前滤淳,對(duì)數(shù)據(jù)的質(zhì)量有一個(gè)準(zhǔn)確的認(rèn)知是非常有必要的。
操作
安裝
# 手動(dòng)安裝
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.7.zip
unzip fastqc_v0.11.7.zip
cd FastQC
chmod 755 fastqc
# apt-get 安裝
sudo apt-get install fastqc
# conda 安裝
conda activate py3
conda install fastqc
運(yùn)行
mkdir result
fastqc -f fastq -q -o result -t 3 sample1.fq.gz sample2.fq.gz sample3.fq.gz
命令比較簡(jiǎn)單砌左,這里唯一值得注意的地方就是 -o 參數(shù)用于指定FastQC報(bào)告的輸出目錄脖咐,這個(gè)目錄需要事先創(chuàng)建好,如果不指定特定的目錄汇歹,那么FastQC的結(jié)果會(huì)默認(rèn)輸出到文件untreated.fq的同一個(gè)目錄下屁擅。它輸出結(jié)果只有兩個(gè),一個(gè)html和一個(gè).zip壓縮包产弹。
解讀
關(guān)于測(cè)序數(shù)據(jù)的質(zhì)量派歌,我們一般關(guān)注以下幾個(gè)方面:(1) read各個(gè)位置的堿基質(zhì)量值分布;(2) 堿基的總體質(zhì)量值分布;(3)read各個(gè)位置上堿基分布比例常挚,目的是為了分析堿基的分離程度贝或;(4) GC含量分布;(5) read各位置的N含量趟佃;(6) read是否還包含測(cè)序的接頭序列序矩;(7)read重復(fù)率,這個(gè)是實(shí)驗(yàn)的擴(kuò)增過程所引入的。其中主要指標(biāo)為堿基質(zhì)量與含量分布劲绪,如果這兩項(xiàng)不合格弟劲,其余都會(huì)受到影響。
基本信息
Filename, 質(zhì)控文件名淡溯;Encoding, 測(cè)序平臺(tái)膘侮;Total Sequences, reads數(shù)量;Sequence Length, reads長(zhǎng)度昧诱;%GC, GC含量
堿基質(zhì)量分布
此圖中的橫軸是read上堿基的位置妆丘,縱軸是質(zhì)量得分鱼填,Q = -10*log10(error P)即20表示0.01的錯(cuò)誤率赘理,30表示0.001蜘澜,圖中紅線表示中值装诡,藍(lán)色的細(xì)線是各個(gè)位置的平均值的連線赖淤。Warning 警告:如果任何堿基質(zhì)量低于10,或者是任何中位數(shù)低于25; Failure 不合格:如果任何堿基質(zhì)量低于5,或者是任何中位數(shù)低于20。
好的測(cè)序結(jié)果中,大部分質(zhì)量值的分布都在大于30的綠色背景的區(qū)域,表明質(zhì)量值很高,而且波動(dòng)很小判莉,說明質(zhì)量很穩(wěn)定渗饮。差的測(cè)序結(jié)果中踩叭,質(zhì)量值的分布都在小于20的紅色背景的區(qū)域,表明質(zhì)量值很差,有大量的質(zhì)量差的reads刻帚,并且波動(dòng)很大,對(duì)于這種結(jié)果衙吩,最好重新測(cè)序,如果實(shí)在要用于分析,應(yīng)該將這些低質(zhì)量的reads過濾掉以后進(jìn)行下游分析。
堿基總體質(zhì)量值分布
該圖橫軸Q值歪今,縱軸是每個(gè)值對(duì)應(yīng)的reads數(shù)目。reads的質(zhì)量值是指該條read每個(gè)位置Q值的平均值坡疼。只要大部分read的質(zhì)量都高于20,那么就比較正常巡语。一般來說枢赔,對(duì)于二代測(cè)序,最好是達(dá)到Q20的堿基要在95%以上(最差不低于90%)屋摔,Q30要求大于85%(最差也不要低于80%)挽鞠。
堿基分布
這個(gè)圖橫軸是read上堿基的位置油挥;縱軸是百分比深寥,圖中四條線代表A喂链、T椭微、C本慕、G在每個(gè)位置平均含量藤违。這個(gè)指標(biāo)是為了分析堿基的分離程度犹菱。理論上拂盯,假如測(cè)序過程是比較隨機(jī)佑女,A和T應(yīng)該相等,G和C應(yīng)該相等,兩者之間即使有偏差也不應(yīng)該太大团驱,最好平均在1%以內(nèi)摸吠。如果過高,除非有合理的原因嚎花,比如某些特定的捕獲測(cè)序所致寸痢,或者測(cè)序剛開始的時(shí)候測(cè)序儀狀態(tài)不穩(wěn)定,否則都需要注意是不是測(cè)序過程產(chǎn)生偏差紊选。
GC含量分布
該圖橫軸是0 - 100%啼止; 縱軸是每條序列GC含量對(duì)應(yīng)的數(shù)量,藍(lán)色的線是程序根據(jù)經(jīng)驗(yàn)分布給出的理論值兵罢,紅色是真實(shí)值献烦,兩個(gè)應(yīng)該比較接近才比較好。GC含量指的是G和C這兩種堿基占總堿基的比例趣些。二代測(cè)序平臺(tái)或多或少都存在一定的測(cè)序偏向性,GC含量可以協(xié)助我們判斷測(cè)序過程是否足夠隨機(jī)贰您。一般基因組的GC含量有一個(gè)理論值坏平,例如人類基因組的GC含量一般在40%左右。因此锦亦,如果發(fā)現(xiàn)GC含量的圖譜明顯偏離理論值舶替,說明測(cè)序過程存在較高的序列偏向性,結(jié)果就是基因組中某些特定區(qū)域被反復(fù)測(cè)序的幾率變高杠园,這些區(qū)域的測(cè)序深度遠(yuǎn)高于平均測(cè)序深度顾瞪,這將會(huì)影響下游的變異檢測(cè)和CNV分析。
N含量分布
這個(gè)圖橫軸是read上堿基的位置抛蚁;縱軸是含N的比例陈醒。Warning 警告 如果任意位置的N比例超過5%,Failure 不合格 如果任意位置的N比例超過20%瞧甩。N在測(cè)序數(shù)據(jù)中一般是不應(yīng)該出現(xiàn)的钉跷,如果出現(xiàn)則意味著,測(cè)序的光學(xué)信號(hào)無(wú)法被清晰分辨肚逸,測(cè)序儀器不能辨別某條reads的某個(gè)位置都是ATCG哪個(gè)堿基爷辙,如果這種情況多的話,往往意味著測(cè)序系統(tǒng)或者測(cè)序試劑的錯(cuò)誤朦促。
接頭序列
這個(gè)圖橫軸是read上堿基的位置膝晾;縱軸是含各種接頭的比例。當(dāng)測(cè)序read的長(zhǎng)度大于被測(cè)序的DNA片段時(shí)务冕,就會(huì)在read的末尾測(cè)到這些接頭序列血当。由于有些RNA的序列本來就比較短,很多只有幾十bp長(zhǎng)(特別是miRNA),那么測(cè)序的時(shí)候就很容易會(huì)出現(xiàn)read測(cè)通的現(xiàn)象歹颓,這個(gè)時(shí)候就會(huì)在read的末尾測(cè)到這些接頭序列坯屿,此時(shí),在圖中的3‘端位置巍扛,adapter的比例曲線會(huì)上升领跛。這些被測(cè)到的接頭序列在正式分析之前需要被切除。
重復(fù)序列
統(tǒng)計(jì)序列完全一樣的reads的頻率撤奸。橫坐標(biāo)是duplication的次數(shù)吠昭,縱坐標(biāo)表示各重復(fù)次數(shù)下的 reads 數(shù)占總 reads 的百分比,藍(lán)線展示所有 reads 的重復(fù)情況胧瓜,紅線表示在去掉重復(fù)以后矢棚,原重復(fù)水平下的 reads 占去重后 reads 總數(shù)的百分比;Warning 警告 非 unique 的 reads 占總 reads 數(shù)的 20 % 以上府喳,Failure 不合格 占總 read 數(shù)的 50 % 以上蒲肋。
整合
Fastqc每次對(duì)一個(gè)樣本進(jìn)行質(zhì)量控制并生成評(píng)估報(bào)告,當(dāng)樣本數(shù)量過多時(shí)钝满,查看報(bào)告顯然極不方便兜粘。Multiqc能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告(HTML和PDF格式),方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量弯蚜。Multiqc支持多種分析類型的質(zhì)控結(jié)果查看孔轴,包括:RNAseq、Whole-Genome Seq碎捺、Bisulfite Seq路鹰、Hi-C等。
安裝
# conda 安裝收厨,multiqc 基于 python3
conda activate py3
conda install multiqc
運(yùn)行
# 整合包含fastqc結(jié)果的文件夾
multiqc -o multi_out fastqc_out
# 整合指定的幾個(gè)fastqc結(jié)果
multiqc -o multi_out sample1_fastqc.zip sample2_fastqc.zip sample3_fastqc.zip