MultiQC用于對測序數(shù)據(jù)進行質(zhì)量評估,但它不同于FastQC之類的軟件蚯撩,F(xiàn)astQC只能對單個樣本進行評估生成報告镀琉,而MultiQC能將fastqc生成的多個報告整合成一個報告(HTML和PDF格式)诚啃,方便的查看所有測序數(shù)據(jù)的質(zhì)量浆竭,同時還支持多種分析類型的質(zhì)控結(jié)果查看,如:RNAseq吧秕、Whole-Genome Seq琉闪、Bisulfite Seq、Hi-C和MultiQC_NGI等砸彬。
安裝
MultiQC的使用基于Python颠毙,所以需要先安裝conda和pip,因為我之前已經(jīng)安裝好了砂碉,所以這里直接安裝MultiQC
conda install -c bioconda multiqc
multiqc .
結(jié)果
運行
當(dāng)前文件夾下有兩個待分析的fq.gz文件
先用fastqc進行質(zhì)量控制
fastqc test_7942raw_1.fq.gz test_7942raw_2.fq.gz
ls ##查看產(chǎn)生的新文件
結(jié)果
.html文件可以下載到window版本下用瀏覽器打開查看吟秩,它是fastqc分析的結(jié)果
接下來我們用multiqc分析用之前的fastqc分析出來的fq.gz文件
multiqc test_7942raw_1_fastqc.zip test_7942raw_2_fastqc.zip
結(jié)果
我們將multiqc_report.html 下載到本地用瀏覽器查看
結(jié)果分析
一 .General Statistics:質(zhì)量評估整合統(tǒng)計表
%Dups:重復(fù)reads的比例
%GC:GC含量占總堿基的比例,比例越小越好
M Seqs:總測序量(單位:millions)
二 .FastQC
1 .Sequence Quality Histograms :每個read各位置堿基的平均測序質(zhì)量
橫坐標(biāo):堿基的位置
縱坐標(biāo):質(zhì)量分?jǐn)?shù)绽淘,質(zhì)量分?jǐn)?shù)=-10log10p(p表示錯誤率)涵防,當(dāng)質(zhì)量分?jǐn)?shù)為40的時候,p=0.0001沪铭。此時說明測序質(zhì)量非常好壮池。
當(dāng)曲線在綠色區(qū)間時說明數(shù)據(jù)質(zhì)量非常好,橙色區(qū)間說明數(shù)據(jù)質(zhì)量一般杀怠,紅色區(qū)間說明數(shù)據(jù)質(zhì)量不合格椰憋。可以看到我們的數(shù)據(jù)質(zhì)量很好赔退。
2 .Per Sequence Quality Scores:具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量
橫坐標(biāo):平均序列質(zhì)量分?jǐn)?shù)
縱坐標(biāo):reads數(shù)
當(dāng)曲線在綠色區(qū)間時說明數(shù)據(jù)質(zhì)量非常好橙依,橙色區(qū)間說明數(shù)據(jù)質(zhì)量一般证舟,紅色區(qū)間說明數(shù)據(jù)質(zhì)量不合格
3 .Per Base Sequence Content :所有reads各位置堿基ATCG的分布
橫坐標(biāo):堿基位置
縱坐標(biāo):堿基含量(%)
正常情況下每個位置每種堿基出現(xiàn)的概率是相近的,四條線應(yīng)該平行且相近窗骑。當(dāng)部分位置堿基的比例出現(xiàn)偏離bias(偏離)時女责,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染创译。當(dāng)所有位置的堿基比例一致地表現(xiàn)出bias時抵知,即四條線平行但分開,往往代表文庫有bias软族,或者是測序中的系統(tǒng)誤差刷喜。比如在我們樣本的開頭就可能存在overrepresented sequence污染。
A/T比例與G/C比例在任何位置的差值大于10%——warning
A/T比例與G/C比例在任何位置的差值大于20%——fail
4 .Per Sequence GC Content :reads的平均GC含量
橫坐標(biāo):GC含量百分比
縱坐標(biāo):數(shù)量
正常的樣本的GC含量曲線會趨近于正態(tài)分布曲線立砸,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差造成的掖疮。
5 .Per Base N Content :每條reads各位置N堿基含量比例
橫坐標(biāo):read中的位置
縱坐標(biāo):N的數(shù)量比
當(dāng)測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”颗祝,對所有reads的每個位置氮墨,統(tǒng)計N的比率。正常情況下吐葵,N值非常小。我們的結(jié)果中顯示N值只在開頭有桥氏,并且值很小温峭。
6 .Sequence Length Distribution:reads長度分布
從結(jié)果可以看到我們reads的長度為150bp
當(dāng)reads長度不一致時報”WARN”;當(dāng)有長度為0的read時報“FAIL”字支。
7 .Sequence Duplication Levels:每個序列的相對重復(fù)水平
橫坐標(biāo):每個序列的相對重復(fù)水平
縱坐標(biāo):在文庫中的比例
測序深度越高凤藏,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象堕伪,但如果duplication的程度很高揖庄,就提示我們可能有bias的存在。再結(jié)合前面的質(zhì)量分析來看我們的reads開頭的質(zhì)量不是很好欠雌。
8 .Overrepresented sequences:文庫中過表達(dá)序列的比例
overrepresented sequences:某個大量出現(xiàn)的序列
一個轉(zhuǎn)錄組中有很多的轉(zhuǎn)錄本蹄梢,一條序列再怎么多也不太會占整個轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況富俄,不是這種轉(zhuǎn)錄本巨量表達(dá)禁炒,就是樣品被污染』舯龋可以看到我們的結(jié)果顯示Overrepresented sequences的比例<1%
9 .Adapter Content 接頭含量
橫坐標(biāo):堿基位置
縱坐標(biāo):接頭占序列的百分比幕袱,>5%——warning,>10%——fail
從結(jié)果看我們的reads的接頭含量理想悠瞬。如果結(jié)果不理想后續(xù)我們還需要去除接頭和質(zhì)量不好的reads们豌,去污染等操作來進行數(shù)據(jù)過濾涯捻。
遇見的問題
multiqc .指令需要在fsatqc的文件夾下執(zhí)行,否則會報錯望迎。如圖
參考資料:
MultiQC使用指導(dǎo)
整合QC質(zhì)控結(jié)果的利器——MultiQC
Multiqc(轉(zhuǎn)錄組分析之質(zhì)量評估)