fastqc是一款基于java的軟件甘穿,能夠?qū)y(cè)序數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估。一個(gè)樣本生成一個(gè)報(bào)告梢杭,當(dāng)樣本量過多時(shí)温兼,逐一查看樣本質(zhì)量就稍顯不方便,multiqc是一個(gè)基于Python的模塊, 用于整合其它軟件的報(bào)告的軟件武契,能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告的軟件募判,這樣能方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量。目前支持以下軟件結(jié)果的整合:
?Pre-alignment tools
Alignment tools
Post-alignment tools
multiqc的安裝:
在已經(jīng)安裝Anaconda的情況下咒唆,安裝MultiQC非常簡(jiǎn)單届垫,直接在shell命令面板中輸入以下命令:
conda install -c biocondamultiqc
multiqc的使用和常用參數(shù):
Usage:?multiqc[OPTIONS] <analysis directory>
?Options:
-f, --force?重寫已存在的報(bào)告
-s, --fullnames?保留樣本名稱
-o, --outdir TEXT?報(bào)告輸出路徑
-l, --file-list?提供包含搜索路徑列表的文檔(每行一個(gè))
-z, --zip-data-dir?壓縮數(shù)據(jù)目錄
-p, --export?將報(bào)告中的圖導(dǎo)出為靜態(tài)圖
? -fp, --flat????????????????? ??只使用平面圖(靜態(tài)圖)
-ip, --interactive?只使用動(dòng)圖(HighCharts Javascript)
--pdf?輸出PDF格式的報(bào)告(需要安裝Pandoc)
現(xiàn)在用最簡(jiǎn)單的命令整合fastqc的報(bào)告:
(multiqc+fastqc結(jié)果報(bào)告存放路徑+multiqc報(bào)告輸出路徑)
> multiqc /data/home/chj/fastqc_result -o/data/home/chj/multiqc_result
命令執(zhí)行完畢會(huì)生成1個(gè)html報(bào)告,直接網(wǎng)頁打開就可以查看和一個(gè)multiqc_data的文件夾全释,其中包含一些數(shù)據(jù)基本的統(tǒng)計(jì)信息和日志文檔装处。
multiqc整合的fastqc的報(bào)告包含以下幾個(gè)部分:
1?General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)
%Dups——重復(fù)reads的比例
%GC——GC含量占總堿基的比例,比例越小越好
Length——測(cè)序長度
M Seqs——總測(cè)序量(單位:millions)
2?Sequence Quality Histograms:每個(gè)read各位置堿基的平均測(cè)序質(zhì)量
橫坐標(biāo)——堿基的位置
縱坐標(biāo)——質(zhì)量分?jǐn)?shù)
質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯(cuò)誤率)浸船,所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時(shí)候妄迁,p就是0.0001寝蹈。此時(shí)說明測(cè)序質(zhì)量非常好。
綠色區(qū)間——質(zhì)量很好登淘,
橙色區(qū)間——質(zhì)量合理箫老。
紅色區(qū)間——質(zhì)量不好。
此處可以看出我的4個(gè)樣本在70個(gè)堿基后的測(cè)序質(zhì)量平均線落在紅色區(qū)間黔州,測(cè)序質(zhì)量不合格耍鬓。
3 PerSequence Quality Scores 具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量
橫坐標(biāo)——平均序列質(zhì)量分?jǐn)?shù)
縱坐標(biāo)——reads數(shù)
綠色區(qū)間——質(zhì)量很好
橙色區(qū)間——質(zhì)量合理
紅色區(qū)間——質(zhì)量不好
當(dāng)峰值小于27時(shí)——warning
當(dāng)峰值小于20時(shí)——fail
由此圖中可以看出低質(zhì)量reads占整體reads的比例(估算各顏色區(qū)域曲線下面積)
圖中可以看出:4個(gè)樣本中有1個(gè)樣本的最高峰值在20左右,低質(zhì)量read數(shù)量占總體reads的比例大概在50%流妻,所以這個(gè)樣本的測(cè)序質(zhì)量是不合格的牲蜀。
4?Per Base Sequence Content??:每個(gè)read各位置堿基ATCG的比列
對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基的分布合冀,
橫坐標(biāo)——堿基位置各薇,
縱坐標(biāo)——樣本。
%T——紅色
%C——藍(lán)色
%A——綠色
%G——紫色
reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成君躺,哪一個(gè)堿基的比例大峭判,則趨近于這個(gè)堿基所代表的顏色。
正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的棕叫。
如果ATGC在任何位置的差值大于10%——warning
如果ATGC在任何位置的差值大于20%——fail
由圖中可知:reads的前半部分大概11個(gè)bp左右的ATGC含量比例是非常不均勻的林螃,可能有過表達(dá)的序列的污染。
5?Per Sequence GC Content?:reads的平均GC含量
橫坐標(biāo)——GC含量百分比
縱坐標(biāo)——數(shù)量
正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線俺泣,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)疗认。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。
偏離理論分布的reads超過15%時(shí)——warning
偏離理論分布的reads超過30%時(shí)——fail
6?Per Base N Content?:每條reads各位置N堿基含量比例
當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí)伏钠,就會(huì)產(chǎn)生“N”横漏,統(tǒng)計(jì)N的比率。正常情況下熟掂,N值非常小缎浇。
橫坐標(biāo)——read中的位置
縱坐標(biāo)——N的數(shù)量比
當(dāng)任意位置的N的比例超過5%——warning
當(dāng)任意位置的N的比例超過20%——fail
由圖中看出,有兩個(gè)樣本在70bp后的N堿基的含量大幅增加赴肚,甚至達(dá)到了80%素跺。
7?Sequence Duplication Levels:每個(gè)序列的相對(duì)重復(fù)水平
橫坐標(biāo):每個(gè)序列的相對(duì)重復(fù)水平
縱坐標(biāo):在文庫中的比例
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)——warning
當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)——fail
測(cè)序深度越高,越容易產(chǎn)生一定程度的duplication誉券,這是正常的現(xiàn)象指厌,但如果duplication的程度很高,就提示我們可能有bias的存在踊跟。
8?Overrepresented sequences:文庫中過表達(dá)序列的比例
橫坐標(biāo)——過表達(dá)序列的比例
縱坐標(biāo)——樣本
過表達(dá)序列的比例>0.1%——warning
過表達(dá)序列的比例>1%——warning
?一條序列的重復(fù)數(shù)踩验,因?yàn)橐粋€(gè)轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本,一條序列再怎么多也不太會(huì)占整個(gè)轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況晰甚,不是這種轉(zhuǎn)錄本巨量表達(dá)衙传,就是樣品被污染决帖。這個(gè)模塊列出來大于全部轉(zhuǎn)錄組1%的reads序列厕九,但是因?yàn)橛玫氖乔?00,000條reads,所以其實(shí)參考意義不大地回。
9 Adapter Content 接頭含量
橫坐標(biāo)——堿基位置
縱坐標(biāo)——占序列的百分比
>5%——warning
>10%——fail
fastqc幫助我們檢測(cè)測(cè)序數(shù)據(jù)的質(zhì)量扁远,具體問題具體分析,后續(xù)我們還需要去除接頭和質(zhì)量不好的reads刻像,去污染等操作來進(jìn)行數(shù)據(jù)過濾畅买。
參考:
http://www.reibang.com/p/303de2c95239
http://www.reibang.com/p/14fd4de54402
https://blog.csdn.net/ada0915/article/details/77201871