MultiQC

MultiQC用于對測序數(shù)據(jù)進行質(zhì)量評估,但它不同于FastQC之類的軟件蚯撩,F(xiàn)astQC只能對單個樣本進行評估生成報告镀琉,而MultiQC能將fastqc生成的多個報告整合成一個報告(HTML和PDF格式)诚啃,方便的查看所有測序數(shù)據(jù)的質(zhì)量浆竭,同時還支持多種分析類型的質(zhì)控結(jié)果查看,如:RNAseq吧秕、Whole-Genome Seq琉闪、Bisulfite Seq、Hi-C和MultiQC_NGI等砸彬。

安裝

MultiQC的使用基于Python颠毙,所以需要先安裝conda和pip,因為我之前已經(jīng)安裝好了砂碉,所以這里直接安裝MultiQC

conda install -c bioconda multiqc
multiqc .

結(jié)果


3.PNG

運行

當(dāng)前文件夾下有兩個待分析的fq.gz文件


4.PNG

先用fastqc進行質(zhì)量控制

fastqc test_7942raw_1.fq.gz test_7942raw_2.fq.gz
ls  ##查看產(chǎn)生的新文件

結(jié)果


5.PNG

.html文件可以下載到window版本下用瀏覽器打開查看吟秩,它是fastqc分析的結(jié)果

接下來我們用multiqc分析用之前的fastqc分析出來的fq.gz文件

multiqc test_7942raw_1_fastqc.zip test_7942raw_2_fastqc.zip

結(jié)果


6.PNG
7.PNG

我們將multiqc_report.html 下載到本地用瀏覽器查看

結(jié)果分析

一 .General Statistics:質(zhì)量評估整合統(tǒng)計表
%Dups:重復(fù)reads的比例
%GC:GC含量占總堿基的比例,比例越小越好
M Seqs:總測序量(單位:millions)

8.PNG

二 .FastQC

1 .Sequence Quality Histograms :每個read各位置堿基的平均測序質(zhì)量

橫坐標(biāo):堿基的位置

縱坐標(biāo):質(zhì)量分?jǐn)?shù)绽淘,質(zhì)量分?jǐn)?shù)=-10log10p(p表示錯誤率)涵防,當(dāng)質(zhì)量分?jǐn)?shù)為40的時候,p=0.0001沪铭。此時說明測序質(zhì)量非常好壮池。

fastqc_per_base_sequence_quality_plot.png

當(dāng)曲線在綠色區(qū)間時說明數(shù)據(jù)質(zhì)量非常好,橙色區(qū)間說明數(shù)據(jù)質(zhì)量一般杀怠,紅色區(qū)間說明數(shù)據(jù)質(zhì)量不合格椰憋。可以看到我們的數(shù)據(jù)質(zhì)量很好赔退。

2 .Per Sequence Quality Scores:具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

橫坐標(biāo):平均序列質(zhì)量分?jǐn)?shù)

縱坐標(biāo):reads數(shù)

10.png

當(dāng)曲線在綠色區(qū)間時說明數(shù)據(jù)質(zhì)量非常好橙依,橙色區(qū)間說明數(shù)據(jù)質(zhì)量一般证舟,紅色區(qū)間說明數(shù)據(jù)質(zhì)量不合格

3 .Per Base Sequence Content :所有reads各位置堿基ATCG的分布

橫坐標(biāo):堿基位置

縱坐標(biāo):堿基含量(%)

11.PNG

正常情況下每個位置每種堿基出現(xiàn)的概率是相近的,四條線應(yīng)該平行且相近窗骑。當(dāng)部分位置堿基的比例出現(xiàn)偏離bias(偏離)時女责,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染创译。當(dāng)所有位置的堿基比例一致地表現(xiàn)出bias時抵知,即四條線平行但分開,往往代表文庫有bias软族,或者是測序中的系統(tǒng)誤差刷喜。比如在我們樣本的開頭就可能存在overrepresented sequence污染。

A/T比例與G/C比例在任何位置的差值大于10%——warning
A/T比例與G/C比例在任何位置的差值大于20%——fail

4 .Per Sequence GC Content :reads的平均GC含量

橫坐標(biāo):GC含量百分比

縱坐標(biāo):數(shù)量


fastqc_per_sequence_gc_content_plot.png

正常的樣本的GC含量曲線會趨近于正態(tài)分布曲線立砸,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差造成的掖疮。

5 .Per Base N Content :每條reads各位置N堿基含量比例

橫坐標(biāo):read中的位置

縱坐標(biāo):N的數(shù)量比

fastqc_per_base_n_content_plot.png

當(dāng)測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產(chǎn)生“N”颗祝,對所有reads的每個位置氮墨,統(tǒng)計N的比率。正常情況下吐葵,N值非常小。我們的結(jié)果中顯示N值只在開頭有桥氏,并且值很小温峭。

6 .Sequence Length Distribution:reads長度分布

從結(jié)果可以看到我們reads的長度為150bp


12.PNG

當(dāng)reads長度不一致時報”WARN”;當(dāng)有長度為0的read時報“FAIL”字支。

7 .Sequence Duplication Levels:每個序列的相對重復(fù)水平

橫坐標(biāo):每個序列的相對重復(fù)水平

縱坐標(biāo):在文庫中的比例

fastqc_sequence_duplication_levels_plot.png

測序深度越高凤藏,越容易產(chǎn)生一定程度的duplication,這是正常的現(xiàn)象堕伪,但如果duplication的程度很高揖庄,就提示我們可能有bias的存在。再結(jié)合前面的質(zhì)量分析來看我們的reads開頭的質(zhì)量不是很好欠雌。

8 .Overrepresented sequences:文庫中過表達(dá)序列的比例

overrepresented sequences:某個大量出現(xiàn)的序列

13.PNG

一個轉(zhuǎn)錄組中有很多的轉(zhuǎn)錄本蹄梢,一條序列再怎么多也不太會占整個轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況富俄,不是這種轉(zhuǎn)錄本巨量表達(dá)禁炒,就是樣品被污染』舯龋可以看到我們的結(jié)果顯示Overrepresented sequences的比例<1%

9 .Adapter Content 接頭含量

橫坐標(biāo):堿基位置

縱坐標(biāo):接頭占序列的百分比幕袱,>5%——warning,>10%——fail

fastqc_adapter_content_plot.png

從結(jié)果看我們的reads的接頭含量理想悠瞬。如果結(jié)果不理想后續(xù)我們還需要去除接頭和質(zhì)量不好的reads们豌,去污染等操作來進行數(shù)據(jù)過濾涯捻。

遇見的問題

multiqc .指令需要在fsatqc的文件夾下執(zhí)行,否則會報錯望迎。如圖


1.PNG

2.PNG

參考資料:
MultiQC使用指導(dǎo)
整合QC質(zhì)控結(jié)果的利器——MultiQC
Multiqc(轉(zhuǎn)錄組分析之質(zhì)量評估)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末障癌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子擂煞,更是在濱河造成了極大的恐慌混弥,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件对省,死亡現(xiàn)場離奇詭異蝗拿,居然都是意外死亡,警方通過查閱死者的電腦和手機蒿涎,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進店門哀托,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人劳秋,你說我怎么就攤上這事仓手。” “怎么了玻淑?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵嗽冒,是天一觀的道長。 經(jīng)常有香客問我补履,道長添坊,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任箫锤,我火速辦了婚禮贬蛙,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谚攒。我一直安慰自己阳准,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布馏臭。 她就那樣靜靜地躺著野蝇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪括儒。 梳的紋絲不亂的頭發(fā)上浪耘,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天,我揣著相機與錄音塑崖,去河邊找鬼七冲。 笑死,一個胖子當(dāng)著我的面吹牛规婆,可吹牛的內(nèi)容都是我干的澜躺。 我是一名探鬼主播蝉稳,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼掘鄙!你這毒婦竟也來了耘戚?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤操漠,失蹤者是張志新(化名)和其女友劉穎收津,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體浊伙,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡撞秋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了嚣鄙。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吻贿。...
    茶點故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖哑子,靈堂內(nèi)的尸體忽然破棺而出舅列,到底是詐尸還是另有隱情,我是刑警寧澤卧蜓,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布帐要,位于F島的核電站,受9級特大地震影響弥奸,放射性物質(zhì)發(fā)生泄漏榨惠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一其爵、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧伸蚯,春花似錦摩渺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至挥萌,卻和暖如春绰姻,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背引瀑。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工狂芋, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人憨栽。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓帜矾,卻偏偏與公主長得像翼虫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子屡萤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容