Multiqc(轉(zhuǎn)錄組分析之質(zhì)量評(píng)估)

fastqc是一款基于java的軟件甘穿,能夠?qū)y(cè)序數(shù)據(jù)的質(zhì)量進(jìn)行評(píng)估。一個(gè)樣本生成一個(gè)報(bào)告梢杭,當(dāng)樣本量過多時(shí)温兼,逐一查看樣本質(zhì)量就稍顯不方便,multiqc是一個(gè)基于Python的模塊, 用于整合其它軟件的報(bào)告的軟件武契,能將fastqc生成的多個(gè)報(bào)告整合成一個(gè)報(bào)告的軟件募判,這樣能方便的查看所有測(cè)序數(shù)據(jù)的質(zhì)量。目前支持以下軟件結(jié)果的整合:

?Pre-alignment tools

Alignment tools

Post-alignment tools

multiqc的安裝:

在已經(jīng)安裝Anaconda的情況下咒唆,安裝MultiQC非常簡(jiǎn)單届垫,直接在shell命令面板中輸入以下命令:

conda install -c biocondamultiqc

multiqc的使用和常用參數(shù):

Usage:?multiqc[OPTIONS] <analysis directory>

?Options:

-f, --force?重寫已存在的報(bào)告

-s, --fullnames?保留樣本名稱

-o, --outdir TEXT?報(bào)告輸出路徑

-l, --file-list?提供包含搜索路徑列表的文檔(每行一個(gè))

-z, --zip-data-dir?壓縮數(shù)據(jù)目錄

-p, --export?將報(bào)告中的圖導(dǎo)出為靜態(tài)圖

? -fp, --flat????????????????? ??只使用平面圖(靜態(tài)圖)

-ip, --interactive?只使用動(dòng)圖(HighCharts Javascript)

--pdf?輸出PDF格式的報(bào)告(需要安裝Pandoc)

現(xiàn)在用最簡(jiǎn)單的命令整合fastqc的報(bào)告:

(multiqc+fastqc結(jié)果報(bào)告存放路徑+multiqc報(bào)告輸出路徑)

> multiqc /data/home/chj/fastqc_result -o/data/home/chj/multiqc_result

命令執(zhí)行完畢會(huì)生成1個(gè)html報(bào)告,直接網(wǎng)頁打開就可以查看和一個(gè)multiqc_data的文件夾全释,其中包含一些數(shù)據(jù)基本的統(tǒng)計(jì)信息和日志文檔装处。

multiqc整合的fastqc的報(bào)告包含以下幾個(gè)部分:

1?General Statistics:所有樣本數(shù)據(jù)基本情況統(tǒng)計(jì)

%Dups——重復(fù)reads的比例

%GC——GC含量占總堿基的比例,比例越小越好

Length——測(cè)序長度

M Seqs——總測(cè)序量(單位:millions)

2?Sequence Quality Histograms:每個(gè)read各位置堿基的平均測(cè)序質(zhì)量

橫坐標(biāo)——堿基的位置

縱坐標(biāo)——質(zhì)量分?jǐn)?shù)

質(zhì)量分?jǐn)?shù)=-10log10p(p代表錯(cuò)誤率)浸船,所以當(dāng)質(zhì)量分?jǐn)?shù)為40的時(shí)候妄迁,p就是0.0001寝蹈。此時(shí)說明測(cè)序質(zhì)量非常好。

綠色區(qū)間——質(zhì)量很好登淘,

橙色區(qū)間——質(zhì)量合理箫老。

紅色區(qū)間——質(zhì)量不好。

此處可以看出我的4個(gè)樣本在70個(gè)堿基后的測(cè)序質(zhì)量平均線落在紅色區(qū)間黔州,測(cè)序質(zhì)量不合格耍鬓。

3 PerSequence Quality Scores 具有平均質(zhì)量分?jǐn)?shù)的reads的數(shù)量

橫坐標(biāo)——平均序列質(zhì)量分?jǐn)?shù)

縱坐標(biāo)——reads數(shù)

綠色區(qū)間——質(zhì)量很好

橙色區(qū)間——質(zhì)量合理

紅色區(qū)間——質(zhì)量不好

當(dāng)峰值小于27時(shí)——warning

當(dāng)峰值小于20時(shí)——fail

由此圖中可以看出低質(zhì)量reads占整體reads的比例(估算各顏色區(qū)域曲線下面積)

圖中可以看出:4個(gè)樣本中有1個(gè)樣本的最高峰值在20左右,低質(zhì)量read數(shù)量占總體reads的比例大概在50%流妻,所以這個(gè)樣本的測(cè)序質(zhì)量是不合格的牲蜀。

4?Per Base Sequence Content??:每個(gè)read各位置堿基ATCG的比列

對(duì)所有reads的每一個(gè)位置,統(tǒng)計(jì)ATCG四種堿基的分布合冀,

橫坐標(biāo)——堿基位置各薇,

縱坐標(biāo)——樣本。

%T——紅色

%C——藍(lán)色

%A——綠色

%G——紫色

reads每個(gè)位置的顏色顯示由4種顏色的比例混合而成君躺,哪一個(gè)堿基的比例大峭判,則趨近于這個(gè)堿基所代表的顏色。

正常情況下每個(gè)位置每種堿基出現(xiàn)的概率是相近的棕叫。

如果ATGC在任何位置的差值大于10%——warning

如果ATGC在任何位置的差值大于20%——fail

由圖中可知:reads的前半部分大概11個(gè)bp左右的ATGC含量比例是非常不均勻的林螃,可能有過表達(dá)的序列的污染。

5?Per Sequence GC Content?:reads的平均GC含量

橫坐標(biāo)——GC含量百分比

縱坐標(biāo)——數(shù)量

正常的樣本的GC含量曲線會(huì)趨近于正態(tài)分布曲線俺泣,曲線形狀的偏差往往是由于文庫的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)疗认。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差。

偏離理論分布的reads超過15%時(shí)——warning

偏離理論分布的reads超過30%時(shí)——fail

6?Per Base N Content?:每條reads各位置N堿基含量比例

當(dāng)測(cè)序儀器不能辨別某條reads的某個(gè)位置到底是什么堿基時(shí)伏钠,就會(huì)產(chǎn)生“N”横漏,統(tǒng)計(jì)N的比率。正常情況下熟掂,N值非常小缎浇。

橫坐標(biāo)——read中的位置

縱坐標(biāo)——N的數(shù)量比

當(dāng)任意位置的N的比例超過5%——warning

當(dāng)任意位置的N的比例超過20%——fail

由圖中看出,有兩個(gè)樣本在70bp后的N堿基的含量大幅增加赴肚,甚至達(dá)到了80%素跺。

7?Sequence Duplication Levels:每個(gè)序列的相對(duì)重復(fù)水平

橫坐標(biāo):每個(gè)序列的相對(duì)重復(fù)水平

縱坐標(biāo):在文庫中的比例

當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)——warning

當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)——fail

測(cè)序深度越高,越容易產(chǎn)生一定程度的duplication誉券,這是正常的現(xiàn)象指厌,但如果duplication的程度很高,就提示我們可能有bias的存在踊跟。

8?Overrepresented sequences:文庫中過表達(dá)序列的比例

橫坐標(biāo)——過表達(dá)序列的比例

縱坐標(biāo)——樣本

過表達(dá)序列的比例>0.1%——warning

過表達(dá)序列的比例>1%——warning

?一條序列的重復(fù)數(shù)踩验,因?yàn)橐粋€(gè)轉(zhuǎn)錄組中有非常多的轉(zhuǎn)錄本,一條序列再怎么多也不太會(huì)占整個(gè)轉(zhuǎn)錄組的一小部分(比如1%),如果出現(xiàn)這種情況晰甚,不是這種轉(zhuǎn)錄本巨量表達(dá)衙传,就是樣品被污染决帖。這個(gè)模塊列出來大于全部轉(zhuǎn)錄組1%的reads序列厕九,但是因?yàn)橛玫氖乔?00,000條reads,所以其實(shí)參考意義不大地回。

9 Adapter Content 接頭含量

橫坐標(biāo)——堿基位置

縱坐標(biāo)——占序列的百分比

>5%——warning

>10%——fail

fastqc幫助我們檢測(cè)測(cè)序數(shù)據(jù)的質(zhì)量扁远,具體問題具體分析,后續(xù)我們還需要去除接頭和質(zhì)量不好的reads刻像,去污染等操作來進(jìn)行數(shù)據(jù)過濾畅买。

參考:

http://www.reibang.com/p/303de2c95239

http://www.reibang.com/p/14fd4de54402

https://blog.csdn.net/ada0915/article/details/77201871

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市细睡,隨后出現(xiàn)的幾起案子谷羞,更是在濱河造成了極大的恐慌,老刑警劉巖溜徙,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件湃缎,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蠢壹,警方通過查閱死者的電腦和手機(jī)嗓违,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來图贸,“玉大人蹂季,你說我怎么就攤上這事∈枞眨” “怎么了偿洁?”我有些...
    開封第一講書人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長沟优。 經(jīng)常有香客問我涕滋,道長,這世上最難降的妖魔是什么净神? 我笑而不...
    開封第一講書人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任何吝,我火速辦了婚禮,結(jié)果婚禮上鹃唯,老公的妹妹穿的比我還像新娘爱榕。我一直安慰自己,他們只是感情好坡慌,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開白布黔酥。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪跪者。 梳的紋絲不亂的頭發(fā)上棵帽,一...
    開封第一講書人閱讀 52,328評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音渣玲,去河邊找鬼逗概。 笑死,一個(gè)胖子當(dāng)著我的面吹牛忘衍,可吹牛的內(nèi)容都是我干的逾苫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼枚钓,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼铅搓!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起搀捷,我...
    開封第一講書人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤星掰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后嫩舟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體氢烘,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年至壤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了威始。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡像街,死狀恐怖黎棠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情镰绎,我是刑警寧澤脓斩,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站畴栖,受9級(jí)特大地震影響随静,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吗讶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一燎猛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧照皆,春花似錦重绷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽愤钾。三九已至,卻和暖如春候醒,著一層夾襖步出監(jiān)牢的瞬間能颁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來泰國打工倒淫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留伙菊,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓昌简,卻偏偏與公主長得像占业,于是被迫代替她去往敵國和親绒怨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子纯赎,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)錄組學(xué)習(xí)一(軟件安裝) 轉(zhuǎn)錄組學(xué)習(xí)二(數(shù)據(jù)下載) 轉(zhuǎn)錄組學(xué)習(xí)三(數(shù)據(jù)質(zhì)控) 轉(zhuǎn)錄組學(xué)習(xí)四(參考基因組及gt...
    Dawn_WangTP閱讀 20,592評(píng)論 3 34
  • 測(cè)序的世界很奇妙,不同的數(shù)據(jù)處理可能得出不同的結(jié)論南蹂,入門生信首先要做的就是了解你的數(shù)據(jù)還等什么犬金?跟我一起來探索吧~...
    劉小澤閱讀 25,042評(píng)論 13 182
  • Part1 數(shù)據(jù)下載 先去Korean Personal Genome Project下載了編號(hào)為KPGP-00...
    天秤座的機(jī)器狗閱讀 18,616評(píng)論 5 97
  • 8種特殊建庫測(cè)序 8種特殊建庫測(cè)序 1. RNA-seq 2. 外顯子測(cè)序 3. small RNA-seq 4....
    wangchuang2017閱讀 13,175評(píng)論 2 92
  • 當(dāng)下,很多應(yīng)屆畢業(yè)生都很糾結(jié)第一份工作“不舒服”“不喜歡”“不適應(yīng)”六剥。晚顷。該不該離開?我們可以聊一聊第一份工作的...
    楊慧summer閱讀 720評(píng)論 1 0