fastqc質(zhì)控及multiqc整合使用記錄

fastqc使用比較方便的可以設(shè)置線程批量操作毅待,可以使用 MultiQC 綜合報(bào)告查看归榕。

git clone https://github.com/ewels/MultiQC.git
multiqc .

重點(diǎn)還是記錄一下fastqc的結(jié)果報(bào)告:

fastqc結(jié)果查看

1. 產(chǎn)生兩個(gè)結(jié)果文件:
html:網(wǎng)頁(yè)版結(jié)果
zip:本地結(jié)果壓縮文件

2.需要重點(diǎn)關(guān)注的結(jié)果:

  • Basic Statistics:**對(duì)數(shù)據(jù)量的概覽
  • Per base sequence quality:reads每個(gè)位置測(cè)序質(zhì)量最直接的展示
  • Per sequence quality scores:總體reads測(cè)序質(zhì)量趨勢(shì)
  • Per base sequence content:ATGC含量估計(jì)測(cè)序是否存在偏差
  • Sequence Duplication Levels]:影響測(cè)序的因素太多吱涉,查看是否存在污染,數(shù)據(jù)處理時(shí)是否需要去冗余特石;現(xiàn)在數(shù)據(jù)量都可以滿足需求鳖链,因此前期數(shù)據(jù)處理時(shí)姆蘸,盡量高標(biāo)準(zhǔn),嚴(yán)格質(zhì)控狂秦;。

3. 查看網(wǎng)頁(yè)版結(jié)果
網(wǎng)頁(yè)版結(jié)果頁(yè)面左上角是一個(gè)summary:

各種顏色是各項(xiàng)標(biāo)準(zhǔn)分析結(jié)果:綠色代表"PASS"裂问;
黃色代表"WARN"牛柒;紅色代表"FAIL"。

reads上每個(gè)位置堿基質(zhì)量
質(zhì)量分?jǐn)?shù)使用Fred quality椭更,Q=-10*log10(p)蛾魄,p為堿基測(cè)序錯(cuò)誤概率虑瀑。
橫軸堿基的位置畏腕,縱軸是質(zhì)量分?jǐn)?shù)。紅色表示中位數(shù)把夸,黃色是25%-75%區(qū)間,觸須是10%-90%區(qū)間恋日,藍(lán)線是平均數(shù)嘹狞。
平均每個(gè)堿基的測(cè)序質(zhì)量boxplot下四分位線在30分以上,則認(rèn)為測(cè)序質(zhì)量非常好磅网;一般情況下,reads首尾質(zhì)量較差涧偷。
若任一位置的下四分位數(shù)低于10或中位數(shù)低于25,報(bào)"WARN"喻鳄;
若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報(bào)"FAIL"除呵。

image

檢查reads中每一個(gè)堿基位置在不同的測(cè)序小孔之間的偏離度,藍(lán)色表示低于平均偏離度纠拔,偏離度小,質(zhì)量好绿语;越紅表示偏離平均質(zhì)量越多候址,質(zhì)量也越差吕粹。如果出現(xiàn)質(zhì)量問(wèn)題可能是短暫的岗仑,如有氣泡產(chǎn)生,也可能是長(zhǎng)期的稳其,如在某一小孔中存在殘骸炸卑,問(wèn)題不大既鞠。

每條序列的測(cè)序質(zhì)量分布
橫軸為序列測(cè)序質(zhì)量盖文,縱軸是reads數(shù)目。一般認(rèn)為90%的reads測(cè)序質(zhì)量在35分以上洒敏,則認(rèn)為該測(cè)序質(zhì)量非常好疙驾。
當(dāng)測(cè)序質(zhì)量峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)"WARN";
當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)"FAIL"。

統(tǒng)計(jì)reads每個(gè)位置ATCG四種堿基的分布:
橫軸為堿基位置它碎,縱軸為百分比。因?yàn)殡S機(jī)的文庫(kù)中傻挂,正常情況下所有位置出現(xiàn)某種堿基的概率是相近的,因此好的測(cè)序結(jié)果中四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí)蝉仇,即四條線在某些位置紛亂交織殖蚕,往往提示我們有overrepresented sequence的污染沉迹。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí),即四條線平行但分開(kāi)鞭呕,往往代表文庫(kù)有bias (建庫(kù)過(guò)程或本身特點(diǎn)),或者是測(cè)序中的系統(tǒng)誤差葫松。
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%,報(bào)"WARN"咕娄;
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%珊擂,報(bào)"FAIL"。

image

統(tǒng)計(jì)reads的平均GC含量分布
紅線是實(shí)際情況摧扇,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%扛稽,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)锡搜。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差瞧掺。

偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN"辟狈;偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"哼转。

統(tǒng)計(jì)reads每個(gè)位置N的比率
reads某個(gè)位置無(wú)法確定是何種堿基時(shí),使用N代替趟妥;
正常情況下,N的比例是很小的披摄,所以圖上常常看到一條直線疚膊,但放大Y軸之后會(huì)發(fā)現(xiàn)還是有N的存在,這不算問(wèn)題寓盗。當(dāng)Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時(shí),說(shuō)明測(cè)序系統(tǒng)出了問(wèn)題基显。
當(dāng)任意位置的N的比例超過(guò)5%喳张,報(bào)"WARN"续镇;
當(dāng)任意位置的N的比例超過(guò)20%销部,報(bào)"FAIL"。

reads長(zhǎng)度分布
為了防止建庫(kù)或者測(cè)序時(shí)有一些不規(guī)則長(zhǎng)度的序列也被進(jìn)行測(cè)序而進(jìn)行的一個(gè)對(duì)長(zhǎng)度的統(tǒng)計(jì)酱虎,當(dāng)所有序列的長(zhǎng)度不一樣,fastqc就會(huì)警告读串。
當(dāng)reads長(zhǎng)度不一致時(shí)報(bào)"WARN"撒妈;
當(dāng)有長(zhǎng)度為0的read時(shí)報(bào)“FAIL”。

統(tǒng)計(jì)reads重復(fù)水平
測(cè)序本身就會(huì)產(chǎn)生重復(fù)reads,測(cè)序深度越高,reads重復(fù)數(shù)越大狰右;如果重復(fù)出現(xiàn)峰值,就提示可能b存在偏差(如建庫(kù)過(guò)程中的PCR duplication)棋蚌。
橫坐標(biāo)是重復(fù)的次數(shù)嫁佳,縱坐標(biāo)是duplicated reads占unique reads種數(shù)百分比谷暮。

fastqc抽取reads文件前200,000條reads統(tǒng)計(jì)其重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計(jì)湿弦,這也是為什么我們看到上圖的最右側(cè)略有上揚(yáng)。大于75bp的reads只取50bp進(jìn)行比較蔬充。由于reads越長(zhǎng)錯(cuò)誤率越高,所以其重復(fù)程度仍有可能被低估娃惯。
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)肥败,報(bào)"WARN";
當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)馒稍,報(bào)"FAIL“。

過(guò)度重復(fù)出現(xiàn)的序列的統(tǒng)計(jì)信息(此次沒(méi)有)

Adapter序列在reads中出現(xiàn)概率
接頭序列統(tǒng)計(jì)证膨,>5%時(shí)是Warning鼓黔,>10%時(shí)是Failure。

過(guò)度重復(fù)的短序列統(tǒng)計(jì)
Kmer意為連指定長(zhǎng)度為K的序列崔步,默認(rèn)K=7缎谷,取值范圍2-10bp。
取前2%的序列進(jìn)行統(tǒng)計(jì)瑞你,序列長(zhǎng)度超過(guò)500bp的截取500bp來(lái)計(jì)算。


以上結(jié)果說(shuō)明文檔轉(zhuǎn)于
作者:eason
鏈接:http://www.reibang.com/p/835fd925d6ee

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末者甲,一起剝皮案震驚了整個(gè)濱河市润梯,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌纺铭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扫倡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡撵溃,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)集歇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)语淘,“玉大人,你說(shuō)我怎么就攤上這事惶翻。” “怎么了纺荧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵颅筋,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我议泵,道長(zhǎng),這世上最難降的妖魔是什么靶剑? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任池充,我火速辦了婚禮,結(jié)果婚禮上收夸,老公的妹妹穿的比我還像新娘。我一直安慰自己卧惜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布设凹。 她就那樣靜靜地躺著茅姜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上锄开,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天称诗,我揣著相機(jī)與錄音,去河邊找鬼寓免。 笑死,一個(gè)胖子當(dāng)著我的面吹牛再榄,可吹牛的內(nèi)容都是我干的享潜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼疾就,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼艺蝴!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起猜敢,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎鼠冕,沒(méi)想到半個(gè)月后胯盯,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體懈费,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡憎乙,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年叉趣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疗杉。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖椭蹄,靈堂內(nèi)的尸體忽然破棺而出闻牡,到底是詐尸還是另有隱情绳矩,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布割以,位于F島的核電站应媚,受9級(jí)特大地震影響严沥,放射性物質(zhì)發(fā)生泄漏中姜。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一翩瓜、第九天 我趴在偏房一處隱蔽的房頂上張望携龟。 院中可真熱鬧兔跌,春花似錦峡蟋、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)方灾。三九已至碌更,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間痛单,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工鸟妙, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人重父。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像矿辽,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子袋倔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容