fastqc使用比較方便的可以設(shè)置線程批量操作毅待,可以使用 MultiQC 綜合報(bào)告查看归榕。
git clone https://github.com/ewels/MultiQC.git
multiqc .
重點(diǎn)還是記錄一下fastqc的結(jié)果報(bào)告:
fastqc結(jié)果查看
1. 產(chǎn)生兩個(gè)結(jié)果文件:
html:網(wǎng)頁(yè)版結(jié)果
zip:本地結(jié)果壓縮文件
2.需要重點(diǎn)關(guān)注的結(jié)果:
- Basic Statistics:**對(duì)數(shù)據(jù)量的概覽
- Per base sequence quality:reads每個(gè)位置測(cè)序質(zhì)量最直接的展示
- Per sequence quality scores:總體reads測(cè)序質(zhì)量趨勢(shì)
- Per base sequence content:ATGC含量估計(jì)測(cè)序是否存在偏差
- Sequence Duplication Levels]:影響測(cè)序的因素太多吱涉,查看是否存在污染,數(shù)據(jù)處理時(shí)是否需要去冗余特石;現(xiàn)在數(shù)據(jù)量都可以滿足需求鳖链,因此前期數(shù)據(jù)處理時(shí)姆蘸,盡量高標(biāo)準(zhǔn),嚴(yán)格質(zhì)控狂秦;。
3. 查看網(wǎng)頁(yè)版結(jié)果
網(wǎng)頁(yè)版結(jié)果頁(yè)面左上角是一個(gè)summary:
各種顏色是各項(xiàng)標(biāo)準(zhǔn)分析結(jié)果:綠色代表"PASS"裂问;
黃色代表"WARN"牛柒;紅色代表"FAIL"。
reads上每個(gè)位置堿基質(zhì)量
質(zhì)量分?jǐn)?shù)使用Fred quality椭更,Q=-10*log10(p)蛾魄,p為堿基測(cè)序錯(cuò)誤概率虑瀑。
橫軸堿基的位置畏腕,縱軸是質(zhì)量分?jǐn)?shù)。紅色表示中位數(shù)把夸,黃色是25%-75%區(qū)間,觸須是10%-90%區(qū)間恋日,藍(lán)線是平均數(shù)嘹狞。
平均每個(gè)堿基的測(cè)序質(zhì)量boxplot下四分位線在30分以上,則認(rèn)為測(cè)序質(zhì)量非常好磅网;一般情況下,reads首尾質(zhì)量較差涧偷。
若任一位置的下四分位數(shù)低于10或中位數(shù)低于25,報(bào)"WARN"喻鳄;
若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報(bào)"FAIL"除呵。
檢查reads中每一個(gè)堿基位置在不同的測(cè)序小孔之間的偏離度,藍(lán)色表示低于平均偏離度纠拔,偏離度小,質(zhì)量好绿语;越紅表示偏離平均質(zhì)量越多候址,質(zhì)量也越差吕粹。如果出現(xiàn)質(zhì)量問(wèn)題可能是短暫的岗仑,如有氣泡產(chǎn)生,也可能是長(zhǎng)期的稳其,如在某一小孔中存在殘骸炸卑,問(wèn)題不大既鞠。
每條序列的測(cè)序質(zhì)量分布
橫軸為序列測(cè)序質(zhì)量盖文,縱軸是reads數(shù)目。一般認(rèn)為90%的reads測(cè)序質(zhì)量在35分以上洒敏,則認(rèn)為該測(cè)序質(zhì)量非常好疙驾。
當(dāng)測(cè)序質(zhì)量峰值小于27(錯(cuò)誤率0.2%)時(shí)報(bào)"WARN";
當(dāng)峰值小于20(錯(cuò)誤率1%)時(shí)報(bào)"FAIL"。
統(tǒng)計(jì)reads每個(gè)位置ATCG四種堿基的分布:
橫軸為堿基位置它碎,縱軸為百分比。因?yàn)殡S機(jī)的文庫(kù)中傻挂,正常情況下所有位置出現(xiàn)某種堿基的概率是相近的,因此好的測(cè)序結(jié)果中四條線應(yīng)該平行且接近。當(dāng)部分位置堿基的比例出現(xiàn)bias時(shí)蝉仇,即四條線在某些位置紛亂交織殖蚕,往往提示我們有overrepresented sequence的污染沉迹。當(dāng)所有位置的堿基比例一致的表現(xiàn)出bias時(shí),即四條線平行但分開(kāi)鞭呕,往往代表文庫(kù)有bias (建庫(kù)過(guò)程或本身特點(diǎn)),或者是測(cè)序中的系統(tǒng)誤差葫松。
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)10%,報(bào)"WARN"咕娄;
當(dāng)任一位置的A/T比例與G/C比例相差超過(guò)20%珊擂,報(bào)"FAIL"。
統(tǒng)計(jì)reads的平均GC含量分布
紅線是實(shí)際情況摧扇,藍(lán)線是理論分布(正態(tài)分布,均值不一定在50%扛稽,而是由平均GC含量推斷的)。 曲線形狀的偏差往往是由于文庫(kù)的污染或是部分reads構(gòu)成的子集有偏差(overrepresented reads)锡搜。形狀接近正態(tài)但偏離理論分布的情況提示我們可能有系統(tǒng)偏差瞧掺。
偏離理論分布的reads超過(guò)15%時(shí),報(bào)"WARN"辟狈;偏離理論分布的reads超過(guò)30%時(shí),報(bào)"FAIL"哼转。
統(tǒng)計(jì)reads每個(gè)位置N的比率
reads某個(gè)位置無(wú)法確定是何種堿基時(shí),使用N代替趟妥;
正常情況下,N的比例是很小的披摄,所以圖上常常看到一條直線疚膊,但放大Y軸之后會(huì)發(fā)現(xiàn)還是有N的存在,這不算問(wèn)題寓盗。當(dāng)Y軸在0%-100%的范圍內(nèi)也能看到“鼓包”時(shí),說(shuō)明測(cè)序系統(tǒng)出了問(wèn)題基显。
當(dāng)任意位置的N的比例超過(guò)5%喳张,報(bào)"WARN"续镇;
當(dāng)任意位置的N的比例超過(guò)20%销部,報(bào)"FAIL"。
reads長(zhǎng)度分布
為了防止建庫(kù)或者測(cè)序時(shí)有一些不規(guī)則長(zhǎng)度的序列也被進(jìn)行測(cè)序而進(jìn)行的一個(gè)對(duì)長(zhǎng)度的統(tǒng)計(jì)酱虎,當(dāng)所有序列的長(zhǎng)度不一樣,fastqc就會(huì)警告读串。
當(dāng)reads長(zhǎng)度不一致時(shí)報(bào)"WARN"撒妈;
當(dāng)有長(zhǎng)度為0的read時(shí)報(bào)“FAIL”。
統(tǒng)計(jì)reads重復(fù)水平
測(cè)序本身就會(huì)產(chǎn)生重復(fù)reads,測(cè)序深度越高,reads重復(fù)數(shù)越大狰右;如果重復(fù)出現(xiàn)峰值,就提示可能b存在偏差(如建庫(kù)過(guò)程中的PCR duplication)棋蚌。
橫坐標(biāo)是重復(fù)的次數(shù)嫁佳,縱坐標(biāo)是duplicated reads占unique reads種數(shù)百分比谷暮。
fastqc抽取reads文件前200,000條reads統(tǒng)計(jì)其重復(fù)情況。重復(fù)數(shù)目大于等于10的reads被合并統(tǒng)計(jì)湿弦,這也是為什么我們看到上圖的最右側(cè)略有上揚(yáng)。大于75bp的reads只取50bp進(jìn)行比較蔬充。由于reads越長(zhǎng)錯(cuò)誤率越高,所以其重復(fù)程度仍有可能被低估娃惯。
當(dāng)非unique的reads占總數(shù)的比例大于20%時(shí)肥败,報(bào)"WARN";
當(dāng)非unique的reads占總數(shù)的比例大于50%時(shí)馒稍,報(bào)"FAIL“。
過(guò)度重復(fù)出現(xiàn)的序列的統(tǒng)計(jì)信息(此次沒(méi)有)
Adapter序列在reads中出現(xiàn)概率
接頭序列統(tǒng)計(jì)证膨,>5%時(shí)是Warning鼓黔,>10%時(shí)是Failure。
過(guò)度重復(fù)的短序列統(tǒng)計(jì)
Kmer意為連指定長(zhǎng)度為K的序列崔步,默認(rèn)K=7缎谷,取值范圍2-10bp。
取前2%的序列進(jìn)行統(tǒng)計(jì)瑞你,序列長(zhǎng)度超過(guò)500bp的截取500bp來(lái)計(jì)算。
以上結(jié)果說(shuō)明文檔轉(zhuǎn)于
作者:eason
鏈接:http://www.reibang.com/p/835fd925d6ee