新手,剛做完一個ChIP-Seq項目的分析,來記錄一下单芜,會分好幾篇。
首先是下機數(shù)據(jù)fastqc之后會生成一個html格式的報告枚冗,根據(jù)報告可以看出自己數(shù)據(jù)的特點缓溅,便于之后clean的參數(shù)設(shè)置。以下是fastqc(v0.11.5)報告的內(nèi)容說明(以自己的數(shù)據(jù)為例赁温,經(jīng)公司粗過濾后的下機數(shù)據(jù))有網(wǎng)上搜索到的也有自己的體會:
basic?statistics:
基本信息
Per base sequence quality:
堿基質(zhì)量坛怪,F(xiàn)red值=-10*log10(p);p為某堿基測錯的概率股囊,若quality是20則概率為0.01袜匿,一般集中在30-40;如圖橫軸代表位置稚疹,縱軸quality居灯。紅線表示中位數(shù),藍線是平均數(shù)内狗,觸須是10%-90%區(qū)間怪嫌,黃色是25%-75%區(qū)間(此圖沒有);若任一位置的下四分位數(shù)低于10或中位數(shù)低于25柳沙,報"WARN"岩灭;若任一位置的下四分位數(shù)低于5或中位數(shù)低于20,報"FAIL".
Per?tile Sequence Quality:
橫軸是位置赂鲤,縱軸是tile的index編號噪径,熱圖顏色淺代表質(zhì)量低柱恤。當某些tile出現(xiàn)暖色時,后續(xù)分析應(yīng)把該tail測序結(jié)果全部去除找爱。
這一模塊是檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度梗顺,藍色表示低于平均偏離度,越紅則說明偏離平均質(zhì)量方差越多车摄,也就是說質(zhì)量越差寺谤。如果出現(xiàn)質(zhì)量問題可能是短暫的,如有氣泡產(chǎn)生练般,也可能是長期的矗漾,如在某一小孔中存在殘骸。問題不大薄料。
per?sequence?quality?scores:
橫軸是質(zhì)量Q值敞贡,縱軸是對應(yīng)的reads數(shù)目。主要集中在高分摄职,證明測序質(zhì)量好誊役。
Per Base Sequence Content:
所有reads每一個位置的堿基分布」仁校縱軸為百分比蛔垢。ATCG出現(xiàn)的頻率應(yīng)該接近,且沒有位置差異迫悠,四條線應(yīng)該平行且接近鹏漆。當部分位置堿基的比例出現(xiàn)bias時,往往是有overrepresented sequence的污染创泄。當所有位置的堿基比例一致的表現(xiàn)出bias時艺玲,即四條線平行但分開,往往代表文庫有bias (建庫過程或本身特點)鞠抑,或者是測序中的系統(tǒng)誤差饭聚。 當任一位置的A/T比例與G/C比例相差超過10%,報"WARN"搁拙;當任一位置的A/T比例與G/C比例相差超過20%秒梳,報"FAIL"。
per?sequence GCcontent:
紅色是實際值箕速,若出現(xiàn)雙峰酪碘,則是混入了其它DNA。
per?base N?content:
測序儀不能分辨的堿基為N盐茎,若超過5%則WARN婆跑,超過20%則FAIL。
sequence?length?distribution:
理論上每次測序儀測出的read長度一致庭呜,但由于建庫等因素通常會導(dǎo)致一些小片段滑进,如果報FAIL,表明此次測序過程中產(chǎn)生的數(shù)據(jù)不可信募谎。未過濾之前如圖一扶关,clean之后會出現(xiàn)圖二,越短的reads越少数冬,不會正態(tài)分布节槐。
sequence?duplication?levels:
序列完全一致的reads的頻率。橫軸表示重復(fù)的次數(shù)拐纱,縱軸表示重復(fù)的reads的數(shù)目( 以unique reads的總數(shù)作為100%)铜异。一般測序深度越高,越容易產(chǎn)生一定程度的重復(fù)序列秸架。但是read越長越不容易完全重復(fù)(測序錯誤揍庄、偏差等原因),所以重復(fù)程度可能是低估的东抹。
overrepresented?sequences:
No蚂子。指有某個序列大量出現(xiàn)(fastqc的標準是0.1%以上)一般有在前面GC圖能看出來。
adapter?content:
橫軸表示堿基位置缭黔,縱軸表示百分比食茎。當fastqc分析時沒有選擇參數(shù)-a adapter list時,默認使用圖例中的4種通用adapter序列進行統(tǒng)計馏谨。若有adapter殘留别渔,后續(xù)必須去接頭。
Kmer?content:
某k個bp的短序列在reads中大量出現(xiàn)惧互。fastqc默認的k=5哎媚,可以通過-k --?kmers參數(shù)更改,范圍是2-10壹哺。出現(xiàn)圖一這種情況的原因要么是序列本身重復(fù)度高抄伍,比如建庫PCR的時候出現(xiàn)了Bias」芟或者adapter沒有除干凈截珍。clean之后前幾個堿基還有少數(shù)高頻也沒關(guān)系,不影響后續(xù)分析箩朴,可正常使用岗喉。
以上。
可以看出我這批數(shù)據(jù)質(zhì)量還是很好的炸庞,其實可以直接比對钱床,已經(jīng)是公司粗過濾之后的。但是我選擇了自己再過濾一遍埠居,下一個筆記會講查牌。