【RSS】RNA-seq step by step
這個RSS專題將step by step 記錄我學習RNA-seq的過程,僅供參考纽竣。
RNA-seq 學習資源(墻裂推薦):
https://lulab2.gitbook.io/teaching/part-iii.-ngs-data-analyses/2.rna-seq
https://github.com/mgonzalezporta/TeachingMaterial/blob/master/doc/12.qa.md
根據(jù)fastQC報告結(jié)果,去除測序質(zhì)量差的片段
- fastQC的解讀-(詳見)
得到fastQC報告以后茧泪,
解讀:
# 此圖中的橫軸是測序序列第1個堿基到第101個堿基
# 縱軸是質(zhì)量得分蜓氨,Q = -10*log10(error P)即20表示1%的錯誤率,30表示0.1%
# 圖中每1個boxplot队伟,都是該位置的所有序列的測序質(zhì)量的一個統(tǒng)計穴吹,上面的bar是90%分位數(shù),下面的bar是10%分位數(shù)嗜侮,箱子的中間的橫線是50%分位數(shù)港令,箱子的上邊是75%分位數(shù),下邊是25%分位數(shù)
# 圖中藍色的細線是各個位置的平均值的連線
# 一般要求此圖中锈颗,所有位置的10%分位數(shù)大于20,也就是我們常說的Q20過濾
# 所以上面的這個測序結(jié)果顷霹,需要把后面的87bp以后的序列切除,從而保證后續(xù)分析的正確性
# Warning 報警 如果任何堿基質(zhì)量低于10,或者是任何中位數(shù)低于25
# Failure 報錯 如果任何堿基質(zhì)量低于5,或者是任何中位數(shù)低于20
如前節(jié)所述击吱,fastq文件包含有關(guān)讀取序列質(zhì)量的信息淋淀。read中每個核苷酸的可靠性是用Phred質(zhì)量分數(shù)來衡量的,該分數(shù)表示錯誤的堿基調(diào)用的概率:(Phred = Q +33/64; 反應(yīng)reads質(zhì)量得分覆醇;計算過程 詳見)
圖中縱軸是質(zhì)量得分朵纷,Q = -10*log10(error P)
式中,Q為質(zhì)量值叫乌,P為誤差概率柴罐,Phred quality score為20表示測序錯誤概率為1/100(即99%的準確率);
常常用Q20來過濾憨奸,Q20代表測序的reads 測序準確的概率為99%革屠;
如果再次檢查fastq文件,您將看到該信息不是以數(shù)字格式顯示的排宰,而是以一組字符編碼的似芝。
在過濾步驟 filter fastq 中,我們將使用讀取這些 ASCII 字符并將其轉(zhuǎn)換為質(zhì)量值quality values的工具板甘,因此我們需要首先確定數(shù)據(jù)中使用的編碼格式(是phred 33或phred 64)党瓮;
使用QA報告(在per base sequence quality section下)和Wikipedia條目中提供的FASTQ_format 的信息,您能猜出使用了哪種編碼格式嗎盐类?
實例:
某一次我的fastQC報告顯示:
測序儀器為--
根據(jù)FASTQ_format寞奸,查到Illumina1.9對應(yīng)的編碼格式為Phred+64:
正如我們所看到的呛谜,在處理高通量數(shù)據(jù)HTS data時,QA報告的可視化解釋是非常有用的實踐枪萄。然而隐岛,如果我們處理大量的數(shù)據(jù)(假設(shè)我們有1000個fastq文件要檢查!)瓷翻,這將成為一個非常乏味的任務(wù)聚凹。謝天謝地,F(xiàn)astQC的開發(fā)人員已經(jīng)想到了這一點齐帚。你能找出我們在這種情況下可以使用的這個軟件的其他輸出嗎妒牙?
答案是:在處理大量數(shù)據(jù)時,我們可以考慮解析同一輸出目錄中提供的純文本文件:summary.txt和fastqc_data.txt对妄。