【RSS】[1] FastQC-Quality assessment (QA)

【RSS】RNA-seq step by step
這個RSS專題將step by step 記錄我學習RNA-seq的過程,僅供參考纽竣。

RNA-seq 學習資源(墻裂推薦):
https://lulab2.gitbook.io/teaching/part-iii.-ngs-data-analyses/2.rna-seq
https://github.com/mgonzalezporta/TeachingMaterial/blob/master/doc/12.qa.md

根據(jù)fastQC報告結(jié)果,去除測序質(zhì)量差的片段

  • fastQC的解讀-(詳見

得到fastQC報告以后茧泪,


image.png

解讀:

# 此圖中的橫軸是測序序列第1個堿基到第101個堿基
# 縱軸是質(zhì)量得分蜓氨,Q = -10*log10(error P)即20表示1%的錯誤率,30表示0.1%
# 圖中每1個boxplot队伟,都是該位置的所有序列的測序質(zhì)量的一個統(tǒng)計穴吹,上面的bar是90%分位數(shù),下面的bar是10%分位數(shù)嗜侮,箱子的中間的橫線是50%分位數(shù)港令,箱子的上邊是75%分位數(shù),下邊是25%分位數(shù)
# 圖中藍色的細線是各個位置的平均值的連線
# 一般要求此圖中锈颗,所有位置的10%分位數(shù)大于20,也就是我們常說的Q20過濾
# 所以上面的這個測序結(jié)果顷霹,需要把后面的87bp以后的序列切除,從而保證后續(xù)分析的正確性
# Warning 報警 如果任何堿基質(zhì)量低于10,或者是任何中位數(shù)低于25
# Failure 報錯 如果任何堿基質(zhì)量低于5,或者是任何中位數(shù)低于20

如前節(jié)所述击吱,fastq文件包含有關(guān)讀取序列質(zhì)量的信息淋淀。read中每個核苷酸的可靠性是用Phred質(zhì)量分數(shù)來衡量的,該分數(shù)表示錯誤的堿基調(diào)用的概率:(Phred = Q +33/64; 反應(yīng)reads質(zhì)量得分覆醇;計算過程 詳見

圖中縱軸是質(zhì)量得分朵纷,Q = -10*log10(error P)

式中,Q為質(zhì)量值叫乌,P為誤差概率柴罐,Phred quality score為20表示測序錯誤概率為1/100(即99%的準確率);

常常用Q20來過濾憨奸,Q20代表測序的reads 測序準確的概率為99%革屠;

如果再次檢查fastq文件,您將看到該信息不是以數(shù)字格式顯示的排宰,而是以一組字符編碼的似芝。
在過濾步驟 filter fastq 中,我們將使用讀取這些 ASCII 字符并將其轉(zhuǎn)換為質(zhì)量值quality values的工具板甘,因此我們需要首先確定數(shù)據(jù)中使用的編碼格式(是phred 33或phred 64)党瓮;

使用QA報告(在per base sequence quality section下)和Wikipedia條目中提供的FASTQ_format 的信息,您能猜出使用了哪種編碼格式嗎盐类?

實例:

某一次我的fastQC報告顯示:
測序儀器為--

image.png

根據(jù)FASTQ_format寞奸,查到Illumina1.9對應(yīng)的編碼格式為Phred+64:
image.png

正如我們所看到的呛谜,在處理高通量數(shù)據(jù)HTS data時,QA報告的可視化解釋是非常有用的實踐枪萄。然而隐岛,如果我們處理大量的數(shù)據(jù)(假設(shè)我們有1000個fastq文件要檢查!)瓷翻,這將成為一個非常乏味的任務(wù)聚凹。謝天謝地,F(xiàn)astQC的開發(fā)人員已經(jīng)想到了這一點齐帚。你能找出我們在這種情況下可以使用的這個軟件的其他輸出嗎妒牙?

答案是:在處理大量數(shù)據(jù)時,我們可以考慮解析同一輸出目錄中提供的純文本文件:summary.txt和fastqc_data.txt对妄。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末湘今,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子剪菱,更是在濱河造成了極大的恐慌象浑,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件琅豆,死亡現(xiàn)場離奇詭異,居然都是意外死亡篓吁,警方通過查閱死者的電腦和手機茫因,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來杖剪,“玉大人冻押,你說我怎么就攤上這事∈⒑伲” “怎么了洛巢?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長次兆。 經(jīng)常有香客問我稿茉,道長,這世上最難降的妖魔是什么芥炭? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任漓库,我火速辦了婚禮,結(jié)果婚禮上园蝠,老公的妹妹穿的比我還像新娘渺蒿。我一直安慰自己,他們只是感情好彪薛,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布茂装。 她就那樣靜靜地躺著怠蹂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪少态。 梳的紋絲不亂的頭發(fā)上城侧,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天,我揣著相機與錄音况增,去河邊找鬼赞庶。 笑死,一個胖子當著我的面吹牛澳骤,可吹牛的內(nèi)容都是我干的歧强。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼为肮,長吁一口氣:“原來是場噩夢啊……” “哼摊册!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起颊艳,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤茅特,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后棋枕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體白修,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年重斑,在試婚紗的時候發(fā)現(xiàn)自己被綠了兵睛。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡窥浪,死狀恐怖祖很,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情漾脂,我是刑警寧澤假颇,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站骨稿,受9級特大地震影響笨鸡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜啊终,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一镜豹、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蓝牲,春花似錦趟脂、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽已卸。三九已至,卻和暖如春硼一,著一層夾襖步出監(jiān)牢的瞬間累澡,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工般贼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留愧哟,地道東北人。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓哼蛆,卻偏偏與公主長得像蕊梧,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子腮介,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351