聲明:本文部分內(nèi)容和部分圖片來(lái)源于網(wǎng)絡(luò)。本文為生信小白學(xué)習(xí)筆記偶妖,不能保證專業(yè)名詞和內(nèi)容全部正確或權(quán)威甜滨。? ? ? ?
? ? ? ?下圖為某一條RNAseq從數(shù)據(jù)預(yù)處理女气,序列回帖到數(shù)據(jù)可視化的工作流程拇涤,包含了較多的軟件(Linux環(huán)境運(yùn)行)和若干個(gè)包(R語(yǔ)言環(huán)境運(yùn)行)捣作,本系列將按下圖,對(duì)每一個(gè)步驟進(jìn)行學(xué)習(xí)和理解鹅士。
FastQC可以生成fastq文件的質(zhì)量報(bào)告券躁。
Basic Statistics
從read水平,概況fastq文件質(zhì)量掉盅。
可從文件中獲得文件名也拜,文件類型,測(cè)試平臺(tái)的版本(Encoding)怔接,總序列數(shù)搪泳,標(biāo)為質(zhì)量差的序列數(shù),序列長(zhǎng)度和GC占比扼脐。不同物種GC占比不同岸军,人類為42%左右。
Per base sequence quality
? ? ? ?一種可快速分析測(cè)序質(zhì)量的方法瓦侮。綠色區(qū)域的值是完全正常艰赞,黃色區(qū)域?yàn)檩p度不正常,紅色區(qū)域?yàn)榉浅2徽肚吏!?/p>
? ? ? ?橫坐標(biāo)為讀段方妖,縱坐標(biāo)為測(cè)序質(zhì)量評(píng)估。這里的Quality score=-10*lg10(error P)罚攀,20%Q表示1%的錯(cuò)誤讀取率党觅,30%為0.1%錯(cuò)誤讀取率。黃色塊的上下線表示質(zhì)量25%和75%斋泄;藍(lán)色線杯瞻,平均數(shù);紅色線炫掐,中位數(shù)魁莉。
一般要求箱線圖10%的線大于Q=20。
Per tile sequence quality
縱坐標(biāo)為tail的index編號(hào)募胃。藍(lán)色表示質(zhì)量高旗唁,淺色或紅色表示質(zhì)量低。目的是分析是否特定tail受影響后質(zhì)量低痹束。后續(xù)可針對(duì)性去除低質(zhì)量tail检疫。
Per sequence quality scores
該圖表示總體read平均Q值的分布。橫坐標(biāo)為Q值参袱,縱坐標(biāo)為read數(shù)电谣。越多read的Q值集中在高分區(qū)秽梅,證明該樣品質(zhì)量越好。
Per base sequence content
四個(gè)堿基在讀段不同位置的百分比剿牺。橫坐標(biāo)是測(cè)試堿基的位置企垦,縱坐標(biāo)為堿基百分比。
理論上晒来,四種不同堿基百分比差別不大钞诡,若測(cè)試堿基前端不同堿基差別較大(AT或CG差別超過(guò)10%),此項(xiàng)檢測(cè)質(zhì)量較低湃崩∮担可能的原因是在測(cè)試前幾個(gè)堿基時(shí),儀器設(shè)備調(diào)整導(dǎo)致的偏差攒读,可在后續(xù)數(shù)據(jù)預(yù)處理中朵诫,將其剪出。后段差別較大的原因可能是測(cè)試時(shí)的adapter沒(méi)有清除干凈薄扁,可在后續(xù)清除剪返。
Per sequence GC content
該圖表示GC堿基在所有序列中的分布。紅色線表示待評(píng)估樣品中每read的GC數(shù)邓梅,越符合理論分布脱盲,表明該樣品質(zhì)量越好。如果雙峰日缨,可能混有了其他物種的DNA序列钱反。
Sequence Length Distribution
橫坐標(biāo)為序列長(zhǎng)度,縱坐標(biāo)為序列數(shù)匣距。在下圖中面哥,理論上,所有序列都應(yīng)該是40 bp毅待。
Adapter Content
檢測(cè)樣品中adapter是否被全部去除及種類幢竹。理論上,樣品中不含有adapter恩静。從下圖中,可看出本樣品有adapter未全部去除蹲坷,且剩余的是Illumina Universal Adapter
MultiQC可將數(shù)個(gè)fastQC結(jié)果整合到一個(gè)文件驶乾,方便查閱分析。
Adatpter & kmer
? ? ? ?Adapter是Illumina雙端測(cè)序時(shí)循签,會(huì)在待測(cè)鏈兩端加上adapter级乐,其和flowcell上的oligo是配對(duì)的,可幫助待測(cè)序列固定在flowcell上县匠,而primer是擴(kuò)增insert部分的引物风科。
在Illumina雙端測(cè)序中撒轮,通用的Adapter是:
Top adapter:5' ACACTCTTTCCCTACACGACGCTCTTCCGATC*T 3'
Bottom adapter:5' P-GATCGGAAGAGCGGTTCAGCAGGAATGCCGAG 3'
? ? ? ?Kmer就是指 k 長(zhǎng)度的序列,比如GATTC就是5-mer贼穆。Kmer content圖(如下圖)分析不同k-mer的短序列出現(xiàn)的頻數(shù)题山。橫坐標(biāo)表示短序列的長(zhǎng)度,縱坐標(biāo)表示某長(zhǎng)度的序列在總reads中的百分比故痊。
? ? ? ?在分析Kmer問(wèn)題時(shí)顶瞳,要考慮不同序列長(zhǎng)度觀測(cè)到的出現(xiàn)頻率與預(yù)期頻率。使用圖片上端的公式計(jì)算觀測(cè)值與預(yù)測(cè)值的差異愕秫。其值高于5慨菱,會(huì)被認(rèn)為over-represented。同時(shí)戴甩,fastQC也會(huì)給出kmer的統(tǒng)計(jì)報(bào)告符喝。可得到最顯著且觀測(cè)值與預(yù)測(cè)值差異最大的kmer序列內(nèi)容甜孤。