原文地址:http://www.reibang.com/p/1174a53abe7d
作業(yè)要求
需要用安裝好的sratoolkit把sra文件轉換為fastq格式的測序文件,并且用fastqc軟件測試測序文件的質量损俭!
作業(yè)泳姐,理解測序reads,GC含量梧乘,質量值绊序,接頭茴迁,index孔飒,fastqc的全部報告灌闺,搜索中文教程,并發(fā)在論壇上面坏瞄。
來源于生信技能樹:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost
實驗步驟
1. 將 sra 數(shù)據轉化成 fastq 格式(先把所有的sra放到一個文件夾里桂对,姑且命名為SRR,然后 cd ~/SRR進入這個文件夾)
for i in {56..62}
do
fastq-dump --gzip --split-3-O /Users/chengkai/Desktop/zhuanlu_files -A SRR35899${i}.sra
done
--gzip 壓縮格式為gzip
--split-3 如果是雙端測序輸出兩個文件鸠匀,如果不是只輸出一個文件
-0 輸出文件路徑
“/Users/chengkai/Desktop/zhuanlu_files” 這里改成你自己的文件路徑
-A 輸入文件路徑
搞定之后蕉斜,會生成兩個文件,列舉其中一個 SRR3589956.sra_1.fastq.gz
然后所有的文件再放入另外一個文件夾(姑且命名SRA)缀棍,然后在cd ~/SRA進入這個文件夾里面
for i in `seq 56 62`
> do
> fastqc SRR35899${i}.sra_1.fastq.gz
> done
或者 fastqc SRR35899${i}.sra_1.fastq.gz
質量解讀
html 格式用瀏覽器打開
基本信息
Enconding: 測序平臺版本號
Total Sequence: reads 的數(shù)量
Sequence length: 總的序列數(shù)
%GC GC比宅此,這個指標有物種意義,用于區(qū)別物種睦柴,一般人類42%
image.png
每個read各位置堿基的測序質量
橫軸堿基的位置(1-51)诽凌,縱軸是質量分數(shù)毡熏,20表示1%的錯誤率坦敌,30表示0.1%
紅色線代表中位數(shù),藍色代表平均數(shù)痢法,黃色是25%-75%區(qū)間狱窘,觸須是10%-90%區(qū)間
Warning 報警 如果任何堿基質量低于10,或者是任何中位數(shù)低于25
Failure 報錯 如果任何堿基質量低于5,或者是任何中位數(shù)低于20
image.png
偏離度
橫軸堿基的位置(1-51)
縱軸是tail的Index編號
檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色代表偏離度小财搁,質量好蘸炸,越紅代表偏離度越大,質量越差尖奔。
這個圖主要是為了防止搭儒,在測序過程中穷当,某些tail受到不可控因素的影響而出現(xiàn)測序質量偏低
image.png
reads質量的分布
橫軸表示Q值,0-40
縱軸是每個值對應的reads數(shù)目
當峰值小于27時淹禾,警告馁菜;當峰值小于20時,fail铃岔。我的報告峰值在38
image.png
GC 含量統(tǒng)計
橫軸堿基的位置(1-51)
縱軸是堿基含量百分比
圖中四條線代表A T C G在每個位置平均含量
當部分位置堿基的比例出現(xiàn)bias時汪疮,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染毁习。
本結果前10個位置智嚷,每種堿基頻率有明顯的差別,說明有污染纺且。
當任一位置的A/T比例與G/C比例相差超過10%盏道,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%隆檀,報"FAIL"
image.png
序列平均GC含量分布圖
橫軸是百分比摇天; 縱軸是每條序列GC含量對應的數(shù)量
藍色的線是程序根據經驗分布給出的理論值,紅色是真實值恐仑,兩個應該比較接近才比較好
當紅色的線出現(xiàn)雙峰泉坐,基本肯定是混入了其他物種的DNA序列
偏離理論分布的reads超過15%時,報"WARN"裳仆;偏離理論分布的reads超過30%時腕让,報"FAIL"
image.png
各位置N的reads比率
當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產生“N”歧斟,統(tǒng)計N的比率
正常情況下纯丸,N值非常小
當任意位置的N的比例超過5%,報"WARN"静袖;當任意位置的N的比例超過20%觉鼻,報"FAIL"
image.png
reads 長度分布
每次測序儀測出來的長度在理論上應該是完全相等的
當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”
當測序的長度不同時队橙,如果很嚴重坠陈,則表明測序儀在此次測序過程中產生的數(shù)據不可信
image.png
統(tǒng)計不同拷貝數(shù)的reads的頻率
橫坐標是duplication的次數(shù),縱坐標是duplicated reads的數(shù)目,以unique reads的總數(shù)作為100%
測序深度越高捐康,越容易產生一定程度的duplication仇矾,這是正常的現(xiàn)象,但如果duplication的程度很高解总,就提示我們可能有bias的存在
當非unique的reads占總數(shù)的比例大于20%時贮匕,報"WARN";當非unique的reads占總數(shù)的比例大于50%時花枫,報"FAIL"
image.png
image.png
接頭含量
此圖衡量的是序列中兩端adapter的情況
如果在當時fastqc分析的時候-a選項沒有內容刻盐,則默認使用圖例中的四種通用adapter序列進行統(tǒng)計
本例中adapter都已經去除掏膏,如果有adapter序列沒有去除干凈的情況,在后續(xù)分析的時候需要先使用cutadapt軟件進行去接頭
image.png
重復短序列
這個圖統(tǒng)計的是敦锌,在序列中某些特征的短序列重復出現(xiàn)的次數(shù)
我們可以看到1-8bp的時候圖例中的幾種短序列都出現(xiàn)了非常多的次數(shù)壤追,一般來說,出現(xiàn)這種情況供屉,要么是adapter沒有去除干凈行冰,而又沒有使用-a參數(shù);要么就是序列本身可能重復度比較高伶丐,如建庫PCR的時候出現(xiàn)了bias
對于這種情況悼做,我的辦法是可以cut掉前面的一些長度,可以試著cut 1bp
image.png
參考文獻
http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2irG2836uQYm2iZAyh1Zwf3_(青山屋主)
www.biotrainee.com/thread-2034-1-1.html(laofuzi)