轉錄組練習(3)

原文地址:http://www.reibang.com/p/1174a53abe7d

作業(yè)要求

需要用安裝好的sratoolkit把sra文件轉換為fastq格式的測序文件,并且用fastqc軟件測試測序文件的質量损俭!

作業(yè)泳姐,理解測序reads,GC含量梧乘,質量值绊序,接頭茴迁,index孔飒,fastqc的全部報告灌闺,搜索中文教程,并發(fā)在論壇上面坏瞄。

來源于生信技能樹:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

實驗步驟

1. 將 sra 數(shù)據轉化成 fastq 格式(先把所有的sra放到一個文件夾里桂对,姑且命名為SRR,然后 cd ~/SRR進入這個文件夾)

for i in {56..62}

do

fastq-dump --gzip --split-3-O /Users/chengkai/Desktop/zhuanlu_files -A SRR35899${i}.sra

done

--gzip 壓縮格式為gzip

--split-3 如果是雙端測序輸出兩個文件鸠匀,如果不是只輸出一個文件

-0 輸出文件路徑

“/Users/chengkai/Desktop/zhuanlu_files” 這里改成你自己的文件路徑

-A 輸入文件路徑


搞定之后蕉斜,會生成兩個文件,列舉其中一個 SRR3589956.sra_1.fastq.gz

然后所有的文件再放入另外一個文件夾(姑且命名SRA)缀棍,然后在cd ~/SRA進入這個文件夾里面

for i in `seq 56 62`

> do

> fastqc SRR35899${i}.sra_1.fastq.gz

> done

或者 fastqc SRR35899${i}.sra_1.fastq.gz


質量解讀

html 格式用瀏覽器打開

基本信息

Enconding: 測序平臺版本號

Total Sequence: reads 的數(shù)量

Sequence length: 總的序列數(shù)

%GC GC比宅此,這個指標有物種意義,用于區(qū)別物種睦柴,一般人類42%

image.png

每個read各位置堿基的測序質量

橫軸堿基的位置(1-51)诽凌,縱軸是質量分數(shù)毡熏,20表示1%的錯誤率坦敌,30表示0.1%

紅色線代表中位數(shù),藍色代表平均數(shù)痢法,黃色是25%-75%區(qū)間狱窘,觸須是10%-90%區(qū)間

Warning 報警 如果任何堿基質量低于10,或者是任何中位數(shù)低于25

Failure 報錯 如果任何堿基質量低于5,或者是任何中位數(shù)低于20

image.png

偏離度

橫軸堿基的位置(1-51)

縱軸是tail的Index編號

檢查reads中每一個堿基位置在不同的測序小孔之間的偏離度,藍色代表偏離度小财搁,質量好蘸炸,越紅代表偏離度越大,質量越差尖奔。

這個圖主要是為了防止搭儒,在測序過程中穷当,某些tail受到不可控因素的影響而出現(xiàn)測序質量偏低

image.png

reads質量的分布

橫軸表示Q值,0-40

縱軸是每個值對應的reads數(shù)目

當峰值小于27時淹禾,警告馁菜;當峰值小于20時,fail铃岔。我的報告峰值在38

image.png

GC 含量統(tǒng)計

橫軸堿基的位置(1-51)

縱軸是堿基含量百分比

圖中四條線代表A T C G在每個位置平均含量

當部分位置堿基的比例出現(xiàn)bias時汪疮,即四條線在某些位置紛亂交織,往往提示我們有overrepresented sequence的污染毁习。

本結果前10個位置智嚷,每種堿基頻率有明顯的差別,說明有污染纺且。

當任一位置的A/T比例與G/C比例相差超過10%盏道,報"WARN";當任一位置的A/T比例與G/C比例相差超過20%隆檀,報"FAIL"

image.png

序列平均GC含量分布圖

橫軸是百分比摇天; 縱軸是每條序列GC含量對應的數(shù)量

藍色的線是程序根據經驗分布給出的理論值,紅色是真實值恐仑,兩個應該比較接近才比較好

當紅色的線出現(xiàn)雙峰泉坐,基本肯定是混入了其他物種的DNA序列

偏離理論分布的reads超過15%時,報"WARN"裳仆;偏離理論分布的reads超過30%時腕让,報"FAIL"

image.png

各位置N的reads比率

當測序儀器不能辨別某條reads的某個位置到底是什么堿基時,就會產生“N”歧斟,統(tǒng)計N的比率

正常情況下纯丸,N值非常小

當任意位置的N的比例超過5%,報"WARN"静袖;當任意位置的N的比例超過20%觉鼻,報"FAIL"

image.png

reads 長度分布

每次測序儀測出來的長度在理論上應該是完全相等的

當reads長度不一致時報"WARN";當有長度為0的read時報“FAIL”

當測序的長度不同時队橙,如果很嚴重坠陈,則表明測序儀在此次測序過程中產生的數(shù)據不可信

image.png

統(tǒng)計不同拷貝數(shù)的reads的頻率

橫坐標是duplication的次數(shù),縱坐標是duplicated reads的數(shù)目,以unique reads的總數(shù)作為100%

測序深度越高捐康,越容易產生一定程度的duplication仇矾,這是正常的現(xiàn)象,但如果duplication的程度很高解总,就提示我們可能有bias的存在

當非unique的reads占總數(shù)的比例大于20%時贮匕,報"WARN";當非unique的reads占總數(shù)的比例大于50%時花枫,報"FAIL"

image.png

image.png

接頭含量

此圖衡量的是序列中兩端adapter的情況

如果在當時fastqc分析的時候-a選項沒有內容刻盐,則默認使用圖例中的四種通用adapter序列進行統(tǒng)計

本例中adapter都已經去除掏膏,如果有adapter序列沒有去除干凈的情況,在后續(xù)分析的時候需要先使用cutadapt軟件進行去接頭

image.png

重復短序列

這個圖統(tǒng)計的是敦锌,在序列中某些特征的短序列重復出現(xiàn)的次數(shù)

我們可以看到1-8bp的時候圖例中的幾種短序列都出現(xiàn)了非常多的次數(shù)壤追,一般來說,出現(xiàn)這種情況供屉,要么是adapter沒有去除干凈行冰,而又沒有使用-a參數(shù);要么就是序列本身可能重復度比較高伶丐,如建庫PCR的時候出現(xiàn)了bias

對于這種情況悼做,我的辦法是可以cut掉前面的一些長度,可以試著cut 1bp

image.png

參考文獻

http://fbb84b26.wiz03.com/share/s/3XK4IC0cm4CL22pU-r1HPcQQ2irG2836uQYm2iZAyh1Zwf3_(青山屋主)

www.biotrainee.com/thread-2034-1-1.html(laofuzi)

http://www.reibang.com/p/14fd4de54402(lxmic)

https://zhuanlan.zhihu.com/p/20731723(孟浩巍)

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末哗魂,一起剝皮案震驚了整個濱河市肛走,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌录别,老刑警劉巖朽色,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異组题,居然都是意外死亡葫男,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門崔列,熙熙樓的掌柜王于貴愁眉苦臉地迎上來梢褐,“玉大人,你說我怎么就攤上這事赵讯∮龋” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵边翼,是天一觀的道長鱼响。 經常有香客問我,道長组底,這世上最難降的妖魔是什么丈积? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮斤寇,結果婚禮上桶癣,老公的妹妹穿的比我還像新娘拥褂。我一直安慰自己娘锁,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布饺鹃。 她就那樣靜靜地躺著莫秆,像睡著了一般间雀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上镊屎,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天惹挟,我揣著相機與錄音,去河邊找鬼缝驳。 笑死连锯,一個胖子當著我的面吹牛,可吹牛的內容都是我干的用狱。 我是一名探鬼主播运怖,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼夏伊!你這毒婦竟也來了摇展?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤溺忧,失蹤者是張志新(化名)和其女友劉穎咏连,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鲁森,經...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡祟滴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了歌溉。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片踱启。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖研底,靈堂內的尸體忽然破棺而出埠偿,到底是詐尸還是另有隱情,我是刑警寧澤榜晦,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布冠蒋,位于F島的核電站,受9級特大地震影響乾胶,放射性物質發(fā)生泄漏抖剿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一识窿、第九天 我趴在偏房一處隱蔽的房頂上張望斩郎。 院中可真熱鬧,春花似錦喻频、人聲如沸缩宜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锻煌。三九已至妓布,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間宋梧,已是汗流浹背匣沼。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留捂龄,地道東北人释涛。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像倦沧,于是被迫代替她去往敵國和親枢贿。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內容