基因組Survey(二代測序數(shù)據(jù)質(zhì)控)

2021-06-26

一. 為什么要做基因組Survey?

Survey分析要做什么數(shù)據(jù)準備急膀?
(1)QC方法介紹
(2)NT方法介紹

1.為什么要進行Survey分析帽氓?
2.Survey分析數(shù)據(jù)準備
3.Survey 數(shù)據(jù)質(zhì)控軟件
4.重點總結(jié)

1.為什么要進行Survey分析(目的)?
1.1 Survey方案
  • 通過質(zhì)控分瘾、NT比對朴肺,獲得高質(zhì)量的clean data,為后續(xù)分析奠定良好基礎聪轿;
  • 基因組Survey基于小片段文庫的低深度測序數(shù)據(jù)(50X)左右;
  • 通過K-mer分析猾浦,有效的評估基因組大小陆错、GC含量、雜合度以及重復序列的含量等信息金赦;
  • 全面了解某一物種基因組特征的有效方法危号;
  • 為后續(xù)的全基因denove測序的組裝策略的制定提供理論依據(jù)。
Survey.png
1.2 基因組復雜度預估
  • 普通基因組的定義素邪?
    答:單倍體、純合二倍體或者雜合度<0.5%猪半,且重復序列含量<50%兔朦,GC含量為35%到65%之間的二倍體。
  • 復雜基因組的定義磨确?
    答:雜合度>0.5%沽甥,重復序列含量>50%,多倍體乏奥,GC含量處于異常的范圍(GC含量<35%或者GC含量>65%的二倍體)摆舟。
  • 二倍體復雜基因組進一步細分為
    微雜合基因組(0.5%<雜合率<=0.8%)
    高雜合基因組(雜合率>0.8%)
    高重復基因組(重復序列比例>50%)
  • 基因組大小:
    基因組越大邓了,測序花錢越多
二恨诱、Survey分析數(shù)據(jù)準備?
2.1 Survey分析需要準備的數(shù)據(jù)骗炉?
二代.png
2.2 Survey測序數(shù)據(jù)質(zhì)量值說明:

堿基的質(zhì)量都是以ASCII值表示的照宝,根據(jù)測序時采用的質(zhì)量方案的不同,計算十進制的質(zhì)量值的方法也有所區(qū)別句葵,常見的計算方法如下所示:
展示方式:Phred+33和Phred+64厕鹃,這里的33和64就是指ASCII值轉(zhuǎn)換為得分該減去的數(shù)值
(1)Phred+64:質(zhì)量字符的ASCII值 -64
(2)Phred+33: 質(zhì)量字符的ASCII值 -33
Illumina 測序堿基質(zhì)量值的范圍是[0,40],即ASCII值表示為[B,h] 戒 [#,I]乍丈。
Illumina 測序錯誤率不測序質(zhì)量值簡明對應關系剂碴。具體地,如果測序錯誤率用 E 表示轻专,Illumina 堿基質(zhì)量值用 Q 表示忆矛,則有如下關系 : Q = -10 log10(E)。

三请垛、 Survey數(shù)據(jù)質(zhì)控軟件洪碳?
3.1 質(zhì)控流程:
流程.png

各提出10000對比對到NT庫递览,如果都比對到同源物種,說明無污染瞳腌,如果比對到細菌真菌绞铃,可能數(shù)據(jù)有污染。

3.2 質(zhì)控軟件-trimmomatic
#wget下載二進制文件
wget http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
#解壓縮Trimmomatic-0.39.zip文件
unzip Trimmomatic-0.39.zip
#Trimmomatic 質(zhì)控用法
#根據(jù)單端測序和雙端測序兩種模式,Trimmomatic軟件也有兩種質(zhì)控用法
#1. SE 模式
#SE模式下挑宠,只有一個輸入文件和一個質(zhì)控后的輸出文件菲盾,運行命令如下:
java -jar <path to trimmomatic jar> SE [-threads <threads>] [-phred33 | -phred64] [-trimlog <logFile>] <input> <output> <step 1> ...表示每一步的質(zhì)控參數(shù)
#2. PE模式
java -jar <path to trimmomatic.jar> PE [-threads <threads] [-phred33 | -phred64] [-trimlog <logFile>] <input 1> <input 2> <paired output 1> <unpaired output 1> <paired output 2> <unpaired output 2> <step 1>...
#實操
fq1=XX1_H3J2NDMXX_L1_1.clean.fq.gz
fq2=XX1_H3J2NDMXX_L1_2.clean.fq.gz
java -jar Trimmomatic-0.39/trimmomatic-0.39.jar \
PE \
-threads 16 \
-validatePairs $fq1 $fq2 \
#ILLUMINACLIP:BGI-SEQ-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15  AVGQUAL:20 MINLEN:36 \
ILLUMINACLIP:Trimmomatic-0.39/adapters/TruSeq3-PE.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 AVGQUAL:20 MINLEN:36 \
-baseout ./pop_clean.fastq.gz
#輸出結(jié)果
pop_clean_1P.fastq.gz pop_clean_1U.fastq.gz pop_clean_2P.fastq.gz pop_clean_2U.fastq.gz
3.3 Trimmomatic的相關參數(shù)
Trimmomatic 過濾數(shù)據(jù)的步驟不命令行中過濾參數(shù)的順序有關,通常的過濾步驟如下:
0.threads:設置線程數(shù)目各淀,多線程運行
1.ILLUMINACLIP: 過濾 reads 中的 Illumina 測序接頭和引物序列
2.SLIDINGWINDOW: 從 reads 的 5' 端開始懒鉴,迚行滑窗質(zhì)量過濾,切掉堿基質(zhì)量平均值低于閾值的滑窗碎浇。
3.MAXINFO: 一個自動調(diào)整的過濾選項临谱,在保證 reads 長度的情況下盡量降低測序錯誤率,最大化 reads 的使用價值奴璃。
4.LEADING: 從 reads 的開頭切除質(zhì)量值低于閾值的堿基悉默。
5.TRAILING: 從 reads 的末尾開始切除質(zhì)量值低于閾值的堿基。
6.CROP: 從 reads 的末尾切掉部分堿基使得 reads 達到指定長度苟穆。
7.HEADCROP: 從 reads 的開頭切掉指定數(shù)量的堿基抄课。
8.MINLEN: 如果經(jīng)過剪切后 reads 的長度低于閾值則丟棄這條 reads。
9.AVGQUAL: 如果 reads 的平均堿基質(zhì)量值低于閾值則丟棄這條 reads雳旅。
10.TOPHRED33: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-33跟磨。
11.TOPHRED64: 將 reads 的堿基質(zhì)量值體系轉(zhuǎn)為 phred-64。
最新的版本并不用選擇10或者11攒盈,它自己會識別格式吱晒,自動選擇
3.4 質(zhì)控報告生成軟件fastqc下載、安裝與使用
# fastqc下載 版本FastQC v0.11.9
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip #解壓
cd FastQC
chmod 755 ./fastqc
#調(diào)用方式
./fastqc -o outdir -t threads fastq1 fastq2 
  • QC報告展示


    1.png

    2.png

    3.png

    4.png

    5.png

    6.png

    7.png

    8.png
3.5 NT數(shù)據(jù)庫比對

1.NT庫
Partially non-redundant nucleotide from all traditional divisions of GenBank, EMBL, and DDBJ excluding GSS,STS, PAT, EST, HTG, and WGS.


image.png

2.NT比對
軟件:BLAST
The Basic Local Alignment Search Tool (BLAST) is the most widely used sequence similarity tool. There are versions of BLAST that compare protein queries to protein databases, nucleotide queries to nucleotide databases, as well as versions that translate nucleotide queries or databases in all six frames and compare to protein databases or queries.

blastn \
-query reads_2.fa \
-db /local_data1/public_data/database/genome_DB/nt/20190417_all/nt \
-out reads_2.csv \
-outfmt "10 evalue length qseqid qlen qstart qend sacc slen sstart send pident nident sstrand qcovs qseq sseq sgi stitle" \
-num_threads 4 -evalue 1e-5 -max_target_seqs 1

3.NT比對結(jié)果文件統(tǒng)計


image.png
  • 例子:NT比對沦童,得到對應的NT序列信息仑濒,分類動物,植物偷遗,真菌墩瞳,細菌等
  • 一般查看前20行比例最大的
  • 也可能出現(xiàn)比對丌上NT庫,那就是NT庫并沒收錄該物種信息
四氏豌、總結(jié)
4.1 為什么要做qc喉酌?

因為實驗過程丌可知,物種特性難量化,數(shù)據(jù)通過qc泪电,可以做到量化展示數(shù)據(jù)般妙,從數(shù)據(jù)分析相關信
息,同時為后續(xù)Kmer分析做準備相速,獲取一個準確的基因組預估情況碟渺。

4.2 qc結(jié)果和NT結(jié)果需要重視哪些部分?

污染問題最重要突诬,數(shù)據(jù)報告上面如果出現(xiàn)測序質(zhì)量低苫拍,測序效果丌好,往往從展示圖可以明確看到旺隙,
但是污染的問題有可能是共生菌绒极,細胞器,實驗污染蔬捷,樣本污染垄提,這些信息丌僅僅是從NT比對和gc峰
了解,更要結(jié)合物種特性來展開連鎖分析周拐。比如一些帶病昆蟲會有共生菌铡俐,一些哺乳動物也有相關細
菌。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末速妖,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子聪黎,更是在濱河造成了極大的恐慌罕容,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稿饰,死亡現(xiàn)場離奇詭異锦秒,居然都是意外死亡,警方通過查閱死者的電腦和手機喉镰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進店門旅择,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人侣姆,你說我怎么就攤上這事生真。” “怎么了捺宗?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵柱蟀,是天一觀的道長。 經(jīng)常有香客問我蚜厉,道長长已,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮术瓮,結(jié)果婚禮上康聂,老公的妹妹穿的比我還像新娘。我一直安慰自己胞四,他們只是感情好恬汁,可當我...
    茶點故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著撬讽,像睡著了一般蕊连。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上游昼,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天甘苍,我揣著相機與錄音,去河邊找鬼烘豌。 笑死载庭,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的廊佩。 我是一名探鬼主播囚聚,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼标锄!你這毒婦竟也來了顽铸?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤料皇,失蹤者是張志新(化名)和其女友劉穎谓松,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體践剂,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡鬼譬,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了逊脯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片优质。...
    茶點故事閱讀 39,696評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖军洼,靈堂內(nèi)的尸體忽然破棺而出巩螃,到底是詐尸還是另有隱情,我是刑警寧澤匕争,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布牺六,位于F島的核電站,受9級特大地震影響汗捡,放射性物質(zhì)發(fā)生泄漏淑际。R本人自食惡果不足惜畏纲,卻給世界環(huán)境...
    茶點故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望春缕。 院中可真熱鬧盗胀,春花似錦、人聲如沸锄贼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宅荤。三九已至屑迂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間冯键,已是汗流浹背惹盼。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留惫确,地道東北人手报。 一個月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像改化,于是被迫代替她去往敵國和親掩蛤。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容