背景
基因組測序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個(gè)重要手段,基因組的雜合度和重復(fù)序列對(duì)后續(xù)基因組組裝有很大的影響。高雜合的基因組往往無法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大煎源,而重復(fù)序列在組裝中會(huì)被折疊色迂,使組裝中出現(xiàn)缺口香缺、錯(cuò)誤,導(dǎo)致組裝的結(jié)果偏小歇僧。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大图张,因此在進(jìn)行基因組測序前往往需要對(duì)基因組的特征進(jìn)行調(diào)研,以確定測序方案诈悍,周期等祸轮。
Survey 是評(píng)估基因組基本信息的有效手段,對(duì)于沒有參考基因組的物種侥钳,對(duì)基因組信息有個(gè)明確的概念對(duì)后續(xù)的測序及組裝方案是很有必要的适袜。
通過survey我們可以知道如下信息:
- 基因組大小:決定測序策略和測序量
- 重復(fù)序列比例
- 雜合度:對(duì)于二倍體舷夺,兩組染色體會(huì)有差異
- GC含量:過高或過低的GC含量會(huì)導(dǎo)致測序偏向性(二代測序)
生成Kmer頻數(shù)表:jellyfish
基因組大小苦酱、雜合、重復(fù)估計(jì):GenomeScope2给猾、gce
jellyfish的使用
進(jìn)行Kmer計(jì)算
jellyfish count \
-t 4 \ #線程數(shù)
-C \ #統(tǒng)計(jì)正負(fù)鏈
-m 19 \ #Kmer大小
-s 1G \ #設(shè)置初始內(nèi)存大小
-g f1.fasta \ #輸出文件(多個(gè)文件輸入列表)
#-G 2 \ #多個(gè)文件解壓并行
-o Kmer_19 #輸出前綴
生成kmer頻數(shù)統(tǒng)計(jì)表
jellyfish histo \
-v \#生成日志
-o Kmer_19.histo \#指定輸出文件
-t 4 \#設(shè)置線程數(shù)
-h 10000 \ #設(shè)置 最大值
Kmer_19 #輸入文件
頻數(shù)表
統(tǒng)計(jì)kmer總數(shù)
jellyfish stats \
Kmer_19 \ #輸入文件
-o Kmer_19.stat #輸出文件
gce的使用
gce -f Kmer_19.histo \ # kmer頻數(shù)表
-c 170 \ # kmer深度
-H 0 \ # 啟用純合模式疫萤,1雜合模式
-g 725214236 \ # kmer總個(gè)數(shù)
-M 10000 >gce.table 2>gce.log #-M設(shè)置閾值
結(jié)果文件
GenomeScope2 的使用
genomescope.R \
-i Kmer_19.histo \
-o gs_out \
-p 1 \
-k 19\
-m 10000
結(jié)果文件
linear_plot.png
log_plot.png