前言
現(xiàn)有比對工具在做mapping之前珠月,都需要下載對應(yīng)物種的參考基因組做index捞蛋,而如何選擇合適的參考基因組是一件非常重要的事情也颤。
現(xiàn)有的參考基因組存儲網(wǎng)站三個:
ENSEMBL
UCSC
NCBI
UCSC 的命名是hg/mm系列,之前最常用的就是hg19參考基因組了碳却。
ENSEMBL的命名規(guī)則則是采用GRCh/m的方式队秩,GRCh37對應(yīng)hg19,hg38對應(yīng)GRCh38追城。
現(xiàn)階段的話刹碾,我個人比較推崇從ENSEMBL上下載參考基因組和注釋文件燥撞,以homo sapiens為例座柱,https://asia.ensembl.org/Homo_sapiens/Info/Index可以查看現(xiàn)有的基因版本和一些配套的信息迷帜。
FTP地址為:ftp://ftp.ensembl.org/pub/release-92/,直接可以在目錄下download fasta文件和gtf文件色洞,選擇對應(yīng)的種屬即可戏锹。
fasta文件
ENSEMBL會存儲在多種形式fasta文件:
首先根據(jù)組裝的不同分為:
- .toplevel - Includes haplotype information (not sure how aligners deal with this)
- .primary_assembly - Single reference base per position
其實根據(jù)對序列的處理不同分為:
- dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)
- dna_rm - Repeats masked (converts repeats to to N's)
- dna - No masking
GTF文件
ftp://ftp.ensembl.org/pub/release-92/gtf/ 這個網(wǎng)址包含了常見物種的GTF文件,以homo sapiens為例火诸,
命名規(guī)則為:
The files are consistently named following this pattern: <species>.<assembly>.<version>.gtf.gz
# 需要注意的是锦针,.abinitio后綴的GTF文件包括了Genscan和其他工具預(yù)測得到的注釋信息,會全面一些置蜀。
For the predicted gene set, an additional abinitio flag is added to the name file.
但是我自己選擇的話奈搜,我傾向于使用Homo_sapiens.GRCh38.92.chr_patch_hapl_scaff.gtf.gz,因為在比對的時候fasta文件里面是帶有scaffold的信息的盯荤。
這邊我就不帶大家熟悉GTF的格式了馋吗。
需要注意,GENCODE 上的GTF文件和ENSEMBL的GTF文件的第一列是不一樣的秋秤,GENCODE的chr1在ENSEMBL上就是1宏粤。其余的地方是一樣的(針對human & mouse而言)。
問題
在比對的時候灼卢,我該選用哪一個類型的fasta文件呢绍哎?
當(dāng)然根據(jù)分析目的有不同選擇,這個時候你需要問自己幾個問題鞋真。
Repeat Masking
在NGS處理過程中崇堰,事實上我們并不需要使用一個標(biāo)記重復(fù)區(qū)域的基因組。標(biāo)記重復(fù)的基因組會用N代替重復(fù)區(qū)域涩咖,而這就給后續(xù)的比對帶來很大的問題赶袄,所以要避免使用dna_rm - Repeats masked (converts repeats to to N's)的參考基因組。而dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase)雖然也標(biāo)記出了參考基因組抠藕,但是以小寫的形式存在的饿肺,故對比對沒有影響。
這個問題問完了盾似,dna_rm - Repeats masked出局敬辣,余下兩者進(jìn)入下一個問題。
Primary or Toplevel零院?
簡單的回答就是說請選擇的primary版本铃岔,因為toplevel版本會包含haplotype信息,多余的信息會增加比對工具的工作宗弯,所以這里選擇primary就可以完成你的工作愤估。
多出來的chr_unkonw.....的信息是啥?
這是在構(gòu)建基因組時已知存在于基因組內(nèi)但是不知道位于哪條染色體上打洼,隨著注釋工作的進(jìn)展這些未知基因會越來越少龄糊。
結(jié)語
一些需要注意的小tips:
在下載完成后逆粹,別忘了去check一下md5
下載同一版本的fasta和gtf文件
保險考慮,不要使用一些比對工具建立好的Index炫惩,自己index一下也沒多久僻弹。
以下為高通量測序數(shù)據(jù)處理系列快速通道:
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(零):NGS分析如何選擇合適的參考基因組和注釋文件
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(一):比對軟件STAR的使用
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(二):Read Counts的提取
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(三):Pathway Analysis及GSEA
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(四):DeepTools學(xué)習(xí)筆記
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(五):上傳二代測序數(shù)據(jù)到GEO
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(六):什么是測序深度和測序覆蓋度?
高通量測序數(shù)據(jù)處理學(xué)習(xí)記錄(七):使用ChIPQC包檢查ChIP-seq的質(zhì)量