關(guān)于參考基因組和注釋

常用的參考基因組數(shù)據(jù)庫(kù):

1嗡贺、Ensembl

是由European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目喇勋。涵蓋大量物種的參考基因組信息冬念,并且數(shù)據(jù)更新及時(shí)题涨,是參考基因組下載的好選擇缅茉。

http://www.ensembl.org/index.html

2车酣、NCBI

是National Center for Biotechnology Information的縮寫外遇,指美國(guó)國(guó)立生物技術(shù)信息中心。

http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data

3簿训、UCSC

由University of California Santa Cruz(UCSC)創(chuàng)立和維護(hù)咱娶,主要包含了人類、小鼠强品、果蠅等多種常見動(dòng)物的基因組信息。

http://genome.ucsc.edu

4屈糊、FlyBase

整合了果蠅遺傳和基因組數(shù)據(jù)的榛,并提供了基因和分子水平的檢索和可視化。

http://flybase.org/

5逻锐、illumina的iGenomes打包了各物種齊全的參考數(shù)據(jù)信息夫晌。

https://support.illumina.com/sequencing/sequencing_software/igenome.html

以果蠅為例


一般在三個(gè)網(wǎng)站下載參考基因組:Ensembl雕薪、NCBI和UCSC:

參考基因組:對(duì)于人類來說,目前比較常用的參考基因組有hg19晓淀、hg38所袁、GRCh37、GRCh38凶掰。hg系列是UCSC的叫法燥爷,GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一樣的懦窘,hg19對(duì)應(yīng)GRCh37前翎,hg38對(duì)應(yīng)GRCh38。

注釋文件:三個(gè)來源同一版本的DNA序列雖然相同畅涂,但是它們的注釋是不同的港华,更新頻率也不一樣。NCBI 的注釋是refseq數(shù)據(jù)集午衰,UCSC 和 Ensembl 注釋都將其作為自己的一個(gè)子集立宜,如UCSC 的refGene。而UCSC 的注釋比較混亂臊岸,同樣ID的基因會(huì)出現(xiàn)在不同鏈或不同染色體位置上橙数。Ensembl的注釋通常比UCSC更多(例如snRNA、miRNA扇单、假基因商模,所以噪音更多一點(diǎn)),但是ID處理比較好蜘澜,所以ID更容易進(jìn)行轉(zhuǎn)換施流。Ensembl還經(jīng)常更新它的注釋,更新一次作為一個(gè)版本發(fā)布鄙信。不同的來源的基因組序列名稱不一樣瞪醋,1號(hào)染色體在 UCSC 中是 chr1,而在 Ensembl的基因組和GTF文件中是1装诡。使用時(shí)序列和注釋要統(tǒng)一银受,UCSC的基因組序列需要對(duì)應(yīng)使用UCSC的gtf/gff3注釋文件,Ensembl則對(duì)應(yīng)使用其同一版本對(duì)應(yīng)的gtf/gff3注釋文件鸦采。GeneCode(http://www.gencodegenes.org/)也可以下載人類和小鼠的基因注釋文件宾巍。

選擇注釋資源應(yīng)遵循的原則:當(dāng)進(jìn)行強(qiáng)調(diào)可重復(fù)性和穩(wěn)健的基因表達(dá)估計(jì)的研究時(shí),優(yōu)先選較為簡(jiǎn)單的基因組注釋渔伯,如 RefGene顶霞。當(dāng)進(jìn)行更具探索性的研究時(shí),更全面的注釋更優(yōu)锣吼,比如選擇Ensembl选浑。而UCSC則不太建議使用蓝厌。



參考基因組:

2種組裝形式:

toplevel - Includes haplotype information 包含了單倍體型和patch信息。單倍體型的信息會(huì)使得比對(duì)軟件如STAR/hisat2/bowtie2(除了BWA)很難處理好古徒。

primary_assembly - Single reference base per position 每個(gè)位置只有一個(gè)參考?jí)A基拓提。適合用于序列相似性搜索。STAR推薦使用Ensembl primary_assembly參考基因組隧膘。

3種重復(fù)序列處理方式:

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 將重復(fù)核苷酸轉(zhuǎn)換為小寫代态。主要的比對(duì)軟件如BWA、bowtie2等都忽略這些soft-mask舀寓,直接把小寫字母當(dāng)做大寫字母比對(duì)胆数。

dna_rm - Repeats masked (converts repeats to to N’s) 用N代替重復(fù)區(qū)域和低復(fù)雜區(qū)。會(huì)給后續(xù)的比對(duì)帶來很大的問題互墓,不建議選用必尼。

dna - No masking 不標(biāo)記重復(fù)序列。推薦使用篡撵。


注釋文件gtf/gff3:

.gtf - 對(duì)應(yīng)primary assembly.fa判莉。包含全部的注釋,除了human和mouse這兩個(gè)物種只包含primary assembly(不包含patch and haplotype)育谬。

.chr.gtf - 只含染色體上的注釋券盅,不包含toplevel scaffolds(patch and haplotypes)。

.chr_patch_hapl_scaff - 對(duì)應(yīng)toplevel膛檀。只出現(xiàn)在human和mouse這兩個(gè)物種中锰镀,包含全部注釋(包括patch and haplotype)。也可以用咖刃。

.abinitio.gtf - 基于.gtf增加了使用Genscan和其他abinitio prediction tools得到的一些注釋信息泳炉。

推薦:

人類:Ensembl的primary_assembly,dna(或dna_sm效果相同)嚎杨,以及對(duì)應(yīng)的.gtf(或.chr_patch_hapl_scaff含有其它信息)花鹅。

果蠅:Ensembl的toplevel,dna(或dna_sm效果相同)枫浙,以及對(duì)應(yīng)的.gtf刨肃。


GTF(General Transfer Format):即GFF2。GTF是GFF便于傳輸版箩帚。分為9列真友,以Tab分割:

seqname - 染色體或scaffold的名稱。

source - 生成這個(gè)特征的項(xiàng)目名稱紧帕,或數(shù)據(jù)庫(kù)來源锻狗。

feature - 特征類型名稱,如gene焕参、transcript轻纪、exon、CDS叠纷。

start? end? score

strand - 正鏈或負(fù)鏈+/-刻帚。

frame - 密碼子的第幾個(gè)堿基0/1/2。

attribute - 附加信息涩嚣。

GFF3(General Feature Format):

seqid - 染色體或scaffold的名稱崇众。

source - 生成這個(gè)特征的項(xiàng)目名稱,或數(shù)據(jù)庫(kù)來源航厚。

feature - 特征類型名稱顷歌,來自SOFA sequence ontology。

start? end? score

strand - 正鏈或負(fù)鏈+/-幔睬。

phase - 密碼子的第幾個(gè)堿基0/1/2眯漩。

attribute - 附加信息。A semicolon-separated list of tag-value pairs麻顶。

GTF和GFF之間的區(qū)別:

數(shù)據(jù)結(jié)構(gòu):都是由9列構(gòu)成赦抖,分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的,第9列不同辅肾。

GFF第9列:都是以鍵值對(duì)的形式队萤,鍵值之間用“=”連接,不同屬性之間用“矫钓;”分隔要尔,都是以ID這個(gè)屬性開始。下圖中有兩個(gè)ID新娜,說明是不同的序列赵辕。

GTF第9列:同樣以鍵值對(duì)的形式,鍵值之間是以空格區(qū)分杯活,值用雙引號(hào)括起來胃惜;不同屬性之間用“;”分隔卷谈;開頭必須是geneid, transciptid兩個(gè)屬性师枣。

來自Ensembl的gtf文件
來自UCSC的gtf文件



Ensembl:

https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

果蠅:

ftp://ftp.ensembl.org/pub/release-99/fasta/drosophila_melanogaster/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/drosophila_melanogaster/

人類:

ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/

文件命名規(guī)律:<species>物種. <assembly>版本號(hào). <sequence type>序列類型. <id type>基因組類型. <id>序列編號(hào). fa.gz

TOPLEVEL:包含了所有的序列區(qū)域(比如染色體、非染色體以及用大量N填充的單倍型haplotypes或基因組補(bǔ)丁patches區(qū)域)歪今。

PRIMARY ASSEMBLY:在上面toplevel的基礎(chǔ)上嚎幸,排除了單倍型或基因組補(bǔ)丁區(qū)域。如果看到目錄中不存在這種類型的數(shù)據(jù)(比如這里果蠅就沒有寄猩,而人類的基因組數(shù)據(jù)就存在)嫉晶,那么就意味著基因組不包含單倍型或基因組補(bǔ)丁區(qū)域,其實(shí)也就是等同于TOPLEVEL。

TOPLEVEL:人類(含patch and haplotype替废,對(duì)應(yīng).chr_patch_hapl_scaff)箍铭,果蠅(不含patch and haplotype,對(duì)應(yīng).gtf)椎镣。

PRIMARY ASSEMBLY:人類(不含patch and haplotype诈火,對(duì)應(yīng).gtf)。

Ensembl果蠅的參考基因組
Ensembl果蠅的注釋文件
Ensembl人類的參考基因組
Ensembl人類的注釋文件




UCSC:

http://genome.ucsc.edu/index.html

最新版本:

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/latest/

latest

hg38.chromFa.tar.gz - The assembly sequence in one file per chromosome.

hg38.fa.gz - "Soft-masked" assembly sequence in one file.

分析集文件:

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/analysisSet/

analysisSet

hg38.analysisSet.chroms.tar.gz - analysis set sequence one file per chromosome. 與NCBI的GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz相同状答。


NCBI:

https://www.ncbi.nlm.nih.gov/genome/guide/human/

最新版本:

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

分析集文件:

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/

seqs_for_alignment_pipelines

可使用:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末冷守,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子惊科,更是在濱河造成了極大的恐慌拍摇,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件馆截,死亡現(xiàn)場(chǎng)離奇詭異充活,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)孙咪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門堪唐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人翎蹈,你說我怎么就攤上這事淮菠。” “怎么了荤堪?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵合陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我澄阳,道長(zhǎng)拥知,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任碎赢,我火速辦了婚禮低剔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘肮塞。我一直安慰自己襟齿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布枕赵。 她就那樣靜靜地躺著猜欺,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拷窜。 梳的紋絲不亂的頭發(fā)上开皿,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天涧黄,我揣著相機(jī)與錄音,去河邊找鬼赋荆。 笑死笋妥,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的糠睡。 我是一名探鬼主播挽鞠,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼狈孔!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起材义,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤均抽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后其掂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體油挥,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年款熬,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了深寥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贤牛,死狀恐怖惋鹅,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情殉簸,我是刑警寧澤闰集,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站般卑,受9級(jí)特大地震影響武鲁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蝠检,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一沐鼠、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧叹谁,春花似錦饲梭、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至锅尘,卻和暖如春监氢,著一層夾襖步出監(jiān)牢的瞬間布蔗,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工浪腐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留纵揍,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓议街,卻偏偏與公主長(zhǎng)得像泽谨,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子特漩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容