關(guān)于參考基因組和注釋

常用的參考基因組數(shù)據(jù)庫(kù)：

1嗡贺、Ensembl

是由European Bioinformatics Institute（EBI）與Wellcome Trust Sanger Institute（WTSI）共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目喇勋。涵蓋大量物種的參考基因組信息冬念，并且數(shù)據(jù)更新及時(shí)题涨，是參考基因組下載的好選擇缅茉。

http://www.ensembl.org/index.html

2车酣、NCBI

是National Center for Biotechnology Information的縮寫外遇，指美國(guó)國(guó)立生物技術(shù)信息中心。

http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data

3簿训、UCSC

由University of California Santa Cruz（UCSC）創(chuàng)立和維護(hù)咱娶，主要包含了人類、小鼠强品、果蠅等多種常見動(dòng)物的基因組信息。

http://genome.ucsc.edu

4屈糊、FlyBase

整合了果蠅遺傳和基因組數(shù)據(jù)的榛，并提供了基因和分子水平的檢索和可視化。

http://flybase.org/

5逻锐、illumina的iGenomes打包了各物種齊全的參考數(shù)據(jù)信息夫晌。

https://support.illumina.com/sequencing/sequencing_software/igenome.html

以果蠅為例

一般在三個(gè)網(wǎng)站下載參考基因組：Ensembl雕薪、NCBI和UCSC：

參考基因組：對(duì)于人類來說，目前比較常用的參考基因組有hg19晓淀、hg38所袁、GRCh37、GRCh38凶掰。hg系列是UCSC的叫法燥爷，GRCh系列是NCBI和Ensembl的叫法。同一版本的序列是一樣的懦窘，hg19對(duì)應(yīng)GRCh37前翎，hg38對(duì)應(yīng)GRCh38。

注釋文件：三個(gè)來源同一版本的DNA序列雖然相同畅涂，但是它們的注釋是不同的港华，更新頻率也不一樣。NCBI 的注釋是refseq數(shù)據(jù)集午衰，UCSC 和 Ensembl 注釋都將其作為自己的一個(gè)子集立宜，如UCSC 的refGene。而UCSC 的注釋比較混亂臊岸，同樣ID的基因會(huì)出現(xiàn)在不同鏈或不同染色體位置上橙数。Ensembl的注釋通常比UCSC更多（例如snRNA、miRNA扇单、假基因商模，所以噪音更多一點(diǎn)），但是ID處理比較好蜘澜，所以ID更容易進(jìn)行轉(zhuǎn)換施流。Ensembl還經(jīng)常更新它的注釋，更新一次作為一個(gè)版本發(fā)布鄙信。不同的來源的基因組序列名稱不一樣瞪醋，1號(hào)染色體在 UCSC 中是 chr1，而在 Ensembl的基因組和GTF文件中是1装诡。使用時(shí)序列和注釋要統(tǒng)一银受，UCSC的基因組序列需要對(duì)應(yīng)使用UCSC的gtf/gff3注釋文件，Ensembl則對(duì)應(yīng)使用其同一版本對(duì)應(yīng)的gtf/gff3注釋文件鸦采。GeneCode（http://www.gencodegenes.org/）也可以下載人類和小鼠的基因注釋文件宾巍。

選擇注釋資源應(yīng)遵循的原則：當(dāng)進(jìn)行強(qiáng)調(diào)可重復(fù)性和穩(wěn)健的基因表達(dá)估計(jì)的研究時(shí)，優(yōu)先選較為簡(jiǎn)單的基因組注釋渔伯，如 RefGene顶霞。當(dāng)進(jìn)行更具探索性的研究時(shí)，更全面的注釋更優(yōu)锣吼，比如選擇Ensembl选浑。而UCSC則不太建議使用蓝厌。

參考基因組：

2種組裝形式：

toplevel - Includes haplotype information 包含了單倍體型和patch信息。單倍體型的信息會(huì)使得比對(duì)軟件如STAR/hisat2/bowtie2（除了BWA）很難處理好古徒。

primary_assembly - Single reference base per position 每個(gè)位置只有一個(gè)參考?jí)A基拓提。適合用于序列相似性搜索。STAR推薦使用Ensembl primary_assembly參考基因組隧膘。

3種重復(fù)序列處理方式：

dna_sm - Repeats soft-masked (converts repeat nucleotides to lowercase) 將重復(fù)核苷酸轉(zhuǎn)換為小寫代态。主要的比對(duì)軟件如BWA、bowtie2等都忽略這些soft-mask舀寓，直接把小寫字母當(dāng)做大寫字母比對(duì)胆数。

dna_rm - Repeats masked (converts repeats to to N’s) 用N代替重復(fù)區(qū)域和低復(fù)雜區(qū)。會(huì)給后續(xù)的比對(duì)帶來很大的問題互墓，不建議選用必尼。

dna - No masking 不標(biāo)記重復(fù)序列。推薦使用篡撵。

注釋文件gtf/gff3：

.gtf - 對(duì)應(yīng)primary assembly.fa判莉。包含全部的注釋，除了human和mouse這兩個(gè)物種只包含primary assembly（不包含patch and haplotype）育谬。

.chr.gtf - 只含染色體上的注釋券盅，不包含toplevel scaffolds（patch and haplotypes）。

.chr_patch_hapl_scaff - 對(duì)應(yīng)toplevel膛檀。只出現(xiàn)在human和mouse這兩個(gè)物種中锰镀，包含全部注釋（包括patch and haplotype）。也可以用咖刃。

.abinitio.gtf - 基于.gtf增加了使用Genscan和其他abinitio prediction tools得到的一些注釋信息泳炉。

推薦：

人類：Ensembl的primary_assembly，dna（或dna_sm效果相同）嚎杨，以及對(duì)應(yīng)的.gtf（或.chr_patch_hapl_scaff含有其它信息）花鹅。

果蠅：Ensembl的toplevel，dna（或dna_sm效果相同）枫浙，以及對(duì)應(yīng)的.gtf刨肃。

GTF（General Transfer Format）：即GFF2。GTF是GFF便于傳輸版箩帚。分為9列真友，以Tab分割：

seqname - 染色體或scaffold的名稱。

source - 生成這個(gè)特征的項(xiàng)目名稱紧帕，或數(shù)據(jù)庫(kù)來源锻狗。

feature - 特征類型名稱，如gene焕参、transcript轻纪、exon、CDS叠纷。

start? end? score

strand - 正鏈或負(fù)鏈+/-刻帚。

frame - 密碼子的第幾個(gè)堿基0/1/2。

attribute - 附加信息涩嚣。

GFF3（General Feature Format）：

seqid - 染色體或scaffold的名稱崇众。

source - 生成這個(gè)特征的項(xiàng)目名稱，或數(shù)據(jù)庫(kù)來源航厚。

feature - 特征類型名稱顷歌，來自SOFA sequence ontology。

start? end? score

strand - 正鏈或負(fù)鏈+/-幔睬。

phase - 密碼子的第幾個(gè)堿基0/1/2眯漩。

attribute - 附加信息。A semicolon-separated list of tag-value pairs麻顶。

GTF和GFF之間的區(qū)別：

數(shù)據(jù)結(jié)構(gòu)：都是由9列構(gòu)成赦抖，分別是reference sequence name; annotation source; feature type; start coordinate; end coordinate; score; strand; frame; attributes.前8列都是相同的，第9列不同辅肾。

GFF第9列：都是以鍵值對(duì)的形式队萤，鍵值之間用“=”連接，不同屬性之間用“矫钓；”分隔要尔，都是以ID這個(gè)屬性開始。下圖中有兩個(gè)ID新娜，說明是不同的序列赵辕。

GTF第9列：同樣以鍵值對(duì)的形式，鍵值之間是以空格區(qū)分杯活，值用雙引號(hào)括起來胃惜；不同屬性之間用“；”分隔卷谈；開頭必須是geneid, transciptid兩個(gè)屬性师枣。

來自Ensembl的gtf文件

來自UCSC的gtf文件

Ensembl：

https://asia.ensembl.org/Drosophila_melanogaster/Info/Index

果蠅：

ftp://ftp.ensembl.org/pub/release-99/fasta/drosophila_melanogaster/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/drosophila_melanogaster/

人類：

ftp://ftp.ensembl.org/pub/release-99/fasta/homo_sapiens/dna/

ftp://ftp.ensembl.org/pub/release-99/gtf/homo_sapiens/

文件命名規(guī)律：<species>物種. <assembly>版本號(hào). <sequence type>序列類型. <id type>基因組類型. <id>序列編號(hào). fa.gz

TOPLEVEL：包含了所有的序列區(qū)域（比如染色體、非染色體以及用大量N填充的單倍型haplotypes或基因組補(bǔ)丁patches區(qū)域）歪今。

PRIMARY ASSEMBLY：在上面toplevel的基礎(chǔ)上嚎幸，排除了單倍型或基因組補(bǔ)丁區(qū)域。如果看到目錄中不存在這種類型的數(shù)據(jù)（比如這里果蠅就沒有寄猩，而人類的基因組數(shù)據(jù)就存在）嫉晶，那么就意味著基因組不包含單倍型或基因組補(bǔ)丁區(qū)域，其實(shí)也就是等同于TOPLEVEL。

TOPLEVEL：人類（含patch and haplotype替废，對(duì)應(yīng).chr_patch_hapl_scaff）箍铭，果蠅（不含patch and haplotype，對(duì)應(yīng).gtf）椎镣。

PRIMARY ASSEMBLY：人類（不含patch and haplotype诈火，對(duì)應(yīng).gtf）。

Ensembl果蠅的參考基因組

Ensembl果蠅的注釋文件

Ensembl人類的參考基因組

Ensembl人類的注釋文件

UCSC：

http://genome.ucsc.edu/index.html

NCBI：

https://www.ncbi.nlm.nih.gov/genome/guide/human/

最新版本：

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz

ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.gff.gz

分析集文件：

ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/

seqs_for_alignment_pipelines

可使用：ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/GCA_000001405.15_GRCh38_no_alt_analysis_set.fna.gz

最后編輯于：2021.02.24 13:49:34

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末冷守，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子惊科，更是在濱河造成了極大的恐慌拍摇，老刑警劉巖，帶你破解...
沈念sama閱讀 206,839評(píng)論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件馆截，死亡現(xiàn)場(chǎng)離奇詭異充活，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)孙咪，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,543評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門堪唐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人翎蹈，你說我怎么就攤上這事淮菠。” “怎么了荤堪？”我有些...
開封第一講書人閱讀 153,116評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵合陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問我澄阳，道長(zhǎng)拥知，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,371評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任碎赢，我火速辦了婚禮低剔，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘肮塞。我一直安慰自己襟齿，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,384評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布枕赵。她就那樣靜靜地躺著猜欺，像睡著了一般。火紅的嫁衣襯著肌膚如雪拷窜。梳的紋絲不亂的頭發(fā)上开皿，一...
開封第一講書人閱讀 49,111評(píng)論 1贊 285
城市分裂傳說
那天涧黄，我揣著相機(jī)與錄音，去河邊找鬼赋荆。笑死笋妥，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的糠睡。我是一名探鬼主播挽鞠，決...
沈念sama閱讀 38,416評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼狈孔！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起材义，我...
開封第一講書人閱讀 37,053評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤均抽，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后其掂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體油挥，經(jīng)...
沈念sama閱讀 43,558評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,007評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年款熬，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了深寥。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 38,117評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡贤牛，死狀恐怖惋鹅，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情殉簸，我是刑警寧澤闰集，帶...
沈念sama閱讀 33,756評(píng)論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站般卑，受9級(jí)特大地震影響武鲁，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蝠检，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,324評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一沐鼠、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧叹谁，春花似錦饲梭、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,315評(píng)論 0贊 19
一樁弒父案排拷，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至锅尘，卻和暖如春监氢，著一層夾襖步出監(jiān)牢的瞬間布蔗，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,539評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國(guó)打工浪腐，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留纵揍，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,578評(píng)論 2贊 355
代替公主和親
正文我出身青樓议街，卻偏偏與公主長(zhǎng)得像泽谨，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子特漩，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,877評(píng)論 2贊 345