1咕别、啥是參考基因組和參考基因注釋技健?
俗話說“大道至簡”,咱生物界表示:這我熟呀惰拱!君不見雌贱,我只用ATCG 四個(gè)堿基就能上天入地,外加海底兩萬里偿短。嗯欣孤,沒毛病N舳骸降传!
自從 1990 啟動的家喻戶曉的人類基因組計(jì)劃開始,全世界的科學(xué)家竭盡全力破譯了第一個(gè)完整的人類基因組纤子,從那時(shí)開始人類拿到了一本只有 ATCG 四個(gè)堿基書寫的天書搬瑰。后續(xù)人們逐步完善了基因組序列信息,并寫在 Fasta 格式的文本文件“天書”中控硼,這本天書就叫做參考基因組泽论。
但是,直接拿天書來看是一臉懵逼的卡乾,于是大家開始利用實(shí)驗(yàn)技術(shù)手段開始著手解密這本天書翼悴,隨后大量的基因以及非編碼序列被人們詳細(xì)的標(biāo)記在參考基因組對應(yīng)的位置。同時(shí)對該位置加入大量的注釋細(xì)節(jié),最終將這些信息寫在 BED鹦赎,GTF谍椅,GFF 格式的基因組注釋文件 。
隨著時(shí)間推移和技術(shù)的發(fā)展古话,已經(jīng)構(gòu)建好的基因組和基因組注釋信息會出現(xiàn)不同程度的增加雏吭、刪減等修改,從而有了不同版本陪踩。
2杖们、參考基因組版本命名
在講參考基因組之前,需要提到一個(gè)組織參考基因組聯(lián)盟(Genome Reference Consortium)肩狂,它是由 NCBI摘完,EBI,桑格研究所等機(jī)構(gòu)組成傻谁。GRC 利用最佳的技術(shù)裝配孝治,糾正,增加基因組序列审磁,以此作為在生信分析領(lǐng)域作為參考的基因組谈飒。目前,該機(jī)構(gòu)構(gòu)建了人态蒂,小鼠步绸,大鼠,斑馬魚吃媒,雞的參考基因組。
2.1 常用人參考基因組對應(yīng)表
發(fā)布時(shí)間 | 2013 | 2009 | 2006 |
---|---|---|---|
GRC官方名 | GRCh38 | GRCh37 | GRCh36 |
UCSC | hg38 | hg19 | hg18 |
Ensemble | GRCh38 | GRCh37 | GRCh36 |
GENCODE | 38 | 19 | 3c |
NCBI | GRCh38 | GRCh37 | GRCh36 |
GenBank | GCA_000001405 | ||
RefSeq | GCA_000001405 |
2.2 常用小鼠參考基因組對應(yīng)表
發(fā)布時(shí)間 | 2020 | 2011 | 2007 |
---|---|---|---|
GRC官方名 | GRCm39 | GRCm38 | |
UCSC | m39 | mm10 | mm9 |
Ensemble | GRCm39 | GRCm38 | |
GENCODE | M27 | M25 | M1 |
NCBI | GRCm39 | GRCm38 | NCBIM37 |
3 如何下載基因組和基因組注釋吕喘?
3.1赘那、NCBI
這里提供兩種下載方式,一種為網(wǎng)頁界面下載氯质,另一種為FTP下載募舟。
a) 可視化下載
- 進(jìn)入網(wǎng)址
https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/
-
搜索物種
-
下載界面
b) FTP下載
注:Chrome 瀏覽器在18版本后由于安全原因已經(jīng)不支持 ftp 協(xié)議,改用 https 協(xié)議闻察,可以看到鏈接已經(jīng)與之前的不同拱礁。
這里以下載人的參考基因組 GRCh38 為例:
人類基因組注釋文件:
GFF 格式:
如果以這種方式下載,其實(shí)已經(jīng)可以路徑中大概看出相關(guān)物種的下載地址呢灶,可以自行查詢及下載其他物種。
2钉嘹、Ensemble
a) 可視化下載
- 網(wǎng)址:http://asia.ensembl.org
- 點(diǎn)擊物種名鸯乃,進(jìn)入下載界面
b) FTP下載
同樣以下載人參考基因組 GRCh38 為例:
http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz
GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz
GTT 文件:http://ftp.ensembl.org/pub/cur
3、GENCODE
給做醫(yī)學(xué)相關(guān)研究的小伙伴們推薦跋涣,GENCODE的物種只涉及人類和小鼠缨睡,但這里具有最新最全的基因組和其注釋信息鸟悴。
- 網(wǎng)址:https://www.gencodegenes.org/
-
點(diǎn)擊人類的最新版
-
點(diǎn)擊下載基因組注釋文件
4、UCSC
相對其他下載方式奖年,UCSC 本職的工作是做基因組瀏覽器的细诸,因此也可以從下圖看到,在這里可以根據(jù)自己定義來下載相對于的基因組區(qū)域陋守,比如 prime震贵,exon,gene嗅义,transcript等等屏歹。
- 網(wǎng)址:http://genome.ucsc.edu/cgi-bin/hgTables
-
下載:設(shè)置參數(shù)如下,然后點(diǎn)擊下載參考基因組及注釋文件
以上詳細(xì)描述了4個(gè)數(shù)據(jù)庫如何下載基因組和基因組注釋問價(jià)之碗,其他物種基本也是這種套路了蝙眶。希望小伙伴們再也不會迷路啦。褪那。幽纷。。
---------------------------------------------------------------------------------------------------------------------------------------------------I`m a line ! Thanks !-------------------------------------------------------------------------------------------------------------------------------------------------------------------------
參考:
https://zhuanlan.zhihu.com/p/383397412