常用參考基因組數據庫
1逻澳、Ensembl
是由 European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數據庫項目坦袍。涵蓋大量物種的參考基因組信息物遇,并且數據更新及時咨油,是參考基因組下載的好選擇滔金。
http://www.ensembl.org/index.html
2解阅、NCBI
是National Centerfor Biotechnology Information的縮寫换吧,指美國國立生物技術信息中心。NCBI的全面和強大甲抖,相信大家都深有感觸漆改,NCBI在參考基因組信息分享上同樣表現出色。
http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data
3准谚、UCSC能查找到的數據有限挫剑,使用率比不上前兩個數據庫。
4柱衔、Private Database在以上數據庫查找不到的參考基因組樊破,還可以嘗試一些Private Database愉棱。例如JGI(Phytozome),可用于植物參考基因組的查找哲戚。
http://phytozome.jgi.doe.gov/pz/portal.html
5奔滑、FlyBase
對于模式生物,一些比較個性化的網站也非常實用顺少。例如 FlyBase 朋其, 整合了果蠅遺傳和基因組數據,并提供了基因和分子水平的檢索和可視化脆炎,目前網站的 Beta 版本也已經上線梅猿。
補充
分享一下常用物種的參考基因組數據下載網址:
illumina的iGenomes打包了各物種齊全的參考數據信息:
https://support.illumina.com/sequencing/sequencing_software/igenome.html
三大基因組數據庫基因組各種版本對應關系(生信菜鳥團博客):
http://www.bio-info-trainee.com/1469.html
查找參考基因組方法
不同數據庫下載的基因組數據略有差異,主要是體現在版本的編號秒裕,序列id的命名等袱蚓,但在編碼序列上是一致的。另外几蜻,不同數據庫提供的注釋文件格式不同喇潘,在進行格式轉換時,要保證基因組的版本號一致梭稚。這里簡單介紹舉例幾種方法:
1.Ensemble:
適用于動物參考基因組查找响蓉,網站也包括動物、植物及真菌基因組等哨毁;
第一種方法:
(1)進入Ensembl數據庫是這樣的:
(2)點擊View full list of all Ensembl species枫甲,進入以物種名稱排序的數據列表:
(3)如果列表中含有目標物種,可直接點擊名稱進入扼褪;如沒有目標物種想幻,需要在空白框“Filter”中輸入物種英文名。例如輸入“dolphin”话浇,將會篩選留下該物種的數據信息脏毯,界面如下:
(4)點擊物種名稱,進入如下界面:
(5)點擊Download DNA sequences(FASTA)幔崖,現在進入的就是參考基因組的下載頁面啦食店!
后綴為toplevel.fa.gz的壓縮文件,即為我們要下載的該物種全基因組序列赏寇,點擊即可馬上下載吉嫩,該數據可直接用于該物種的重測序研究。
第二種方法
通過Downloads進入:如果您想要一次下載多個參考基因組數據嗅定,那么建議選擇第二種方法自娩。
(1)首先進入Ensembl數據庫,找到Downloads:
(2)然后點擊Downloads渠退,進入如下頁面:
(3)點擊右側的“Download data via FTP”忙迁,進入FTP Download界面:
(4)點擊FTP site脐彩,進入ftp://ftp.ensembl.org/pub/ 的索引頁面,我們現在已經離參考基因組越來越近啦姊扔!
下拉惠奸,可以看到有多個參考基因組數據版本可供選擇,不同版本之間差異微小恰梢。
(5)我們以release-79版本為例晨川,進行介紹。點擊release-79删豺, 出現如下界面:
(6)點擊fasta,進入ftp://ftp.ensembl.org/pub/release-79/fasta/的索引頁面愧怜,會出現以不同物種拉丁名命名的文件包呀页。
(7)點擊您感興趣的物種,進入該物種的文件包拥坛∨畹可根據您的需求選擇數據,如果打算進行重測序研究猜惋,則點擊進入dna文件包丸氛。
(8)后綴為toplevel.fa.gz的壓縮文件,即為我們要找的該物種全基因組序列著摔,點擊即可馬上下載缓窜,該序列可直接用來進行后續(xù)的重測序研究。
2.JGI(Phytozome)
適用于植物參考基因組查找谍咆,網站也包括動物等其他物種禾锤,這個網站植物基因組更新比較快,動物基因組更新較慢
(1)打開網址:https://phytozome.jgi.doe.gov/pz/portal.html#摹察;點擊“species”(如下圖)或者點擊紅色框中的圖片恩掷,再輸入基因序列號即可查找到序列:
(2)植物有參考基因組的物種數不是很多,直接在species中也可以查看供嚎,可不需要搜索黄娘。如果這個網站沒有對應的參考基因組,則需要去NCBI上試試看克滴。
(3)點擊download下載數據:
PS:這個數據也可以進行一些其他的分析逼争,如下圖:
小結
動物和植物的參考基因組查找就講完了,以上兩個網站基本包括了目前已有參考基因組的物種劝赔,如還想確認氮凝,可進入NCBI查詢。
3.NCBI查詢
這種方法也比較簡單望忆,下拉框中選擇“Genome”罩阵,在搜索框中輸入物種名竿秆,根據得到的結果選定你需要的基因(紅色框標記內容),打開查看或者下載就好了稿壁。