如今大量物種參考基因組數(shù)據(jù)已被公布漓库,對(duì)于科研工作者,可以說(shuō)是一筆巨大“財(cái)富”园蝠。那么該如何獲取這筆“財(cái)富”呢渺蒿?
本期將介紹幾個(gè)相關(guān)的數(shù)據(jù)庫(kù),并舉例演示如何查找和下載到想要的參考基因組及參考基因組得注釋信息彪薛。
查找參考基因組得常用數(shù)據(jù)庫(kù)
1.Ensembl
????????是由 European Bioinformatics Institute(EBI)與Wellcome Trust Sanger Institute(WTSI)共同合作開發(fā)的數(shù)據(jù)庫(kù)項(xiàng)目茂装。涵蓋大量物種的參考基因組信息,并且數(shù)據(jù)更新及時(shí)善延,是參考基因組下載的好選擇少态。
動(dòng)物參考基因組:http://asia.ensembl.org/index.html
植物參考基因組:http://plants.ensembl.org/index.html
其他真菌細(xì)菌等參考基因組:http://ensemblgenomes.org/
2.NCBI
????是National Centerfor Biotechnology Information的縮寫,指美國(guó)國(guó)立生物技術(shù)信息中心易遣。NCBI的全面和強(qiáng)大彼妻,相信大家都深有感觸,NCBI在參考基因組信息展示上同樣表現(xiàn)出色。
地址:https://www.ncbi.nlm.nih.gov/
詳細(xì)下載方法:http://www.omicsclass.com/article/497
3.UCSC
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 創(chuàng)立和維護(hù)的侨歉,主要收錄一些模式動(dòng)物得數(shù)據(jù)庫(kù)屋摇,尤其是人和鼠參考基因組較常用;關(guān)于人的基因組注釋信息非常全面幽邓;
地址:http://genome.ucsc.edu/cgi-bin/hgGateway
4.phytozome(JGI)
主要收錄綠色植物基因組的數(shù)據(jù)庫(kù)炮温,主要用于植物比較基因組學(xué)分析,收錄的植物基因組及注釋信息很全面牵舵,也是一個(gè)不錯(cuò)的植物基因組下載數(shù)據(jù)庫(kù)柒啤;
地址:https://phytozome.jgi.doe.gov/pz/portal.html
5.其它:
????一下單一物種的基因組數(shù)據(jù)庫(kù);擬南芥棋枕,TAIR是位于美國(guó)的擬南芥信息資源網(wǎng)站(The Arabidopsis Information Resource, TAIR)(http://www.arabidopsis.org/)白修;水稻的http://rice.plantbiology.msu.edu/等;
老師在確定參考基因組分析項(xiàng)目的時(shí)候重斑,一定要指明自己所用的參考基因組下載地址和版本兵睛,因?yàn)楦鱾€(gè)數(shù)據(jù)庫(kù)會(huì)有各自的一套基因ID,如果用錯(cuò)了參考基因組窥浪,由于基因ID的不對(duì)應(yīng)會(huì)對(duì)后期結(jié)果的查看造成不必要得麻煩祖很;
這么多的數(shù)據(jù)庫(kù),各有優(yōu)缺點(diǎn)漾脂,該如何選擇合適的參考基因組下載地址呢假颇?針對(duì)物種全面程度,和基因組注釋信息的詳細(xì)程度骨稿,以及易用性笨鸡,小編首推Ensembl數(shù)據(jù)庫(kù),今天就來(lái)分享一下Ensembl數(shù)據(jù)庫(kù)得應(yīng)用坦冠;在接下來(lái)得推送也會(huì)介紹NCBI和JGI數(shù)據(jù)庫(kù)的使用形耗;
Ensembl數(shù)據(jù)庫(kù)下載參考基因組
下面以植物擬南芥為例:
1.進(jìn)入網(wǎng)站:http://plants.ensembl.org/index.html
一些常用的物種列在首頁(yè) 擬南芥,水稻辙浑,玉米等 如果想要得物種不在首頁(yè)可以點(diǎn)擊:View full list of all Ensembl Plants species 激涤;可以得到所有物種的列表;
2. 點(diǎn)擊進(jìn)入擬南芥參考基因組介紹頁(yè)面判呕;
可以看到擬南芥基因組的介紹信息:
3.下載參考基因組:點(diǎn)擊Download DNA sequence?(FASTA)
一般我們下載*toplevel.fa.gz文件倦踢,為參考基因組完整文件,其他rm侠草,sm辱挥,和分開染色體得文件;sm和rm的意義可看README文件边涕,介紹如下晤碘,為repeat區(qū)不同mask方法:
'dna_rm'- masked genomic DNA.? Interspersed repeatsandlow? ? complexity regions are detectedwiththe RepeatMasker toolandmasked? ? by replacing repeatswith'N's.
'dna_sm'- soft-masked genomic DNA. All repeatsandlow complexity regions? ? have been replaced with lowercased versionsoftheir nucleic base
4.基因蛋白質(zhì)和cds序列文件的下載:
在上一步的網(wǎng)址下,點(diǎn)擊 ?轉(zhuǎn)到高層目錄:就可以看到cds和蛋白質(zhì)pep等的下載
5.基因注釋文件gff和gtf文件的下載:
在上一步的基礎(chǔ)上繼續(xù)點(diǎn)擊兩次轉(zhuǎn)到高層目錄:可以看到gff和gtf目錄,點(diǎn)擊進(jìn)入到自己想要的物種下載對(duì)應(yīng)的文件即可:
高級(jí)應(yīng)用:
瀏覽擬南芥一個(gè)基因的位置:直接搜索基因名AT2G02740
2. 搜索到該基因的信息:
3.點(diǎn)擊基因名得到詳細(xì)信息:具體位置哼蛆,不同轉(zhuǎn)錄本的位置及信息:
4.查看其中一個(gè)轉(zhuǎn)錄本序列信息,下載該轉(zhuǎn)錄本的蛋白質(zhì)或者cd序列:
下面是該轉(zhuǎn)錄本的詳細(xì)信息:
總結(jié):
Ensembl 網(wǎng)址收錄的基因組全面霞赫,下載方便腮介,在線可視化做得也不錯(cuò),當(dāng)然由于篇幅限制只能介紹一些簡(jiǎn)單的應(yīng)用端衰,還有其他一些實(shí)用得應(yīng)用如blast搜索一些同源基因叠洗;BioMart :支持用戶個(gè)性化的篩選基因組上的注釋信息,如指定區(qū)域的基因旅东,GO注釋灭抑,不同數(shù)據(jù)庫(kù)的基因ID等等信息,非常強(qiáng)大抵代,有興趣者可嘗試使用腾节。
更多生物信息課程:
1. 文章越來(lái)越難發(fā)?是你沒(méi)發(fā)現(xiàn)新思路荤牍,基因家族分析發(fā)2-4分文章簡(jiǎn)單快速案腺,學(xué)習(xí)鏈接:基因家族分析實(shí)操課程、基因家族文獻(xiàn)思路解讀
2. 轉(zhuǎn)錄組數(shù)據(jù)理解不深入康吵?圖表看不懂劈榨?點(diǎn)擊鏈接學(xué)習(xí)深入解讀數(shù)據(jù)結(jié)果文件,學(xué)習(xí)鏈接:轉(zhuǎn)錄組(有參)結(jié)果解讀晦嵌;轉(zhuǎn)錄組(無(wú)參)結(jié)果解讀
3. 轉(zhuǎn)錄組數(shù)據(jù)深入挖掘技能-WGCNA同辣,提升你的文章檔次,學(xué)習(xí)鏈接:WGCNA-加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析
4. 轉(zhuǎn)錄組數(shù)據(jù)怎么挖掘惭载?學(xué)習(xí)鏈接:轉(zhuǎn)錄組標(biāo)準(zhǔn)分析后的數(shù)據(jù)挖掘旱函、轉(zhuǎn)錄組文獻(xiàn)解讀
5.?微生物16S/ITS/18S分析原理及結(jié)果解讀、OTU網(wǎng)絡(luò)圖繪制棕兼、cytoscape與網(wǎng)絡(luò)圖繪制課程
6. 生物信息入門到精通必修基礎(chǔ)課陡舅,學(xué)習(xí)鏈接:linux系統(tǒng)使用、perl入門到精通伴挚、perl語(yǔ)言高級(jí)靶衍、R語(yǔ)言畫圖
7. 醫(yī)學(xué)相關(guān)數(shù)據(jù)挖掘課程,不用做實(shí)驗(yàn)也能發(fā)文章茎芋,學(xué)習(xí)鏈接:TCGA-差異基因分析颅眶、GEO芯片數(shù)據(jù)挖掘、GSEA富集分析課程田弥、TCGA臨床數(shù)據(jù)生存分析涛酗、TCGA-轉(zhuǎn)錄因子分析、TCGA-ceRNA調(diào)控網(wǎng)絡(luò)分析
8.其他課程鏈接:二代測(cè)序轉(zhuǎn)錄組數(shù)據(jù)自主分析、NCBI數(shù)據(jù)上傳商叹、二代測(cè)序數(shù)據(jù)解讀燕刻。