生物信息學(xué)的分析很大一部分都是圍繞序列展開票堵,可以說序列分析催生了生物信息學(xué)慎璧。比如通過與參考基因組序列進(jìn)行比對抛计,檢測各種變異哄孤;RNA-seq數(shù)據(jù)與參考基因組比對,進(jìn)行定量吹截。
給大家介紹如何下載某一個(gè)物種的參考基因組序列瘦陈,分為瀏覽器版與命令行版2種方式。
瀏覽器版
通過NCBI的genome數(shù)據(jù)庫下載波俄。比如我要下載人類參考基因組序列晨逝,打開https://www.ncbi.nlm.nih.gov/genome ,在搜索框中輸入human, 會(huì)出現(xiàn)很多關(guān)鍵詞提示,我們選擇第一個(gè)(這是human的雙名法名字)如下圖
點(diǎn)擊搜索懦铺,返回的結(jié)果頁面包括人基因組的各種基本信息捉貌,比如每一條染色體的大小、GC含量、基因數(shù)目趁窃、假基因數(shù)目牧挣、編碼的蛋白質(zhì)數(shù)目。當(dāng)然我們的目的是下載參考基因組序列醒陆,其他信息先不管瀑构,結(jié)果頁面最上面的部分顯示了參考基因組的DNA,轉(zhuǎn)錄本统求,蛋白質(zhì)三種類型的FASTA序列下載地址检碗,如下所示
點(diǎn)擊genome就可以下載了。細(xì)心的同學(xué)可能會(huì)問下載的基因組版本不是我想要的啊码邻,的確折剃,從這里下載的都是最新的版本。如果想要下載之前的版本像屋,可以復(fù)制genome的鏈接地址怕犁,將地址后面兩部分刪除,即下面地址的黑色部分
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_genomic.fna.gz
得到的就是所有版本的目錄己莺,可以根據(jù)自己的需要進(jìn)入不同版本的目錄進(jìn)行下載奏甫。
命令行版
第一步:
下載所有參考基因組組裝情況的匯總信息:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/assembly_summary_refseq.txt
第二步:
獲取FTP下載地址并下載。這里根據(jù)物種的taxid取出FTP信息凌受,human的taxid為9606阵子,(每個(gè)物種都會(huì)有自己的taxid,可以去https://www.ncbi.nlm.nih.gov/taxonomy/搜索每個(gè)物種的taxid, 具體細(xì)節(jié)見文末)代碼如下:
awk -F "\t" '$11=="latest" && $20~"^ftp:" && $7==9606{print $20}' assembly_summary_refseq.txt > 9606.txt
****如何查找一個(gè)物種的taxid
第一步:打開網(wǎng)址https://www.ncbi.nlm.nih.gov/taxonomy/
第二步:輸入物種名,例如輸入human得到結(jié)果如下:
第三步:點(diǎn)擊上圖箭頭所指鏈接胜蛉,打開新頁面后挠进。觀察地址欄最后的id=9606。其他物種可以通過類似的步驟獲取其taxid
歡迎關(guān)注公眾號:"生物信息學(xué)"