細(xì)菌基因組下載

最近需要盡可能的下載細(xì)菌基因組挣郭,ncbi ftp站點(diǎn)(ftp://ftp.ncbi.nlm.nih.gov/genomes)里面"all"這個(gè)目錄可以下載,不過"all"目錄還有古細(xì)菌之類的哈倔矾。如果只想取Refseq或genbank數(shù)據(jù)庫其一,可以通過以下方式:

#下載Refseq/genbank數(shù)據(jù)庫中的細(xì)菌基因組數(shù)據(jù)
#截止20190106,有140681條基因組數(shù)據(jù)
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/assembly_summary.txt
ftp://ftp.ncbi.nlm.nih.gov/genomes/genbank/bacteria/assembly_summary.txt
#文件第12列是拼接狀態(tài)(Complete Genome/Scaffold/contig),第20列是ftp路徑载慈,下面是下載組裝完整的基因組信息
awk -F "\t" '$12=="Complete Genome" && $11=="latest"{print $20}' assembly_summary.txt > ftpdirpaths
awk 'BEGIN{FS=OFS="/";filesuffix="genomic.gbff.gz"}{ftpdir=$0;asm=$10;file=asm"_"filesuffix;print ftpdir,file}' ftpdirpaths > ftpfilepaths
cut -d / -f 11 ftpfilepaths | paste - ftpfilepaths  | while read a b;do echo "wget -c -nd -r -np -k -L -p -nd -P genbank $b && gzip -d genbank/$a";done >run.download.sh
#腳本只下載了gbff文件,當(dāng)然珍手,如果想要gff,fna,faa通過小腳本轉(zhuǎn)就可以了,或者加上“-A faa.gz,fna.gz,gff.gz,gpff.gz”

真的超級(jí)占存儲(chǔ)空間辞做,我只下載gbff文件琳要,需要其他格式的文件再簡單格式轉(zhuǎn)化就可以了。同時(shí)秤茅,下載一批立馬處理一批稚补。
Refseq和genbank的區(qū)別
Refseq下載的是GCF開頭的文件,而genbank下載的是GCA開頭的文件框喳。

具體看這里:https://zhuanlan.zhihu.com/p/20749737

GenBank是核苷酸數(shù)據(jù)庫课幕,RefSeq是基因數(shù)據(jù)庫 ,具體哪個(gè)更全五垮?互為補(bǔ)充乍惊,以前做分析的時(shí)候發(fā)現(xiàn)有些細(xì)菌基因組在GenBank里面沒有在RefSeq有,還有可能兩個(gè)數(shù)據(jù)庫里面某個(gè)基因組只有一個(gè)fna文件沒有注釋放仗,這種情況如果遇到自己動(dòng)手用prokka十分鐘就能解決润绎。


生信小腳本收藏癖,有時(shí)遇到比較實(shí)用的腳本會(huì)存下來放在自己環(huán)境變量bin里面诞挨,積累會(huì)使以后的分析變得更加高效

附上兩個(gè)網(wǎng)上看到好用的腳本

1.GenBank轉(zhuǎn)faa格式

#!/usr/bin/env perl
# This program reads gbk files and extracts all amino acid sequences from the
# /translation fields into a FASTA file. The FASTA header contains a sequential
# number followed by the taxon id, which is extracted from the
# /db_xref="taxon:<ID>" field. Only letters in the 20 letter amino acid
# alphabet are retained in the FASTA file.
#
# author: Peter Menzel
#
# This file is part of Kaiju, Copyright 2015-2017 Peter Menzel and Anders Krogh
# Kaiju is licensed under the GPLv3, see the file LICENSE.
#

use strict;
use warnings;
use IO::Uncompress::AnyUncompress qw(anyuncompress $AnyUncompressError) ;

my $t = 0;
my $taxid;
my $protein_id;

if(!defined $ARGV[1]) { die "Usage: $0 infile.gbk outfile.faa"; }
open(OUT,">",$ARGV[1]) or die "Could not open file $ARGV[1] for writing.";
my $in_fh = new IO::Uncompress::AnyUncompress $ARGV[0] or die "Opening input file failed: $AnyUncompressError\n";

while(<$in_fh>) {
    chomp;
    if(m,/db_xref="taxon:(\d+)",) {
        $taxid = $1;
    }
    elsif(m,/protein_id="([^"]+)",) {
        $protein_id=$1;
    }
    elsif(m,\s+/translation="([^"]+)",)  {  
        if(!defined($taxid)) { die "No taxon id found in gbk file $ARGV\n";}
        print OUT ">$protein_id\_$taxid\n";
        my $seq = $1;
        $seq =~ tr/BZ/DE/;  # a.a. alphabet specifies `B' matches `N' or `D', and `Z' matches `Q' or `E.', here we use substitution with higher score
        $seq =~ s/[^ARNDCQEGHILKMFPSTWYV]//gi;
        print OUT "$seq\n";
    }
    elsif(m,\s+/translation="([^"]+)$,) {
        if(!defined($taxid)) { die "No taxon id found in gbk file $ARGV\n";}
        print OUT ">$protein_id\_$taxid\n";
        $t = 1;
        my $seq = $1;
        $seq =~ tr/BZ/DE/;
        $seq =~ s/[^ARNDCQEGHILKMFPSTWYV]//gi;
        print OUT "$seq\n";
    }
    elsif($t) {
        if(m,",) { 
            tr/BZ/DE/;
            s/[^ARNDCQEGHILKMFPSTWYV]//gi;
            print OUT $_,"\n";   
            $t = 0;
        }
        else { 
            tr/BZ/DE/;
            s/[^ARNDCQEGHILKMFPSTWYV]//gi;
            print OUT $_,"\n";   
        }
    }
}
close($in_fh);
close(OUT);

2.Genbank轉(zhuǎn)fna格式

#!/usr/bin/env python

import sys
from Bio import SeqIO

if len(sys.argv) < 3:
    print('USAGE: gbk2fna GBK FNA')
    sys.exit(65)

SeqIO.write(SeqIO.parse(sys.argv[1], 'genbank'), sys.argv[2], 'fasta')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末莉撇,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子惶傻,更是在濱河造成了極大的恐慌棍郎,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件银室,死亡現(xiàn)場離奇詭異涂佃,居然都是意外死亡励翼,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門巡李,熙熙樓的掌柜王于貴愁眉苦臉地迎上來抚笔,“玉大人,你說我怎么就攤上這事侨拦∈獬龋” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵狱从,是天一觀的道長膨蛮。 經(jīng)常有香客問我,道長季研,這世上最難降的妖魔是什么敞葛? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮与涡,結(jié)果婚禮上惹谐,老公的妹妹穿的比我還像新娘。我一直安慰自己驼卖,他們只是感情好氨肌,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著酌畜,像睡著了一般怎囚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上桥胞,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天恳守,我揣著相機(jī)與錄音,去河邊找鬼贩虾。 笑死催烘,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的整胃。 我是一名探鬼主播颗圣,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼屁使!你這毒婦竟也來了在岂?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤蛮寂,失蹤者是張志新(化名)和其女友劉穎蔽午,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體酬蹋,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡及老,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年抽莱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片骄恶。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡食铐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出僧鲁,到底是詐尸還是另有隱情虐呻,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布寞秃,位于F島的核電站斟叼,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏春寿。R本人自食惡果不足惜朗涩,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望绑改。 院中可真熱鬧谢床,春花似錦、人聲如沸厘线。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽皆的。三九已至,卻和暖如春蹋盆,著一層夾襖步出監(jiān)牢的瞬間费薄,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工栖雾, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留楞抡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓析藕,卻偏偏與公主長得像召廷,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子账胧,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 轉(zhuǎn)載 :https://www.plob.org/article/3856.html 生物信息數(shù)據(jù)庫與查詢 近年來...
    oddxix閱讀 10,847評(píng)論 0 37
  • 生物數(shù)據(jù)庫介紹——NCBI NCBI(National Center for Biotechnology Info...
    又是一只小菜鳥閱讀 8,900評(píng)論 1 33
  • 一竞慢、數(shù)據(jù)庫簡單介紹 1、SRA數(shù)據(jù)庫: NCBI的SRA數(shù)據(jù)庫是美國國立衛(wèi)生研究院(NIH)存儲(chǔ)高通量測序數(shù)據(jù)的主...
    BioLearner閱讀 4,344評(píng)論 0 9
  • 前言 在前面的一系列WGS文章中治泥,我講述了很多基因數(shù)據(jù)分析的來龍去脈筹煮,雖然許多同學(xué)覺得很有幫助,但是卻缺了一個(gè)重要...
    黃樹嘉閱讀 30,572評(píng)論 28 88
  • 六十億公里的距離居夹, 光芒幾乎無法滲達(dá)败潦。 在被遺忘的世界里本冲, 身披光輝的你, 是否還能感受到 劫扒, 我那顆仍未泯滅的冰...
    六雨依鳴閱讀 359評(píng)論 0 0