? ? ? ? GenBank數(shù)據(jù)庫(kù)是在科研工作中經(jīng)常用到的數(shù)據(jù)庫(kù)之一,它由美國(guó)國(guó)家生物技術(shù)信息中心(the National Center for Biotechnology Information,NCBI)建立和維護(hù)婴谱。該數(shù)據(jù)庫(kù)包含了所有已知的核酸序列和蛋白質(zhì)序列囊卜,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋琅坡。
? ? ? ?小編作為一名有著多年工作經(jīng)驗(yàn)生信工作者憔儿,經(jīng)常要從GenBank數(shù)據(jù)庫(kù)中中下載物種的基因組fasta文件和gbk文件噪矛。在小編剛剛?cè)腴T生信這行時(shí)和大多數(shù)小伙伴一樣使用瀏覽器一條一條的進(jìn)行下載医清,這樣的下載方法起暮,對(duì)于少量的序列還可以執(zhí)行,但是如果下載成千上百條序列就成了“災(zāi)難”会烙!
? ? ? 最近负懦,小編在學(xué)習(xí)Biopython模塊,發(fā)現(xiàn)這個(gè)模塊下面有子模塊可以批量下載GenBank數(shù)據(jù)庫(kù)中的fasta文件和gbk文件柏腻,小編已經(jīng)打包成一鍵化腳本纸厉,下面跟小編一起學(xué)習(xí)一下吧!
安裝python解釋器:安裝教程
安裝biopython模塊
#?使用pip安裝pipinstall?biopython#?使用conda安裝condainstall?-c bioconda biopython
準(zhǔn)備list文件
查看腳本參數(shù)
pythonGenBank_download.py-h
實(shí)戰(zhàn)演練
#?下載序列fasta文件pythonGenBank_download.py-ffasta-adown_list.txt#?下載序列g(shù)bk文件pythonGenBank_download.py-fgb-adown_list.txt
關(guān)注密碼子實(shí)驗(yàn)室五嫂,后臺(tái)回復(fù)GenBank序列下載颗品,獲取腳本與測(cè)試文件
結(jié)果展示
注意事項(xiàng)
01
腳本需要依賴于Biopython模塊,請(qǐng)?zhí)崆鞍惭b沃缘,否則腳本無法運(yùn)行躯枢。
02
腳本只能下載序列的fasta文件和gbk文件,如原核生物基因組fasta文件槐臀,無法下載gbk文件中的蛋白序列和CDS序列闺金。
03
對(duì)于基因組較大的真核生物,如人基因組峰档,gbk文件有多個(gè)染色體組成败匹,不包含基因組fasta文件寨昙,這樣的序列號(hào)無法下載基因組fasta文件。
04
腳本下載序列的gbk文件和fasta文件等同于瀏覽器下載的gbk文件和fasta文件掀亩。