blast數(shù)據(jù)庫說明地址:ftp://ftp.ncbi.nlm.nih.gov/blast/documents/blastdb.html
更新于2017年3月6日
文檔中主要描述NCBI-FTP站點下可用的BLAST數(shù)據(jù)庫甚垦。
1 快速啟動
- 為具有相同基名的數(shù)據(jù)庫獲取所有編號的文件:
這些文件中的每一個代表該數(shù)據(jù)庫的子集(卷)贾节,并且所有這些文件都
需要重建數(shù)據(jù)庫寝蹈。 - 在提取之后啼肩,不需要連接生成的文件:
用數(shù)據(jù)庫文件調(diào)用具有基名的數(shù)據(jù)庫剔难,使用"-db nr"爆价。 - 為了便于下載徐伐,請使用BAST+包中的update_blastdb.pl腳本锣吼。
- 增量更新不可用
2 概論
在NCBI-BASIC主頁的BASIC部分下的BLAST搜索頁面使用一組標準的BLAST數(shù)據(jù)庫得湘,用于核苷酸杖玲、蛋白質(zhì)和翻譯的BLAST搜索。這些數(shù)據(jù)庫可作為預(yù)格式化形式的壓縮存檔提供淘正,并且可以從BLAST-FTP站點的/db目錄中被download使用摆马。FASTA文件駐留在/FASTA目錄下。
預(yù)先格式化的數(shù)據(jù)庫具有以下優(yōu)點:
- 預(yù)格式化消除了運行 makeblastdb的需要鸿吆;
- 每個數(shù)據(jù)庫條目都包含物種級分類ID囤采;
- 數(shù)據(jù)庫被分解成更小的體積,因此更容易惩淳。
下載蕉毯; - FASTA格式的序列可以從預(yù)格式化數(shù)據(jù)庫生成
通過使用BLASTBCMD實用工具; - 在BLAST +包中有一個方便的腳本(update_blastdb.pl)可下載預(yù)格式化的數(shù)據(jù)庫思犁。
預(yù)格式化的數(shù)據(jù)庫必須使用update_blastdb.pl腳本下載
在二進制模式下通過FTP代虾。這個腳本的文檔可以通過運行來獲得。
沒有任何參數(shù)的腳本抒倚;Perl安裝是必需的褐着。
下載的壓縮文件必須用GZIP或其他解壓縮程序膨脹。
工具托呕。然后可以從生成的焦油中提取BLAST數(shù)據(jù)庫文件含蓉。
使用UNIX/Linux上的TAR實用程序,或者WinZip和StuffIt擴展程序
Windows和Macintosh平臺项郊。
大型數(shù)據(jù)庫被格式化為多個千兆字節(jié)卷馅扣,它們被命名為
使用堿基名稱。所有具有相同基名的卷都是
必修的着降。提供別名文件以將單個卷捆綁在一起差油,以便
可以使用基名調(diào)用數(shù)據(jù)庫(不使用.NAL或.PAL)。
延伸)。例如蓄喇,要調(diào)用EST數(shù)據(jù)庫发侵,只需使用“-dB EST”選項即可。
在命令行中(沒有引號)妆偏。
未在預(yù)格式化格式中提供的附加BLAST數(shù)據(jù)庫
在FASTA子目錄中可用刃鳄。對于其他基因組爆破數(shù)據(jù)庫,
請檢查基因組FTP目錄在:
FTP://FTPNCBI.NLM.NIH.GOV/GENOMESS/
3 /BLAST/DB/目錄的內(nèi)容
預(yù)格式化的BLAST數(shù)據(jù)庫存檔在該目錄中钱骂。這些數(shù)據(jù)庫及其內(nèi)容的名稱如下叔锐。
4 /BLAST/DB/FASTA目錄的內(nèi)容
此目錄包含F(xiàn)AST-格式化的序列文件。文件名和數(shù)據(jù)庫內(nèi)容如下见秽。這些文件必須在BLAST程序使用之前愉烙,通過BLASTBCMD進行解包和處理。
5 數(shù)據(jù)庫更新
blast數(shù)據(jù)庫定期更新解取。沒有建立的增量更新方案步责。我們建議定期下載完整的數(shù)據(jù)庫以保持它們的內(nèi)容。
6禀苦。非冗余偏轉(zhuǎn)句法
非冗余數(shù)據(jù)庫是NR勺择、NT和PATAA。相同的序列被合并到這些數(shù)據(jù)庫中的一個條目中伦忠。要合并兩個序列省核,必須具有相同的長度,并且每個位置上的每個殘差必須相同昆码。對于屬于一個記錄的不同條目的FASTA偏轉(zhuǎn)由控件分隔气忠,這是大多數(shù)程序不可見的字符。在下面的示例中赋咽,兩個條目Q57 29 3.1和AAB05030.1具有相同的順序旧噪,在各個方面。
單個序列現(xiàn)在簡單地通過它們的訪問版本來標識脓匿。
對于不屬于官方NCBI序列數(shù)據(jù)庫的數(shù)據(jù)庫淘钟,如跟蹤數(shù)據(jù)庫,使用GNL協(xié)議陪毡。對于自定義數(shù)據(jù)庫米母,應(yīng)遵守本公約,每個序列的ID必須是唯一的毡琉,如果你想利用索引數(shù)據(jù)庫的優(yōu)勢铁瞒,使用BLASTBCMD程序?qū)崿F(xiàn)特定的序列檢索在BASIC可執(zhí)行程序包中。應(yīng)參考文獻分布在獨立的blast包中以獲取更多細節(jié)桅滋。
7慧耍。將FASTA文件格式化為可擴展數(shù)據(jù)庫
FASTA文件需要用makeblastdb進行格式化,然后才能在本地BLAST搜索中使用。對于那些來自NCBI的芍碧,推薦以下的makeblastdb命令:
對于核苷酸FASTA文件:
makeblastdb -in input_db -dbtype nucl -parse_seqids
用于蛋白質(zhì)FASTA文件:
makeblastdb -in input_db -dbtype prot -parse_seqids
一般來說煌珊,如果數(shù)據(jù)庫作為BLAST數(shù)據(jù)庫可用,最好使用
預(yù)格式化數(shù)據(jù)庫泌豆。
--- 以后再來修飾語句