BLAST-The?learning?notes?of?the?biostar?handbook(7)

Basic Local Alignment Search Tool (BLAST)

個用來比對生物序列的一級結(jié)構(gòu)(如不同蛋白質(zhì)的氨基酸序列或不同基因的DNA序列)的算法河哑。 已知一個包含若干序列的數(shù)據(jù)庫垮耳,BLAST可以讓研究者在其中尋找與其感興趣的序列相同或類似的序列。 例如如果某種非人動物的一個以前未知的基因被發(fā)現(xiàn)致讥,研究者一般會在人類基因組中做一個BLAST搜索來確認(rèn)人類是否包含類似的基因(通過序列的相似性)。BLAST算法以及實現(xiàn)它的程序由美國國家生物技術(shù)信息中心(NCBI)的Warren Gish幻梯、David J. Lipman及Webb Miller博士開發(fā)的算行。(from wikipedia)

A suite of tools

blast-table.png

The key concepts of BLAST

-Search may take place in nucleotide and/or protein space or translated spaces where nucleotides are translated into proteins.
-Searches may implement search “strategies”: optimizations to a certain task. Different search strategies will return different alignments.
-Searches use alignments that rely on scoring matrices
-Searches may be customized with many additional parameters. BLAST has many subtle functions that most users never need.

使用BLAST 的基本步驟

1.使用makeblastdb建立BLAST數(shù)據(jù)庫
2.合適的選擇blastn、blastp、blsatx等工具
3.運行工具并在需要的時候格式化輸出結(jié)果

Build a blast database

#建立database目錄
mkdir -p ~/refs/ebola
#獲取ebola病毒核酸序列
efetch -db nucleotide -id KM233118 --format fasta > ~/refs/ebola/KM233118.fa

makeblastdb命令建立ebola核酸序列database
makeblastdb -help | more

USAGE
  makeblastdb [-h] [-help] [-in input_file] [-input_type type]
    -dbtype molecule_type [-title database_title] [-parse_seqids]
    [-hash_index] [-mask_data mask_data_files] [-mask_id mask_algo_ids]
    [-mask_desc mask_algo_descriptions] [-gi_mask]
    [-gi_mask_name gi_based_mask_names] [-out database_name]
    [-max_file_sz number_of_bytes] [-logfile File_Name] [-taxid TaxID]
    [-taxid_map TaxIDMapFile] [-version]
DESCRIPTION
   Application to create BLAST databases, version 2.7.1+
REQUIRED ARGUMENTS
 -dbtype <String, `nucl', `prot'>
   Molecule type of target db
OPTIONAL ARGUMENTS
 -h
   Print USAGE and DESCRIPTION;  ignore all other parameters
 -help
   Print USAGE, DESCRIPTION and ARGUMENTS; ignore all other parameters
 -version
   Print version number;  ignore other arguments
 *** Input options
 -in <File_In>
   Input file/database name
   Default = `-'
 -input_type <String, `asn1_bin', `asn1_txt', `blastdb', `fasta'>
   Type of the data specified in input_file
   Default = `fasta'
> *** Configuration options
 -title <String>
   Title for BLAST database
   Default = input file name provided to -in argument
 -parse_seqids
   Option to parse seqid for FASTA input if set, for all other input types
   seqids are parsed automatically
 -hash_index
   Create index of sequence hash values.
 *** Sequence masking options
 -mask_data <String>
   Comma-separated list of input files containing masking data as produced by
   NCBI masking applications (e.g. dustmasker, segmasker, windowmasker)
 -mask_id <String>
   Comma-separated list of strings to uniquely identify the masking algorithm
    * Requires:  mask_data
    * Incompatible with:  gi_mask
 -mask_desc <String>
   Comma-separated list of free form strings to describe the masking algorithm
   details
    * Requires:  mask_id
 -gi_mask
   Create GI indexed masking data.
    * Requires:  parse_seqids
    * Incompatible with:  mask_id
 -gi_mask_name <String>
   Comma-separated list of masking data output files.
    * Requires:  mask_data, gi_mask
 *** Output options
 -out <String>
   Name of BLAST database to be created
   Default = input file name provided to -in argumentRequired if multiple
   file(s)/database(s) are provided as input
 -max_file_sz <String>
   Maximum file size for BLAST database files
   Default = `1GB'
 -logfile <File_Out>
   File to which the program log should be redirected
 *** Taxonomy options
 -taxid <Integer, >=0>
   Taxonomy ID to assign to all sequences
    * Incompatible with:  taxid_map
 -taxid_map <File_In>
   Text file mapping sequence IDs to taxonomy IDs.
   Format:<SequenceId> <TaxonomyId><newline>
    * Requires:  parse_seqids
    * Incompatible with:  taxid
#創(chuàng)建ebola核酸序列數(shù)據(jù)庫
makeblastdb -in ~/refs/ebola/KM233118.fa -dbtype nucl -out ~/refs/ebola/KM233118

創(chuàng)建PRJNA257197氨基酸序列數(shù)據(jù)庫

#下載PRJNA257197所有蛋白質(zhì)序列fasta文件
esearch -db protein -query PRJNA257197 | efetch -format fasta > index/all-proteins.fa
#創(chuàng)建氨基酸序列數(shù)據(jù)庫
makeblastdb -in index/all-proteins.fa -dbtype prot -out index/all -parse_seqids
#列出數(shù)據(jù)庫內(nèi)的內(nèi)容夹姥,以“%a”accession格式顯示
blastdbcmd -db index/all -entry 'all' -outfmt "%a" | head

BLAST database的下載

NCBI提供許多物種和幾乎所有的已知序列的數(shù)據(jù)庫的下載
website

#創(chuàng)建目錄用于存放下載的數(shù)據(jù)庫
mkdir -p ~refs/refseq
cd ~/ref/refseq
#blast軟件包中已有update_blastdb.pl用于下載NCBI已經(jīng)做好的數(shù)據(jù)庫
#查看所有數(shù)據(jù)庫
update_blastdb.pl | more
#下載16 microbial database
update_blastdb.pl 16SMicrobial --decompress
#下載分類數(shù)據(jù)庫
update_blastdb.pl taxdb --decompress
#將數(shù)據(jù)路徑加入系統(tǒng)環(huán)境變量杉武,這也是分類檢索所必須的(for MAC)
echo "export BLASTDB=$BLASTDB:~/refs/refseq/" >> ~/.bahs_profile
source ~/.bash_profile
(未完待續(xù))
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市辙售,隨后出現(xiàn)的幾起案子轻抱,更是在濱河造成了極大的恐慌,老刑警劉巖旦部,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件祈搜,死亡現(xiàn)場離奇詭異,居然都是意外死亡士八,警方通過查閱死者的電腦和手機容燕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來曹铃,“玉大人缰趋,你說我怎么就攤上這事∩录” “怎么了秘血?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長评甜。 經(jīng)常有香客問我灰粮,道長,這世上最難降的妖魔是什么忍坷? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任粘舟,我火速辦了婚禮,結(jié)果婚禮上佩研,老公的妹妹穿的比我還像新娘柑肴。我一直安慰自己,他們只是感情好旬薯,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布晰骑。 她就那樣靜靜地躺著,像睡著了一般绊序。 火紅的嫁衣襯著肌膚如雪硕舆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天骤公,我揣著相機與錄音抚官,去河邊找鬼。 笑死阶捆,一個胖子當(dāng)著我的面吹牛凌节,可吹牛的內(nèi)容都是我干的钦听。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼倍奢,長吁一口氣:“原來是場噩夢啊……” “哼彪见!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起娱挨,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎捕犬,沒想到半個月后跷坝,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡碉碉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年柴钻,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垢粮。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡贴届,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蜡吧,到底是詐尸還是另有隱情毫蚓,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布昔善,位于F島的核電站元潘,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏君仆。R本人自食惡果不足惜翩概,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望返咱。 院中可真熱鬧钥庇,春花似錦、人聲如沸咖摹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽楞艾。三九已至裤唠,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間粹湃,已是汗流浹背呵哨。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留两入,地道東北人净宵。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親择葡。 傳聞我的和親對象是個殘疾皇子紧武,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 有了黑夜的幽靜有了風(fēng)的微涼有了舊書的滄桑有了煙的灰燼有了詩意有了回憶也有了別離 沒了白晝的喧囂沒了雨的暖意沒了古道...
    嚴(yán)厚德閱讀 193評論 0 1
  • 安妮過完年回成都,我就說請她吃晚飯敏储。 問她想吃什么阻星,回答是不知道。但明確指出已添,不吃串串妥箕,因為我們倆經(jīng)常去六年二班吃...
    土川兄一終身建設(shè)閱讀 1,471評論 0 0
  • 上單位通勤車,一眼就看到L姐更舞。她戴了頂毛線編織的帽子畦幢,嫻靜優(yōu)雅地坐在座位上。 “帽子真漂亮缆蝉,自己織的宇葱?” “買的,...
    鉛筆芒種閱讀 503評論 0 2