Biostar_handbook||charpter 12. BLAST

BLAST: basic local alignment search tool。包括:blastn, blastp, blastx, tblastn, tblastx

BLAST 基本步驟

  1. 準備數(shù)據(jù)庫:makeblastdb
  2. 選擇blast工具:包括blastn, blastp等
  3. 運行得到結果茬底,對輸出進行修飾

Blast工具類型:

Blast 術語 terminology

  • Query: 檢索的序列
  • Target:需要比對的數(shù)據(jù)集合芹啥,數(shù)據(jù)庫映之。
  • Subject:how we refer to an entry that matches.
  • Score:比對的得分
  • E-value:期望值閾值议纯。1.E值適合與有一定長度,且復雜度不能太低的序列存谎。2. 當E值小于10-5時银萍,表明序列有較高的同源性变勇,而非因計算錯誤。3.當e值小于10-6表明兩序列的同源性非常高贴唇,幾乎沒有必要再做確認搀绣。

建庫

以水稻cds數(shù)據(jù)為例,搜索擬南芥REV的同源基因

### 下載水稻cds和pep數(shù)據(jù)
wget ftp://ftp.ensemblgenomes.org/pub/plants/release-39/fasta/oryza_sativa/cds/Oryza_sativa.IRGSP-1.0.cds.all.fa.gz
ftp://ftp.ensemblgenomes.org/pub/plants/release-39/fasta/oryza_sativa/pep/Oryza_sativa.IRGSP-1.0.pep.all.fa.gz
gunzip *.gz

### 建庫
makeblastdb -in Oryza_sativa.IRGSP-1.0.cds.all.fa -dbtype nucl -out oriza.cds.fa
makeblastdb -in Oryza_sativa.IRGSP-1.0.pep.all.fa -dbtype prot -out oriza.pep.fa

### bio_handbook示例
esearch -db protein -query PRJNA257197|efetch -format=fasta >index/all-protein.fa 
makeblastdb -in all-protein.fa -dbtype nucl -parse_seqids
blastdbcmd -db all-protein.fa -entry 'all' -outfmt '%a' |les

檢索比對

BLAST 常用命令

  • task命令: 指不同的檢索算法戳气,目的為適應某些特殊的序列(短序列等)其中blastn包括以下task
    • blastn:更為寬松的檢索链患,find more divergent sequences
    • megablast:較為嚴格的檢索,此為blastn的默認檢索算法瓶您,find less divergent sequences
    • blastn-short:對短序列進行的檢索
  • db:數(shù)據(jù)庫位置
  • query:檢索的文件
  • out:輸出的文件
  • evalue:期望值閾值1e-5
  • perc_identity:根據(jù)相似度對輸出結果過濾
  • remote:遠程NCBI的數(shù)據(jù)庫 麻捻,需-db nr
  • query_loc:檢索的位置
  • outfmt:輸出的數(shù)據(jù)格式纲仍,常用的為6,7
    • qaccver: 檢索序列的ac號
    • saccver: 目標序列的ac號
    • pident:完全匹配百分比
    • length:聯(lián)配的長度
    • mismatch:錯配數(shù)目
    • gapopen:gap的數(shù)目
    • qstart:檢索序列的起始
    • sstart:目標序列起始
    • send:目標序列起始
    • evalue:期望值
    • bitscore:BIT得分
    • score:原始得分
### 檢索
blastn -db oriza.cds.fa -query ath_REV.fa -outfmt 7 ###無檢索結果

blastn -task blastn -db oriza.cds.fa -query ath_REV.fa -outfmt 7 ###較為寬松贸毕,結果很多巷折。


### 指定輸出格式 pident 為identity值
blastn -task blastn -db oriza.cds.fa -query ath_REV.fa -outfmt "6 qseqid sseqid pident" 

## 書中按照identity值進行排序
blastn -task blastn -db oriza.cds.fa -query ath_REV.fa -outfmt "6 qseqid sseqid pident" | sort -k3 -rn |head 5

  • 對于低復雜度的序列(low complexity,重復序列較多)崖咨,加上參數(shù)-dust no
  • 序列聯(lián)配,兩兩比對加參數(shù)-subject
efectch -id NC_001133 -db nucleotide -format fasta > NC_001133.fa

blastn -query start.fa -subject NC_001133.fa

其它的一些BLAST-like的程序

  • Diamond快速blast
  • RAPSearch2:A memory-efficient implementation of RAPSearch algorithm for protein similarity search with a large database and a large queryset.

一些diamond命令

###建庫
diamond makedb --in nr.faa -d nr

##比對
diamond blastp -d nr -q reads.fa -o align.txt -f 6

快速是會以準確性為代價的油吭,尚不知道diamond的準確度有多好击蹲?

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市婉宰,隨后出現(xiàn)的幾起案子歌豺,更是在濱河造成了極大的恐慌,老刑警劉巖心包,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件类咧,死亡現(xiàn)場離奇詭異,居然都是意外死亡蟹腾,警方通過查閱死者的電腦和手機痕惋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來娃殖,“玉大人值戳,你說我怎么就攤上這事÷” “怎么了堕虹?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長芬首。 經(jīng)常有香客問我赴捞,道長,這世上最難降的妖魔是什么郁稍? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任赦政,我火速辦了婚禮,結果婚禮上艺晴,老公的妹妹穿的比我還像新娘昼钻。我一直安慰自己,他們只是感情好封寞,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布然评。 她就那樣靜靜地躺著,像睡著了一般狈究。 火紅的嫁衣襯著肌膚如雪碗淌。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機與錄音亿眠,去河邊找鬼碎罚。 笑死,一個胖子當著我的面吹牛纳像,可吹牛的內容都是我干的荆烈。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了赘淮?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤玫鸟,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后犀勒,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體屎飘,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年贾费,在試婚紗的時候發(fā)現(xiàn)自己被綠了钦购。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡褂萧,死狀恐怖肮雨,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情箱玷,我是刑警寧澤怨规,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站锡足,受9級特大地震影響波丰,放射性物質發(fā)生泄漏。R本人自食惡果不足惜舶得,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一掰烟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧沐批,春花似錦纫骑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至躺彬,卻和暖如春煤墙,著一層夾襖步出監(jiān)牢的瞬間梅惯,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工仿野, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留铣减,地道東北人。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓脚作,卻偏偏與公主長得像葫哗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子球涛,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內容