起因是有幾千個基因飒赃,想要和參考基因組進行比較利花,看看2個菌在基因個數(shù)上有什么差異科侈,因此就想到了blast,但是使用blast后炒事,輸出的結(jié)果非常多臀栈,對于不精通python的來說,處理結(jié)果就非常令人頭痛挠乳,因此不得不去查閱权薯,最終找到解決辦法,使得輸出結(jié)果能夠僅輸出一條最為匹配的睡扬,而不是輸出一堆盟蚣。
前面建庫有非常多的文章介紹,我這里就不重復(fù)了卖怜,下面會給出三條命令屎开,自己試試看你個最合適,若是還不合適马靠,你需要特定的參數(shù)奄抽,最好自己去查閱blast的說明和參數(shù)詳解,并自己去嘗試甩鳄,雖然看似花時間逞度,但有可能是最快的方法。
一般的用
blastn -query input.cds.fa(輸入文件) -db refgenomic(庫名) -max_target_seqs 1 -outfmt 6 -num_threads 6 -out out_file(輸出文件)
==========================
blastn -query input.cds.fa(輸入文件) -db refgenomic(庫名) -max_target_seqs 1 -evalue 1e-6 -outfmt 6 -num_threads 6 -out out_file(輸出文件)
======================================
我自己文件的
最優(yōu)解娩贷,輸出結(jié)果是一條一條的第晰,沒有冗余
blastn -query input.cds.fa(輸入文件) -db refgenomic(庫名) -outfmt 6 -max_hsps 1 max_target_seqs 1 -num_threads 6 -out out_file(輸出文件)
輸出的6的格式 沒有表頭,在這里提一下
Query_id Subject_id %_identity alignment_length mismatches gap_openings q. start q. end s. start s. end e-value bit_score