從早期序列比對工具Needleman-Wunsch敢靡、Smith-Waterman到后來的Clustal算法挂滓,以及近幾年的Muscle、MAFFT序列比對算法啸胧。算法在向更快赶站、更精確、能處理更多數(shù)據(jù)這些方向進(jìn)行緩慢而有力的發(fā)展吓揪。常用的在線序列比對工具主要由EMBL-EBI提供亲怠,包括但不限于Needle, Water, Clustal Omega, Muscle, Mafft, T-coffee等,以及NCBI提供的blast2seq工具柠辞;常用的序列相似性搜索工具有NCBI提供的BLAST团秽、UCSC提供的BLAT等。EMBL-EBI與NCBI同時期也開發(fā)了一套序列相似性搜索工具FASTA叭首,然后最終沒能流行起來习勤。BLAST一家獨(dú)大,BLAT依賴UCSC占據(jù)一點(diǎn)小市場焙格,F(xiàn)ASTA的親爹同時提供了FASTA及BLAST服務(wù)图毕,可能現(xiàn)在說FASTA人們只會想到FASTA文件格式吧。EMBL-EBI提供大量的對比工具在線服務(wù)眷唉,并不代表其擁有這些工具的所有權(quán)予颤。
按工具功能大致可以分為3類:配對序列比對工具,多序列比對工具以及序列相似性搜索工具冬阳。
配對序列比對是用來研究兩條序列(核酸序列或者蛋白序列)之間功能蛤虐、結(jié)構(gòu)或者進(jìn)化關(guān)系。
多序列比對工具當(dāng)然也支持配對序列比對肝陪,不過更多的是用來比對3條及以上序列驳庭,研究序列之間是否同源以及序列間的進(jìn)化關(guān)系。
序列相似性搜索工具主要是在一個序列數(shù)據(jù)庫中查找一條序列,找出與查詢序列最相似的序列饲常。
配對序列比對工具
工具集網(wǎng)址:
https://www.ebi.ac.uk/Tools/psa/
這些可能是史前比對工具了蹲堂,現(xiàn)在估計沒有什么人在用了,可能也沒人聽過還有這樣的工具存在贝淤。但是他大爺畢竟是他大爺柒竞,如果想比對兩條序列全局情況,Needle仍是不錯的選擇霹娄,至于Smith-Waterman算法能犯,在許多二代比對算法里仍可見,比如bwa-sw算法犬耻,Minimap2計算overlap時使用的也是Smith-Waterman算法踩晶;Smith-Waterman也擁有CUDA版本程序。
Needle比對工具
以Needle工具為例進(jìn)行一下簡單的演示枕磁,其提供了核酸及蛋白比對兩個版本渡蜻,比對不同類型的序列需要選擇不同的工具。Needle是全局比對工具计济,將兩條序列全部內(nèi)部進(jìn)行比對并展示茸苇。
1. 打開Needle核酸比對工具頁面
https://www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html
2. 輸入兩條需要比對的序列
一個文本框里輸入一條FASTA記錄,其他參數(shù)不需要調(diào)整沦寂。
3. 查看結(jié)果
Needle的結(jié)果看起來是非常友好的学密,類似于NCBI BLAST顯示結(jié)果,
多序列比對工具
工具集網(wǎng)址:
https://www.ebi.ac.uk/Tools/msa/
該主頁提供了多款多序列比對工具传藏,其中Clustal Omega結(jié)果形式是全局比對形式腻暮,但是算法還是局部比對算法,不建議在分子進(jìn)化樹分析過程使用Clustal相關(guān)程序毯侦,因為其速度及準(zhǔn)確度均遜色于下述的MAFFT及MUSCLE哭靖。
下表列出了常用的多序列比對工具,在平時學(xué)習(xí)或者工作中建議使用MAFFT或者M(jìn)USCLE進(jìn)行多序列比對侈离。
MAFFT比對工具
MAFFT是2002年開發(fā)的一款快速的局部/全局多序列比對工具试幽,與之相對的是2004年開發(fā)的MUSCLE多序列比對工具,在網(wǎng)頁使用過程中卦碾,兩者差異不明顯铺坞,但是MUSCLE在比對數(shù)百條、數(shù)千條序列時洲胖,速度較慢康震,這時候使用MAFFT效果會好一點(diǎn)。
1. 打開MAFFT主頁
https://www.ebi.ac.uk/Tools/msa/mafft/
2. 輸入自己想要進(jìn)行比對的多序列
支持2條以上序列比對宾濒,目前EMBL-EBI提供的網(wǎng)頁版本MAFFT最大支持500條序列且文件大小不超過1MB(差不多1,000,000bp的堿基)。如果自己提交的文件較大屏箍,可以在提交時勾選Be notified by email绘梦。這樣在比對完成時橘忱,EMBL-EBI會郵件通知你比對結(jié)果。
3. 查看結(jié)果
提交任務(wù)卸奉,過一段時間后就可以查看到比對結(jié)果了钝诚。其中Phylogenetic Tree可以查看分子進(jìn)化樹。
不同序列比對工具對比
其他工具使用方式與MAFFT一致榄棵,相對于ClustalW/Clustal Omega凝颇,MAFFT及MUSCLE比對結(jié)果無計數(shù)。但是MAFFT及MUSCLE在處理INDEL時疹鳄,效果比ClustalW/Clustal Omega要好拧略。
相同兩條序列不同軟件比對結(jié)果
可以很明顯的看出各種工具對INDEL的處理,這主要是不同工具使用算法不同有關(guān)瘪弓。Clustal垫蛆,Water及blast2seq,在遇到Gap及Gap持續(xù)延長時腺怯,比對分值線性下降袱饭,而其他幾種算法在遇到Gap及Gap持續(xù)延長時,比對分值會下降但不會低于0呛占,不會線性下降虑乖。
序列相似性搜索工具
工具集網(wǎng)址:
https://www.ebi.ac.uk/Tools/sss
EMBL-EBI提供了FASTA及BLAST兩款序列相似性搜索工具,不過序列相似性工具還是使用NCBI的BLAST以及UCSC的BLAT比較好晾虑。
NCBI BLAST
BLAST是目前最常用的生信工具之一疹味,NCBI圍繞BLAST開發(fā)了大量的周邊工具,比如引物設(shè)計及特異性驗證工具Primer-BLAST走贪。
1.打開BLAST主頁
https://blast.ncbi.nlm.nih.gov/Blast.cgi
其提供了4款BLAST子工具佛猛,常用的是核酸BLAST以及蛋白BLAST,點(diǎn)擊核酸BLAST進(jìn)入工具內(nèi)部坠狡。
2. 選擇適合的參數(shù)進(jìn)行搜索
3. 搜索結(jié)果查看
有疑問可以點(diǎn)擊整個頁面右上角的HELP继找,進(jìn)行個人自助。
4. 圖形化瀏覽比對結(jié)果
這里又可以使用NCBI強(qiáng)大的基因組瀏覽功能了逃沿,可以添加自己想要的track進(jìn)行數(shù)據(jù)關(guān)聯(lián)展示婴渡,可惜好多人不太喜歡這個功能。
UCSC BLAT
1.打開BLAT主頁
https://genome.ucsc.edu/cgi-bin/hgBlat
2. 選擇合適參數(shù)進(jìn)行序列搜索
3. 搜索結(jié)果查看
詳細(xì)結(jié)果支持兩種查看方式:基因組瀏覽器以及文本形式凯亮”呔剩基因組瀏覽器形式可以查看全局比對情況,以及匹配區(qū)域在基因組中的位置假消、注釋等情況柠并,文本形式可以詳細(xì)的查看比對結(jié)果。
4. 基因組瀏覽器查看比對結(jié)果
5. 文本形式比對結(jié)果
BLAT更多體現(xiàn)的是一個定位功能,將查詢序列定位到目標(biāo)基因組上臼予,而BLAST更加的是搜索功能鸣戴,從序列數(shù)據(jù)庫中搜索出與查詢序列接近的目標(biāo)序列。
總結(jié):
對于鏈相反的序列比對建議使用blast2seq粘拾;
對于序列相似窄锅,想要查看序列全局比對的建議使用needle及MAFFT;
對于多條序列比對缰雇,建議使用MAFFTT入偷;
實(shí)在特別想要Clustal計數(shù)形式結(jié)果,建議使用Clustal Omega或者Needle械哟;
想做多條序列分子進(jìn)化樹疏之,建議MAFFT;
未知序列搜索戒良,想要研究序列功能可以使用blast体捏,速度稍慢,但搜索庫數(shù)據(jù)量大糯崎;
某一物種未知序列定位几缭,建議使用blat,速度快沃呢。