?今天介紹DNA或蛋白質(zhì)序列的兩兩比對(pairwise comparisons)嘴拢,除了具體操作扫尺,還加入了一些理論知識。
通過比對可以確定兩序列是否同源炊汤,找到序列中的結(jié)構(gòu)域正驻,比較基因及其產(chǎn)物等,從而獲得序列中的功能抢腐、結(jié)構(gòu)姑曙、進化等信息。這次內(nèi)容和之前一個推送內(nèi)容有重疊迈倍,前期推送里簡單介紹了全局伤靠、局部比對以及打分矩陣的概念,可以一看——【現(xiàn)學現(xiàn)賣】序列比對之算法。
上一章介紹的是序列的BLAST操作——【陪你學·生信】七宴合、在數(shù)據(jù)庫中檢索相似的序列焕梅,結(jié)果返回很多序列。這時,如果想要詳細對比列表中的序列與我們的查詢序列,就需要兩兩比對拂苹。
一悯衬、準備對比的序列+選擇適合的方法
1.?選擇序列
(1)通過NCBI-BLAST篡腌,我們可以找到很多與查詢序列比對結(jié)果比較好的序列,然后基于工具給出的identity,E-value值(DNA序列(至少100bp)identity>70%,E-value<10^-4酗失;蛋白質(zhì)序列(至少100aa)identity>25%,E-value<10^-4)昧绣,選擇可以繼續(xù)進行兩兩比對的序列规肴。因為這個指標一定程度上可以說明這兩條序列是同源的,同源序列的結(jié)構(gòu)和功能一般相似夜畴,這樣接下來的比對才更有意義拖刃。
(2)當然兩兩比對的序列也不總是通過NCBI-BLAST結(jié)果,從數(shù)據(jù)庫中進行選擇斩启。比如,實驗過程中發(fā)現(xiàn)兩條功能相似的片段醉锅,可以進行序列比對兔簇;或者實驗中發(fā)現(xiàn)自己的序列有某些確定的功能,那么可以查找這個功能的關(guān)鍵詞硬耍,下載相關(guān)功能的序列進行比對垄琐。
(3)還有可能只利用一條序列進行“兩兩”比對,這個操作可以發(fā)現(xiàn)序列中重復的區(qū)域经柴,低復雜度的重復模體狸窘,回文序列以及RNA中潛在的二級結(jié)構(gòu)。
2. 選擇合適的方法
序列比對有不同的方法坯认,適用于不同情況翻擒,主要分為兩類,點陣法和動態(tài)規(guī)劃算法牛哺,其中動態(tài)規(guī)劃算法包括局部比對和全局比對陋气,簡介見下表。
方法
適用情況
Dot plot
查找序列重復區(qū)域引润;查找長插入/刪除片段巩趁;提取部分序列進行多序列比對(看對角線方向,很直觀)
Local alignments
通過高質(zhì)量的淳附,殘基-殘基的比對议慰,分析兩條序列的同源區(qū)域
Global alignments
在序列全長水平進行比對蠢古,鑒別長插入/刪除片段;檢查數(shù)據(jù)的質(zhì)量别凹;鑒別序列中的每個變異
二草讶、點陣法(Dot Plot)
Dotplot 點陣法是非常簡單、直觀的一種兩條序列比對的方法番川,它能展示出兩條序列所有可能配對的區(qū)域到涂,由研究者選擇最有意義或自己感興趣的區(qū)域進行后續(xù)研究。通過點陣法還可以對序列自身進行比對颁督,尋找序列內(nèi)部的正向或反向重復序列践啄。
如果序列很短的話,點陣法是僅用紙筆就可以完成的兩兩比對沉御。主要方法是將兩條序列一條放在X軸從左至右屿讽,另一個放在Y軸從上至下。當對應(yīng)位置的字符匹配時用“點”標記吠裆,最終形成矩陣伐谈。
如果兩條序列完全相同,矩陣中會有一條長對角線试疙;如果不完全相同诵棵,那么矩陣中就會出現(xiàn)不連續(xù)的對角線,如上圖祝旷。
上圖的是一個簡單的例子履澳,兩條序列很短,如果是兩條長序列比對怀跛,可想而知點陣圖可能會凌亂和復雜距贷。這時候,用滑動窗口(幾個位置為一組)代替單個位點吻谋,可以更加顯著的觀察到兩條序列的相似區(qū)域忠蝗。
有Dotlet,Dnadot漓拾,Dotter阁最,Dottup等專門做dot-plot的工具,可以設(shè)置的參數(shù)很多骇两,比如窗口大小和相似度閾值這種的(窗口大小為10闽撤,相似度閾值為8,指的是每次比較時取10個連續(xù)的字符脯颜,如相同的字符超過8個哟旗,則標記)。我用的是geneious prime,一個很綜合又方便的生信軟件闸餐,進行兩兩比對結(jié)果里會出一個簡單的饱亮,窗口大小為1的dot-plot圖(付費軟件,但是功能很強大舍沙,而且是實驗室付費近上,嘿嘿,那就用好了)拂铡。
三壹无、動態(tài)規(guī)劃算法(dynamic programming algorithm)
從數(shù)學角度講,我們可以把核苷酸/氨基酸殘基看作字符感帅,不同的匹配結(jié)果用給定的打分矩陣給分斗锭,因為序列長度有限,理論上比對方式有限失球,我們可以計算出所有的比對結(jié)果的得分岖是,再找出得分最高的就是最優(yōu)比對。這個思路叫做枚舉法实苞。不過工作量巨大豺撑,下面我們看看動態(tài)規(guī)劃法。
動態(tài)規(guī)劃用于在一個復雜空間中尋找一條最優(yōu)路徑黔牵。接著上面枚舉法的思路聪轿,我們知道最終比對分數(shù)是各個殘基比對分數(shù)之和,那么最好的比對結(jié)果猾浦,就是之前最好的比對+當前位置最好的比對陆错。即局部最優(yōu)解的組合就是全局最優(yōu)解。
1. 全局比對(Global Alignments)
Needleman-Wunsch算法迭代公式
適用于序列整體水平相似程度較高的2個序列跃巡,Needleman-Wunsch算法是經(jīng)典的全局比對算法危号∧脸睿回溯時是從一端到另一端素邪,整體回溯。以兩條短序列AAG和AGC為例猪半,看看兩種比對的不同兔朦。舉例中使用的打分矩陣如下:
打分矩陣
以AAG和AGC為例的全局比對
2. 局部比對(Local Alignments)
Smith-Waterman算法迭代公式
局部比對適用情況:兩序列親緣關(guān)系可能較遠,但在局部具有相似性(比如有相似功能域磨确,但是親緣關(guān)系遠的蛋白質(zhì)序列)沽甥;分析一條序列中的重復片段;內(nèi)含子存在導致序列之間出現(xiàn)大片段差異乏奥。
Smith-Waterman算法是局部比對算法的基礎(chǔ)摆舟。與全局比對的區(qū)別是公式里加了0,即在迭代時給分數(shù)加了下限(沒有負值)。
所以回溯時也不一定是從一端到另一端恨诱,而是局部回溯媳瞪。所產(chǎn)生的結(jié)果就是局部比對結(jié)果,與全局不同的是照宝,除了最優(yōu)比對結(jié)果外蛇受,還會產(chǎn)生次優(yōu)比對結(jié)果。
以AAG和AGC為例的局部比對
四厕鹃、使用Lalign進行比對(以局部比對為例兢仰,全局比對操作一樣的)
1. 網(wǎng)址
https://embnet.vital-it.ch/software/LALIGN_form.html
2. 操作
放大操作頁面解釋各部分:
(1)選擇比對類型,這里我選了局部比對剂碴。
(2)如果是選擇局部比對才會有返回比對結(jié)果個數(shù)的選項把将,我寫了10個,所以結(jié)果這里會從最優(yōu)到次優(yōu)給我列出10個不同局部比對結(jié)果汗茄。
(3)E-value閾值默認10秸弛,即隨機產(chǎn)生10次這樣的結(jié)果。E的閾值越小洪碳,比對越嚴格递览。
(4)打分矩陣,可選的有DNA瞳腌,RNA打分矩陣和蛋白質(zhì)打分矩陣PAM绞铃,BLOSUM。一般選BLOSUM62嫂侍,這里默認50儿捧,也差不多。BLOSUM矩陣后數(shù)字越大挑宠,比對越嚴格菲盾,越適合相似程度高的兩條序列;而PAM趨勢正好相反各淀。
(5)產(chǎn)生空位罰分懒鉴,對應(yīng)BLOSUM50的默認值為-12。沒有最優(yōu)的值碎浇,如果我們設(shè)定空位產(chǎn)生時罰更高的分临谱,那么局部比對結(jié)果將更加局部和分散,產(chǎn)生很多小的比對奴璃。
(6)延長空位罰分悉默,對應(yīng)BLOSUM50的默認值為-2,絕對值一般為產(chǎn)生空位罰分的十分之一左右苟穆。當我們比對兩條親緣關(guān)系較遠的序列時抄课,設(shè)定“產(chǎn)生空位罰分”相對高唱星,而“延長空位罰分”相對更低會產(chǎn)生好結(jié)果,這表示空位罰分更看重空位的產(chǎn)生而非空位長度跟磨。
(7)(8)(9)就是輸入序列啦魏颓,可以復制粘貼,也可以(8)選擇數(shù)據(jù)庫吱晒,然后在(9)中輸入序列在該數(shù)據(jù)庫中的序列號甸饱。
3. 結(jié)果
結(jié)果將返回10個不同的比對,會給出打分和E-value仑濒,看E-value更能說明比對質(zhì)量叹话,當然也要同時考慮比對的長度。
五墩瞳、網(wǎng)上免費比對工具
1. 下面有一些比對工具鏈接:(括號里面是比對類型)
(1)Blast2seqs(Local BLAST)
https://blast.ncbi.nlm.nih.gov/Blast.cgi?BLAST_SPEC=blast2seq&LINK_LOC=align2seq&PAGE_TYPE=BlastSearch
(2)Lalign(Global/Local)
https://embnet.vital-it.ch/software/LALIGN_form.html
(3)xenAliTwo(Local for DNA)
https://users.soe.ucsc.edu/~kent/xenoAli/xenAliTwo.html
(4)Pal2nal(Protein against DNA)
http://www.bork.embl.de/pal2nal/
2. 有時候比對結(jié)果可能需要進一步分析驼壶,下面是推薦:
(1)LalnView——比對結(jié)果可視化軟件
下載鏈接
http://doua.prabi.fr/software/lalnview
(2)PRSS(embnet)——評估比對的顯著性
https://embnet.vital-it.ch/software/PRSS_form.html
(3)PRSS(virginia)——評估比對的顯著性
https://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=shuffle
往期相關(guān)內(nèi)容:
【陪你學·生信】二喉酌、一些你肯定會用到的生信工具和基本操作
【陪你學·生信】三热凹、核苷酸序列數(shù)據(jù)庫的使用
【陪你學·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫
【陪你學·生信】五泪电、當你有一段待分析的DNA序列(基礎(chǔ)操作介紹)
【陪你學·生信】六般妙、當你有一段待分析的氨基酸序列(基礎(chǔ)操作介紹)