【陪你學·生信】八、序列兩兩比對的理論和操作

?今天介紹DNA或蛋白質(zhì)序列的兩兩比對(pairwise comparisons)嘴拢,除了具體操作扫尺,還加入了一些理論知識。

通過比對可以確定兩序列是否同源炊汤,找到序列中的結(jié)構(gòu)域正驻,比較基因及其產(chǎn)物等,從而獲得序列中的功能抢腐、結(jié)構(gòu)姑曙、進化等信息。這次內(nèi)容和之前一個推送內(nèi)容有重疊迈倍,前期推送里簡單介紹了全局伤靠、局部比對以及打分矩陣的概念,可以一看——【現(xiàn)學現(xiàn)賣】序列比對之算法

上一章介紹的是序列的BLAST操作——【陪你學·生信】七宴合、在數(shù)據(jù)庫中檢索相似的序列焕梅,結(jié)果返回很多序列。這時,如果想要詳細對比列表中的序列與我們的查詢序列,就需要兩兩比對拂苹。

一悯衬、準備對比的序列+選擇適合的方法

1.?選擇序列

(1)通過NCBI-BLAST篡腌,我們可以找到很多與查詢序列比對結(jié)果比較好的序列,然后基于工具給出的identity,E-value值(DNA序列(至少100bp)identity>70%,E-value<10^-4酗失;蛋白質(zhì)序列(至少100aa)identity>25%,E-value<10^-4)昧绣,選擇可以繼續(xù)進行兩兩比對的序列规肴。因為這個指標一定程度上可以說明這兩條序列是同源的,同源序列的結(jié)構(gòu)和功能一般相似夜畴,這樣接下來的比對才更有意義拖刃。

(2)當然兩兩比對的序列也不總是通過NCBI-BLAST結(jié)果,從數(shù)據(jù)庫中進行選擇斩启。比如,實驗過程中發(fā)現(xiàn)兩條功能相似的片段醉锅,可以進行序列比對兔簇;或者實驗中發(fā)現(xiàn)自己的序列有某些確定的功能,那么可以查找這個功能的關(guān)鍵詞硬耍,下載相關(guān)功能的序列進行比對垄琐。

(3)還有可能只利用一條序列進行“兩兩”比對,這個操作可以發(fā)現(xiàn)序列中重復的區(qū)域经柴,低復雜度的重復模體狸窘,回文序列以及RNA中潛在的二級結(jié)構(gòu)。

2. 選擇合適的方法

序列比對有不同的方法坯认,適用于不同情況翻擒,主要分為兩類,點陣法和動態(tài)規(guī)劃算法牛哺,其中動態(tài)規(guī)劃算法包括局部比對和全局比對陋气,簡介見下表。

方法

適用情況

Dot plot

查找序列重復區(qū)域引润;查找長插入/刪除片段巩趁;提取部分序列進行多序列比對(看對角線方向,很直觀)

Local alignments

通過高質(zhì)量的淳附,殘基-殘基的比對议慰,分析兩條序列的同源區(qū)域

Global alignments

在序列全長水平進行比對蠢古,鑒別長插入/刪除片段;檢查數(shù)據(jù)的質(zhì)量别凹;鑒別序列中的每個變異

二草讶、點陣法(Dot Plot)

Dotplot 點陣法是非常簡單、直觀的一種兩條序列比對的方法番川,它能展示出兩條序列所有可能配對的區(qū)域到涂,由研究者選擇最有意義或自己感興趣的區(qū)域進行后續(xù)研究。通過點陣法還可以對序列自身進行比對颁督,尋找序列內(nèi)部的正向或反向重復序列践啄。

如果序列很短的話,點陣法是僅用紙筆就可以完成的兩兩比對沉御。主要方法是將兩條序列一條放在X軸從左至右屿讽,另一個放在Y軸從上至下。當對應(yīng)位置的字符匹配時用“點”標記吠裆,最終形成矩陣伐谈。

如果兩條序列完全相同,矩陣中會有一條長對角線试疙;如果不完全相同诵棵,那么矩陣中就會出現(xiàn)不連續(xù)的對角線,如上圖祝旷。

上圖的是一個簡單的例子履澳,兩條序列很短,如果是兩條長序列比對怀跛,可想而知點陣圖可能會凌亂和復雜距贷。這時候,用滑動窗口(幾個位置為一組)代替單個位點吻谋,可以更加顯著的觀察到兩條序列的相似區(qū)域忠蝗。

有Dotlet,Dnadot漓拾,Dotter阁最,Dottup等專門做dot-plot的工具,可以設(shè)置的參數(shù)很多骇两,比如窗口大小和相似度閾值這種的(窗口大小為10闽撤,相似度閾值為8,指的是每次比較時取10個連續(xù)的字符脯颜,如相同的字符超過8個哟旗,則標記)。我用的是geneious prime,一個很綜合又方便的生信軟件闸餐,進行兩兩比對結(jié)果里會出一個簡單的饱亮,窗口大小為1的dot-plot圖(付費軟件,但是功能很強大舍沙,而且是實驗室付費近上,嘿嘿,那就用好了)拂铡。

三壹无、動態(tài)規(guī)劃算法(dynamic programming algorithm)

從數(shù)學角度講,我們可以把核苷酸/氨基酸殘基看作字符感帅,不同的匹配結(jié)果用給定的打分矩陣給分斗锭,因為序列長度有限,理論上比對方式有限失球,我們可以計算出所有的比對結(jié)果的得分岖是,再找出得分最高的就是最優(yōu)比對。這個思路叫做枚舉法实苞。不過工作量巨大豺撑,下面我們看看動態(tài)規(guī)劃法。

動態(tài)規(guī)劃用于在一個復雜空間中尋找一條最優(yōu)路徑黔牵。接著上面枚舉法的思路聪轿,我們知道最終比對分數(shù)是各個殘基比對分數(shù)之和,那么最好的比對結(jié)果猾浦,就是之前最好的比對+當前位置最好的比對陆错。即局部最優(yōu)解的組合就是全局最優(yōu)解。

1. 全局比對(Global Alignments)

Needleman-Wunsch算法迭代公式

適用于序列整體水平相似程度較高的2個序列跃巡,Needleman-Wunsch算法是經(jīng)典的全局比對算法危号∧脸睿回溯時是從一端到另一端素邪,整體回溯。以兩條短序列AAG和AGC為例猪半,看看兩種比對的不同兔朦。舉例中使用的打分矩陣如下:

打分矩陣

以AAG和AGC為例的全局比對

2. 局部比對(Local Alignments)

Smith-Waterman算法迭代公式

局部比對適用情況:兩序列親緣關(guān)系可能較遠,但在局部具有相似性(比如有相似功能域磨确,但是親緣關(guān)系遠的蛋白質(zhì)序列)沽甥;分析一條序列中的重復片段;內(nèi)含子存在導致序列之間出現(xiàn)大片段差異乏奥。

Smith-Waterman算法是局部比對算法的基礎(chǔ)摆舟。與全局比對的區(qū)別是公式里加了0,即在迭代時給分數(shù)加了下限(沒有負值)。

所以回溯時也不一定是從一端到另一端恨诱,而是局部回溯媳瞪。所產(chǎn)生的結(jié)果就是局部比對結(jié)果,與全局不同的是照宝,除了最優(yōu)比對結(jié)果外蛇受,還會產(chǎn)生次優(yōu)比對結(jié)果。

以AAG和AGC為例的局部比對

四厕鹃、使用Lalign進行比對(以局部比對為例兢仰,全局比對操作一樣的)

1. 網(wǎng)址

https://embnet.vital-it.ch/software/LALIGN_form.html

2. 操作

放大操作頁面解釋各部分:

(1)選擇比對類型,這里我選了局部比對剂碴。

(2)如果是選擇局部比對才會有返回比對結(jié)果個數(shù)的選項把将,我寫了10個,所以結(jié)果這里會從最優(yōu)到次優(yōu)給我列出10個不同局部比對結(jié)果汗茄。

(3)E-value閾值默認10秸弛,即隨機產(chǎn)生10次這樣的結(jié)果。E的閾值越小洪碳,比對越嚴格递览。

(4)打分矩陣,可選的有DNA瞳腌,RNA打分矩陣和蛋白質(zhì)打分矩陣PAM绞铃,BLOSUM。一般選BLOSUM62嫂侍,這里默認50儿捧,也差不多。BLOSUM矩陣后數(shù)字越大挑宠,比對越嚴格菲盾,越適合相似程度高的兩條序列;而PAM趨勢正好相反各淀。

(5)產(chǎn)生空位罰分懒鉴,對應(yīng)BLOSUM50的默認值為-12。沒有最優(yōu)的值碎浇,如果我們設(shè)定空位產(chǎn)生時罰更高的分临谱,那么局部比對結(jié)果將更加局部和分散,產(chǎn)生很多小的比對奴璃。

(6)延長空位罰分悉默,對應(yīng)BLOSUM50的默認值為-2,絕對值一般為產(chǎn)生空位罰分的十分之一左右苟穆。當我們比對兩條親緣關(guān)系較遠的序列時抄课,設(shè)定“產(chǎn)生空位罰分”相對高唱星,而“延長空位罰分”相對更低會產(chǎn)生好結(jié)果,這表示空位罰分更看重空位的產(chǎn)生而非空位長度跟磨。

(7)(8)(9)就是輸入序列啦魏颓,可以復制粘貼,也可以(8)選擇數(shù)據(jù)庫吱晒,然后在(9)中輸入序列在該數(shù)據(jù)庫中的序列號甸饱。

3. 結(jié)果

結(jié)果將返回10個不同的比對,會給出打分和E-value仑濒,看E-value更能說明比對質(zhì)量叹话,當然也要同時考慮比對的長度。

五墩瞳、網(wǎng)上免費比對工具

1. 下面有一些比對工具鏈接:(括號里面是比對類型)

(1)Blast2seqs(Local BLAST)

https://blast.ncbi.nlm.nih.gov/Blast.cgi?BLAST_SPEC=blast2seq&LINK_LOC=align2seq&PAGE_TYPE=BlastSearch

(2)Lalign(Global/Local)

https://embnet.vital-it.ch/software/LALIGN_form.html

(3)xenAliTwo(Local for DNA)

https://users.soe.ucsc.edu/~kent/xenoAli/xenAliTwo.html

(4)Pal2nal(Protein against DNA)

http://www.bork.embl.de/pal2nal/

2. 有時候比對結(jié)果可能需要進一步分析驼壶,下面是推薦:

(1)LalnView——比對結(jié)果可視化軟件

下載鏈接

http://doua.prabi.fr/software/lalnview

(2)PRSS(embnet)——評估比對的顯著性

https://embnet.vital-it.ch/software/PRSS_form.html

(3)PRSS(virginia)——評估比對的顯著性

https://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=shuffle

往期相關(guān)內(nèi)容:

【陪你學·生信】序

【陪你學·生信】一、生信能幫我們做什么

【陪你學·生信】二喉酌、一些你肯定會用到的生信工具和基本操作

【陪你學·生信】三热凹、核苷酸序列數(shù)據(jù)庫的使用

【陪你學·生信】四、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫

【陪你學·生信】五泪电、當你有一段待分析的DNA序列(基礎(chǔ)操作介紹)

【陪你學·生信】六般妙、當你有一段待分析的氨基酸序列(基礎(chǔ)操作介紹)

【陪你學·生信】七、在數(shù)據(jù)庫中檢索相似的序列

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末相速,一起剝皮案震驚了整個濱河市碟渺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌突诬,老刑警劉巖苫拍,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異旺隙,居然都是意外死亡绒极,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進店門蔬捷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來垄提,“玉大人,你說我怎么就攤上這事抠刺∷伲” “怎么了摘昌?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵速妖,是天一觀的道長。 經(jīng)常有香客問我聪黎,道長罕容,這世上最難降的妖魔是什么备恤? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮锦秒,結(jié)果婚禮上露泊,老公的妹妹穿的比我還像新娘。我一直安慰自己旅择,他們只是感情好惭笑,可當我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著生真,像睡著了一般沉噩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上柱蟀,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天川蒙,我揣著相機與錄音,去河邊找鬼长已。 笑死畜眨,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的术瓮。 我是一名探鬼主播康聂,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼胞四!你這毒婦竟也來了早抠?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤撬讽,失蹤者是張志新(化名)和其女友劉穎蕊连,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體游昼,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡甘苍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了烘豌。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片载庭。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖廊佩,靈堂內(nèi)的尸體忽然破棺而出囚聚,到底是詐尸還是另有隱情,我是刑警寧澤标锄,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布顽铸,位于F島的核電站,受9級特大地震影響料皇,放射性物質(zhì)發(fā)生泄漏谓松。R本人自食惡果不足惜星压,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望鬼譬。 院中可真熱鬧娜膘,春花似錦、人聲如沸优质。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽巩螃。三九已至贾富,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間牺六,已是汗流浹背颤枪。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留淑际,地道東北人畏纲。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像春缕,于是被迫代替她去往敵國和親盗胀。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容