序列比較
認識序列
FASTA 格式喉酌,第一行是一個大于號“>”開頭热凹,后面緊接注釋信息
序列相似性
相似的序列》相似的結(jié)構(gòu)》相似的功能
一致度
如果兩個序列長度相同泵喘,那么它們的一致度可以暫時定義為它們對應(yīng)位置上相同的殘基數(shù)目占總長度的百分比泪电。
例:上下相同的堿基為2,序列長度為4纪铺,則一致度為:2/4=2
相似度
如果兩個序列長度相同相速,那么它們的相似度可以暫時定義為他們對應(yīng)位置上相似的殘基
與相同的殘基的數(shù)目和占總長度的百分比。
例:判斷K 和 L 是否相似鲜锚,需要替換記分矩陣
核酸序列的替換記分矩陣
替換記分矩陣是反映殘基之間相互替換率的矩陣突诬。根據(jù)各氨基酸分值,可以知道各氨基酸的相似程度芜繁。
分類:
- DNA替換替換記分矩陣
- 蛋白質(zhì)替換記分矩陣
DNA替換替換記分矩陣
- 等價矩陣 按堿基是否相同
- 轉(zhuǎn)換-顛換矩陣 按是否同為嘌呤旺隙、嘧啶;環(huán)數(shù)不變則為轉(zhuǎn)換骏令,環(huán)數(shù)變化則為顛換
-
BLAST矩陣 核苷酸相同為+5蔬捷,不同為-4
蛋白質(zhì)序列的替換記分矩陣
- 等價矩陣
- PAM 矩陣
- BLOSUM 矩陣
BLOSUM 矩陣的相似性是根據(jù)真實數(shù)據(jù)產(chǎn)生的,而 PAM 矩陣是通過矩陣自乘外推而來的。
PAM 矩陣
我們需要根據(jù)要比較的序列之間的親緣關(guān)系遠近周拐,來選擇適合的 PAM 矩陣铡俐。如果序列親緣關(guān)系遠,也就是說序列間會有很多突變妥粟,那就選 PAM 后面跟一個大數(shù)字的矩陣审丘。如果親緣關(guān)系近,也就是突變比較少勾给,
序列間大多數(shù)地方都是一樣的滩报,那就選 PAM 后面跟一個小數(shù)字的矩陣。
圖 是 PAM250 矩陣播急。對角線上的數(shù)值為匹配氨基酸的得分露泊。其他位置上≥0 的得分代
表對應(yīng)的一對氨基酸為相似氨基酸,<0 的是不相似的氨基酸旅择。
BLOSUM 矩陣
BLOSUM 后面跟一個小數(shù)字的矩陣適合用于比較相似度低的序列惭笑,也就是親緣關(guān)系遠的序列;而 BLOSUM 后面跟一個大數(shù)字的矩陣適合比較相似度高的序列生真,也就是親緣關(guān)系近的序列沉噩。
圖 是 BLOSUM 62 矩陣.樣子和 PAM 矩陣差不多,但是里面的數(shù)值是不一樣的柱蟀。同樣川蒙,≥0 的得分代表對應(yīng)的一對氨基酸為相似氨基酸,<0 的是不相似的氨基酸长已。
PAM 和BLOSUM對應(yīng)關(guān)系
PAM 后面的數(shù)體現(xiàn)的是序列的差異度畜眨,但不直接等于差異度,只是成對應(yīng)關(guān)系而已术瓮;BLOSUM 后面的數(shù)體現(xiàn)是的序列的相似度并且直接等于相似度康聂。所以我們看到,隨著差異度的增大胞四,適用的 PAM 矩陣后面的編號是增大的帕膜,而 BLOSUM 矩陣后面的編號是減小的昼扛。
PAM數(shù)值——對應(yīng)差距程度 path 舉例
BLOSUM 數(shù)值——對應(yīng)相似程度 bin逼近
默認未知序列用 BLOSUM 62
蛋白質(zhì)序列的替換記分矩陣
遺傳密碼矩陣
疏水矩陣
在這個矩陣里戈盈,氨基酸按照親疏水性排列坚冀。前邊是親水的,后面是疏水的导狡。
示例:
C=Cys
L=Leu
H=His
I=Ile
K=Lys
L和I得2分约巷,相似
K和L得-2分,不相似
相似度=(2個相同+1個相似)/4個堿基長度=(2+1)/4=75%
如果兩個序列的長度不相同怎樣計算一致度與相似度旱捧?
CLHKA CIHL
序列兩兩比較之打點法:打點法的用途
- 打點法——找重復(fù)出現(xiàn)的片段次數(shù)
相似的序列存在呈現(xiàn)長對角線
不相似的序列不出現(xiàn)對角線独郎,呈散亂狀
單序列打點
串聯(lián)重復(fù)序列
序列兩兩比較之打點法:Dotlet 界面介紹
最常用的 Dotlet 軟件
http://myhits.isb-sib.ch/cgi-bin/dotlet
示例:
- 一條序列打點
從input按鈕輸入蛋白質(zhì)fasta序列,只能輸入純序列部分,不要輸入“>標題行”囚聚。
他不能識別fasta的名字靖榕,需要手動輸入英文名字
參數(shù)設(shè)置為,水平seq1 ,垂直seq1 ,只身打點顽铸。
選擇BLOSUM62,
長度選擇15茁计,表示,比較前15個字母谓松,與選擇1的比較單元長度不一樣而已星压,打點次數(shù)一次,不影響鬼譬。
原始顯示比例1:1
最后娜膘,提交
- 兩條序列打點
水平seq2 ,垂直seq3
3,單條重復(fù)串聯(lián)序列打點
水平和垂直選擇seq4
5+0=-3
序列兩兩比較之序列比對法:什么是序列比對
序列比對就是運用特定的算法找出兩個或者多個序列之間產(chǎn)生最大相似度
得分的空格插入和序列排列方案优质。
通過插入空位竣贪,讓上下兩行中盡可能多的一致的和相似的字符對在一起。
序列兩兩比較之序列比對法:雙序列全局比對
開始賦值:
第0行巩螃,0列 演怎,
第0行,
考慮整行都為gap匹配的最差得分
第0列避乏,
考慮整列都為gap匹配的最差得分
第s(1,1)
比較三個數(shù)值爷耀,找最大。
- 上方位的值s(i,j-1) + gap
- 左方位的值s(i-1,j) + gap
- 斜對角s(i-1,j-1) + 本位字母對字母的替換記分矩陣的值 w(i,j)
并用箭頭記錄得分的來源位置
第s(1,2)
第s(2,1)
當(dāng)兩個分值相同時拍皮,箭頭指向兩個方向
所有值的圖
補充箭頭歹叮,
第一行的數(shù)值來源于行的第一個,所有補上整行向左箭頭铆帽,
第一列的數(shù)值來源于行的第一個咆耿,所有補上整列向上箭頭,
右下角的分數(shù)為全局比對的最終得分锄贼,從右下角出發(fā)票灰,追溯指向最前的路徑s(0,0),就是最優(yōu)的比對序列宅荤。
根據(jù)箭頭寫出字符的比對結(jié)果
字符對字符
字符對空位
字符對字符
字符對字符
字符對字符
寫到右下角,全局比對浸策,結(jié)果出現(xiàn)冯键,這樣比分最高。每一個都是在上一步最優(yōu)的情況下庸汗,得到下一步最優(yōu)惫确。
序列兩兩比較之序列比對法:雙序列局部比對
s(1,1)
比較數(shù)值:
0
0+-3
0+-5
0+-5
最大為0分,由于0分來源于公式,不用寫箭頭改化。
0值來自于斜上角掩蛤,有箭頭
局部比對得分,最大值陈肛,在整個矩陣中找揍鸟,最大值為16,從最大值開始句旱,追溯到?jīng)]有箭頭為止阳藻。追溯箭頭終止的位置也可以是得分矩陣中的任何一個位置。
局部比對的兩端空位(沒有箭頭的地方)就全部忽略掉谈撒。
一致度和相似度
在線雙序列比對工具:EMBL 全局雙序列比對工具
使用率最高的是 EMBL 網(wǎng)站的雙序列比對工具
http://www.ebi.ac.uk/Tools/psa
示例
- 全局比對》蛋白質(zhì)比對工具
https://www.ebi.ac.uk/Tools/psa/emboss_needle/
默認選擇
BLOSUM-62
其他默認參數(shù)
結(jié)果頁面:
# Length: 196
# Identity: 40/196 (20.4%)
# Similarity: 69/196 (35.2%)
# Gaps: 65/196 (33.2%)
# Score: 88.5
在線雙序列比對工具:Gap 的類型及分值設(shè)置
gap 開頭(GAP OPEN)
gap延長(GAP EXTEND)
gap 開頭就是連續(xù)的一串 gap 里面打頭的那一個腥泥,可以當(dāng)它是隊長。
gap 延長就是剩下的那些 gap啃匿,也就是隊長后面跟著的小兵蛔外。
第一個gap 是 gap 開頭,后面的都是 gap 延長溯乒。單獨的一個 gap 按 gap 開頭算冒萄。
gap 開頭和 gap 延長可以分別定義不同的罰分。默認情況下橙数,gap 開頭罰分多尊流,gap 延長罰分少。
示例
這次我們反過來試試灯帮,讓 gap 開頭罰分少崖技,讓 gap 延長罰分多。比如 gap 開頭選罰 1 分钟哥,gap 延長選罰 5 分迎献,其他參數(shù)不變,再作一次看看結(jié)果發(fā)生了什么變化腻贰。
結(jié)果:
# Length: 201
# Identity: 46/201 (22.9%)
# Similarity: 78/201 (38.8%)
# Gaps: 75/201 (37.3%)
# Score: 210.0
總結(jié):
在第一次做的結(jié)果里吁恍,也就是 gap 開頭大,gap 延長小的時候播演,gap 很集中冀瓦,有很多成
長串出現(xiàn)的 gap。
1)當(dāng) gap 開頭大写烤,gap 延長小的時候翼闽,說明在連
續(xù)的字母里插入一個 gap 打開一個缺口要付出很大的代價,因為 gap 開頭罰分大洲炊。但是這個
缺口一旦打開了感局,也就是一旦有了第一個 gap尼啡,后面再接更多的 gap 就容易了,因為 gap 延
長罰分小询微。所以這種情況下崖瞭,gap 都集中連成長串出現(xiàn)。
2)而反過來撑毛,當(dāng) gap 開頭小书聚,gap 延長大的時候,說明在連續(xù)的字母里插入一個 gap 打開
一個缺口很容易代态,并不需要付出太大代價寺惫,因為 gap 開頭罰分小。但是想在第一個 gap 后面
再接一個 gap 就難了蹦疑,因為 gap 延長罰分大西雀。所以這種情況下很難有長串的 gap 出現(xiàn),gap
每延長一個都要付出巨大代價歉摧。因此在第二次我們做的結(jié)果里(圖 2-A)都是分散的 gap艇肴。
除了開頭一段因兩條序列長短不同而不得已出現(xiàn)的長串 gap 外,沒有其他的長串 gap 了叁温。
通過調(diào)整 gap 開頭和 gap 延長再悼,我們可以把序列比對做成我們期待的樣子。
第一個例子膝但,你知道要比對的兩條序列很相似冲九,是同源序列,所以它們的結(jié)構(gòu)和功能也應(yīng)該都差不多跟束。其中一條序列的結(jié)構(gòu)已知莺奸,另一條未知。你想把它們很好的比對在一起冀宴,用其中已知結(jié)構(gòu)的序列做模板灭贷,來預(yù)測另一個序列的結(jié)構(gòu)。
答案:選擇分散的略贮,gap開頭小甚疟,延伸大。
另一例子逃延,你知道要比對的兩條序列絕大部分區(qū)域都很相似览妖,但是其中一條序列的一個功能區(qū)在另一條序列中是缺失的。你想要通過序列比對把這個功能區(qū)找出來真友。這時候我們要怎么設(shè)置 gap 開頭和 gap延長呢黄痪?
答案:選擇長串的,gap開頭大盔然,延伸小
如果你對結(jié)果沒有什么預(yù)期桅打,那就請保持默認的參數(shù)。
除此之外愈案,結(jié)尾的 gap 也可以劃分出不同的種類并賦予不同的罰分挺尾,如果把 END GAPPENALTY 選成true,就可以設(shè)置結(jié)尾的 gap 罰分了站绪。結(jié)尾 gap 不太常用遭铺,特別是在做親緣關(guān)系較近的序列比對時,是否設(shè)置結(jié)尾 gap恢准,比對結(jié)果差別不大魂挂。
在線雙序列比對工具:EMBL 局部雙序列比對工具
https://www.ebi.ac.uk/Tools/psa/emboss_water/
示例
- 局部比對,默認參數(shù)
# Length: 130
# Identity: 103/130 (79.2%)
# Similarity: 103/130 (79.2%)
# Gaps: 27/130 (20.8%)
# Score: 551.0
將兩條序列相近的序列馁筐,進行局部比對涂召,gap開頭和延長調(diào)到最大。
在線雙序列比對工具:其他在線雙序列比對工具
BLAST 搜索:BLAST 是怎么樣工作的敏沉?
BLAST 搜索:BLAST 的種類
Blastn 核酸搜核酸
Blastp 蛋白搜蛋白
在無法得知翻譯起始位點在情況下果正,翻譯可能是從第一個堿基開始,三個三個的往后翻譯盟迟,也可能是從第 2 個堿基開始秋泳,也可能從第 3 個堿基開始。另外還有可能是從這條鏈的互補鏈上開始攒菠,這樣又有三個可能的開始位置迫皱,加起來一共會產(chǎn)生 6 條可能被翻譯出來的蛋白質(zhì)序列。這 6 條中有些是真實存在的辖众,有些是不存在卓起,但是誰真誰假我們無從知曉,所以 6 條序列都要到數(shù)據(jù)庫中去搜索一下試試赵辕。
Blastx 通過核酸計算機翻譯成注釋或未注釋的蛋白質(zhì)后既绩,搜索匹配蛋白質(zhì)數(shù)據(jù)庫。
tBlastn 通過蛋白質(zhì)找核酸數(shù)據(jù)庫还惠,并將核酸序列計算機翻譯成蛋白質(zhì)后進行匹配蛋白質(zhì)數(shù)據(jù)庫饲握。可以查找已注釋或未注釋的蛋白蚕键。
tBlastx 核酸序列計算機翻譯成蛋白質(zhì)后救欧,搜索核酸序列數(shù)據(jù)庫,然后再將核酸序列翻譯成蛋白質(zhì)后锣光,搜索蛋白質(zhì)數(shù)據(jù)庫笆怠。
核酸翻譯成蛋白后,找蛋白誊爹。
問答:要在核酸數(shù)據(jù)庫查詢一段與某DNA序列編碼蛋白質(zhì)最相似的序列蹬刷,應(yīng)選擇:tBlastx
核酸翻譯成蛋白后瓢捉,找核酸。
BLAST 搜索:NCBI BLASTp
Blast官網(wǎng):https://blast.ncbi.nlm.nih.gov/Blast.cgi
示例
-
搜索蛋白序列搜索蛋白序列办成,Blastp
跨平臺搜索Swissport數(shù)據(jù)庫
選擇標準匹配
搜索結(jié)果
搜索序列按E值從小到達排列
BLAST 搜索:NCBI PSI-BLAST
搜索算法分類:
- Algorithm blastp (protein-protein BLAST) 標準Blast泡态,搜索最少,最精確
- Algorithm PSI-BLAST (Position-Specific Iterated BLAST) 位點特異性迭代Blast迂卢,標準搜索不到的某弦,可以使用此擴展搜索。
- Algorithm PHI-BLAST (Pattern Hit Initiated BLAST)
- Algorithm DELTA-BLAST (Domain Enhanced Lookup Time Accelerated BLAST
PSI-BLAST而克,根據(jù)上一次搜索結(jié)果靶壮,根據(jù)權(quán)重,搜索下一層結(jié)果员萍。
第一輪搜索腾降,的搜索結(jié)果,打勾充活,用于GO第二輪的搜索蜂莉,第二輪新產(chǎn)生的用黃色標記(被標準blast漏掉的序列)。
BLAST 搜索:NCBI PHI-BLAST
PHI-BLAST 則是精準搜
索混卵。PHI 是 Pattern-Hit Initiated 首字母縮寫映穗,中文是模式識別。PHI-BLAST 能找到與輸入序
列相似的并符合某種特征模式的蛋白質(zhì)序列幕随。模式 Pattern 是對特征的描述蚁滋。
模式范圍
PSI-Blast 擴展匹配》標準Blast》PHI-Blast 模式匹配
BLAST 搜索:其他 BLAST
SMARTBLAST 聰明的Blast ,只需要輸入序列就行赘淮。
https://blast.ncbi.nlm.nih.gov/smartblast/?LINK_LOC=BlastHomeLink
示例
在國外睡覺的時候辕录,選擇對應(yīng)搜索引擎,如美國睡覺的時候梢卸,選擇NCBI
多序列比對介紹:用途和算法
多序列比對的作用
從多序列比對中看趨勢
多序列比對介紹:注意事項
在線多序列比對工具:EMBL - Clustal Omega
EBI多序列比對網(wǎng)站
http://www.ebi.ac.uk/Tools/msa
示例
選擇Download Aligment File進行比對
比對結(jié)果:
https://www.ebi.ac.uk/Tools/services/web/toolresult.ebi?jobId=clustalo-I20171230-133045-0811-8947437-p1m
文件下載
此生成的樹走诞,不能作為系統(tǒng)發(fā)生樹,沒有經(jīng)過進行距離校正蛤高。
如果想要根據(jù)多序列比對結(jié)果構(gòu)建系統(tǒng)發(fā)生樹蚣旱,可以在 Alignments 標簽下,點擊“Send toClustalW2_Phylogeny”鏈接戴陡,把做好的多序列比對發(fā)送給專門做系統(tǒng)發(fā)生樹的工具塞绿。
在線多序列比對工具:TCOFFEE - Expresso
官網(wǎng):http://tcoffee.crg.cat
通過結(jié)構(gòu)數(shù)據(jù),輔助恤批,提高比對結(jié)果準確度
示例
使用網(wǎng)站的示例序列异吻,直接比對。
勾選自動搜索PDB數(shù)據(jù)庫喜庞,填寫郵箱等待結(jié)果诀浪。
Automatically fetch pdb templates MODE_PDB
TCOFFEE高質(zhì)量比對結(jié)果
普通比對結(jié)果
在線多序列比對工具:多序列比對的保存格式
fmtseq 工具(http://www.bioinformatics.org/JaMBW/1/2)
多序列比對的編輯和發(fā)布:Jalview 的介紹和操作
對比對結(jié)果進行美化棋返,加顏色
Jalview 官網(wǎng)(http://www.jalview.org)
全功能桌面版
展示窗口
上傳clust文件
查看保守區(qū)序列
添加顏色方案
papper常用的方案
多序列比對的編輯和發(fā)布:Jalview 的編輯和發(fā)布
移動空位gap
換行
注釋行的打開與關(guān)閉
序列排序和雙序列全局比對
計算系統(tǒng)發(fā)生樹
預(yù)測蛋白質(zhì)二級結(jié)構(gòu)
導(dǎo)出編輯后的多序列比對
多序列比對編輯工具
名稱 網(wǎng)址 特點
JalView http://www.jalview.org JAVA,可嵌入網(wǎng)頁
Boxshade http://www.ch.embnet.org/software/BOX_form.html 擅長黑白作圖
ESPript http://espript.ibcp.fr/ESPript/ESPript 功能強大
MView http://bio-mview.sourceforge.net 擅長轉(zhuǎn)換成 HTML 源碼
發(fā)大文章彩圖貴笋妥,黑白圖免費
可以插入網(wǎng)頁懊昨,可以網(wǎng)頁打開窄潭,換行
尋找保守區(qū)域:序列標識圖 WebLogo
做多序列比對春宣,就是為了找保守區(qū)域,找* : 多的區(qū)域
“*”代表這一列殘基完全相同嫉你;
“:”代表這一列殘基或者相同或者相似月帝;
“.”代表這一列殘基有相似的但也有不相似的;
序列標識圖就是序列的 logo幽污,它是以圖形的方式依次繪出序列比對中各個位置上出現(xiàn)的殘基嚷辅,每個位置上殘基的累積可以反應(yīng)出該位置上殘基的一致性。每個殘基對應(yīng)圖形字符的大小與殘基在該位置上出現(xiàn)的頻率成正比距误。 但圖形字符的大小并不等于頻率百分比簸搞,而是經(jīng)過簡單統(tǒng)計計算后轉(zhuǎn)化的結(jié)果。
保守會看到單一高字母准潭,和出現(xiàn)頻率成正比趁俊。有熵值,雜變矮刑然,
WebLogo 是一款在線創(chuàng)建序列標識圖的軟件(http://weblogo.threeplusone.com/)寺擂。
軟件界面
結(jié)果顯示
尋找保守區(qū)域:序列基序 MEME
MEME 是 The MEME Suite 在線軟件套裝中的一員(http://meme-suite.org/)
進入軟件
http://meme-suite.org/tools/meme
MEME HTML 結(jié)果頁面
More 鏈接查看基序詳情
提交基序給 FIMO 進行數(shù)據(jù)庫相似性搜索
尋找保守區(qū)域:PRINTS 指紋圖譜數(shù)據(jù)庫
PRINTS 蛋白質(zhì)序列指紋圖譜數(shù)據(jù)庫(http://www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/)
關(guān)鍵詞搜索轉(zhuǎn)鐵蛋白家族圖譜