這一次我們來(lái)看生物信息學(xué)分析的一個(gè)重要內(nèi)容:序列比較。無(wú)論你是研究核酸的還是蛋白質(zhì)的哩至,無(wú)論你是搞測(cè)序的還是搞結(jié)構(gòu)的惕耕,甚至是編程的纺裁,都逃不掉序列的比較。
那什么是序列呢司澎?- 序列的英文名字是 sequence欺缘,這個(gè)單詞一定要記住。
那序列長(zhǎng)什么樣子呢挤安?- s 就是一條序列:s=abcdefghijklmnopqrstuvwxyz谚殊。
看了這個(gè)例子,學(xué)計(jì)算機(jī)的同學(xué)可能要笑了:“這不就是個(gè)字符串嗎蛤铜?我們管這個(gè)叫 string”嫩絮。
沒(méi)錯(cuò)丛肢,序列就是字符串剿干, 由字符穿成的串蜂怎。通常用 si 代表序列 s 的第 i 個(gè)字符,比如 s4是 s 的第 4 個(gè)字符置尔,也就 是 d杠步。當(dāng)然你的字符串是從 0 位開(kāi)始計(jì)數(shù)還是從 1 位開(kāi)始,自己根據(jù)需要定榜轿!還有幽歼,習(xí)慣上 用 s'代表 s 的子序列。這些都是大家上計(jì)算機(jī)課已經(jīng)熟知的了谬盐。
我們這里研究的序列主要是指蛋白質(zhì)序列和核酸序列甸私。
蛋白質(zhì)序列是由 20 個(gè)不同的字母,也就是 20 種不同的氨基酸排列組合而成飞傀。
核酸序列是由 4 種不同的字母皇型,也就是 4 種 不同的堿基排列組合而成。
核酸序列又分為 DNA 序列和 RNA 序列助析。 生物序列有自己的書(shū)寫(xiě)格式犀被,而且格式很多。不同的處理軟件會(huì)用到不同的格式外冀,但是最常用的寡键,大多數(shù)軟件都識(shí)別的格式是 FASTA 格式。這個(gè)格式我們已經(jīng)介紹過(guò)了雪隧,這里再?gòu)?fù)習(xí)一下西轩。
FASTA 格式,第一行是一個(gè)大于號(hào)“>”開(kāi)頭脑沿,后面緊接注釋信息藕畔,比如序列的名字,編號(hào)等庄拇。因?yàn)榍懊嬗写笥谔?hào)注服,序列分析軟件會(huì)自動(dòng)識(shí)別這是一條序列的開(kāi)始,且這一行是注釋而不是序列措近。從第二行開(kāi)始就是純序列部分溶弟,除了序列什么都不要寫(xiě)。最早定義 60 個(gè)字母一行瞭郑,現(xiàn)在這個(gè)規(guī)定不重要了辜御,經(jīng)常見(jiàn)到的也有 80 個(gè)一行的,或者不分行屈张,一行寫(xiě)下來(lái)的擒权,根據(jù)實(shí)際需要自己決定袱巨!再次強(qiáng)調(diào),一定要記住這個(gè) FASTA 格式碳抄!后面會(huì)經(jīng)常使用這個(gè)格式的序列愉老。
認(rèn)識(shí)了序列就要開(kāi)始比較了,可是我們?yōu)槭裁匆容^它們呢纳鼎?比較的目的是為了找相似俺夕。 特別是從一大堆序列里找相似裳凸,這就是數(shù)據(jù)庫(kù)中的序列相似性搜索贱鄙。
如果給你一條序列,蛋白質(zhì)序列也好姨谷,核酸序列也罷逗宁,讓你從數(shù)據(jù)庫(kù)中找到與它相同或相似的序列。這不是能用眼睛去完成的了梦湘,因?yàn)閿?shù)據(jù)庫(kù)中的序列實(shí)在是太多瞎颗。我們了解到 UniProtKB 下屬的數(shù)據(jù)庫(kù)中,蛋白質(zhì)序列的數(shù)量是驚人的捌议。別說(shuō)從這里面找了哼拔, 就是讓你用眼睛比較一對(duì)序列都是不可能做到的。 所以我們需要特殊的算法瓣颅,特殊的工具倦逐, 在盡可能準(zhǔn)確的前提下,快速找到相似的序列宫补。
假設(shè)我們已經(jīng)找到相似的序列了檬姥,那接下來(lái)又能干什么呢,也就是說(shuō)找到這些相似的序 列有什么意義呢粉怕?意義在于健民,相似的序列往往起源于一個(gè)共同的祖先。它們很可能有相似的空間結(jié)構(gòu)和生物學(xué)功能贫贝。
因此秉犹,對(duì)于一個(gè)已知序列但未知結(jié)構(gòu)和功能的蛋白質(zhì),如果與它序列相似的某些蛋白質(zhì)的結(jié)構(gòu)和功能已知稚晚,那么就可以推測(cè)出這個(gè)未知結(jié)構(gòu)和功能的蛋白質(zhì)的結(jié)構(gòu)和功能崇堵。簡(jiǎn)言之,相似的序列意味著相似的結(jié)構(gòu)蜈彼,相似的結(jié)構(gòu)意味著相似的功能筑辨。
當(dāng)然, 這也存在例外幸逆,比如兩個(gè)人可能長(zhǎng)得很相似棍辕,但其他方面相差甚遠(yuǎn)暮现。要說(shuō)兩個(gè)人有多相似,可以很相似楚昭,也可以很不相似栖袋,但是沒(méi)有辦法量化。
不過(guò)抚太,序列有多相似是可以量化的塘幅。 我們用一致度(identity)和相似度(similarity)這兩個(gè)指標(biāo)來(lái)定量描述序列有多相似。 我們先從最簡(jiǎn)單的情況入手尿贫,看看如何計(jì)算一致度和相似度电媳。
如果兩個(gè)序列長(zhǎng)度相同,那么它們的一致度可以暫時(shí)定義為它們對(duì)應(yīng)位置上相同的殘基數(shù)目占總長(zhǎng)度的百分比庆亡。一個(gè)殘基就是指一個(gè)字母(氨基酸或堿基)匾乓。
比如下面這兩條序列中, 上下相同的殘基位置有 2 個(gè)又谋,序列長(zhǎng)度為 4拼缝。它們的一致度就是 2 除以 4,50%彰亥。再看相似度咧七,如果兩個(gè)序列長(zhǎng)度相同,那么它們的相似度可以暫時(shí)定義為他們對(duì)應(yīng)位置上相似的殘基 與相同的殘基的數(shù)目和占總長(zhǎng)度的百分比任斋。這里继阻,相同好找,但是相似怎么找呢仁卷?比如 L 和 I 是否相似穴翩?K 和 L 是否相似呢?要解決這個(gè)問(wèn)題锦积,我們需要替換記分矩陣芒帕。