【現(xiàn)學(xué)現(xiàn)賣】序列比對之算法

?前期相關(guān)推送(序列比對結(jié)果中的一些值的意義):

【現(xiàn)學(xué)現(xiàn)賣】序列比對之identity VS similarity

【現(xiàn)學(xué)現(xiàn)賣】序列比對之bit-score VS E-value

在bit-score和E-value的公式中,S為原始矩陣得分东揣,其他常數(shù)與選擇的算法相關(guān)妒峦。那么什么是序列比對的矩陣得分痒留?序列比對都有哪些算法呢改化?

一食拜、序列比對

1. 序列比對的理論基礎(chǔ)

基礎(chǔ)是進(jìn)化學(xué)說蔽介,如果兩個序列相似性高艾凯,則推測同源/有共同的進(jìn)化祖先献幔,它們是經(jīng)過序列殘基的一些列變化(替換、缺失趾诗、重組等)演化而來的蜡感。

比如下面兩個序列:

這兩條序列要實現(xiàn)更好的比對,就會引入空位恃泪。序列殘基的替換導(dǎo)致單個殘基不匹配(紅色短線)郑兴,殘基的插入或缺失導(dǎo)致空位(紅色長線)。

2. 序列比對的兩種數(shù)學(xué)模型

主要模型是全局比對(Global alignment)和局部比對(Local alignment)贝乎。它們分別從整體和局部反映序列的特征情连,現(xiàn)實使用中,局部比對使用較多览效,生物序列往往不會全長相似却舀,而是局部相似虫几,所以局部比對有更高的靈敏度,結(jié)果更具生物學(xué)意義(當(dāng)然如果本身就是選定的一段很短的目標(biāo)序列挽拔,那么兩種模型的結(jié)果應(yīng)該差異不大辆脸;換句話說,全局比對適合比較長度相似的序列篱昔,而局部比對可以比對長度相差較大的序列)每强。

3.序列比對打分矩陣

(1)核苷酸序列

等價矩陣:相同核苷酸則賦值為1,不同為0州刽。

BLAST矩陣:經(jīng)驗總結(jié)。

轉(zhuǎn)移矩陣/轉(zhuǎn)換-顛換矩陣:嘌呤-嘧啶的轉(zhuǎn)換/顛換+經(jīng)驗總結(jié)浪箭。

(2)氨基酸序列(表太多穗椅,太大了,我就不在這里粘貼了)

氨基酸序列的這兩個常用打分矩陣都屬于替換矩陣奶栖,主要是考慮在進(jìn)化過程中匹表,不同氨基酸的替代對蛋白質(zhì)功能和結(jié)構(gòu)的影響不同,所以用簡單的比對相同或者不同不足以描述兩個氨基酸殘基的關(guān)系宣鄙。

PAM矩陣:Point accepted mutation matrices袍镀。基于進(jìn)化的突變模型冻晤,分析同源蛋白在進(jìn)化中氨基酸變化的可能性苇羡。有PAM1-250,后面的數(shù)字越小表示親緣關(guān)系越近鼻弧,PAM1是similarity>85%的序列計算產(chǎn)生的设江。

BLOSUM矩陣:Blocks amino acid substitution matrices∪列基于蛋白質(zhì)模塊數(shù)據(jù)庫叉存,以序列片段為基礎(chǔ)。有BLOSUM45度帮,62歼捏,80等,數(shù)字越大笨篷,親緣關(guān)系越近瞳秽,BLOSUM80是identity>80%的序列計算得到的。

根據(jù)比對的兩個序列的親緣關(guān)系遠(yuǎn)近選擇合適的矩陣冕屯,如果不清楚寂诱,一般選擇PAM120或BLOSUM62。

二安聘、序列兩兩比對

經(jīng)典算法(動態(tài)規(guī)劃算法)是Needleman-Wunsch算法(整體比對算法)和Smith-Waterman算法(局部比對算法)痰洒。兩種算法均可以用于核苷酸和氨基酸序列瓢棒,給定空位罰值和打分矩陣后,給出最高比對值的排列丘喻。

三脯宿、多序列比對

多序列比對的算法是基于漸進(jìn)比對,在序列兩兩比對算法的基礎(chǔ)上逐步優(yōu)化的結(jié)果泉粉。

目前發(fā)展出來的程序有CLUSTALW(累進(jìn)算法)连霉,MUSCLE(迭代算法),MAFFT等(上圖選項嗡靡,其中CLUSTALW最為人熟知跺撼,傳說MUSCLE和MAFFT的精度和速度都優(yōu)于CLUSTALW,由于我的數(shù)據(jù)還算簡單讨彼,也不多歉井,感覺沒什么大差別」螅考慮到它們迭代可以糾正初始比對錯誤哩至,所以理論上精度會提高)。

四蜜自、序列數(shù)據(jù)庫搜索

數(shù)據(jù)庫搜索可以說是序列相似性比對最有價值的應(yīng)用菩貌,我最熟悉的是BLAST和antiSMASH。

BLAST算法

將查詢序列分為短片段(局部比對)重荠,篩選庫中具備這些片段的序列箭阶,然后將匹配的序列片段延伸(插入,gap等)晚缩,根據(jù)矩陣計分排序尾膊,顯示結(jié)果。

antiSMASH工具算法

它的算法是CASSIS(Cluster Assignment by Islands of Sites)荞彼。antiSMASH是對微生物次生代謝產(chǎn)物基因簇的序列搜索工具冈敛,由于生成這些化合物的基因都是成簇的,所以它的算法中重要的是找到基因簇鸣皂。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末抓谴,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子寞缝,更是在濱河造成了極大的恐慌癌压,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荆陆,死亡現(xiàn)場離奇詭異滩届,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)被啼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門帜消,熙熙樓的掌柜王于貴愁眉苦臉地迎上來棠枉,“玉大人,你說我怎么就攤上這事泡挺”惭龋” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵娄猫,是天一觀的道長贱除。 經(jīng)常有香客問我,道長媳溺,這世上最難降的妖魔是什么月幌? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮悬蔽,結(jié)果婚禮上飞醉,老公的妹妹穿的比我還像新娘。我一直安慰自己屯阀,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布轴术。 她就那樣靜靜地躺著难衰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逗栽。 梳的紋絲不亂的頭發(fā)上盖袭,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音彼宠,去河邊找鬼鳄虱。 笑死,一個胖子當(dāng)著我的面吹牛凭峡,可吹牛的內(nèi)容都是我干的拙已。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼摧冀,長吁一口氣:“原來是場噩夢啊……” “哼倍踪!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起索昂,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤建车,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后椒惨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體缤至,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年康谆,在試婚紗的時候發(fā)現(xiàn)自己被綠了领斥。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嫉到。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖戒突,靈堂內(nèi)的尸體忽然破棺而出屯碴,到底是詐尸還是另有隱情,我是刑警寧澤膊存,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布导而,位于F島的核電站,受9級特大地震影響隔崎,放射性物質(zhì)發(fā)生泄漏今艺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一爵卒、第九天 我趴在偏房一處隱蔽的房頂上張望虚缎。 院中可真熱鬧,春花似錦钓株、人聲如沸实牡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽创坞。三九已至,卻和暖如春受葛,著一層夾襖步出監(jiān)牢的瞬間题涨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工总滩, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留纲堵,地道東北人。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓闰渔,卻偏偏與公主長得像席函,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子澜建,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345