序列比對原理

在生物信息學(xué)研究中连锯,序列比對是一個(gè)非常基礎(chǔ)的問題用狱,在很多研究中都會用到运怖。主要幾種算法包括全局比對算法(Needleman-Wunsch算法),局部比對算法(Smith-Waterman 算法)夏伊,Blast等摇展。開展一個(gè)課題時(shí)難免要構(gòu)建克隆,尋找同源蛋白等署海,那當(dāng)你在使用 NTI , MEGA 等進(jìn)行比對時(shí)吗购,你了解過序列比對的原理嗎?

序列比對基本原理

  • 輸入數(shù)據(jù)

    —— 序列 seq1砸狞,seq2捻勉,seq[n]

  • 根據(jù)打分表打分

  • 輸出結(jié)果,選擇最優(yōu)比對

序列比對方法

枚舉

進(jìn)行序列比對最簡單的辦法就是自行對給定序列進(jìn)行多種排列組合

比如有兩條序列 seq1:LSPADK seq2:LTPEDK

這兩條序列比對時(shí)會產(chǎn)生多種可能刀森,如:

圖1

我們可以看到當(dāng)序列比較短時(shí)我們確實(shí)能夠一一列舉得到最優(yōu)的比對結(jié)果踱启,但是當(dāng)序列長度為300甚至更長時(shí)怎么辦?

總結(jié)比對的規(guī)律,其實(shí)一對殘基之間只有三種比對可能埠偿,比對上或比對到空位透罢,如 T,S

S S -

T - T

由此就產(chǎn)生了動態(tài)規(guī)劃算法,其實(shí)就是先得到局部最優(yōu)比對冠蒋,最后得到全局最優(yōu)比對羽圃,也就是 好的+好的=最好的

Needleman-Wunsch 算法 - 基于動態(tài)規(guī)劃的序列全局比對

Needleman-Wunsch算法是序列全局比對的核心算法,會將給定的兩條序列從頭到尾進(jìn)行比對

概念:打分表

對于不完全匹配的序列抖剿,會存在空位或者不匹配的位點(diǎn)朽寞,打分表是表示一種氨基酸(或核苷酸)變?yōu)榱硗庖环N氨基酸(核苷酸)的打分,對于空位則要罰分斩郎,最終綜合所有位點(diǎn)的打分結(jié)果脑融,獲得兩個(gè)序列的匹配分值,分值越高的表示兩個(gè)序列相似度越高

對于蛋白質(zhì)序列缩宜,常用的打分表有PAM250和BLOSUM62肘迎,其中PAM250是基于高同源序列構(gòu)建,BLOSUM62基于遠(yuǎn)程同源序列構(gòu)建锻煌,因此尋找遠(yuǎn)程同源序列一般用BLOSUM62

計(jì)算步驟

以核苷酸序列為例妓布,核酸序列共四種堿基ATCG

  • 定義打分表

    A C G T
    A 2 -7 -5 -7
    C -7 2 -7 -5
    G -5 -7 2 -7
    T -7 -5 -7 2

    指A比對到A分?jǐn)?shù)為2,A比對到C分?jǐn)?shù)為-5炼幔,A比對到空位為 -5秋茫,如以下一種比對組合:

    GAC-AT
    C-ACAT

    分?jǐn)?shù)依次為:(-7)+(-5)+(-7)+(-5)+(2)+(2) = -20

    當(dāng)序列長度過長時(shí)計(jì)算量很大,為了不一個(gè)個(gè)進(jìn)行計(jì)算乃秀,就有了隨后的打分規(guī)則

  • 打分規(guī)則

    圖2

  • 打分結(jié)果

    根據(jù)不同組合得到不同的打分結(jié)果肛著,分?jǐn)?shù)最高的則為最優(yōu)比對結(jié)果

Smith-Waterman 算法 - 基于動態(tài)規(guī)劃的序列局部比對

圖3

但是隨著越來越多的蛋白序列被測定,研究人員發(fā)現(xiàn)功能相關(guān)的蛋白之間雖然整體序列上相差甚遠(yuǎn)跺讯,卻常常具有相同的功能域枢贿,這些序列片段能夠獨(dú)立發(fā)揮特定的生物學(xué)功能,在不同蛋白之間相當(dāng)保守(如圖中的 SR 功能域)刀脏,這僅靠全局比對是無法發(fā)現(xiàn)這些片段的局荚。由此就出現(xiàn)了局部比對算法,相比于全局比對愈污,局部比對算法是基于全局比對的打分規(guī)則表增加了一個(gè)下限 0

圖4

參考:http://www.chinesemooc.org/live/875136

微信公眾號:生信自修室

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末耀态,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子暂雹,更是在濱河造成了極大的恐慌首装,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杭跪,死亡現(xiàn)場離奇詭異仙逻,居然都是意外死亡驰吓,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門系奉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來檬贰,“玉大人,你說我怎么就攤上這事缺亮∥痰樱” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵瞬内,是天一觀的道長迷雪。 經(jīng)常有香客問我,道長虫蝶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任倦西,我火速辦了婚禮能真,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘扰柠。我一直安慰自己粉铐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布卤档。 她就那樣靜靜地躺著蝙泼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪劝枣。 梳的紋絲不亂的頭發(fā)上汤踏,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天,我揣著相機(jī)與錄音舔腾,去河邊找鬼溪胶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛稳诚,可吹牛的內(nèi)容都是我干的哗脖。 我是一名探鬼主播,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼扳还,長吁一口氣:“原來是場噩夢啊……” “哼才避!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起氨距,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤桑逝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后衔蹲,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肢娘,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡呈础,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了橱健。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片而钞。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖拘荡,靈堂內(nèi)的尸體忽然破棺而出臼节,到底是詐尸還是另有隱情,我是刑警寧澤珊皿,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布网缝,位于F島的核電站,受9級特大地震影響蟋定,放射性物質(zhì)發(fā)生泄漏粉臊。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一驶兜、第九天 我趴在偏房一處隱蔽的房頂上張望扼仲。 院中可真熱鬧,春花似錦抄淑、人聲如沸屠凶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽矗愧。三九已至,卻和暖如春郑原,著一層夾襖步出監(jiān)牢的瞬間唉韭,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工颤专, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留纽哥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓栖秕,卻偏偏與公主長得像春塌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子簇捍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容