序列比對其他相關問題

全局比對 Global Alignment

由芝加哥的Needleman和Wunsch兩位于上個世紀70年代初提出蝗蛙,常被稱之為Needleman-Wunsch算法。算法針對用戶指定的打分函數北发,確定性地找出兩條序列間的最優(yōu)比對。

Needle-Wunsch 算法對兩條序列所有殘基進行全局比對的局限性惊畏。

  • 功能相關的蛋白之間雖然可能在整體序列上相差甚遠, 卻常常會具有相同的功能域
  • 序列片段能夠獨立發(fā)揮特定的生物學功能,卻在不同蛋白之間相當保守
  • 僅靠全局比對的算法無法發(fā)現這樣的片段
  • 內含子的發(fā)現使得在做核酸水平的序列比對時必須要正確處理內含子導致的大片段的差異

局部比對 Local Alignment

1981年口猜,物理學家Temple Smith和數學家Michael Waterman在Journal of Molcular Biology上發(fā)表了一篇僅有四頁的文章淌实,提出Smith-Waterman局部比對算法

race back begins at the highest score inthe matrix and continues until you reach 0。And also the secondary best alignment

img

核心思想是給分數增加了下限0分

所有的回溯都是局部的老玛,所有的最終比對也是局部的麸粮。引入止損下限娇唯,差異擴大之后重啟比對梗摇,找到局部水平的相似性

空位罰分的改進

Affine gap penalty

  • opening a gap receives a score ofd
  • extending a gap receives a score of e
  • Penalty = d + (n-1)* e

有限向量機


alt

擴展公式

alt

全局比對的時間復雜性

O(mn) 正比于m*n

全基因組比對

同源homology的分類

  • 直系同源 ortholog 來自于不同的物種逢倍,演化過程中基因沒有丟失,各物種中都有

    chaining

  • 旁系同源 paralog 來自于一個物種內部基因組的復制

    netting

NGS: Sequence alignment

Map the large numbers of short reads to a reference genome

  • In a broader sense: Identify similar sequences (DNA, RNA, or protein) inconsequence of functional, structural, or evolutionary relationships between the them
  • Applications: Genome assembly, SNP detection, homology search, etc

short: greater search sensitivity

large: faster search speed

In-exact alignment

BWA和bowtie的相關算法妆毕,大大減少了對服務器的要求

如何快速的知道某段序列大約在基因組的哪個位置

  1. 如何定義大約這個概念
  • Hamming Distance or Sequence Similarity
  • Ungapped vs Gapped Global vs Local
  • All positions or the single best
  1. Efficiency depends on the data characteristics & goals
  • Smith-Waterman: Exhaustive search for optimal alignments
  • BLAST: Hash-table based homology searches
  • Bowtie: BWT alignment for short read mapping

BWT算法

核心是繞最后一個序列轉圈

alt
  • 先給每一個T做rotations,再進行sort,生成bw矩陣润努,最后一列從頭到尾就是BWT

  • 回溯

    給每一個T的字母一個出現次數的排序,圖示如下

    alt

Suffix(后綴) Arrays

類似于電話本中的索引結構

What if we need to check many queries

  • We don't need to check every page of the phone book to find 'Ma'

  • Sorting alphabetically lets us immediately skip 96% (25/26) of the book withoutany loss in accuracy

Sorting the genome: Suffix Array (Manber & Myers1991)

  • Sort every suffix of the genome
alt

所有具有相同prefix(前綴)的suffixes(后綴)會聚在一起,這樣就可以進行類似于二分法的排除

全基因組建立index

alt
  • An array of integers giving the startingpositions of suffixes of a string inlexicographical order

  • 從中間的index開始找扔罪,過濾一半

alt

效率

Total Runtime: O(m log n)

  • More complicated, but much faster!
  • Looking up a query loops 32 times instead of 3B

Searching the array is very fast, but it takes time to construct

  • This time will be amortized over many, many searches
  • Run it once "overnight" and save it away for all future queries
  • 非常消耗內存

BLAST/Dot matrix

Indexing-based local alignment

alt

Basic Local Alignment Search Tool

圍繞最優(yōu)比對路徑進行計算

BLAST Ideas 核心思想: Seeding‐and‐extending

  • Find matches (seed) between the query and subject 找到高度相似的小片段棘捣,種子

  • Extend seed into High Scoring Segment Pairs (HSPs) 向兩端延伸并進行比對

    Run Smith‐Waterman algorithm on the specified region only

  • Assess the reliability of the alignment 打分評估

將序列切分测砂,在數據庫中定位候選序列和位置

alt

得到候選序列和查詢序列的heatmap

去掉零散的hit,直留下對角線,形成hit cluster

以hit cluster為基礎向左右進行延伸直到分數不符合要去

在擴展的區(qū)域進行局部比對

alt

blast加速

  • 標記低復雜度,易產生假陽性
  • 考慮與種子相似的鄰居單字

分數評估,避免隨機因素

E value

alt
  • n數據庫大小
  • k和打分矩陣相關
  • m長度
  • s比對的分數

在隨機情況下獲得比當前分數高的可能比對條數,不是概率是個望值逊笆。p為0.05時子檀,E也是0.05亩进。

BLAST是一種啟發(fā)式算法,不確定有最優(yōu)解

alt

只在有效區(qū)域應用動態(tài)規(guī)劃算法


加入靠譜熊基地千元,和大家一起交流
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市袜硫,隨后出現的幾起案子,更是在濱河造成了極大的恐慌阀参,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捞挥,死亡現場離奇詭異忧吟,居然都是意外死亡砌函,警方通過查閱死者的電腦和手機仍劈,發(fā)現死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門闸婴,熙熙樓的掌柜王于貴愁眉苦臉地迎上來邪乍,“玉大人,你說我怎么就攤上這事睛驳〉旁荆” “怎么了?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我胎撤,道長断凶,這世上最難降的妖魔是什么伤提? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮认烁,結果婚禮上肿男,老公的妹妹穿的比我還像新娘。我一直安慰自己却嗡,他們只是感情好舶沛,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著窗价,像睡著了一般冠王。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上舌镶,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天柱彻,我揣著相機與錄音,去河邊找鬼餐胀。 笑死哟楷,一個胖子當著我的面吹牛,可吹牛的內容都是我干的否灾。 我是一名探鬼主播卖擅,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼墨技!你這毒婦竟也來了惩阶?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤扣汪,失蹤者是張志新(化名)和其女友劉穎断楷,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體崭别,經...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡冬筒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年恐锣,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舞痰。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡土榴,死狀恐怖,靈堂內的尸體忽然破棺而出响牛,到底是詐尸還是另有隱情玷禽,我是刑警寧澤,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布呀打,位于F島的核電站矢赁,受9級特大地震影響,放射性物質發(fā)生泄漏聚磺。R本人自食惡果不足惜坯台,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望瘫寝。 院中可真熱鬧蜒蕾,春花似錦、人聲如沸焕阿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽暮屡。三九已至撤摸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間褒纲,已是汗流浹背准夷。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留莺掠,地道東北人衫嵌。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像彻秆,于是被迫代替她去往敵國和親楔绞。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi閱讀 7,312評論 0 10
  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz閱讀 5,599評論 0 5
  • 在使用element-ui的時候會發(fā)現一個問題:表格組件 el-table 自適應在父元素寬度縮小時唇兑,表格沒有對應...
    蠟筆丶超人閱讀 10,407評論 0 1
  • 紫凌薇家~ “滾酒朵!帶著你的賤女兒離開!”紫暗夜(紫凌薇的爸爸)憤怒地說著扎附,手摟著另一個女人的腰蔫耽。 “會的,我會離開...
    某柔閱讀 579評論 0 0
  • 斯里蘭卡被稱為印度洋上的眼淚帕棉,藍得令人心碎针肥。作為佛教國家北邊是文化名城饼记,中部是山地茶園香伴,南部是超美海灘慰枕,總的來說是...
    i小魔女琦琦閱讀 196評論 0 0