序列比對其他相關問題

全局比對 Global Alignment

由芝加哥的Needleman和Wunsch兩位于上個世紀70年代初提出蝗蛙，常被稱之為Needleman-Wunsch算法。算法針對用戶指定的打分函數北发，確定性地找出兩條序列間的最優(yōu)比對。

Needle-Wunsch 算法對兩條序列所有殘基進行全局比對的局限性惊畏。

功能相關的蛋白之間雖然可能在整體序列上相差甚遠，卻常常會具有相同的功能域
序列片段能夠獨立發(fā)揮特定的生物學功能，卻在不同蛋白之間相當保守
僅靠全局比對的算法無法發(fā)現這樣的片段
內含子的發(fā)現使得在做核酸水平的序列比對時必須要正確處理內含子導致的大片段的差異

局部比對 Local Alignment

1981年口猜，物理學家Temple Smith和數學家Michael Waterman在Journal of Molcular Biology上發(fā)表了一篇僅有四頁的文章淌实，提出Smith-Waterman局部比對算法

race back begins at the highest score inthe matrix and continues until you reach 0。And also the secondary best alignment

img

核心思想是給分數增加了下限0分

所有的回溯都是局部的老玛，所有的最終比對也是局部的麸粮。引入止損下限娇唯，差異擴大之后重啟比對梗摇，找到局部水平的相似性

空位罰分的改進

Affine gap penalty

opening a gap receives a score ofd
extending a gap receives a score of e
Penalty = d + (n-1)* e

有限向量機

alt

擴展公式

alt

全局比對的時間復雜性

O(mn) 正比于m*n

全基因組比對

同源homology的分類

直系同源 ortholog 來自于不同的物種逢倍，演化過程中基因沒有丟失，各物種中都有

chaining
旁系同源 paralog 來自于一個物種內部基因組的復制

netting

NGS: Sequence alignment

Map the large numbers of short reads to a reference genome

In a broader sense: Identify similar sequences (DNA, RNA, or protein) inconsequence of functional, structural, or evolutionary relationships between the them
Applications: Genome assembly, SNP detection, homology search, etc

short: greater search sensitivity

large: faster search speed

In-exact alignment

BWA和bowtie的相關算法妆毕，大大減少了對服務器的要求

如何快速的知道某段序列大約在基因組的哪個位置

如何定義大約這個概念

Hamming Distance or Sequence Similarity
Ungapped vs Gapped Global vs Local
All positions or the single best

Efficiency depends on the data characteristics & goals

Smith-Waterman: Exhaustive search for optimal alignments
BLAST: Hash-table based homology searches
Bowtie: BWT alignment for short read mapping

BWT算法

核心是繞最后一個序列轉圈

alt

先給每一個T做rotations,再進行sort,生成bw矩陣润努，最后一列從頭到尾就是BWT
回溯

給每一個T的字母一個出現次數的排序,圖示如下

alt

Suffix（后綴） Arrays

類似于電話本中的索引結構

What if we need to check many queries

We don't need to check every page of the phone book to find 'Ma'
Sorting alphabetically lets us immediately skip 96% (25/26) of the book withoutany loss in accuracy

Sorting the genome: Suffix Array (Manber & Myers1991)

Sort every suffix of the genome

alt

所有具有相同prefix(前綴)的suffixes(后綴)會聚在一起，這樣就可以進行類似于二分法的排除

全基因組建立index

alt

An array of integers giving the startingpositions of suffixes of a string inlexicographical order
從中間的index開始找扔罪，過濾一半

alt

效率

Total Runtime: O(m log n)

More complicated, but much faster!
Looking up a query loops 32 times instead of 3B

Searching the array is very fast, but it takes time to construct

This time will be amortized over many, many searches
Run it once "overnight" and save it away for all future queries
非常消耗內存

BLAST/Dot matrix

Indexing-based local alignment

alt

Basic Local Alignment Search Tool

圍繞最優(yōu)比對路徑進行計算

BLAST Ideas 核心思想: Seeding‐and‐extending

Find matches (seed) between the query and subject 找到高度相似的小片段棘捣，種子
Extend seed into High Scoring Segment Pairs (HSPs) 向兩端延伸并進行比對

Run Smith‐Waterman algorithm on the specified region only
Assess the reliability of the alignment 打分評估

將序列切分测砂，在數據庫中定位候選序列和位置

alt

得到候選序列和查詢序列的heatmap

去掉零散的hit,直留下對角線，形成hit cluster

以hit cluster為基礎向左右進行延伸直到分數不符合要去

在擴展的區(qū)域進行局部比對

alt

blast加速

標記低復雜度，易產生假陽性
考慮與種子相似的鄰居單字

分數評估，避免隨機因素

E value

alt

n數據庫大小
k和打分矩陣相關
m長度
s比對的分數

在隨機情況下獲得比當前分數高的可能比對條數，不是概率是個望值逊笆。p為0.05時子檀，E也是0.05亩进。

BLAST是一種啟發(fā)式算法，不確定有最優(yōu)解

alt

只在有效區(qū)域應用動態(tài)規(guī)劃算法

加入靠譜熊基地千元，和大家一起交流

最后編輯于：2018.07.08 21:38:40

?著作權歸作者所有,轉載或內容合作請聯系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市袜硫，隨后出現的幾起案子，更是在濱河造成了極大的恐慌阀参，老刑警劉巖，帶你破解...
沈念sama閱讀 212,383評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件捞挥，死亡現場離奇詭異忧吟，居然都是意外死亡砌函，警方通過查閱死者的電腦和手機仍劈，發(fā)現死者居然都...
沈念sama閱讀 90,522評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門闸婴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來邪乍，“玉大人，你說我怎么就攤上這事睛驳〉旁荆” “怎么了？”我有些...
開封第一講書人閱讀 157,852評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我胎撤，道長断凶，這世上最難降的妖魔是什么伤提？我笑而不...
開封第一講書人閱讀 56,621評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮认烁，結果婚禮上肿男，老公的妹妹穿的比我還像新娘。我一直安慰自己却嗡，他們只是感情好舶沛，可當我...
茶點故事閱讀 65,741評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著窗价，像睡著了一般冠王。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上舌镶，一...
開封第一講書人閱讀 49,929評論 1贊 290
城市分裂傳說
那天柱彻，我揣著相機與錄音，去河邊找鬼餐胀。笑死哟楷，一個胖子當著我的面吹牛，可吹牛的內容都是我干的否灾。我是一名探鬼主播卖擅，決...
沈念sama閱讀 39,076評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼墨技！你這毒婦竟也來了惩阶？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,803評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤扣汪，失蹤者是張志新（化名）和其女友劉穎断楷，沒想到半個月后，有當地人在樹林里發(fā)現了一具尸體崭别，經...
沈念sama閱讀 44,265評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡冬筒，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,582評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年恐锣，在試婚紗的時候發(fā)現自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片舞痰。...
茶點故事閱讀 38,716評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡土榴，死狀恐怖，靈堂內的尸體忽然破棺而出响牛，到底是詐尸還是另有隱情玷禽，我是刑警寧澤，帶...
沈念sama閱讀 34,395評論 4贊 333
?日本核電站爆炸內幕
正文年R本政府宣布呀打，位于F島的核電站矢赁，受9級特大地震影響，放射性物質發(fā)生泄漏聚磺。R本人自食惡果不足惜坯台，卻給世界環(huán)境...
茶點故事閱讀 40,039評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望瘫寝。院中可真熱鬧蜒蕾，春花似錦、人聲如沸焕阿。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,798評論 0贊 21
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽暮屡。三九已至撤摸，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間褒纲，已是汗流浹背准夷。一陣腳步聲響...
開封第一講書人閱讀 32,027評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留莺掠，地道東北人衫嵌。一個月前我還...
沈念sama閱讀 46,488評論 2贊 361
代替公主和親
正文我出身青樓，卻偏偏與公主長得像彻秆，于是被迫代替她去往敵國和親楔绞。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 43,612評論 2贊 350