問題
Paired-End測序與Mate-Pair測序相對于單端測序有何優(yōu)勢黄鳍?
Paired-End中的Read1和Read2到底是啥關系?它們是如何參與拼接和比對的呢荒勇?
Mate-Paired與Paird-End兩種不同建庫測序的區(qū)別在哪里蔚袍?產(chǎn)生的數(shù)據(jù)有何不同?各自有哪些優(yōu)缺點裁眯?
Single-Read測序、Paired-End測序讳癌、Mate-Pair測序穿稳,何時選擇哪種測序策略?讀長晌坤、插入序列為多少逢艘?
不懂的問題很多,困惑很多骤菠,借此尋找答案的機會也將單端測序與雙末端測序的區(qū)別整理一下它改,鞏固基礎知識。
學基礎
Single-Read測序商乎、Paired-end和Mate-pair主要區(qū)別
以上三者的區(qū)別主要在于測序文庫的構建方法上央拖。
Single-Read測序(Single-read)首先將DNA樣本進行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭鲜戒,將片段固定在
flow cell上生成DNA簇专控,上機測序單端讀取序列。該方式建庫簡單遏餐,操作步驟少伦腐,常用于小基因組、轉(zhuǎn)錄組失都、宏基因組測序柏蘑。
Paired-end文庫制備是指在構建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后粹庞,去除第一輪測序的模板鏈咳焚,用對讀測序模塊(Paired-End Module)引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量信粮,進行第二輪互補鏈的合成測序黔攒。
Mate-pair文庫制備旨在生成一些短的DNA片段,這些片段包含基因組中較大跨度(2-10 kb)片段兩端的序列强缘,更具體地說:首先將基因組DNA隨機打斷到特定大小(2-10 kb范圍可選)不傅;然后經(jīng)末端修復旅掂,生物素標記和環(huán)化等實驗步驟后,再把環(huán)化后的DNA分子打斷成400-600 bp的片段并通過帶有鏈親和霉素的磁珠把那些帶有生物素標記的片段捕獲访娶。這些捕獲的片段再經(jīng)末端修飾和加上特定接頭后建成mate-pair文庫商虐,然后上機測序。
解困惑&答問題
為何要有 Paired-end這樣的技術發(fā)明呢崖疤?
主要原因在于Illumina的二代測序儀的讀長短秘车,相對于第一代sanger測序法(約1000bp)或者跟同屬于NGS的其他測序儀相比短了許多。因此illumina發(fā)展了 Paired-end的建庫測序技術劫哼。同時這種技術還大大推進了基因組學數(shù)據(jù)分析的發(fā)展叮趴。
例如,依賴于Paired-end的技術权烧,假設一個DNA片段剛好跨越了重復序列區(qū)域(下圖左側(cè))以及獨特序列區(qū)域(下圖右側(cè))眯亦。加入只讀取Single-Read,我們只會獲得紅色實線的序列信息般码,也就是ATATATAT妻率。接下來,當我們想要將這段read跟reference genome做比對的時候板祝,便會出現(xiàn)問題:到底這段read是出自于紅色實線的位置宫静,還是紅色虛線的位置?這個問題我們就可以使用Paired-end的技術來加以解決。由于Paired-end reads之間的距離為已知(在此我們設為34bp)孤里,我們便可以先定位綠色read的位置温技,在正確定位出左邊紅色re reads之間 ad的位置,而不至于將其誤判在紅色虛線的位置扭粱。如下圖所示:
此外舵鳞,根據(jù)我們內(nèi)部的一個測試。在進行de novo assembly的時候琢蛤,序列長度以及Paired-end的序列信息可以讓我們得到最好的組裝結(jié)果蜓堕。透過下邊可以發(fā)現(xiàn),Paired-end的序列信息甚至比序列長度要來得更為重要博其。因此套才,建議大家在選擇測序方案的時候,盡量選擇Paired-end吧慕淡!
總結(jié)背伴,不管采用哪種方式,PE/MP測序的結(jié)果除了序列本身外還有中間的距離信息峰髓。距離信息可以用來判定組裝后成對reads間的序列是否準確傻寂,也可用來幫助組裝。這種測序方式可以用來解決基因組中的重復序列難題携兵,被廣泛采用疾掰。目前在采用雙端測序法時,454平臺建庫最長(最長能達到20k)徐紧,Illumina 建庫長度最短(小于5k)静檬。由于Solid和Solexa都是采用橋式擴增的方式,其本身自帶Paired-End測序能力并级。而454和Ion Torrent要對打斷后的片段進行環(huán)化拂檩、酶切,然后才能進行 mate-paired 測序嘲碧。因此建庫的成本會比單端測序的高 稻励。
Paired-End reads是如何比對的?
Paired-End reads是如何拼接的呀潭?