來源:https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
礦工 [堿基礦工](javascript:void(0);) 2017-08-04
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">前言</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">基因測(cè)序已是時(shí)下熱門康愤,目前除了華大基因之外秩仆,其他分布于全中國(guó)的大型測(cè)序平臺(tái)(HiSeq X 10)還有約10個(gè)操漠,每個(gè)每年大概能完成1.8萬人的高深度全基因組測(cè)序业汰,加起來就是18萬人伙窃,如果加上華大,可能需要翻倍样漆!而且隨著新技術(shù)的快速發(fā)展和成本的下降为障,正變得越來越普遍!再加上國(guó)家十三五規(guī)劃提出了構(gòu)建大規(guī)模中國(guó)人群隊(duì)列基因組數(shù)據(jù)庫的要求放祟,全基因組測(cè)序技術(shù)正在逐漸替代其它測(cè)序手段鳍怨,這也是我打算寫這一個(gè)系列的原因。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block;"></inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">HiSeq X 10分布(來源:轉(zhuǎn)化醫(yī)學(xué)網(wǎng))</inherit>
首先舞竿,全基因組測(cè)序的英文是Whole Genome Sequencing京景,簡(jiǎn)稱WGS,目前默認(rèn)指的是人類的全基因組測(cè)序骗奖。所謂全(Whole)确徙,指的就是把物種細(xì)胞里面中完整的基因組序列從第1個(gè)DNA開始一直到最后一個(gè)DNA,完完整整地檢測(cè)出來执桌,并排列好鄙皇,因此這個(gè)技術(shù)幾乎能夠鑒定出基因組上任何類型的突變。對(duì)于人類來說仰挣,全基因組測(cè)序的價(jià)值是極大的伴逸,它包含了所有基因和生命特征之間的內(nèi)在關(guān)聯(lián)性,當(dāng)然也意味著更大的數(shù)據(jù)解讀和更高的技術(shù)挑戰(zhàn)膘壶。但错蝴,沒關(guān)系,在這個(gè)系列中颓芭,我將從測(cè)序技術(shù)顷锰、數(shù)據(jù)產(chǎn)出、常用文件解析亡问,數(shù)據(jù)質(zhì)控和流程構(gòu)建等各個(gè)方面結(jié)合實(shí)際的例子官紫,詳細(xì)闡述什么是全基因組測(cè)序以及該如何構(gòu)造流程分析全基因組測(cè)序(WGS)數(shù)據(jù),一篇在手,分析不愁束世,(o)/~
這是這一組學(xué)入門技術(shù)系列的第一篇酝陈,我首先將介紹當(dāng)前的基因組測(cè)序原理及其發(fā)展歷程。
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">第一節(jié) NGS測(cè)序技術(shù)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">在真正開始數(shù)據(jù)分析之前先知道我們是如何將那些原本存在于細(xì)胞中的DNA信息獲取出來的——也就是測(cè)序的原理毁涉,總是有益的沉帮。</inherit>
測(cè)序,簡(jiǎn)單來說就是將DNA化學(xué)信號(hào)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可處理的數(shù)字信號(hào)薪丁。
它從1977年的第一代Sanger技術(shù)發(fā)展至今遇西,已經(jīng)足有40年時(shí)間馅精。在這個(gè)技術(shù)發(fā)展的更迭歷程中严嗜,測(cè)序讀長(zhǎng)從長(zhǎng)到短,再?gòu)亩痰介L(zhǎng)洲敢。雖然就當(dāng)前形勢(shì)看第二代短讀長(zhǎng)測(cè)序技術(shù)在全球范圍內(nèi)上占有著絕對(duì)的壟斷位置漫玄,但第三測(cè)序技術(shù)也已在這幾年快速地發(fā)展著。測(cè)序技術(shù)的每一次變革和突破压彭,都對(duì)基因組學(xué)研究睦优,疾病醫(yī)療研究,藥物研發(fā)壮不,育種等領(lǐng)域產(chǎn)生巨大的推動(dòng)作用汗盘。所以在這個(gè)系列的第一篇里我將對(duì)當(dāng)前最主流的測(cè)序技術(shù)以及它們的測(cè)序原理做一個(gè)全面的介紹。
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖1. 測(cè)序技術(shù)發(fā)展歷程</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">第一代測(cè)序技術(shù)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">第一代DNA測(cè)序技術(shù)用的是1975年由桑格(Sanger)和考爾森(Coulson)開創(chuàng)的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發(fā)明的化學(xué)法(鏈降解). 并在1977年询一,由桑格老人家測(cè)定了第一個(gè)基因組序列——噬菌體phiX-174隐孽,全長(zhǎng)只有5,375個(gè)堿基。雖然與今日的技術(shù)比起來根本不算什么健蕊,但自此之后菱阵,人類獲得了窺探生命本質(zhì)的能力,并以此為開端真正步入了基因組學(xué)時(shí)代缩功。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">研究人員在Sanger法的多年實(shí)踐之中不斷對(duì)其進(jìn)行改進(jìn)晴及。在2001年,完成的首個(gè)人類基因組圖譜就是以改進(jìn)了的Sanger法為基礎(chǔ)進(jìn)行測(cè)序的嫡锌。Sanger法的核心原理是:由于ddNTP(4種帶有熒光標(biāo)記的A,C,G,T堿基)的2’和3’都不含羥基虑稼,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA的合成反應(yīng)势木,在4個(gè)DNA合成反應(yīng)體系中分別加入一定比例帶有放射性同位素標(biāo)記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP)蛛倦,然后利用凝膠電泳和放射自顯影后可以根據(jù)電泳帶的位置確定待測(cè)分子的DNA序列(圖2)。這個(gè)網(wǎng)站為Sanger測(cè)序法制作了一個(gè)小短片跟压,形象而生動(dòng)胰蝠。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">值得注意的是,在測(cè)序技術(shù)起步發(fā)展的這一時(shí)期中,除了Sanger法之外還出現(xiàn)了一些其他的測(cè)序技術(shù)茸塞,如焦磷酸測(cè)序法躲庄、連接酶法等。其中钾虐,焦磷酸測(cè)序法是后來Roche公司454技術(shù)所使用的測(cè)序方法噪窘,而連接酶測(cè)序法是后來ABI公司SOLID使用的測(cè)序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應(yīng)的dNTP效扫。</inherit>
圖2. Sanger測(cè)序發(fā)原理(來源:huangshujia博客園)
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">第二代測(cè)序技術(shù)</inherit>
總的來說倔监,第一代測(cè)序技術(shù)的主要特點(diǎn)是測(cè)序讀長(zhǎng)可達(dá)1,000bp,準(zhǔn)確性高達(dá)99.999%菌仁,但其測(cè)序成本高浩习,通量低等方面的缺點(diǎn),嚴(yán)重影響了其真正大規(guī)模的應(yīng)用济丘。因而第一代測(cè)序技術(shù)并不是理想的測(cè)序方法谱秽。經(jīng)過不斷的技術(shù)開發(fā)和改進(jìn),以Roche公司的454技術(shù)摹迷、illumina公司的Solexa/Hiseq技術(shù)和ABI公司的SOLID技術(shù)為標(biāo)記的第二代測(cè)序技術(shù)誕生了疟赊。第二代測(cè)序技術(shù)在大幅提高了測(cè)序速度的同時(shí),還大大地降低了測(cè)序成本峡碉,并且保持了高準(zhǔn)確性近哟,以前完成一個(gè)人類基因組的測(cè)序需要3年時(shí)間,而使用二代測(cè)序技術(shù)則僅僅需要1周鲫寄,但其序列讀長(zhǎng)方面比起第一代測(cè)序技術(shù)則要短很多吉执,大多只有100bp-150bp。圖3. 是第一代和第二代測(cè)序技術(shù)測(cè)序成本作了一個(gè)簡(jiǎn)單的比較塔拳,可以看出自第二代測(cè)序技術(shù)發(fā)展出來之后鼠证,歷史開始發(fā)生根本性的改變,測(cè)序的成本開始快速實(shí)現(xiàn)斷崖式下降靠抑,也就是業(yè)內(nèi)經(jīng)常提到的超摩爾定律現(xiàn)象量九。
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖3. 測(cè)序成本比較(來源:NIH官網(wǎng))</inherit>
接下來我以illumina(目前最大、最成功的NGS測(cè)序儀公司)的技術(shù)為基礎(chǔ)簡(jiǎn)要單介紹第二代測(cè)序測(cè)序技術(shù)的原理和特點(diǎn)颂碧。
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">目前illumina的測(cè)序儀占全球75%以上荠列,以Hisq系列為主。它的機(jī)器采用的都是邊合成邊測(cè)序的方法载城,主要分為以下4個(gè)步驟:</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖4. illumina測(cè)序原理(來源:illumina官網(wǎng))</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">1)構(gòu)建DNA測(cè)序文庫肌似,圖4-1</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">簡(jiǎn)單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一定長(zhǎng)度范圍的小片段。目前除了一些特殊的需求之外诉瓦,基本都是打斷為300bp-800bp長(zhǎng)的序列片段川队,并在這些小片段的兩端添加上不同的接頭力细,構(gòu)建出單鏈DNA文庫,以備測(cè)序之用固额;</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">2)測(cè)序流動(dòng)槽(flowcell)眠蚂,圖4-2</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">flowcell是用于吸附流動(dòng)DNA片段的槽道,也是核心的測(cè)序反應(yīng)容器——所有的測(cè)序過程就發(fā)生在這里斗躏。當(dāng)文庫建好后逝慧,這些文庫中的DNA在通過flowcell的時(shí)候會(huì)隨機(jī)附著在flowcell表面的槽道(稱為lane)上。每個(gè)flowcell有8個(gè)lane(圖5)啄糙,每個(gè)lane的表面都附有很多接頭笛臣,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對(duì),這就是為什么flowcell能吸附建庫后的DNA的原因隧饼,并能支持DNA在其表面進(jìn)行橋式PCR的擴(kuò)增沈堡,理論上這些lane之間是不會(huì)相互影響的。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖5. flowcell(實(shí)物 VS 示意圖)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">3)橋式PCR擴(kuò)增與變性</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖6. 橋式PCR擴(kuò)增(來源:illumina官網(wǎng))</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">這是NGS技術(shù)的一個(gè)核心特點(diǎn)桑李。橋式PCR以flowcell表面所固定的序列為模板踱蛀,進(jìn)行橋形擴(kuò)增,如圖6所示贵白。經(jīng)過不斷的擴(kuò)增和變性循環(huán),最終每個(gè)DNA片段都將在各自的位置上集中成束崩泡,每一個(gè)束都含有單個(gè)DNA模板的很多分拷貝禁荒,這一過程的目的在于實(shí)現(xiàn)將單一堿基的信號(hào)強(qiáng)度進(jìn)行放大,以達(dá)到測(cè)序所需的信號(hào)要求角撞。 </inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">4)測(cè)序呛伴,如圖4-4和圖7所示</inherit>
圖7. 邊合成邊測(cè)序(來源:illumina官網(wǎng))
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">測(cè)序方法采用邊合成邊測(cè)序的方法。向反應(yīng)體系中同時(shí)添加DNA聚合酶谒所、接頭引物和帶有堿基特異熒光標(biāo)記的4中dNTP(如同Sanger測(cè)序法)热康。這些dNTP的3’-OH被化學(xué)方法所保護(hù),因而每次只能添加一個(gè)dNTP劣领,這就確保了在測(cè)序過程中姐军,一次只會(huì)被添加一個(gè)堿基。同時(shí)在dNTP被添加到合成鏈上后尖淘,所有未使用的游離dNTP和DNA聚合酶會(huì)被洗脫掉奕锌。接著,再加入激發(fā)熒光所需的緩沖液村生,用激光激發(fā)熒光信號(hào)(圖7)惊暴,并有光學(xué)設(shè)備完成熒光信號(hào)的記錄,最后利用計(jì)算機(jī)分析將光學(xué)信號(hào)轉(zhuǎn)化為測(cè)序堿基趁桃。這樣熒光信號(hào)記錄完成后辽话,再加入化學(xué)試劑淬滅熒光信號(hào)并去除dNTP 3’-OH保護(hù)基團(tuán)肄鸽,以便能進(jìn)行下一輪的測(cè)序反應(yīng)。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">Illumina的這種每次只添加一個(gè)dNTP的技術(shù)特點(diǎn)能夠很好的地解決同聚物長(zhǎng)度的準(zhǔn)確測(cè)量問題油啤,它的主要測(cè)序錯(cuò)誤來源是堿基的替換贴捡,目前它的測(cè)序錯(cuò)誤率在1%-1.5%左右。測(cè)序周期以人類基因組重測(cè)序?yàn)槔?0x-50x測(cè)序深度對(duì)于Hisq系列需要3-5天時(shí)間村砂,而對(duì)于2017年初最新推出的NovaSeq系列則只需要40個(gè)小時(shí)烂斋!</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">表1. 測(cè)序量比較(雙流動(dòng)槽為例,如為單流動(dòng)槽則測(cè)序量減少為下表的一半础废,時(shí)間不變)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">一次測(cè)序的數(shù)據(jù)總產(chǎn)量的單位Gb汛骂,不是計(jì)算機(jī)字節(jié),而是測(cè)序堿基的數(shù)目(Giga base)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖8. NovaSeq與其他測(cè)序儀測(cè)序通量的比較(來源:illumina官網(wǎng))</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">上面表1和圖8是NovaSeq和其他測(cè)序系列的比較评腺,數(shù)據(jù)相當(dāng)好帘瞭。按照這個(gè)數(shù)據(jù)量估算,一臺(tái)NovaSeq 6000(S4)在跑滿的情況下蒿讥,一年可以測(cè)序6400多人蝶念。而且按照以往的經(jīng)驗(yàn),illumina的官方公布的數(shù)據(jù)都是偏于保守的芋绸,我們?cè)趯?shí)際的使用過程中發(fā)現(xiàn)高質(zhì)量(Q30)的read其實(shí)占到了總數(shù)據(jù)的90%以上媒殉,遠(yuǎn)高于官方公布的75%,數(shù)據(jù)的總產(chǎn)量也同樣更高摔敛。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">第三代測(cè)序技術(shù)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">這是一個(gè)新的里程碑廷蓉。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測(cè)序技術(shù)為標(biāo)志,被稱之為第三代測(cè)序技術(shù)马昙。與前兩代相比桃犬,最大的特點(diǎn)就是單分子測(cè)序,測(cè)序過程無需進(jìn)行PCR擴(kuò)增行楞,超長(zhǎng)讀長(zhǎng)攒暇,以下圖9是PacBio SMRT技術(shù)的測(cè)序讀長(zhǎng)分布情況,平均達(dá)到10Kb-15Kb子房,是二代測(cè)序技術(shù)的100倍以上形用,值得注意的是在測(cè)序過程中這些序列的讀長(zhǎng)也不再是相等的,下文有解析池颈!</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖9. PacBio SMRT 測(cè)序read讀長(zhǎng)分布</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">PacBio SMRT</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">PacBio SMRT技術(shù)其實(shí)也應(yīng)用了邊合成邊測(cè)序的思想尾序,并以SMRT芯片為測(cè)序載體(如同flowcell)∏椋基本原理是: DNA聚合酶和模板結(jié)合每币,用4色熒光標(biāo)記A,C,G,T這4種堿基(即是dNTP)。在堿基的配對(duì)階段琢歇,不同的堿基加入兰怠,會(huì)發(fā)出不同的光梦鉴,根據(jù)光的波長(zhǎng)與峰值可判斷進(jìn)入的堿基類型。</inherit>
圖9. PacBio SMRT 測(cè)序原理
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block;">這個(gè)DNA聚合酶是實(shí)現(xiàn)超長(zhǎng)讀長(zhǎng)的關(guān)鍵之一揭保,讀長(zhǎng)主要跟酶的活性保持有關(guān)肥橙,它主要受激光對(duì)其造成的損傷所影響。PacBio SMRT技術(shù)的一個(gè)關(guān)鍵點(diǎn)是在于如何將反應(yīng)信號(hào)與周圍游離堿基的強(qiáng)大熒光背景區(qū)別出來秸侣。他們利用的是ZMW(零模波導(dǎo)孔)原理:如同微波爐壁上可看到的很多密集小孔存筏。這些小孔的直徑是有嚴(yán)格要求的,如果直徑大于微波波長(zhǎng)味榛,能量就會(huì)在衍射效應(yīng)的作用下穿透面板從而泄露出來(光波的衍射效應(yīng))椭坚,從而與周圍小孔相互干擾(光波的干涉)。如果孔徑能夠小于波長(zhǎng)搏色,那么能量就不會(huì)輻射到周圍善茎,而是保持直線狀態(tài),從而可起到保護(hù)的作用频轿。同理垂涯,在一個(gè)反應(yīng)管(SMRTCell:單分子實(shí)時(shí)反應(yīng)孔)中有許多這樣的圓形納米小孔,,即 ZMW(零模波導(dǎo)孔)航邢,外徑100多納米耕赘,比檢測(cè)激光波長(zhǎng)小(數(shù)百納米),激光從底部打上去后不會(huì)穿透小孔進(jìn)入上方的溶液區(qū)翠忠,能量會(huì)被限制在一個(gè)小范圍(體積20X 10-21 L)里(圖10-A)鞠苟,正好足夠覆蓋需要檢測(cè)的部分,使得信號(hào)僅僅只是來自于這個(gè)小反應(yīng)區(qū)域秽之,孔外過多的游離核苷酸單體依然留在黑暗中,從而實(shí)現(xiàn)將背景噪音降到最低的目的吃既。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">PacBio SMRT技術(shù)除了能夠檢測(cè)普通的堿基之外考榨,還可以通過檢測(cè)相鄰兩個(gè)堿基之間的測(cè)序時(shí)間,來檢測(cè)堿基的表觀修飾情況鹦倚,如甲基化河质。因?yàn)榧僭O(shè)某個(gè)堿基存在表觀修飾,則通過聚合酶時(shí)的速度會(huì)減慢震叙,那么相鄰兩峰之間的距離會(huì)增大掀鹅,我們可以通過這個(gè)時(shí)間上的差異來檢測(cè)表觀甲基化修飾等信息(圖11)。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖11. PacBio SMRT 檢測(cè)甲基化修飾</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">SMRT技術(shù)的測(cè)序速度很快媒楼,每秒約10個(gè)dNTP乐尊。但這么快的測(cè)序速度也帶來了一些明顯的缺點(diǎn)——測(cè)序錯(cuò)誤率比較高(這幾乎是目前單分子測(cè)序技術(shù)的通病)划址,可以達(dá)到10%-15%扔嵌,而且以缺失序列和錯(cuò)位居多限府,但好在它的出錯(cuò)是隨機(jī)的,并不會(huì)像第二代測(cè)序技術(shù)那樣存在一定的堿基偏向痢缎,因此可以通過多次測(cè)序來進(jìn)行有效糾錯(cuò)胁勺。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">Oxford Nanopore</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">Oxford Nanopore 的MinION是另一個(gè)比較受關(guān)注的第三代測(cè)序儀,俗稱U盤測(cè)序儀独旷,它真的很小署穗,我親手拿過,并拆過嵌洼,圖12(左)案疲!這家公司開發(fā)的納米單分子測(cè)序技術(shù)與以往的測(cè)序技術(shù)相比都不一樣,它是基于電信號(hào)而不是光信號(hào)的測(cè)序技術(shù)咱台!</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖12. Oxford Nanopore MinION</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">這個(gè)技術(shù)的關(guān)鍵點(diǎn)在于他們所設(shè)計(jì)的一種特殊納米孔络拌,孔內(nèi)共價(jià)結(jié)合分子接頭。當(dāng)DNA分子通過納米孔時(shí)回溺,它們使電荷發(fā)生變化春贸,從而短暫地影響流過納米孔的電流強(qiáng)度(每種堿基所影響的電流變化幅度是不同的),最后高靈敏度的電子設(shè)備檢測(cè)到這些變化從而鑒定所通過的堿基(圖13)遗遵。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: center;">圖13. MinION 測(cè)序原理</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">納米孔測(cè)序以及其他第三代測(cè)序技術(shù)萍恕,有可能會(huì)徹底地解決目前第二代測(cè)序平臺(tái)的諸多不足。另外车要,MinION的主要特點(diǎn)是:讀長(zhǎng)很長(zhǎng)允粤,而且比PacBio的都長(zhǎng)得多,基本都是在幾十kb上百kb以上翼岁,最新的數(shù)據(jù)顯示可以達(dá)到900 kb类垫!錯(cuò)誤率是5%-15%,也是隨機(jī)錯(cuò)誤琅坡,MinION最大的特點(diǎn)除了極小的體積之外悉患,就是數(shù)據(jù)將是可實(shí)時(shí)讀取的,并且起始DNA在測(cè)序過程中不被破壞榆俺!這真是個(gè)可以上天的能力售躁。然鵝,遺憾地多說幾句茴晋,目前還沒真正公布陪捷,細(xì)節(jié)也不知,自從2012開過一次發(fā)布會(huì)之后诺擅,就沒什么聲響了市袖。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">這種納米孔單分子測(cè)序儀還有另一大特點(diǎn),它能夠直接讀取出甲基化的胞嘧啶掀虎,而不必像二代測(cè)序方法那樣需要事先對(duì)基因組進(jìn)行bisulfite處理凌盯。這對(duì)于在基因組水平直接研究表觀遺傳相關(guān)現(xiàn)象有極大的幫助付枫。下面是對(duì)PacBio和Oxford Nanopore這兩家第三代測(cè)序技術(shù)公司的測(cè)序儀做的一個(gè)簡(jiǎn)單比較,可以看出其實(shí)成本還是蠻高的驰怎,質(zhì)量也只是還行阐滩,期待他們的下一次進(jìn)化吧。</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">總結(jié)</inherit>
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">以上县忌,對(duì)各代測(cè)序技術(shù)的原理做了簡(jiǎn)要的闡述掂榔。在這個(gè)比較的過程中,可以看到測(cè)序成本症杏,讀長(zhǎng)和通量是該測(cè)序技術(shù)先進(jìn)與否的三個(gè)重要指標(biāo)装获。其實(shí)第一代和第二代測(cè)序技術(shù)除了通量和成本上的差異之外,測(cè)序的核心原理都來自于邊合成邊測(cè)序的思想厉颤。第二代測(cè)序技術(shù)的優(yōu)點(diǎn)是通量大大提升穴豫,成本大大減低,使得昔日王榭堂前燕逼友,可以飛入尋常百姓家精肃。總之帜乞,只有變成白菜價(jià)司抱,才能真正對(duì)大眾有意義;但它的缺點(diǎn)是所引入PCR過程會(huì)在一定程度上增加測(cè)序的錯(cuò)誤率黎烈,并且具有系統(tǒng)偏向性习柠,同時(shí)讀長(zhǎng)也比較短。第三代測(cè)序技術(shù)是為了解決第二代所存在的缺點(diǎn)而開發(fā)的照棋,它的根本特點(diǎn)是單分子測(cè)序资溃,不需要任何PCR的過程,這是為了能有效避免因PCR偏向性而導(dǎo)致的系統(tǒng)錯(cuò)誤烈炭,同時(shí)提高讀長(zhǎng)肉拓,但這個(gè)技術(shù)還不是很成熟,需要再進(jìn)化梳庆,成本也偏高。</inherit>
圖14. 全球測(cè)序儀數(shù)量分布
<inherit style="margin: 0px; padding: 0px; max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important; display: block; text-align: justify;">參考文獻(xiàn)</inherit>
1. Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).
2. Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).
3. Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).
4. Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).
5. Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).
6. Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).
Sanger示例網(wǎng)站:http://smcg.cifn.unam.mx/enp-unam/03-EstructuraDelGenoma/animaciones/secuencia.swf