前言
基因測序已是時下熱門签则,目前除了華大基因之外,其他分布于全中國的大型測序平臺(HiSeq X 10)還有約10個,每個每年大概能完成1.8萬人的高深度全基因組測序亏吝,加起來就是18萬人店诗,如果加上華大裹刮,可能需要翻倍!而且隨著新技術(shù)的快速發(fā)展和成本的下降庞瘸,WGS正變得越來越普遍捧弃!再加上國家十三五規(guī)劃已經(jīng)提出了構(gòu)建大規(guī)模中國人群遺傳隊列圖譜的要求,全基因組測序技術(shù)正在逐漸替代其它測序手段,這也是我打算寫這一個系列的原因违霞。
首先嘴办,全基因組測序的英文是Whole Genome Sequencing,簡稱WGS买鸽,目前默認指的是人類的全基因組測序涧郊。所謂全(Whole),指的就是 把物種細胞里面完整的基因組序列從第1個DNA開始一直到最后一個DNA眼五,完完整整地檢測出來妆艘,并排列好,因此這個技術(shù)幾乎能夠鑒定出基因組上任何類型的突變看幼。對于人類來說双仍,全基因組測序的價值是極大的,它的信息包含了所有基因和生命特征之間的內(nèi)在關(guān)聯(lián)性桌吃,當然也意味著更大的數(shù)據(jù)解讀和更高的技術(shù)挑戰(zhàn)朱沃。但,沒關(guān)系茅诱,在這個系列中逗物,我將從測序技術(shù)、常用文件解析瑟俭,數(shù)據(jù)質(zhì)控和流程構(gòu)建等各個方面結(jié)合實際的例子翎卓,詳細闡述什么是全基因組測序以及 該如何構(gòu)造流程 分析全基因組測序(WGS)數(shù)據(jù)。
這是這一組學(xué)入門技術(shù)系列的第一篇(這篇文章修改自我以前的一篇博客摆寄,該文也已被各種形式轉(zhuǎn)載)失暴,我首先將介紹當前的基因組測序原理及其發(fā)展歷程。
第一節(jié) NGS測序技術(shù)
在真正開始數(shù)據(jù)分析之前先知道我們是如何將那些原本存在于細胞中的DNA信息獲取出來的——也就是測序的原理微饥,總是有益的逗扒。
測序,簡單來說就是將DNA化學(xué)信號轉(zhuǎn)變?yōu)橛嬎銠C可處理的數(shù)字信號欠橘。
它從1977年的第一代Sanger技術(shù)發(fā)展至今矩肩,已經(jīng)足有40年時間。在這個技術(shù)發(fā)展的更迭歷程中肃续,測序讀長從長到短黍檩,再從短到長。雖然就當前形勢看第二代短讀長測序技術(shù)在全球范圍內(nèi)上占有著絕對的壟斷位置始锚,但第三測序技術(shù)也已在這幾年快速地發(fā)展著刽酱。測序技術(shù)的每一次變革和突破,都對基因組學(xué)研究瞧捌,疾病醫(yī)療研究棵里,藥物研發(fā),育種等領(lǐng)域產(chǎn)生巨大的推動作用。所以在這個系列的第一篇里我將對當前最主流的測序技術(shù)以及它們的測序原理做一個全面的介紹衍慎。
第一代測序技術(shù)
第一代DNA測序技術(shù)用的是1975年由桑格(Sanger)和考爾森(Coulson)開創(chuàng)的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發(fā)明的化學(xué)法(鏈降解). 并在1977年,由桑格老人家測定了第一個基因組序列——噬菌體phiX-174皮钠,全長只有5,375個堿基稳捆。雖然與今日的技術(shù)比起來根本不算什么,但自此之后麦轰,人類獲得了窺探生命本質(zhì)的能力乔夯,并以此為開端真正步入了基因組學(xué)時代。
研究人員在Sanger法的多年實踐之中不斷對其進行改進款侵。在2001年末荐,完成的首個人類基因組圖譜就是以改進了的Sanger法為基礎(chǔ)進行測序的。Sanger法的核心原理是:由于ddNTP(4種帶有熒光標記的A,C,G,T堿基)的2’和3’都不含羥基新锈,其在DNA的合成過程中不能形成磷酸二酯鍵甲脏,因此可以用來中斷DNA的合成反應(yīng),在4個DNA合成反應(yīng)體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分別為:ddATP,ddCTP,ddGTP和ddTTP)妹笆,然后利用凝膠電泳和放射自顯影后可以根據(jù)電泳帶的位置確定待測分子的DNA序列(圖2)块请。這個網(wǎng)址為Sanger測序法制作了一個小短片,形象而生動拳缠。
值得注意的是墩新,在測序技術(shù)起步發(fā)展的這一時期中,除了Sanger法之外還出現(xiàn)了一些其他的測序技術(shù)窟坐,如焦磷酸測序法海渊、連接酶法等。其中哲鸳,焦磷酸測序法是后來Roche公司454技術(shù)所使用的測序方法臣疑,而連接酶測序法是后來ABI公司SOLID使用的測序方法,但他們的核心手段都是利用了Sanger中可中斷DNA合成反應(yīng)的dNTP徙菠。
第二代測序技術(shù)
總的來說朝捆,第一代測序技術(shù)的主要特點是測序讀長可達1,000bp,準確性高達99.999%懒豹,但其測序成本高芙盘,通量低等方面的缺點,嚴重影響了其真正大規(guī)模的應(yīng)用脸秽。因而第一代測序技術(shù)并不是理想的測序方法儒老。經(jīng)過不斷的技術(shù)開發(fā)和改進,以Roche公司的454技術(shù)记餐、illumina公司的Solexa/HiSeq技術(shù)和ABI公司的SOLID技術(shù)為標記的第二代測序技術(shù)誕生了驮樊。第二代測序技術(shù)在大幅提高了測序速度的同時,還大大地降低了測序成本,并且保持了高準確性囚衔,以前完成一個人類基因組的測序需要3年時間挖腰,而使用二代測序技術(shù)則僅僅需要1周,但其序列讀長方面比起第一代測序技術(shù)則要短很多练湿,大多只有100bp-150bp猴仑。圖3. 是第一代和第二代測序技術(shù)測序成本作了一個簡單的比較,可以看出自第二代測序技術(shù)發(fā)展出來之后肥哎,歷史開始發(fā)生根本性的改變辽俗,測序的成本開始快速實現(xiàn)斷崖式下降,也就是業(yè)內(nèi)經(jīng)常提到的 超摩爾定律 現(xiàn)象篡诽。
接下來我以illumina(目前最大崖飘、最成功的NGS測序儀公司)的技術(shù)為基礎(chǔ)簡要單介紹第二代測序測序技術(shù)的原理和特點。
目前illumina的測序儀占全球75%以上杈女,以HiSeq系列為主朱浴。它的機器采用的都是邊合成邊測序的方法,主要分為以下4個步驟:
1)構(gòu)建DNA測序文庫达椰,圖4-1
簡單來說就是把一堆亂糟糟的DNA分子用超聲波打斷成一定長度范圍的小片段赊琳。目前除了一些特殊的需求之外,基本都是打斷為300bp-800bp長的序列片段砰碴,并在這些小片段的兩端添加上不同的接頭【注】躏筏,構(gòu)建出單鏈DNA文庫,以備測序之用呈枉;
【注】接頭在illumina中一般分為P5和P7接頭趁尼,其中一個帶有和flowcell上的探針反向互補的序列,以完成待測序列和探針結(jié)合的作用猖辫,另外一個接頭帶有barcord序列以區(qū)分不同的樣本酥泞。
2)測序流動槽(flowcell),圖4-2
flowcell是用于吸附流動DNA片段的槽道啃憎,也是核心的測序反應(yīng)容器——所有的測序過程就發(fā)生在這里芝囤。當文庫建好后,這些文庫中的DNA在通過flowcell的時候會隨機附著在flowcell表面的槽道(稱為lane)上辛萍。每個flowcell有8個lane(圖5)悯姊,每個lane的表面都附有很多接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對贩毕,這就是為什么flowcell能吸附建庫后的DNA的原因悯许,并能支持DNA在其表面進行橋式PCR的擴增,理論上這些lane之間是不會相互影響的辉阶。
3)橋式PCR擴增與變性
<p align="center"><a>圖6. 橋式PCR擴增(來源:illumina官網(wǎng))</a></p>
這是NGS技術(shù)的一個核心特點先壕。橋式PCR以flowcell表面所固定的序列為模板瘩扼,進行橋形擴增,如圖6所示垃僚。經(jīng)過不斷的擴增和變性循環(huán)集绰,最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有單個DNA模板的很多分拷貝谆棺,這一過程的目的在于實現(xiàn)將單一堿基的信號強度進行放大栽燕,以達到測序所需的信號要求。
4)測序包券,如圖4-4和圖7所示
測序方法采用邊合成邊測序的方法。向反應(yīng)體系中同時添加DNA聚合酶炫贤、接頭引物和帶有堿基特異熒光標記的4中dNTP(如同Sanger測序法)溅固。這些dNTP的3’-OH被化學(xué)方法所保護,因而每次只能添加一個dNTP兰珍,這就確保了在測序過程中侍郭,一次只會被添加一個堿基。同時在dNTP被添加到合成鏈上后掠河,所有未使用的游離dNTP和DNA聚合酶會被洗脫掉亮元。接著,再加入激發(fā)熒光所需的緩沖液唠摹,用激光激發(fā)熒光信號(圖7)爆捞,并有光學(xué)設(shè)備完成熒光信號的記錄,最后利用計算機分析將光學(xué)信號轉(zhuǎn)化為測序堿基勾拉。這樣熒光信號記錄完成后煮甥,再加入化學(xué)試劑淬滅熒光信號并去除dNTP 3’-OH保護基團,以便能進行下一輪的測序反應(yīng)藕赞。
Illumina的這種每次只添加一個dNTP的技術(shù)特點能夠很好的地解決同聚物長度的準確測量問題成肘,它的主要測序錯誤來源是堿基的替換,目前它的測序錯誤率在1%-1.5%左右斧蜕。測序周期以人類基因組重測序為例双霍,30x-50x測序深度對于Hisq系列需要3-5天時間,而對于2017年初最新推出的NovaSeq系列則只需要40個小時批销!
表1. 測序量比較(雙流動槽為例洒闸,如為單流動槽則測序量減少為下表的一半,時間不變)
一次測序的數(shù)據(jù)總產(chǎn)量的單位Gb均芽,不是計算機字節(jié)顷蟀,而是測序堿基的數(shù)目(Giga base)
上面表1和圖8是NovaSeq和其他測序系列的比較,數(shù)據(jù)相當好骡技。按照這個數(shù)據(jù)量估算鸣个,一臺NovaSeq 6000(S4)在跑滿的情況下羞反,一年就可以測序6400多人!而且按照以往的經(jīng)驗囤萤,illumina的官方公布的數(shù)據(jù)都是偏于保守的昼窗,我們在實際的使用過程中發(fā)現(xiàn) 高質(zhì)量(Q30)的read其實占到了總數(shù)據(jù)的90%以上,遠高于官方公布的75%涛舍,數(shù)據(jù)的總產(chǎn)量也同樣更高澄惊。
第三代測序技術(shù)
這是一個新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序技術(shù)為標志富雅,被稱之為第三代測序技術(shù)掸驱。與前兩代相比,最大的特點就是 單分子測序没佑,測序過程無需進行PCR擴增毕贼,超長讀長,以下圖9是PacBio SMRT技術(shù)的測序讀長分布情況蛤奢,平均達到10Kb-15Kb鬼癣,是二代測序技術(shù)的100倍以上,值得注意的是在測序過程中這些序列的讀長也不再是相等的啤贩,下文有解析待秃!
PacBio SMRT
PacBio SMRT技術(shù)其實也應(yīng)用了邊合成邊測序的思想,并以SMRT芯片為測序載體(如同flowcell)痹屹≌掠簦基本原理是: DNA聚合酶和模板結(jié)合,用4色熒光標記A,C,G,T這4種堿基(即是dNTP)志衍。在堿基的配對階段驱犹,不同的堿基加入,會發(fā)出不同的光足画,根據(jù)光的波長與峰值可判斷進入的堿基類型雄驹。
這個DNA聚合酶是實現(xiàn)超長讀長的關(guān)鍵之一,讀長主要跟酶的活性保持有關(guān)淹辞,它主要受激光對其造成的損傷所影響医舆。PacBio SMRT技術(shù)的一個關(guān)鍵點是在于如何將反應(yīng)信號與周圍游離堿基的強大熒光背景區(qū)別出來。他們利用的是ZMW(零模波導(dǎo)孔)原理:如同微波爐壁上可看到的很多密集小孔象缀。這些小孔的直徑是有嚴格要求的蔬将,如果直徑大于微波波長,能量就會在衍射效應(yīng)的作用下穿透面板從而泄露出來(光波的衍射效應(yīng))央星,從而與周圍小孔相互干擾(光波的干涉)霞怀。如果孔徑能夠小于波長,那么能量就不會輻射到周圍莉给,而是保持直線狀態(tài)毙石,從而可起到保護的作用廉沮。同理,在一個反應(yīng)管(SMRTCell:單分子實時反應(yīng)孔)中有許多這樣的圓形納米小孔,徐矩,即 ZMW(零模波導(dǎo)孔)滞时,外徑100多納米,比檢測激光波長小(數(shù)百納米)滤灯,激光從底部打上去后不會穿透小孔進入上方的溶液區(qū)坪稽,能量會被限制在一個小范圍(體積20X 10-21 L)里(圖10-A),正好足夠覆蓋需要檢測的部分鳞骤,使得信號僅僅只是來自于這個小反應(yīng)區(qū)域窒百,孔外過多的游離核苷酸單體依然留在黑暗中,從而實現(xiàn)將背景噪音降到最低的目的豫尽。
PacBio SMRT技術(shù)除了能夠檢測普通的堿基之外篙梢,還可以通過檢測相鄰兩個堿基之間的測序時間,來檢測堿基的表觀修飾情況拂募,如甲基化庭猩。因為假設(shè)某個堿基存在表觀修飾窟她,則通過聚合酶時的速度會減慢陈症,那么相鄰兩峰之間的距離會增大,我們可以通過這個時間上的差異來檢測表觀甲基化修飾等信息(圖11)震糖。
SMRT技術(shù)的測序速度很快录肯,每秒約10個dNTP。但這么快的測序速度也帶來了一些明顯的缺點——測序錯誤率比較高(這幾乎是目前單分子測序技術(shù)的通驳跛怠)论咏,可以達到10%-15%,而且以缺失序列和錯位居多颁井,但好在它的出錯是隨機的厅贪,并不會像第二代測序技術(shù)那樣存在一定的堿基偏向,因此可以通過多次測序來進行有效糾錯雅宾。
Oxford Nanopore
Oxford Nanopore 的MinION是另一個比較受關(guān)注的第三代測序儀养涮,俗稱U盤測序儀,它真的很小眉抬,我親手拿過贯吓,并拆過,圖12(左)蜀变!這家公司開發(fā)的納米單分子測序技術(shù)與以往的測序技術(shù)相比都不一樣悄谐,它是基于電信號而不是光信號的測序技術(shù)!
這個技術(shù)的關(guān)鍵點在于他們所設(shè)計的一種特殊納米孔库北,孔內(nèi)共價結(jié)合分子接頭爬舰。當DNA分子通過納米孔時们陆,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的)洼专,最后高靈敏度的電子設(shè)備檢測到這些變化從而鑒定所通過的堿基(圖13)棒掠。
納米孔測序以及其他第三代測序技術(shù),有可能會徹底地解決目前第二代測序平臺的諸多不足屁商。另外烟很,MinION的主要特點是:讀長很長,而且比PacBio的都長得多蜡镶,基本都是在幾十kb上百kb以上雾袱,最新的數(shù)據(jù)顯示可以達到900 kb!錯誤率是5%-15%官还,也是隨機錯誤芹橡,MinION最大的特點除了極小的體積之外,就是數(shù)據(jù)將是可實時讀取的望伦,并且起始DNA在測序過程中不被破壞林说!這真是個可以上天的能力。然鵝屯伞,遺憾地多說幾句腿箩,目前還沒真正公布,細節(jié)也不知劣摇,自從2012開過一次發(fā)布會之后珠移,就沒什么聲響了。
這種納米孔單分子測序儀還有另一大特點末融,它能夠 直接 讀取出甲基化的胞嘧啶钧惧,而不必像二代測序方法那樣需要事先對基因組進行bisulfite處理。這對于在基因組水平直接研究表觀遺傳相關(guān)現(xiàn)象有極大的幫助勾习。下面是對PacBio和Oxford Nanopore這兩家第三代測序技術(shù)公司的測序儀做的一個簡單比較浓瞪,可以看出其實成本還是蠻高的,質(zhì)量也只是還行巧婶,期待他們的下一次進化吧乾颁。
總結(jié)
以上,便是對各代測序技術(shù)的原理做了簡要的闡述粹舵。在這個比較的過程中钮孵,可以看到測序成本,讀長和通量是該測序技術(shù)先進與否的三個重要指標眼滤。其實第一代和第二代測序技術(shù)除了通量和成本上的差異之外巴席,測序的核心原理都來自于邊合成邊測序的思想。第二代測序技術(shù)的優(yōu)點是通量大大提升诅需,成本大大減低漾唉,使得昔日王榭堂前燕荧库,可以飛入尋常百姓家≌孕蹋總之分衫,只有變成白菜價,才能真正對大眾有意義般此;但它的缺點是所引入PCR過程會在一定程度上增加測序的錯誤率蚪战,并且具有系統(tǒng)偏向性,同時讀長也比較短铐懊。第三代測序技術(shù)是為了解決第二代所存在的缺點而開發(fā)的邀桑,它的根本特點是單分子測序,不需要任何PCR的過程科乎,這是為了能有效避免因PCR偏向性而導(dǎo)致的系統(tǒng)錯誤壁畸,同時提高讀長,但這個技術(shù)還不是很成熟茅茂,需要再進化捏萍,成本也偏高。
參考文獻
- Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).
- Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).
- Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).
- Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).
- Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).
- Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011).
歡迎通過我的公眾號(解螺旋的礦工)空闲,更及時了解更多信息