Author:ligc
Date:19/5/12
1. 一代測(cè)序(Sanger sequencing)
雙脫氧鏈終止法采用DNA復(fù)制原理。 Sanger測(cè)序反應(yīng)體系中包括目標(biāo)DNA片段、脫氧三磷酸核苷酸(dNTP)携狭、雙脫氧三磷酸核苷酸(ddNTP)、測(cè)序引物及DNA聚合酶等。 測(cè)序反應(yīng)的核心就是其使用的ddNTP:由于缺少3'-OH基團(tuán)抖坪,不具有與另一個(gè)dNTP連接形成磷酸二酯鍵的能力壹蔓,這些ddNTP可用來中止DNA鏈的延伸匠襟。此外家夺,這些ddNTP上連接有放射性同位素或熒光標(biāo)記基團(tuán)脱柱,因此可以被自動(dòng)化的儀器或凝膠成像系統(tǒng)所檢測(cè)到。
設(shè)置四個(gè)反應(yīng)體系1-4拉馋,分別加入引物褐捻、DNA聚合酶、四種dNTP椅邓、一定比例的ddNTP(帶有放射性標(biāo)記)例如1中是ddATP,它就負(fù)責(zé)測(cè)定T堿基的位置昧狮;依次2是ddCTP景馁,3是ddTTP, 4是ddGTP逗鸣。假如擴(kuò)增過程中ddATP遇到了T位點(diǎn)合住,就結(jié)合并終止(因?yàn)閐dNTP的2‘和3'都沒有羥基),一段時(shí)間內(nèi)大量的ddNTP會(huì)結(jié)合完所有測(cè)序位點(diǎn)。
最后利用凝膠電泳和放射自顯影只能看到帶有熒光標(biāo)記的ddNTP撒璧,他們的排列順序先利用電泳條帶前后關(guān)系確定下透葛,再用A-T, T-A, C-G, G-C關(guān)系反轉(zhuǎn)一下,就能知道我們的測(cè)序序列卿樱。
一代測(cè)序技術(shù)的主要特點(diǎn)就是測(cè)序讀長(zhǎng)可達(dá)1000bp僚害,準(zhǔn)確性高達(dá)99.999%,二三代所不能及)繁调,但它的通量低萨蚕,成本高。目前一代測(cè)序在驗(yàn)證序列(就是平時(shí)送公司測(cè)序返回來自己blast的那些)以及驗(yàn)證基因組組裝完整性方面都是金標(biāo)準(zhǔn)蹄胰。
2. 二代測(cè)序(sequencing by synthesis,SBS)
Roche公司的454技術(shù)岳遥、illumina公司的Solexa/Hiseq技術(shù)和ABI公司的SOLID技術(shù)標(biāo)志第二代測(cè)序技術(shù)誕生。其中Roche公司的454測(cè)序系統(tǒng)是第二代測(cè)序技術(shù)中第一個(gè)商業(yè)化運(yùn)營(yíng)的測(cè)序平臺(tái)裕寨。
其中Illumina市場(chǎng)規(guī)模占到75%以上浩蓉,主要包括Miseq,Hiseq宾袜。下面??就主要介紹它的PE(Pair End雙端)測(cè)序原理:
2.1文庫(kù)構(gòu)建
名詞:
flowcell: 測(cè)序反應(yīng)的載體/容器捻艳,1個(gè)flowcell有8個(gè)lane
lane: 測(cè)序反應(yīng)的平行泳道,試劑添加试和、洗脫等過程的發(fā)生位置
tile: 每次熒光掃描的位置讯泣,肉眼是看不到的
雙端測(cè)序: 可能序列比較長(zhǎng)有四五百bp,兩邊各測(cè)120-150bp
junction: 雙端測(cè)序中間一些沒有測(cè)到的區(qū)域
index(barcode):一個(gè)lane通常要測(cè)多個(gè)樣品阅悍,每個(gè)樣品都加上特定的序列標(biāo)簽好渠,用于區(qū)分不同樣品昨稼。
flowcell構(gòu)造:一個(gè)lane包含兩列(swath),每一列有60個(gè)tile拳锚,每個(gè)tile會(huì)種下不同的cluster假栓,每個(gè)tile在一次循環(huán)中會(huì)拍照4次(每個(gè)堿基一次)
打斷以后會(huì)出現(xiàn)末端不平整的情況,用酶補(bǔ)平霍掺,所以現(xiàn)在的序列是平末端匾荆。
完成補(bǔ)平以后,在3'端使用酶加上一個(gè)特異的堿基A杆烁,加上A之后就可以利用互補(bǔ)配對(duì)的原則牙丽,加上adapter,這個(gè)adpater可以分成兩個(gè)部分兔魂,一個(gè)部分是測(cè)序的時(shí)候需要用的引物序列烤芦,另一部分是建庫(kù)擴(kuò)增時(shí)候需要用的引物序列。
進(jìn)行PCR擴(kuò)增析校,使得我們的DNA樣品濃度足夠上機(jī)要求构罗。
什么是插入片段?
reads1 與 reads2 不發(fā)生重疊
- 圖中是Pair-End(PE)測(cè)序智玻,測(cè)的是兩個(gè)末端遂唧,得到的序列是Read1和Read2,很多時(shí)候Read1+Read2的長(zhǎng)度都是小于這個(gè)插入片段的長(zhǎng)度的吊奢。在不測(cè)通的情況下盖彭,它中間一定有一段不明長(zhǎng)度的序列我們無法測(cè)到,這段不被測(cè)到的序列有時(shí)被稱為Inner序列事甜,它的長(zhǎng)度是Read1和Read2相距的距離谬泌。
reads1 與 reads2 發(fā)生重疊 - 測(cè)序讀長(zhǎng)較長(zhǎng),比如MiSeq的測(cè)序讀長(zhǎng)可以到達(dá)250bp逻谦,PE測(cè)的話掌实,Read1+Read2就達(dá)到500bp,如果我們的建庫(kù)序列長(zhǎng)度是400bp邦马,那么就會(huì)被測(cè)通贱鼻,而且中間有約100bp是Read1和Read2重疊測(cè)到的區(qū)域。
測(cè)通
它是Read重疊的進(jìn)一步延伸滋将,原因是相同的邻悬,就是有些插入片段長(zhǎng)度太短了,導(dǎo)致Read能夠完全跨越整個(gè)插入片段随闽,比如圖里父丰,所有長(zhǎng)度小于100bp的插入片段,它們都會(huì)被測(cè)通,而且還會(huì)直接測(cè)到片段兩端的接頭序列蛾扇,這時(shí)就需要對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行cut adapter攘烛。
2.2 上樣
flowcell是用于吸附流動(dòng)DNA片段的槽道,測(cè)序就在此進(jìn)行镀首。上面構(gòu)建好的文庫(kù)中的待測(cè)序列事先配置好一定的濃度坟漱,經(jīng)過這里的時(shí)候,會(huì)在特異的化學(xué)試劑作用下更哄,強(qiáng)力隨機(jī)地附著在lane上芋齿,與上面的短序列配對(duì)。上樣的結(jié)果就是lane吸附住了沖過來的DNA成翩,并且可以在表面進(jìn)行橋式PCR擴(kuò)增觅捆。
2.3 橋式PCR
- 第一輪擴(kuò)增模版:flowcell表面固定的序列 --> 模版鏈
- 去雜:加入NaOH強(qiáng)堿性溶液使雙鏈DNA變性,互補(bǔ)鏈由于和lane上短序列強(qiáng)力連接固定住了麻敌;模板鏈?zhǔn)チ穗p鏈氫鍵連接惠拭,好似懸空,它會(huì)被洗脫庸论。
- 橋式形成: 加入緩沖溶液,互補(bǔ)鏈的p7‘和lane上的p7互補(bǔ)(但還是一個(gè)lane中的)就像下圖這樣(摘自illumina官網(wǎng))目的是快速擴(kuò)增lane p7接頭連接的鏈棒呛,也就是下圖中的Forward Strand聂示,它和我們的模版鏈?zhǔn)且恢碌摹N覀兒髞頊y(cè)序只用這一半簇秒。
- 橋式PCR: PCR彎成橋狀鱼喉,一輪橋式擴(kuò)增一倍。
- 循環(huán): 大約35個(gè)循環(huán)后趋观,最終每個(gè)DNA片段都將在各自的位置上集中成束扛禽,稱為cluster,這是一群完全相同的序列皱坛。目的在于實(shí)現(xiàn)放大單一堿基的信號(hào)強(qiáng)度编曼,滿足后期測(cè)序需求。
-
解鏈: 橋式PCR完成后剩辟,形成了很多的橋形的互補(bǔ)雙鏈掐场,再次強(qiáng)堿解鏈。這一次不再進(jìn)行復(fù)制贩猎,而是利用一種酶--甲酰胺基嘧啶糖苷酶(Fpg)選擇性的切掉lane 上p5‘ 連接的鏈熊户,只留下了與lane p7連接的鏈即Forward Strand。
2.4 測(cè)序
雙端測(cè)序之Forward Strand:
- 先是primer結(jié)合到靠近p5的sequencing primer binding site1上吭服,再加入特殊的dNTP【它的3‘ 羥基被疊氮基團(tuán)替代嚷堡,因此每次只能添加一個(gè)dNTP;還含有熒光基團(tuán)艇棕,能激發(fā)不同顏色】蝌戒;
- 在dNTP被添加到合成鏈上后串塑,所有未使用的游離dNTP和DNA聚合酶會(huì)被洗脫掉;再加入激發(fā)熒光緩沖液瓶颠,用激光激發(fā)熒光信號(hào)拟赊,光學(xué)設(shè)備記錄熒光信號(hào)的記錄,計(jì)算機(jī)將光學(xué)信號(hào)轉(zhuǎn)化為測(cè)序堿基粹淋,這一個(gè)循環(huán)就能測(cè)定flowcell上成千上萬的cluster吸祟,這就實(shí)現(xiàn)了高通量。
- 再加入化學(xué)試劑淬滅熒光信號(hào)并使dNTP 3’ 疊氮基團(tuán)變成羥基桃移,這樣能繼續(xù)向下進(jìn)行再加一個(gè)屋匕,并且保證這個(gè)不再發(fā)出熒光。如此重復(fù)直至所有鏈的堿基序列被檢測(cè)出借杰。得到了Forward Strand序列过吻。
- 因?yàn)橐粋€(gè)cluster的序列是一樣的,所以理論上cluster的熒光顏色應(yīng)該一致蔗衡。
Index測(cè)序: 上面的循環(huán)結(jié)束后纤虽,read product被沖掉,index1 primer和鏈上的index1 互補(bǔ)配對(duì)绞惦,進(jìn)行index1的檢測(cè)逼纸。測(cè)完后,洗脫產(chǎn)物济蝉,得到index1 的序列杰刽。接下來p5與lane上的p5‘配對(duì),測(cè)得了index2王滤,并洗脫贺嫂。
雙端測(cè)序之Reverse Strand:
洗脫掉index2 產(chǎn)物后,還是一個(gè)橋式擴(kuò)增雁乡,得到雙鏈第喳,再變性得到原始Forward strand 和 新的Reverse Strand, 除去測(cè)完的Forward strand踱稍。然后和測(cè)Forward一樣墩弯,也是先連接primer,只是連接的位點(diǎn)是Primer Binding Site2寞射,測(cè)完后得到reverse strand序列渔工。
single-end只將index,Primer binding site以及P7/P5添加到 fragamented DNA片段的一端桥温,另一端直接連上P5/P7引矩,將片段固定在Flowcell上橋式PCR生成DNA簇,然后單端測(cè)序讀取序列
為什么Illumina測(cè)序會(huì)有長(zhǎng)度限制呢?
- 測(cè)序時(shí)旺韭,經(jīng)過長(zhǎng)時(shí)間的PCR氛谜,會(huì)有不同步的情況。通俗一點(diǎn)講区端,比如一開始1個(gè)cluster中是100個(gè)完全一樣的DNA鏈值漫,但是經(jīng)過1輪增加堿基,其中99個(gè)都加入了1個(gè)堿基织盼,顯示了紅色杨何,另外1個(gè)沒有加入堿基,不顯示顏色沥邻。這時(shí)候整體為紅色危虱,我們可以順利得到結(jié)果。隨后唐全,在第2輪再加入堿基進(jìn)行合成的時(shí)候埃跷,就變成了,之前沒有加入的加入了1個(gè)堿基顯示紅色邮利,剩下的99個(gè)顯示綠色弥雹,這個(gè)時(shí)候就會(huì)出現(xiàn)雜信號(hào)。當(dāng)測(cè)序長(zhǎng)度不斷延長(zhǎng)延届,這個(gè)雜信號(hào)會(huì)越來越多缅糟,最后很有可能出現(xiàn),50個(gè)紅祷愉,50個(gè)綠色,這時(shí)候我們判斷不出來到底是什么堿基被合成赦颇。
2.測(cè)序過程中二鳄,使用的堿基是特殊處理的,有一個(gè)非常大的熒光基團(tuán)修飾媒怯。在使用DNA ploymerase的時(shí)候订讼,酶的狀態(tài)也會(huì)受到底物的影響,越來越差扇苞。
2.5 數(shù)據(jù)產(chǎn)生:
Hiseq2000測(cè)序儀
測(cè)序儀搭配了兩個(gè)flowcell欺殿,簡(jiǎn)稱雙流動(dòng)槽。比較經(jīng)典的Hiseq2500一次能產(chǎn)出700-800Gb數(shù)據(jù)(此處Gb為測(cè)序堿基數(shù)鳖敷,不同于字節(jié)數(shù)的Gb)
數(shù)據(jù)量=單端reads長(zhǎng)度 * 單端reads個(gè)數(shù) * 2(PE)
測(cè)序深度=數(shù)據(jù)量大小 / 參考基因組大小
第三代測(cè)序技術(shù)
這是一個(gè)新的里程碑脖苏。以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測(cè)序技術(shù)為標(biāo)志,被稱之為第三代測(cè)序技術(shù)定踱。與前兩代相比棍潘,最大的特點(diǎn)就是單分子測(cè)序,測(cè)序過程無需進(jìn)行PCR擴(kuò)增,超長(zhǎng)讀長(zhǎng)亦歉,平均達(dá)到10Kb-15Kb恤浪,是二代測(cè)序技術(shù)的100倍以上,值得注意的是在測(cè)序過程中這些序列的讀長(zhǎng)也不再是相等的肴楷。
PacBio SMRT
-
PacBio SMRT技術(shù)其實(shí)也應(yīng)用了邊合成邊測(cè)序的思想水由,并以SMRT芯片為測(cè)序載體(如同flowcell)∪瑁基本原理是: DNA聚合酶和模板結(jié)合砂客,用4色熒光標(biāo)記A,C,G,T這4種堿基(即是dNTP)。在堿基的配對(duì)階段濒募,不同的堿基加入鞭盟,會(huì)發(fā)出不同的光,根據(jù)光的波長(zhǎng)與峰值可判斷進(jìn)入的堿基類型瑰剃。
這個(gè)DNA聚合酶是實(shí)現(xiàn)超長(zhǎng)讀長(zhǎng)的關(guān)鍵之一齿诉,讀長(zhǎng)主要跟酶的活性保持有關(guān),它主要受激光對(duì)其造成的損傷所影響晌姚。PacBio SMRT技術(shù)的一個(gè)關(guān)鍵點(diǎn)是在于如何將反應(yīng)信號(hào)與周圍游離堿基的強(qiáng)大熒光背景區(qū)別出來粤剧。他們利用的是ZMW(零模波導(dǎo)孔)原理:如同微波爐壁上可看到的很多密集小孔。這些小孔的直徑是有嚴(yán)格要求的挥唠,如果直徑大于微波波長(zhǎng)抵恋,能量就會(huì)在衍射效應(yīng)的作用下穿透面板從而泄露出來(光波的衍射效應(yīng)),從而與周圍小孔相互干擾(光波的干涉)宝磨。如果孔徑能夠小于波長(zhǎng)弧关,那么能量就不會(huì)輻射到周圍,而是保持直線狀態(tài)唤锉,從而可起到保護(hù)的作用世囊。同理,在一個(gè)反應(yīng)管(SMRTCell:單分子實(shí)時(shí)反應(yīng)孔)中有許多這樣的圓形納米小孔,窿祥,即 ZMW(零模波導(dǎo)孔)株憾,外徑100多納米,比檢測(cè)激光波長(zhǎng)小(數(shù)百納米)晒衩,激光從底部打上去后不會(huì)穿透小孔進(jìn)入上方的溶液區(qū)嗤瞎,能量會(huì)被限制在一個(gè)小范圍(體積20X 10-21 L)里,正好足夠覆蓋需要檢測(cè)的部分听系,使得信號(hào)僅僅只是來自于這個(gè)小反應(yīng)區(qū)域贝奇,孔外過多的游離核苷酸單體依然留在黑暗中,從而實(shí)現(xiàn)將背景噪音降到最低的目的靠胜。
- PacBio SMRT技術(shù)除了能夠檢測(cè)普通的堿基之外弃秆,還可以通過檢測(cè)相鄰兩個(gè)堿基之間的測(cè)序時(shí)間届惋,來檢測(cè)堿基的表觀修飾情況,如甲基化菠赚。因?yàn)榧僭O(shè)某個(gè)堿基存在表觀修飾脑豹,則通過聚合酶時(shí)的速度會(huì)減慢,那么相鄰兩峰之間的距離會(huì)增大衡查,我們可以通過這個(gè)時(shí)間上的差異來檢測(cè)表觀甲基化修飾等信息瘩欺。
- SMRT技術(shù)的測(cè)序速度很快,每秒約10個(gè)dNTP拌牲。但這么快的測(cè)序速度也帶來了一些明顯的缺點(diǎn)——測(cè)序錯(cuò)誤率比較高(這幾乎是目前單分子測(cè)序技術(shù)的通簿愣觥),可以達(dá)到10%-15%塌忽,而且以缺失序列和錯(cuò)位居多拍埠,但好在它的出錯(cuò)是隨機(jī)的,并不會(huì)像第二代測(cè)序技術(shù)那樣存在一定的堿基偏向(PCR biasing)土居,因此可以通過多次測(cè)序來進(jìn)行有效糾錯(cuò)枣购。
Oxford Nanopore
-
這個(gè)技術(shù)的關(guān)鍵點(diǎn)在于他們所設(shè)計(jì)的一種特殊納米孔,孔內(nèi)共價(jià)結(jié)合分子接頭擦耀。當(dāng)DNA分子通過納米孔時(shí)棉圈,它們使電荷發(fā)生變化,從而短暫地影響流過納米孔的電流強(qiáng)度(每種堿基所影響的電流變化幅度是不同的)眷蜓,最后高靈敏度的電子設(shè)備檢測(cè)到這些變化從而鑒定所通過的堿基分瘾。
- 納米孔測(cè)序以及其他第三代測(cè)序技術(shù),有可能會(huì)徹底地解決目前第二代測(cè)序平臺(tái)的諸多不足吁系。另外德召,MinION的主要特點(diǎn)是:讀長(zhǎng)很長(zhǎng),而且比PacBio的都長(zhǎng)得多汽纤,基本都是在幾十kb上百kb以上上岗,最新的數(shù)據(jù)顯示可以達(dá)到900 kb!錯(cuò)誤率是5%-15%冒版,也是隨機(jī)錯(cuò)誤,MinION最大的特點(diǎn)除了極小的體積之外逞姿,就是數(shù)據(jù)將是可實(shí)時(shí)讀取/的辞嗡,并且起始DNA在測(cè)序過程中不被破壞!這種納米孔單分子測(cè)序儀還有另一大特點(diǎn)滞造,它能夠直接讀取出甲基化的胞嘧啶续室,而不必像二代測(cè)序方法那樣需要事先對(duì)基因組進(jìn)行bisulfite(酸性亞硫酸鹽)處理。這對(duì)于在基因組水平直接研究表觀遺傳相關(guān)現(xiàn)象有極大的幫助谒养。
參考文章:
1.http://www.reibang.com/p/101c14c3a1d2
2.https://zhuanlan.zhihu.com/p/20702684
3.https://mp.weixin.qq.com/s/tWHWA-f1RnP_XWY66p12pg
4.https://mp.weixin.qq.com/s/9KUY43lD5miLdPZJKgRV0A