來(lái)源:https://zhuanlan.zhihu.com/p/91913739
<article class="Post-Main Post-NormalMain" tabindex="-1" style="box-sizing: border-box; overflow: hidden;">
<header class="Post-Header" style="overflow: hidden; width: 690px; margin: 0px auto;">
第二代測(cè)序原理的詳細(xì)解析居灯!
[圖片上傳失敗...(image-fb9dbe-1602577755282)]
博士在讀荒吏,生信咨詢與資料索取請(qǐng)移步公眾號(hào):微生態(tài)與微進(jìn)化
[致知計(jì)劃 · 科學(xué)季 · 已瓜分 10 億流量
點(diǎn)擊報(bào)名](https://www.zhihu.com/knowledge-plan/science)
90 人贊同了該文章
</header>
2005年,羅氏推出了第一款二代測(cè)序儀羅氏454资昧,生命科學(xué)開(kāi)始進(jìn)入高通量測(cè)序時(shí)代。后續(xù)隨著Illumina系列測(cè)序平臺(tái)的推出,極大降低了二代測(cè)序的價(jià)格,推動(dòng)了高通量測(cè)序在生命科學(xué)各個(gè)研究領(lǐng)域的普及德绿。目前,高通量測(cè)序已經(jīng)成為一種常規(guī)研究方法退渗,大量科研工作中均會(huì)用到移稳。然而,為什么二代測(cè)序能實(shí)現(xiàn)高通量氓辣?為什么二代測(cè)序讀長(zhǎng)如此之短秒裕?為什么reads末端測(cè)序質(zhì)量會(huì)降低?應(yīng)該如何選擇測(cè)序讀長(zhǎng)與打斷片段的長(zhǎng)度钞啸?想要回答這些問(wèn)題几蜻,都需要詳細(xì)了解二代測(cè)序的基本原理。本篇文章以典型的Illumina雙末端測(cè)序?yàn)槔逭叮敿?xì)解析二代測(cè)序的原理梭稚。
第二代測(cè)序(Next-generation sequencing,NGS)又稱(chēng)為高通量測(cè)序(High-throughput sequencing)絮吵,是基于PCR和基因芯片發(fā)展而來(lái)的DNA測(cè)序技術(shù)弧烤。我們都知道一代測(cè)序?yàn)楹铣山K止測(cè)序,而二代測(cè)序開(kāi)創(chuàng)性的引入了可逆終止末端蹬敲,從而實(shí)現(xiàn)邊合成邊測(cè)序(Sequencing by Synthesis)暇昂。二代測(cè)序在DNA復(fù)制過(guò)程中通過(guò)捕捉新添加的堿基所攜帶的特殊標(biāo)記(一般為熒光分子標(biāo)記)來(lái)確定DNA的序列莺戒,現(xiàn)有的技術(shù)平臺(tái)主要包括Roche的454 FLX、Illumina的Miseq/Hiseq等急波。由于在二代測(cè)序中从铲,單個(gè)DNA分子必須擴(kuò)增成由相同DNA組成的基因簇,然后進(jìn)行同步復(fù)制澄暮,來(lái)增強(qiáng)熒光信號(hào)強(qiáng)度從而讀出DNA序列名段;而隨著讀長(zhǎng)增長(zhǎng),基因簇復(fù)制的協(xié)同性降低泣懊,導(dǎo)致堿基測(cè)序質(zhì)量下降伸辟,這嚴(yán)格限制了二代測(cè)序的讀長(zhǎng)(不超過(guò)500bp),因此馍刮,二代測(cè)序具有通量高信夫、讀長(zhǎng)短的特點(diǎn)。二代測(cè)序適合擴(kuò)增子測(cè)序(例如16S渠退、18S忙迁、ITS的可變區(qū)),而基因組碎乃、宏基因組DNA則需要使用鳥(niǎo)槍法(Shotgun method)打斷成小片段,測(cè)序完畢后再使用生物信息學(xué)方法進(jìn)行拼接惠奸。
原文地址(關(guān)注公眾號(hào)微生態(tài)與微進(jìn)化領(lǐng)取原理講解視頻):
第二代測(cè)序原理的詳細(xì)解析梅誓!?mp.weixin.qq.com
文庫(kù)構(gòu)建
文庫(kù)構(gòu)建即為測(cè)序片段添加接頭。無(wú)論是PCR產(chǎn)生的片段還是基因組鳥(niǎo)槍法打斷的片段都具有特異性(PCR中不同樣品反向引物插入了特異性的barcode佛南,因此兩端也是特異的)梗掰,兩端缺乏必要的引物因此混合DNA片段不能直接擴(kuò)增和測(cè)序。DNA片段需要加接頭修飾才能進(jìn)行上機(jī)測(cè)序嗅回,這個(gè)過(guò)程稱(chēng)為二代測(cè)序的文庫(kù)構(gòu)建及穗。下面我們以常用的試劑盒NEBNext?Ultra? II DNA Library Prep Kit for Illumina?為例闡述二代測(cè)序文庫(kù)構(gòu)建的流程及其原理,具體如下所示:
①末端修飾绵载。目前很多PCR使用的高保真Pfu聚合酶產(chǎn)生的片段末端是平齊的(也即沒(méi)有不配對(duì)的堿基)埂陆;鳥(niǎo)槍法產(chǎn)生的片段則是隨機(jī)斷裂,其末端可能是平齊的也可能是不平的娃豹。因此焚虱,建庫(kù)第一步是使用Taq聚合酶補(bǔ)齊不平的末端,并在兩個(gè)末端添加突出的堿基A懂版,從而產(chǎn)生粘性末端(若使用Taq酶擴(kuò)增鹃栽,則無(wú)需末端修飾),產(chǎn)生粘性末端的片段可以添加接頭(Adaptor)躯畴。
②添加接頭民鼓。經(jīng)過(guò)末端修飾后的PCR片段末端具有突出的A尾薇芝,而接頭具有突出的T尾,可以使用連接酶將接頭添加到DNA片段兩端丰嘉。NEB的接頭為特殊的堿基U連接的環(huán)狀結(jié)構(gòu)(可以增強(qiáng)穩(wěn)定性)夯到,因此連接接頭后,還需要將堿基U刪除從而形成“Y”形接頭供嚎。這一步添加的接頭主要是為了后續(xù)PCR中作為引物擴(kuò)增繼續(xù)添加文庫(kù)index和與測(cè)序平臺(tái)互補(bǔ)的寡核苷酸序列(此外還作為測(cè)序引物Rd1 SP/Rd2 SP)黄娘,而之所以為“Y”型開(kāi)叉結(jié)構(gòu),是因?yàn)槊恳欢私宇^是兩條不互補(bǔ)的序列(每一端都是Rd1 SP與Rd2 SP交錯(cuò))克滴,因?yàn)檫B接酶沒(méi)有選擇性逼争,每個(gè)接頭都是只靠突出的T來(lái)與DNA連接,“Y”接頭保證了每條單序列兩端均為不同的測(cè)序引物劝赔,從而在后續(xù)PCR中可以連接不同的寡核苷酸序列(P5/P7)誓焦,具體流程見(jiàn)下圖。
③磁珠純化着帽。添加接頭后的文庫(kù)體系中含有聚合酶杂伟、連接酶等各種酶以及輔助物質(zhì),接頭的添加也是過(guò)量的仍翰,而且由于末端的不穩(wěn)定性赫粥,容易形成自連片段,鳥(niǎo)槍法打斷的片段中也可能有大片段存在予借,所以需要特殊磁珠(AMPure XP Beads)純化來(lái)去除大片段以及各種雜質(zhì)越平,從而獲得成功添加接頭的文庫(kù)片段。其原理為磁珠可以通過(guò)氫鍵等作用力來(lái)吸附DNA片段灵迫,磁珠本身不具有片段大小選擇的能力秦叛,但其儲(chǔ)存的buffer里面含有20%的PEG 8000,PEG濃度越大則可以吸附的DNA片段越小瀑粥。因此磁珠純化的時(shí)候要根據(jù)文庫(kù)片段不同嚴(yán)格控制磁珠添加量(其實(shí)是PEG添加量)來(lái)實(shí)現(xiàn)片段選擇挣跋。
④PCR擴(kuò)增。添加了接頭的DNA片段狞换,可以使用與接頭互補(bǔ)的引物來(lái)擴(kuò)增避咆。這個(gè)過(guò)程非常重要,因?yàn)槟壳八衅纹鋬啥耸遣换パa(bǔ)的Y形結(jié)構(gòu)哀澈,不能直接進(jìn)行測(cè)序牌借;此外,片段還需要添加用于區(qū)分不同文庫(kù)的特異性index割按,以及與測(cè)序儀芯片互補(bǔ)的兩種寡核苷酸序列(P5/P7)膨报。
⑤第二次磁珠純化。PCR后需要將產(chǎn)物DNA片段與聚合酶等雜質(zhì)分離,因此再次進(jìn)行磁珠純化现柠,之后進(jìn)行質(zhì)量檢測(cè)院领,包括DNA濃度檢測(cè)、瓊脂糖凝膠電泳和片段長(zhǎng)度檢測(cè)够吩,完成建庫(kù)比然。
測(cè)序是以單鏈為單位的,建庫(kù)完成后的每條DNA的單鏈均一端連有測(cè)序引物Read1 Sequencing Primer(Rd1SP)和P5周循,另一端為Rd2 SP强法、Index(Barcode)和P7。Index用來(lái)區(qū)分不同的文庫(kù)湾笛,因?yàn)闇y(cè)序儀一個(gè)run產(chǎn)生數(shù)據(jù)量巨大饮怯,由于實(shí)際情況不同,一次上機(jī)常會(huì)進(jìn)行多個(gè)文庫(kù)測(cè)序嚎研,因此需要加上Index來(lái)區(qū)分蓖墅。
上機(jī)測(cè)序
Illumina測(cè)序技術(shù)為基于基因芯片的邊合成邊測(cè)序,整個(gè)平臺(tái)可解剖為三個(gè)系統(tǒng):一溫度控制系統(tǒng)临扮,原理和普通PCR儀一樣论矾,來(lái)控制反應(yīng)的進(jìn)行;二酶控制系統(tǒng)杆勇,通過(guò)各種酶來(lái)控制DNA合成與剪切贪壳;三熒光信號(hào)收集系統(tǒng),可以理解為分辨率極高的照相機(jī)蚜退。在Illumina測(cè)序平臺(tái)的流通池(Flow cell)表面寥袭,通過(guò)基因芯片技術(shù)交錯(cuò)固定了無(wú)數(shù)條分別文庫(kù)接頭中P5和P7互補(bǔ)的寡核苷酸鏈(即短核苷酸鏈),單鏈化的文庫(kù)DNA片段進(jìn)入流通池后关霸,可以與表面的寡核苷酸結(jié)合,從而進(jìn)入測(cè)序過(guò)程杰扫。測(cè)序具體流程如下:
①首先以寡核苷酸為引物队寇、文庫(kù)片段為模板進(jìn)行DNA復(fù)制(因?yàn)槲膸?kù)稀釋后濃度足夠低,可以認(rèn)為文庫(kù)片段均勻的結(jié)合在流通池表面章姓,每個(gè)片段結(jié)合的位置相距足夠遠(yuǎn)佳遣,這很重要,否則測(cè)序時(shí)會(huì)導(dǎo)致信號(hào)疊加而不能識(shí)別)凡伊。復(fù)制完成后解鏈零渐,將文庫(kù)片段洗去,留在流通池表面的為與文庫(kù)模板互補(bǔ)的DNA鏈系忙。
②因?yàn)閱捂淒NA另一端為不同的接頭序列诵盼,可以與相鄰的另一種寡核苷酸互補(bǔ)結(jié)合,之后進(jìn)行“橋”式擴(kuò)增(假如第一次結(jié)合的為P7,則復(fù)制完成洗脫模板后頂端可以與相鄰的P5互補(bǔ)結(jié)合形成“橋”风宁,并以P5為引物進(jìn)行復(fù)制洁墙,完成后再次解鏈并與相鄰不同種接頭結(jié)合來(lái)進(jìn)行復(fù)制,如此類(lèi)推)戒财。25-28個(gè)循環(huán)完成后热监,原來(lái)散布在表面的單核苷酸序列變成散布的DNA簇,這一步主要是為后續(xù)測(cè)序做準(zhǔn)備饮寞,因?yàn)闇y(cè)序時(shí)單分子產(chǎn)生的光信號(hào)很弱孝扛,難以檢測(cè)。
③“橋”式擴(kuò)增后一個(gè)DNA簇都是由最初的一個(gè)文庫(kù)模板復(fù)制而來(lái)幽崩,但是這時(shí)候P7上的序列與P5上的序列是分別從兩端開(kāi)始的苦始,測(cè)序要保證每個(gè)片段一致性(都是正向或都是反向),因此再次解鏈線性化歉铝,切割并洗去P5上的DNA鏈盈简,只留P7上的DNA單鏈。Illumina巧妙地利用了甲酰胺基嘧啶糖苷酶Fpg對(duì)8-氧鳥(niǎo)嘌呤糖苷8-oxo-G的選擇性切斷作用太示,在合成的引物鏈上加入了一個(gè)8-oxo-G柠贤,用Fpg處理,就把帶8-oxo-G基團(tuán)切掉类缤,并把DNA鏈切斷臼勉,留下一帶不完整糖基的磷酸基。這個(gè)磷酸基在接下來(lái)的過(guò)程中餐弱,起到了阻止P5延伸的作用宴霸。此后的雙末端測(cè)序中需要恢復(fù)3'-OH,則用脫嘌呤嘧啶內(nèi)切核酸酶AP-endonuclease把帶不完整糖基的那個(gè)磷酸基切掉膏蚓。
④加入測(cè)序引物Read1 SP和修飾過(guò)的DNA聚合酶瓢谢,則在測(cè)序引物3’端開(kāi)始DNA復(fù)制。在流通池加入可逆終止熒光dNTP驮瞧,其3'-OH被阻隔(糖基3'連接有疊氮基團(tuán)氓扛,在鏈延伸時(shí)起到了阻止添加下一個(gè)dNTP作用,因此在除去阻隔前只能添加一個(gè)堿基)论笔,4種dNTP在堿基上分別連接有不同顏色的熒光基團(tuán)(也可以相同顏色熒光標(biāo)記采郎,但是測(cè)序會(huì)更慢,每次只能添加一種堿基)狂魔。之后洗掉多余的dNTP蒜埋,使用激光掃描,收集留在流通池表面的熒光信號(hào)(如圖1-6所示)最楷。用巰基試劑去掉3’位阻斷的疊氮基團(tuán)整份,用TCEP(Tris(2-carboxyethyl)phosphine,三(2-羧乙基)膦)去掉熒光基團(tuán)待错,進(jìn)入下一個(gè)堿基的測(cè)序反應(yīng)。因?yàn)槊織lDNA單鏈擴(kuò)增形成的DNA簇均固定在表面皂林,隨著反應(yīng)進(jìn)行根據(jù)相同位置出現(xiàn)的熒光信號(hào)情況朗鸠,就逐漸讀出了改位點(diǎn)DNA鏈的序列。
⑤要保證測(cè)序的準(zhǔn)確性础倍,需要一個(gè)位點(diǎn)DNA簇的每條鏈同步復(fù)制烛占,然而隨著反應(yīng)進(jìn)行,不同鏈復(fù)制情況會(huì)出現(xiàn)差異沟启,因此二代測(cè)序讀長(zhǎng)目前限制在300bp以內(nèi)忆家。Read1結(jié)束后,解鏈并洗掉測(cè)序中已經(jīng)合成的部分德迹,加入測(cè)序引物Index引物(也即Read2 SP互補(bǔ)的寡核苷酸)芽卿,這時(shí)會(huì)繼續(xù)在3’端進(jìn)行復(fù)制,讀出接頭中Index序列胳搞,從而可以確定出每個(gè)位點(diǎn)的DNA屬于哪個(gè)文庫(kù)卸例。
⑥為了增長(zhǎng)測(cè)序長(zhǎng)度,進(jìn)行另一個(gè)方向測(cè)序肌毅,也即雙末端測(cè)序筷转。洗掉前面復(fù)制合成的片段,DNA單鏈繼續(xù)在流通池表面形成橋式連接悬而,這時(shí)要用脫嘌呤嘧啶內(nèi)切核酸酶處理修復(fù)P5的3’-OH末端呜舒,加入聚合酶,則在P5末端開(kāi)始DNA復(fù)制笨奠。十幾個(gè)循環(huán)后袭蝗,將P7上的DNA切割并洗掉。Illumina通過(guò)在P7核酸鏈中加入一個(gè)U堿基般婆,用USER酶(Uracil Specific Excision Reagent到腥,尿嘧啶鏈特定切斷試劑)來(lái)切隔斷鏈。這時(shí)只留下P5上的DNA鏈蔚袍,與Read中方向相反左电。加入測(cè)序引物Read2 SP,進(jìn)行另一端的序列讀取页响。
測(cè)序數(shù)據(jù)
一般我們接觸到的測(cè)序數(shù)據(jù)為fastq格式的堿基序列,然而早期Illumina平臺(tái)直接下機(jī)數(shù)據(jù)為bcl格式文件段誊,其儲(chǔ)存的是顯微拍攝得到的熒光信號(hào)信息闰蚕,如下所示(此圖為不同堿基使用相同熒光標(biāo)記的掃描結(jié)果):
將相同區(qū)域不同時(shí)間拍攝的熒光圖片按照時(shí)間順序疊加處理,就可以獲得該位點(diǎn)結(jié)合的DNA序列的堿基順序连舍。
參考文獻(xiàn)
[1] ClarkeA C, Prost S, Stanton J a L, et al. From cheek swabs to consensus sequences: anA to Z protocol for high-throughput DNA sequencing of complete humanmitochondrial genomes[J]. Bmc Genomics, 2014, 15(1): 1-12.
[2] BowmanS K, Simon M D, Deaton A M, et al. Multiplexed Illumina sequencing librariesfrom picogram quantities of DNA[J]. Bmc Genomics, 2013, 14(1): 135-143.
[3] MardisE R. Next-Generation DNA Sequencing Methods[J]. Annual Review of Genomics &Human Genetics, 2008, 9(9): 387-402
編輯于 05-21
?贊同 90 ? ?3 條評(píng)論
?分享
?喜歡 ?收藏
?
</article>
文章被以下專(zhuān)欄收錄
[圖片上傳失敗...(image-5a8345-1602577755281)]
生物信息學(xué)分析
更多內(nèi)容請(qǐng)移步公眾號(hào):微生態(tài)與微進(jìn)化
推薦閱讀
[[圖片上傳失敗...(image-9620e9-1602577755285)]
測(cè)序之前篇: NGS測(cè)序中没陡,接頭是如何添加上的,以及如何去接頭
天地本無(wú)心發(fā)表于生物信息自...](https://zhuanlan.zhihu.com/p/35278810)
[[圖片上傳失敗...(image-980e6c-1602577755285)]
[序列拼接] 雙端測(cè)序,原理 + 拼接 (Pandaseq)
12345...發(fā)表于生信noo...](https://zhuanlan.zhihu.com/p/61963366)
[[圖片上傳失敗...(image-e26aa1-1602577755284)]
DNA測(cè)序原理(1)——Sanger 法測(cè)序
寒光照](https://zhuanlan.zhihu.com/p/29270914)
[[圖片上傳失敗...(image-f863b7-1602577755284)]
一代測(cè)序原理 (Sanger法測(cè)序)
白墨發(fā)表于生信情報(bào)站](https://zhuanlan.zhihu.com/p/94183808)
3 條評(píng)論
?切換為時(shí)間排序
寫(xiě)下你的評(píng)論...
發(fā)布
-
吧啦吧啦09-13
您好盼玄,請(qǐng)問(wèn)能在解釋一下您講的“這一步添加的接頭主要是為了后續(xù)PCR中作為引物擴(kuò)增繼續(xù)添加文庫(kù)index和與測(cè)序平臺(tái)互補(bǔ)的寡核苷酸序列(此外還作為測(cè)序引物Rd1 SP/Rd2 SP)”贴彼,感覺(jué)不是很能理解,非常感謝埃儿!
?贊 ?回復(fù) ?踩 ?舉報(bào)
-
看這張圖器仗,最后PCR的結(jié)果是每個(gè)單鏈兩短都是不同的結(jié)合序列(分別是P7和P5),因此一開(kāi)始要添加Y接頭童番,Y接頭就是說(shuō)這段是不互補(bǔ)的精钮,分叉的(所以一開(kāi)始是弄成環(huán)狀增強(qiáng)穩(wěn)定性)。假如不是Y接頭剃斧,在后面的PCR中就不能保證每個(gè)單鏈兩端分別是P7和P5轨香,有可能會(huì)產(chǎn)生兩端都是P7或者兩端都是P5的序列,那樣就不能雙末端測(cè)序了幼东。
?贊 ?回復(fù) ?踩 ?舉報(bào)
-
吧啦吧啦回復(fù)知乎用戶 (作者)09-18
謝謝臂容!我明白了~
?贊 ?回復(fù) ?踩