參考: 從零開始完整學習全基因組測序數據分析:第1節(jié) 測序技術
作者:堿基礦工
參考:【陳巍學基因】視頻1:Illumina測序化學原理
前言
什么是全基因組測序好港?
全基因組測序禽额,英文為Whole Genome Sequencing衔沼,簡稱WGS读虏,指的是把物種細胞里面完整的基因序列柴罐,從第一個DNA開始嚼鹉,一直到最后一個DNA贩汉,完完整整地檢測出來,并排列好锚赤。
全基因測序的意義匹舞?
全基因測序,理論上可以得出基因組上任何類型的突變线脚。包含了所有基因與其的生命特征的關聯(lián)信息赐稽。
測序技術
第一代測序技術
第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創(chuàng)的鏈終止法。(Sanger 法)
世界上第一個全基因序列(噬菌體phiX-174)浑侥,就是由桑格在1977年完成的姊舵。
原理
第一代測序技術主要借助于
ddNTP
(NTP 包含了ATCG四種類型),這是一種具有熒光標記的核酸寓落,且2’和3’都不含羥基括丁,因此在DNA合成過程中無法形成磷酸二酯鍵,當核酸序列連接ddNTP
后伶选,就會中斷連接史飞。因此,如圖顯示仰税,在DNA 合成反應體系中构资,分四組加入一定比例的四種
ddNTP
,在遇到對應位置的ddNTP
時陨簇,反應就會終止蚯窥。在不同的組別下會形成不同長度的核酸序列。由于使用的
ddNTP
具備熒光標記塞帐,接著使用凝膠電泳與顯影技術拦赠,便可以得到電泳的條帶。根據不同組別不同條帶終止的位置葵姥,就可以讀出對應條帶下對應組別(A,T,C,G)的堿基信息荷鼠。從而實現(xiàn)測序。至于說為什么不同組別(A,T,C,G)內的DNA 可以生成不同的條帶榔幸,因為所有的核酸允乐,與某一種特定的ddNTP矮嫉,與對于位置的上一條核酸結合的概率是相同且隨機的。因此在大量的核酸與引物下牍疏,可以合成所有ddNTP 可能結合的部位蠢笋,而結合該部位的ddNTP 則通過條帶顯示出來。
優(yōu)點&缺點
優(yōu)點:測序準確率高鳞陨,高達99%昨寞。
缺點:通量低,成本高厦滤。
其他基于相同原理的援岩,還有焦磷酸測序法、連接酶法等掏导。
第二代測序技術(NGS)
我們一般說的NGS(Next Generation Sequencing)享怀,或高通量測序技術,都是指第二代測序技術趟咆。
按照上面說的一代測序特點添瓷,顯然是難以進行大規(guī)模使用的,也因此并不是一個理想的大規(guī)模測序方法值纱。
- (要是用一代測序仰坦,做人類基因組計劃的方法,需要多久呀计雌?!以前完成一個人類基因組的測序需要3年時間玫霎,而使用二代測序技術則僅僅需要1周)
Roche公司的454技術與illumina公司的Solexa/Hiseq技術和ABI公司的SOLID技術的出現(xiàn)凿滤,標志著NGS 的誕生。
原理
目前主流的NGS 測序庶近,采用illumina 技術翁脆。主要采用一種邊合成邊測序的方法。除此之外鼻种,NGS 的特點還有其序列讀長方面短很多反番。
1)構建DNA測序文庫
使用超聲波,將一堆DNA分子用超聲波打斷成一定長度范圍的小片段叉钥。一般來說罢缸,基本都是打斷為300bp-800bp長的序列片段,在兩頭用酶補平投队。接著在3'端用Klenow 酶加上一個A堿基枫疆,然后再用連接酶在小片段A堿基后面加上一段DNA序列(接頭)敷鸦。構建出單鏈DNA文庫息楔,備用寝贡。
2)流動槽(flowcell)吸附
flowcell 是用于吸附流動DNA 的槽道,是測序的反應容器值依。flowcell 一般由八個槽道構成圃泡,被稱為lane。每個lane 的表面被設計成有很多的接頭愿险,而這些接頭則可以和建庫過程中加在DNA片段兩端的接頭配對颇蜡。通常來說lane 上的接頭為兩種引物,正好配對DNA片段兩頭添加的接頭拯啦。
而lane 上的接頭澡匪,一般也是通過共價鍵的方式連到flowcell 上。因為后面的步驟會有大量液體流過flowcell褒链,為避免引物被沖掉唁情。
需要??的是,這里lane 的引物一般被設計為一頭與DNA 一端互補甫匹,一頭與DNA 另一端一致甸鸟。
當第一步文庫構建完成后,文庫中的DNA 在通過flowcell 的時候便會與lane 上的接頭配對兵迅,并隨機吸附在槽道的表面抢韭。
理論上lane 之間不會有相互的影響。
3)橋式PCR擴增與變性
本質是將文庫種到flowcell 上并進行擴增的過程恍箭。
因為文庫兩頭添加的DNA序列與lane 上的接頭是互補的挪钓,所以當二者結合會產生互補雜交边锁。
將文庫加入到flowcell 上。會進行以下步驟。
1.雜交結合呢岗。
文庫會與表面的引物結合绊诲,互補雜交梧躺。
2.合成互補鏈奥吩。
雜交后,會往其中加入dNTP 與聚合酶构拳,聚合酶會從引物起始位置開始咆爽,合成文庫的互補鏈。
3.解鏈置森。
加入NaOH 堿性溶液斗埂,DNA 雙鏈此時會發(fā)生解鏈。而此時的模版鏈(文庫)凫海,也就是沒有與引物結合的鏈蜜笤,就被沖走了。
4.重連接盐碱。
通過加入中性溶液把兔,緩沖堿性液體沪伙。此時引物上的互補鏈便會和引物上的另外一個引物發(fā)生雜交。ps:此時的DNA 片段為測序DNA 片段的互補鏈县好。
5.再合成围橡。
再次雜交后,再一次引入dNTP 與聚合酶缕贡,以原先的互補鏈為模版翁授,再次合成出一條新的互補鏈。
6.再解鏈晾咪。
再次加入堿溶液收擦,這時兩條鏈又會解離開。而由于此時兩根鏈都是公價連接在lane 上谍倦,并不會被沖刷走塞赂。
7.循環(huán)4-6
再次加入中性溶液,兩根鏈又會和其他鏈雜交昼蛀。
再次加入酶和dNTP宴猾,又會合成。
再次加入堿叼旋, 又會分離仇哆。循環(huán)下去,2**n 指數方式增長lane內合成的DNA鏈夫植。
- 一個個的DNA雙鏈讹剔,是不是和橋一樣?
8.拆解雙鏈
完成了橋式PCR 的擴增后详民,需要將合成的雙鏈延欠,拆分成可以測序的單鏈。理論上說阐斜,是通過化學方法,將一個引物(與lane 連接的接頭)上的特定基團切掉诀紊,此時再用堿溶液來清洗該芯片谒出。此時堿便可以讓其中切除基團的DNA鏈沖刷掉。
9.連接測序引物
再次加入中性溶液緩沖邻奠。并在中性溶液內加入測序引物笤喳。接下來就是測序工作了。
4)測序
1.合成測序鏈
加入帶熒光標記的dNTP碌宴,且3' 末端被疊氮基堵住杀狡。(與Sanger的有點像呢)并加入聚合酶。由于3' 末端被堵住了贰镣,所以一個循環(huán)只能延長一個堿基呜象。
合成完成后膳凝,就用水把多余的dNTP 和酶沖掉。
2.測定堿基類型
放到顯微鏡下進行激光掃描恭陡。因為使用的dNTP蹬音,事先已經被熒光標記了,便可以根據其發(fā)出來的熒光休玩,判斷其堿基類型著淆。由于新合成的堿基與模版鏈堿基互補,便可反推出模版上的基因類型拴疤。
3.切除疊氮基團
完成上面的循環(huán)后永部,接著加入一些化學試劑,把4.1 步中dNTP上的疊氮基團與熒光標記基團切除呐矾。此時3' 的羥基暴露出來苔埋,便可以繼續(xù)連接新的dNTP。
4.循環(huán)1-3
不斷重復加堵住3' 的熒光標記的堿基-測定堿基類型-切除標記...過程凫佛。重復上百次讲坎。
5.讀取Index(Barcode)
測得了DNA序列,由于二代測序技術首先是將DNA打斷為小片段的愧薛,因此便需要判斷出測定結果的來源晨炕。
文庫的接頭上,在開始時1)做了一些標記毫炉,每一個樣本有其特定的接頭瓮栗,每個接頭里有一個特定的序列。這段特定的序列瞄勾,便是index费奸,或barcode。標記了樣本的來源进陡。
首先用堿將測完的序列(稱為“read1”序列)解鏈洗脫掉愿阐。
接著加入中性液緩沖,然后加入新的測序引物(“read2”序列)趾疚。
一般來說缨历,read2測序引物的結合位點,正好在index 序列的旁邊糙麦。
接下來進行第二輪測序辛孵。一般是讀6-8個堿基(方法同先前的4.4中的循環(huán))。根據讀出來的堿基赡磅,便可以判斷出它來自于哪個原始樣本魄缚。
雙端測序技術
illumina 測序還應用了雙端測序技術。允許從正向和反向讀取DNA鏈焚廊,便將illumina 測序的有效長度加了一倍冶匹。
除此之外习劫,flowcell 上的8個lane 上,可以有上億個點提供DNA鏈的合成徙硅,每個類型(來源)的DNA鏈可以形成一個cluster榜聂,而每一個cluster,都是由一樣的DNA 鏈構成嗓蘑。
而上億個彼此不同的cluster须肆,便實現(xiàn)了很高的測序數據量。(同時對不同的DNA序列進行上述1-4步驟)
優(yōu)點&缺點
優(yōu)點:高通量桩皿,成本低豌汇。
缺點:錯誤率相比Sanger 法高,主要來源是堿基替換過程可能會出錯泄隔。(4.1 合成測序鏈)
-
不同測序儀比較
第三代測序技術
第三代測序拒贱,最大的特點就是實現(xiàn)了單分子測序,因此也被叫做單分子測序佛嬉。以以PacBio公司的SMRT和Oxford Nanopore Technologies的納米孔單分子測序為代表逻澳。
而正因其是單分子測序,因此測序過程也無需進行PCR擴增暖呕,可以實現(xiàn)超長讀長斜做。
PacBio SMRT 測序原理
SMRT 本質也是采用了邊合成邊測序的思想,以SMRT 芯片(flowcell)為載體進行測序湾揽。
首先在flowcell 中添加聚合酶和熒光標記的dNTP瓤逼。而在堿基配對結合時,SMRT芯片 會利用ZMW(零模波導孔)原理 將反應信號與周圍堿基的熒光背景區(qū)分库物,并捕獲配對的堿基信號霸旗,根據該信號(光的波長與峰值)判斷堿基類型。
SMRT 測序中戚揭,DNA聚合酶是實現(xiàn)超長讀取測序信息的關鍵诱告。酶的活性越強,其合成時間越長民晒,能夠讀取到的DNA片段信息就越長精居。而用于檢測的激光則會對酶造成一定的損傷。
零模波導孔原理
在一個SMRT芯片反應管中(SMRTcell)镀虐,有許多圓形納米小孔箱蟆,外徑100多納米沟绪,小于幾百納米的檢測光的波長刮便。因此能量并不會輻射到周圍,而是保持直線狀態(tài)绽慈,起到了保護的作用恨旱。
正因此辈毯,檢測激光從底部打入SMRTcell 后不會穿透小孔進入上方的溶液區(qū),能量會被限制在一個小范圍搜贤,正好足夠覆蓋需要檢測的部分谆沃。
而信號僅僅只是來自于這個小反應區(qū)域,孔外背景中其他的dNTP 依然在黑暗中仪芒,從而實現(xiàn)降低背景噪音的目的唁影。
甲基化檢測
SMRT 技術不僅能夠通過信號進行單分子測序,還可以通過檢測相鄰堿基的測序時間掂名,從而判斷出堿基的表觀修飾情況据沈,如甲基化等。
若堿基存在甲基化修飾饺蔑,則其通過DNA 聚合酶的時間會延長锌介,信號中相鄰兩峰之間的距離會增大,因此可以借助該時間差異進行判斷猾警。
優(yōu)點&缺點
優(yōu)點:快孔祸!檢測速度可達到 10 dNTP/s。單分子測序发皿,超長讀取崔慧。
缺點:錯誤率高(單分子測序通病)雳窟,可達到10%-15%尊浪,主要是序列缺失及錯位。但可以通過多次測序進行彌補封救。
Oxford Nanopore 測序技術
由Oxford Nanopore 研發(fā)的MinION拇涤,由于精巧的體積,被俗稱為U盤測序儀誉结。
測序原理
與其他測序技術鹅士,包括一代、二代及SMRT 測序技術都不相同的是惩坑,minION 采用了電信號技術而非光信號對堿基進行測序掉盅。
該測序儀中有一種特殊的納米孔,而孔內則共價結合了分子接頭以舒。
當DNA分子通過納米孔時趾痘,這些分子使納米孔內的電荷發(fā)生變化,從而短暫的影響流過納米孔的電荷強度蔓钟。
而不同堿基所影響電流的幅度又是有差異的永票,通過高靈敏度的檢測設備,可以檢測到這些細微變化,從而堅定出通過的堿基類型侣集。
甲基化檢測
和SWRT 芯片一樣键俱,minION 也可以讀出甲基化的胞嘧啶。
優(yōu)點&缺點
優(yōu)點:讀長更長世分,甚至優(yōu)于SMRT编振,在幾十到上百kb,甚至可以達到900kb臭埋。數據可以實時讀取踪央,且起始DNA 在測序中不會被破壞。
缺點:依舊是錯誤率高瓢阴。