一隘擎、測序原理
先介紹 Nanopore 測序中的幾位主角:
Reader
:在自然界中携龟,有一種可以嵌入到細(xì)胞膜中作為離子或分子通道的跨膜蛋白,具有天然的蛋白納米孔沃于。經(jīng)過人為基因工程修飾后俄烁,得到的就是 Nanopore 測序所需的 Reader 蛋白绸栅。
Membrane
:Reader 蛋白會被嵌入到高電阻率的 Membrane (人工合成的多聚物膜),膜兩側(cè)是離子溶液猴娩,在兩側(cè)加不同的電位阴幌,離子就會在孔中流動勺阐,形成電流卷中。
Motor
:在 Nanopore 文庫構(gòu)建時(shí),需要在接頭上連接一種動力蛋白渊抽,用于將DNA或RNA分子推入納米孔中蟆豫。以DNA解螺旋酶作為 Motor(動力蛋白)為例,它可以除了可以解開雙螺旋懒闷,使之變?yōu)閱捂準酰€可以提供推動力爱致。
Tether
:該蛋白用于錨定DNA或RNA鏈须误,防止在溶液中飄動,并使其進(jìn)入納米孔中龄糊。
這時(shí)玩焰,解開的其中一條鏈會穿過蛋白質(zhì)孔由驹,它在通過蛋白孔時(shí),會對膜兩邊離子的穩(wěn)定流動產(chǎn)生擾動昔园。不同的堿基蔓榄,對離子流的影響不同,也就會產(chǎn)生不同的電流大小默刚,進(jìn)而形成下面的電流信號圖甥郑。
利用這些電流信號,使用計(jì)算機(jī)軟件識別后荤西,推斷出堿基類型澜搅,完成測序伍俘。
二、測序儀介紹
雖然 Nanopore 測序儀種類很多勉躺,但都是基于Nanopore芯片來搭建的平臺养篓,大到由多個(gè)芯片陣列組成的PromehION,GridION系列測序儀赂蕴,小到可以連接手機(jī)的Type C柳弄,電腦USB的MnION系列便攜式測序儀。
這里邊概说,最著名的就是MnION系列碧注,2016年8月,美國宇航員凱特·魯賓斯在國際空間站完成微重力條件的DNA測序糖赔。
它在測序時(shí)萍丐,一般像下圖這樣連接就行,顯而易見的便攜性放典。比如逝变,可以直接用它在深入疫區(qū)采集樣本后進(jìn)行實(shí)時(shí)分析,為防疫工作爭取大量寶貴的時(shí)間和資源奋构。
測序時(shí)壳影,將制備好的文庫或樣本溶液,滴在芯片小孔中弥臼,開始測序宴咧。
一張芯片中有 2048 個(gè) membrane wells,也就是芯片上的一個(gè)孔径缅,每個(gè)孔包含一個(gè)nanopore Reader掺栅。
每四個(gè) wells 共享一個(gè) Amplifier(信號放大器),一張芯片中有 512 個(gè)信號放大器纳猪,也就是 512 組 wells氧卧。
在啟動測序儀后,機(jī)器自檢氏堤,會將每組 wells 中依據(jù)效率高低排序沙绝。測序開始,儀器先用每組 wells 中效率最高的 wells丽猬,運(yùn)行 8 小時(shí)后宿饱,更換效率第二的,以此類推脚祟。
但是谬以,在實(shí)際使用過程中,只有 1200 個(gè) wells可以正常工作由桌。
造成 wells 失效的原因:
wells 中沒有 Reader 蛋白为黎,或納米孔不通邮丰,這時(shí)無電信號
膜破損,這時(shí)有強(qiáng)電信號铭乾,不能正常測序
在單個(gè) well 中有兩個(gè)及以上的 Reader 蛋白剪廉,電信號互相干擾
三、建庫方法
1炕檩、1D 文庫
1D文庫是將DNA雙鏈斗蒋,解鏈為正義鏈與反義鏈,分別測序笛质,大約有 85% 的堿基判讀準(zhǔn)確率泉沾。
目前1D文庫
有兩種建庫方案:
標(biāo)準(zhǔn)建庫
-
將 DNA 打斷
mark -
補(bǔ)齊DNA末端,末端加 A 堿基
mark -
連接 Adapter( 接頭序列)妇押,接頭上連有 Motor 蛋白
mark -
接頭中有一段序列可以與 Tether 蛋白結(jié)合跷究,作用是為了將 DNA 鏈吸附在膜上,將 DNA 錨定敲霍,不易被溶液洗走
mark下圖是 Tether 與接頭序列識別及錨定過程
mark
轉(zhuǎn)座酶建庫
-
建庫時(shí)使用連有測序接頭的轉(zhuǎn)座酶俊马,該酶可以將長鏈 DNA 鏈切斷
mark -
由于該酶的特性,會在DNA的斷點(diǎn)兩端加接頭序列
mark -
隨后在測序接頭加入 Motor 蛋白
mark
2肩杈、? 文庫
在 DNA 兩側(cè)接 ? 接頭柴我,其他步驟和 1D 文庫類似。
這種文庫中的? 接頭锋恬,可以讓第二鏈緊跟第一鏈來一起測序屯换。
由于可以測到兩條鏈,可以相互矯正与学,進(jìn)而提高判讀準(zhǔn)確率,能達(dá)到 90%以上的堿基判讀準(zhǔn)確率嘉抓。
但是索守,由于文庫質(zhì)量,蛋白活性等因素抑片,導(dǎo)致并不是所有的第一鏈后都會測到第二鏈卵佛。
四、堿基判讀
在測序過程中敞斋,得到的信號并不是每次測得一個(gè)堿基信號截汪。而是根據(jù) Reader 蛋白孔的縱向長度,R9 大約為 5 個(gè)堿基長植捎,也就是說衙解,同時(shí)會測得 5 個(gè)堿基的電信號,這并不是一項(xiàng)簡單的判斷過程焰枢。
目前蚓峦,Nanopore 公司采用一種機(jī)器學(xué)習(xí)方法舌剂,遞歸神經(jīng)網(wǎng)絡(luò)(RNN),對堿基進(jìn)行判讀暑椰。
該過程簡單來說霍转,是將已知堿基序列的電信號波形圖做訓(xùn)練集和測試集,通過修正參數(shù)一汽,拿到模型避消。最后,將新測到的未知序列的波形圖與之比對召夹,從而提高判讀準(zhǔn)確率沾谓。
但是,還是有誤讀情況:
由于空間結(jié)構(gòu)相似性戳鹅,嘌呤間誤讀均驶,嘧啶間誤讀更容易發(fā)生。
堿基復(fù)雜度低的序列(如枫虏,polyA序列)妇穴,更容易誤讀
五、測序影響因素
電壓
以R9芯片為例隶债,測序過程腾它,先用 180 mV 電壓,每 10 min死讹,短時(shí)間翻轉(zhuǎn)電壓方向瞒滴,作用是激活被堵住或卡住的 Reader 蛋白孔。但是赞警,這個(gè)過程也會使正常測序的 DAN鏈倒吐回去妓忍。
隨著電極使用時(shí)間的增加,電極的電壓會發(fā)生漂移愧旦,因此每過兩小時(shí)世剖,要增加 5mV 電壓抵消影響。
速度與產(chǎn)量
R9 芯片笤虫,測序速度是 250 堿基/s旁瘫,一張芯片可以得到約 5 ~ 10 G的堿基序列。
六琼蚯、芯片版本號
Nanopore 公司每一種新Reader蛋白酬凳,Motor,Membrane遭庶,就會有一個(gè)新的芯片版本號宁仔,一般命名規(guī)則如下:
Reader:R8,R9罚拟,R10台诗,等
Motor:E6完箩,E7,E8拉队,等
Membrane:M9弊知,M10,等
比如粱快,R9 指的是大腸桿菌的 CsgG 蛋白質(zhì)改造的 Reader 蛋白秩彤。
總結(jié)
Nanopore 測序是基于電學(xué)的檢測,區(qū)別與 Illumina 和 PacBio 的光學(xué)
測序儀器便攜事哭,可用于遠(yuǎn)離實(shí)驗(yàn)室的地區(qū)漫雷,如疫區(qū),農(nóng)場等
讀長較長鳍咱,大約 300,000 ~ 400,000 個(gè)堿基降盹,可用于從頭組裝基因組,可變剪切等
可以對DNA 谤辜,RNA蓄坏,甚至蛋白質(zhì)序列進(jìn)行測序
堿基判讀準(zhǔn)確率較高,R10納米孔數(shù)據(jù)質(zhì)量值超過Q40(即錯(cuò)誤識別的概率是0.01%丑念,即錯(cuò)誤率0.01%)涡戳,一致性(Identity)質(zhì)量值達(dá)Q50 (99.999%的堿基準(zhǔn)確率)。
參考:
https://www.youtube.com/watch?v=RcP85JHLmnI
https://www.youtube.com/watch?v=E9-Rm5AoZGw&t=13s