作者:May
審稿:童蒙
編輯:amethyst
引言
大家好芒珠,又到了阿拉丁聊基因組的時(shí)間了。今天我們按照上期的計(jì)劃芯砸,我們來聊一下基因組測(cè)序技術(shù)中的兩大神兵利器之--Pacbio和Nanopore。如今在基因組圈里走天下的各種大佬忠怖,這兩種技術(shù)可是家喻戶曉。基因組的重點(diǎn)在于contig的連續(xù)度和準(zhǔn)確度,我們一直在期待可以直接把染色體測(cè)通鞭莽,但是我們?nèi)祟愐恢痹谂Γ蓮奈闯紧锏弧R虼伺炫覀冊(cè)跍y(cè)序的道路上不斷的嘗試和努力,從二代測(cè)序測(cè)序一路披荊斬棘邁向了三代測(cè)序阶牍。因此喷面,基因組的連續(xù)度迅速增加,享受了科技帶來的福利荸恕。PacBio和Nanopore做為目前主流的長(zhǎng)讀長(zhǎng)測(cè)序平臺(tái)乖酬,二者分庭抗禮死相,各有所長(zhǎng)融求,那么我們?cè)撛趺催x擇呢?下面將從二者的測(cè)序原理算撮、錯(cuò)誤類型生宛,實(shí)際應(yīng)用等方面展示兩種測(cè)序平臺(tái)各自的優(yōu)缺點(diǎn)县昂,至于如何選擇,大家因需取求陷舅。
1.PacBio和Nanopore不同方面的對(duì)比
1.1測(cè)序原理對(duì)比
PacBio測(cè)序基于邊合成邊測(cè)序的原理倒彰。實(shí)時(shí)記錄熒光信號(hào),轉(zhuǎn)化為單堿基信息莱睁,獲得具有單堿基分辨率的高精度序列待讳。PacBio測(cè)序依賴DNA聚合酶活性,DNA聚合酶和帶有不同熒光標(biāo)記的dNTP仰剿,放置到納米孔的底部的聚合酶進(jìn)行DNA合成反應(yīng)创淡。當(dāng)dNTP進(jìn)入DNA模板鏈、引物和聚合酶復(fù)合物中發(fā)生鏈延伸反應(yīng)南吮,同時(shí)通過檢測(cè)dNTP熒光信號(hào)琳彩,獲得熒光信號(hào)圖像,最后將光學(xué)峰轉(zhuǎn)化為堿基(圖1)部凑。PacBio sequel平臺(tái)下機(jī)數(shù)據(jù)為bam格式露乏,包含三個(gè)文件:bam 文件,bam.pbi 文件涂邀,以及xml文件瘟仿。此刻,請(qǐng)大家注意比勉,該bam文件與比對(duì)到基因組生成的bam文件格式大體一致猾骡,但是同中有異。Pacbio測(cè)序獲得的bam文件可以轉(zhuǎn)化為fasta敷搪,然后可以使用各種軟件進(jìn)行組裝兴想。
Nanopore測(cè)序是基于電信號(hào)檢測(cè)原理,當(dāng)DNA分子穿過納米孔時(shí)會(huì)產(chǎn)生電流信號(hào)赡勘,一般以5個(gè)堿基為一組檢測(cè)電流信號(hào)嫂便,對(duì)電流信號(hào)進(jìn)行解碼(圖2)。Nanopore測(cè)序不依賴DNA聚合酶活性闸与,理論上只要DNA分子不斷開毙替,就一直可以通過納米孔,得到的序列讀長(zhǎng)更長(zhǎng)践樱,最長(zhǎng)可達(dá)Mb級(jí)別厂画。Nanopore下機(jī)的原始電信號(hào)文件,以.fast5結(jié)尾拷邢,包含測(cè)序的序列信息和甲基化修飾信息袱院。經(jīng)過basecalling軟件(Guppy,Albacore等)可以將fast5文件轉(zhuǎn)換為fq文件進(jìn)行后續(xù)分析。一般根據(jù)Q score>7對(duì)數(shù)據(jù)進(jìn)行質(zhì)控忽洛,通過的為pass腻惠,沒有通過為fail。
1.2建庫測(cè)序模式對(duì)比
PacBio測(cè)序有兩種模式欲虚,一種是CLR模式集灌,另一種是CCS模式。對(duì)于長(zhǎng)插入片段文庫复哆,產(chǎn)生的序列的一般少于2 passes的(pass即環(huán)繞測(cè)序的次數(shù))欣喧,得到的reads稱為Continuous Long Reads(CLR), 當(dāng)文庫插入片段相對(duì)較短時(shí)梯找,測(cè)序后會(huì)產(chǎn)生多個(gè)passes续誉,來源于同一個(gè)孔的多條reads通過一致性校正,得到一個(gè)準(zhǔn)確度較高的reads初肉,稱為Circular Consensus Sequencing(CCS)Reads(圖3)酷鸦,全長(zhǎng)轉(zhuǎn)錄組或全長(zhǎng)16S測(cè)序通常使用這種模式進(jìn)行測(cè)序。CCS reads在測(cè)序后經(jīng)過Subreads自身的校正牙咏,準(zhǔn)確率大幅度提升臼隔,根據(jù)官方報(bào)道,人類樣品經(jīng)過CCS測(cè)序模式妄壶,序列準(zhǔn)確率能夠達(dá)到99.8%摔握,在準(zhǔn)確度上可以與二代Illumina測(cè)序的數(shù)據(jù)質(zhì)量匹敵,Illumina的測(cè)序準(zhǔn)確度為99.9%(Wenger et al., 2019)丁寄。
Nanopore有三種建庫方式氨淌,主要在接頭上的差異,根據(jù)加入不同的接頭可以分為1D伊磺、2D和1D2文庫盛正。1D文庫加入引導(dǎo)接頭(Leading Adaptor),2D既有引導(dǎo)接頭屑埋,還有連接雙鏈DNA分子的發(fā)夾接頭(Hairpin Adaptor)豪筝,1D2測(cè)序先加入1D2接頭,再連接引導(dǎo)接頭摘能。當(dāng)模板鏈完成測(cè)序后续崖,互補(bǔ)鏈的馬達(dá)蛋白被捕獲進(jìn)行互補(bǔ)鏈測(cè)序(圖4)。從目前應(yīng)用最多的是1D文庫团搞。除此之外严望,Nanopore還有另一種獲得超長(zhǎng)reads的測(cè)序方式,稱為Ultra-Long測(cè)序逻恐,序列讀長(zhǎng)普遍大于一般文庫像吻,最長(zhǎng)可達(dá)Mb級(jí)別峻黍,是不是很誘人。
1.3錯(cuò)誤類型對(duì)比
任何一種技術(shù)都不是完美的萧豆,都有自己的缺陷奸披,那么Pacbio和Nanopore也一樣不能逃脫錯(cuò)誤的命運(yùn)昏名。以上我們了解了PacBio和Nanopore的測(cè)序原理之后涮雷,我們來看一下兩種技術(shù)在錯(cuò)誤方面的表現(xiàn)吧。
Pacbio的CLR模式下轻局,一般的錯(cuò)誤率在10-15%左右洪鸭,但是這種錯(cuò)誤是隨機(jī)錯(cuò)誤,主要類型為Indel和Mismatch仑扑,但是此類錯(cuò)誤類型及堿基類型均無偏向性览爵,這種缺陷可通過自身糾錯(cuò)獲得準(zhǔn)確度高達(dá)QV50(99.999%)的序列(圖5)。
Nanopore的測(cè)序錯(cuò)誤除Indel和Mismatch之外镇饮,主要是同聚物(homopolymer)和串聯(lián)重復(fù)區(qū)域的錯(cuò)誤(Wick et al., 2019)蜓竹,特別是同聚物刪除(homopolymer deletion) 的錯(cuò)誤較高(圖6)。另外储藐,有研究表明基因組中反向重復(fù)序列序列會(huì)使Nanopore的測(cè)序質(zhì)量下降俱济,得到的序列準(zhǔn)確度受到影響(Spealman et al., 2019)。因此钙勃,基因組重復(fù)比較高的物種蛛碌,使用此技術(shù)要小心了,可能在重復(fù)區(qū)域準(zhǔn)確度不一定高辖源,如果該區(qū)域Pacbio不能跨越的話蔚携,此技術(shù)還是比較好,畢竟有總比沒有強(qiáng)克饶。
2.PacBio與Nanopore的效果評(píng)價(jià)
測(cè)序獲得的序列讀長(zhǎng)是基因組組裝的關(guān)鍵因素酝蜒,因此,長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)引領(lǐng)基因組進(jìn)入N50為Mb級(jí)別的時(shí)代矾湃。PacBio與Nanopore測(cè)序雖然存在一定錯(cuò)誤秕硝,但當(dāng)達(dá)到一定的測(cè)序深度時(shí),在組裝過程中絕大多數(shù)測(cè)序錯(cuò)誤可以通過自身的校正被修正洲尊,因此都可以獲得相對(duì)高質(zhì)量的的基因組远豺,也成為了目前基因組組裝的首選。
利用PacBio測(cè)序組裝的基因組近年已經(jīng)發(fā)表了很多文章坞嘀,基于此的組裝軟件目前也比較多躯护,PacBio 官方推出了組裝軟件FALCON。其他軟件如Canu丽涩,WTDBG棺滞,SmartDenovo等應(yīng)用也很廣泛裁蚁,這些軟件同樣可以用于Nanopore組裝。PacBio通量提高后继准,使用HiFi模式獲得長(zhǎng)讀長(zhǎng)枉证、高準(zhǔn)確度的CCS序列, PacBio通過HiFi模式測(cè)序的得到的30XCCS數(shù)據(jù)移必,通過Falcon室谚,Canu和WTDBG2等不同軟件組裝,contig N50達(dá)到15.43-28.95Mb崔泵,組裝連續(xù)性與CLR reads相當(dāng)秒赤,準(zhǔn)確率大幅提升(Wenger et al., 2019)。
Nanopore的優(yōu)勢(shì)在于其超長(zhǎng)的讀長(zhǎng)憎瘸,在人類基因組中通過~30X reads和~5X的Ultra-Long reads入篮,最長(zhǎng)reads達(dá)到882Kb,組裝出人類基因組contig N50達(dá)到6.4M(Jain et al., 2018)幌甘。但是Nanopore的同聚物錯(cuò)誤使得這些錯(cuò)誤往往出現(xiàn)在基因組某些特定的序列或區(qū)域潮售,造成自身糾錯(cuò)和用二代數(shù)據(jù)校正無法糾正,序列錯(cuò)誤和真實(shí)變異難以區(qū)分锅风,影響組裝基因組的準(zhǔn)確性酥诽。
3. 二者優(yōu)缺點(diǎn)
看了這么多,一起來總結(jié)一下這兩種技術(shù)的優(yōu)缺點(diǎn)遏弱。Pacbio和Nanopore就像兩個(gè)學(xué)校的尖子生一樣盆均,具有不同的性格。Pacbio學(xué)生每次考試注重每道題的正確率漱逸,可能要花很長(zhǎng)時(shí)間來做一道題泪姨,一種笨鳥先飛的特性,一次不能保證正確率饰抒,就多檢查幾次肮砾,提高答題的準(zhǔn)確度。而Nanopore學(xué)生具有另一種品質(zhì)袋坑,做題非痴檀Γ快,但是幾乎不檢查枣宫。因此婆誓,Nanopore學(xué)生可以完成比Pacbio學(xué)術(shù)更多的考題。最后也颤,在提交的答卷中洋幻,Nanopore學(xué)生的答卷一般情況下都比Pacbio學(xué)生的答卷完成的題目多。但是翅娶,最終得分文留,需要老師來評(píng)價(jià)好唯。這個(gè)老師就是我們每個(gè)研究者自己。
Pacbio追求的是質(zhì)量燥翅,使用的是光信號(hào)骑篙,因此可以通過多測(cè)幾次,來提高測(cè)序的準(zhǔn)確度森书,但是這種方法也有它自身的限制靶端,酶的活性決定了它不能夠測(cè)的特別長(zhǎng)。
Nanopore追求的是長(zhǎng)度拄氯,采用的是電信號(hào)躲查,對(duì)于一條DNA它浅,最多測(cè)兩次译柏,電信號(hào)的穩(wěn)定性是最大的挑戰(zhàn),因此在測(cè)序準(zhǔn)確度上做了讓步姐霍。這種電信號(hào)也為它打開了許多大門鄙麦,可以測(cè)很多東西,比如直接RNA測(cè)序镊折,甚至蛋白測(cè)序胯府。
下期預(yù)告
基礎(chǔ)知識(shí)了解完了,那我們下期就面對(duì)疾風(fēng)吧——實(shí)戰(zhàn)來襲恨胚。
參考文獻(xiàn)
Jain, M., Koren, S., Miga, K.H., Quick, J., Rand, A.C., Sasani, T.A., Tyson, J.R., Beggs, A.D., Dilthey, A.T., Fiddes, I.T., et al. (2018). Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 36, 338-345.
Spealman P, Burrell J, Gresham D. Nanopore sequencing undergoes catastrophic sequence failure at inverted duplicated DNA sequences. BioRxiv, 2019: 852665.
Wenger, A.M., Peluso, P., Rowell, W.J., Chang, P.C., Hall, R.J., Concepcion, G.T., Ebler, J., Fungtammasan, A., Kolesnikov, A., Olson, N.D., et al. (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155-1162.
Wick, R.R., Judd, L.M., and Holt, K.E. (2019). Performance of neural network basecalling tools for Oxford Nanopore sequencing. Genome Biol 20, 129.