Pacbio和Nanopore測(cè)序技術(shù)之拳王爭(zhēng)霸

作者:May
審稿:童蒙
編輯:amethyst

引言

大家好芒珠，又到了阿拉丁聊基因組的時(shí)間了。今天我們按照上期的計(jì)劃芯砸，我們來聊一下基因組測(cè)序技術(shù)中的兩大神兵利器之--Pacbio和Nanopore。如今在基因組圈里走天下的各種大佬忠怖，這兩種技術(shù)可是家喻戶曉。基因組的重點(diǎn)在于contig的連續(xù)度和準(zhǔn)確度，我們一直在期待可以直接把染色體測(cè)通鞭莽，但是我們?nèi)祟愐恢痹谂Γ蓮奈闯紧锏弧Ｒ虼伺炫覀冊(cè)跍y(cè)序的道路上不斷的嘗試和努力，從二代測(cè)序測(cè)序一路披荊斬棘邁向了三代測(cè)序阶牍。因此喷面，基因組的連續(xù)度迅速增加，享受了科技帶來的福利荸恕。PacBio和Nanopore做為目前主流的長(zhǎng)讀長(zhǎng)測(cè)序平臺(tái)乖酬，二者分庭抗禮死相，各有所長(zhǎng)融求，那么我們?cè)撛趺催x擇呢？下面將從二者的測(cè)序原理算撮、錯(cuò)誤類型生宛，實(shí)際應(yīng)用等方面展示兩種測(cè)序平臺(tái)各自的優(yōu)缺點(diǎn)县昂，至于如何選擇，大家因需取求陷舅。

1.PacBio和Nanopore不同方面的對(duì)比

1.1測(cè)序原理對(duì)比

PacBio測(cè)序基于邊合成邊測(cè)序的原理倒彰。實(shí)時(shí)記錄熒光信號(hào)，轉(zhuǎn)化為單堿基信息莱睁，獲得具有單堿基分辨率的高精度序列待讳。PacBio測(cè)序依賴DNA聚合酶活性，DNA聚合酶和帶有不同熒光標(biāo)記的dNTP仰剿，放置到納米孔的底部的聚合酶進(jìn)行DNA合成反應(yīng)创淡。當(dāng)dNTP進(jìn)入DNA模板鏈、引物和聚合酶復(fù)合物中發(fā)生鏈延伸反應(yīng)南吮，同時(shí)通過檢測(cè)dNTP熒光信號(hào)琳彩，獲得熒光信號(hào)圖像，最后將光學(xué)峰轉(zhuǎn)化為堿基（圖1）部凑。PacBio sequel平臺(tái)下機(jī)數(shù)據(jù)為bam格式露乏，包含三個(gè)文件：bam 文件，bam.pbi 文件涂邀，以及xml文件瘟仿。此刻，請(qǐng)大家注意比勉，該bam文件與比對(duì)到基因組生成的bam文件格式大體一致猾骡，但是同中有異。Pacbio測(cè)序獲得的bam文件可以轉(zhuǎn)化為fasta敷搪，然后可以使用各種軟件進(jìn)行組裝兴想。

圖1 PacBio測(cè)序原理

Nanopore測(cè)序是基于電信號(hào)檢測(cè)原理，當(dāng)DNA分子穿過納米孔時(shí)會(huì)產(chǎn)生電流信號(hào)赡勘，一般以5個(gè)堿基為一組檢測(cè)電流信號(hào)嫂便，對(duì)電流信號(hào)進(jìn)行解碼（圖2）。Nanopore測(cè)序不依賴DNA聚合酶活性闸与，理論上只要DNA分子不斷開毙替，就一直可以通過納米孔，得到的序列讀長(zhǎng)更長(zhǎng)践樱，最長(zhǎng)可達(dá)Mb級(jí)別厂画。Nanopore下機(jī)的原始電信號(hào)文件，以.fast5結(jié)尾拷邢，包含測(cè)序的序列信息和甲基化修飾信息袱院。經(jīng)過basecalling軟件（Guppy，Albacore等）可以將fast5文件轉(zhuǎn)換為fq文件進(jìn)行后續(xù)分析。一般根據(jù)Q score>7對(duì)數(shù)據(jù)進(jìn)行質(zhì)控忽洛，通過的為pass腻惠，沒有通過為fail。

圖2 Nanopore測(cè)序原理

1.2建庫測(cè)序模式對(duì)比

PacBio測(cè)序有兩種模式欲虚，一種是CLR模式集灌，另一種是CCS模式。對(duì)于長(zhǎng)插入片段文庫复哆，產(chǎn)生的序列的一般少于2 passes的（pass即環(huán)繞測(cè)序的次數(shù)）欣喧，得到的reads稱為Continuous Long Reads（CLR），當(dāng)文庫插入片段相對(duì)較短時(shí)梯找，測(cè)序后會(huì)產(chǎn)生多個(gè)passes续誉，來源于同一個(gè)孔的多條reads通過一致性校正，得到一個(gè)準(zhǔn)確度較高的reads初肉，稱為Circular Consensus Sequencing（CCS）Reads（圖3）酷鸦，全長(zhǎng)轉(zhuǎn)錄組或全長(zhǎng)16S測(cè)序通常使用這種模式進(jìn)行測(cè)序。CCS reads在測(cè)序后經(jīng)過Subreads自身的校正牙咏，準(zhǔn)確率大幅度提升臼隔，根據(jù)官方報(bào)道，人類樣品經(jīng)過CCS測(cè)序模式妄壶，序列準(zhǔn)確率能夠達(dá)到99.8%摔握，在準(zhǔn)確度上可以與二代Illumina測(cè)序的數(shù)據(jù)質(zhì)量匹敵，Illumina的測(cè)序準(zhǔn)確度為99.9%（Wenger et al., 2019）丁寄。

圖3 PacBio文庫及產(chǎn)生序列類型

Nanopore有三種建庫方式氨淌，主要在接頭上的差異，根據(jù)加入不同的接頭可以分為1D伊磺、2D和1D2文庫盛正。1D文庫加入引導(dǎo)接頭（Leading Adaptor），2D既有引導(dǎo)接頭屑埋，還有連接雙鏈DNA分子的發(fā)夾接頭（Hairpin Adaptor）豪筝，1D2測(cè)序先加入1D2接頭，再連接引導(dǎo)接頭摘能。當(dāng)模板鏈完成測(cè)序后续崖，互補(bǔ)鏈的馬達(dá)蛋白被捕獲進(jìn)行互補(bǔ)鏈測(cè)序（圖4）。從目前應(yīng)用最多的是1D文庫团搞。除此之外严望，Nanopore還有另一種獲得超長(zhǎng)reads的測(cè)序方式，稱為Ultra-Long測(cè)序逻恐，序列讀長(zhǎng)普遍大于一般文庫像吻，最長(zhǎng)可達(dá)Mb級(jí)別峻黍，是不是很誘人。

圖4 Nanopore文庫及產(chǎn)生序列類型

1.3錯(cuò)誤類型對(duì)比

任何一種技術(shù)都不是完美的萧豆，都有自己的缺陷奸披，那么Pacbio和Nanopore也一樣不能逃脫錯(cuò)誤的命運(yùn)昏名。以上我們了解了PacBio和Nanopore的測(cè)序原理之后涮雷，我們來看一下兩種技術(shù)在錯(cuò)誤方面的表現(xiàn)吧。

Pacbio的CLR模式下轻局，一般的錯(cuò)誤率在10-15%左右洪鸭，但是這種錯(cuò)誤是隨機(jī)錯(cuò)誤，主要類型為Indel和Mismatch仑扑，但是此類錯(cuò)誤類型及堿基類型均無偏向性览爵，這種缺陷可通過自身糾錯(cuò)獲得準(zhǔn)確度高達(dá)QV50（99.999%）的序列（圖5）。

圖5. PacBio錯(cuò)誤類型

Nanopore的測(cè)序錯(cuò)誤除Indel和Mismatch之外镇饮，主要是同聚物（homopolymer）和串聯(lián)重復(fù)區(qū)域的錯(cuò)誤（Wick et al., 2019）蜓竹，特別是同聚物刪除（homopolymer deletion）的錯(cuò)誤較高（圖6）。另外储藐，有研究表明基因組中反向重復(fù)序列序列會(huì)使Nanopore的測(cè)序質(zhì)量下降俱济，得到的序列準(zhǔn)確度受到影響（Spealman et al., 2019）。因此钙勃，基因組重復(fù)比較高的物種蛛碌，使用此技術(shù)要小心了，可能在重復(fù)區(qū)域準(zhǔn)確度不一定高辖源，如果該區(qū)域Pacbio不能跨越的話蔚携，此技術(shù)還是比較好，畢竟有總比沒有強(qiáng)克饶。

圖6. Nanopore錯(cuò)誤類型

2.PacBio與Nanopore的效果評(píng)價(jià)

測(cè)序獲得的序列讀長(zhǎng)是基因組組裝的關(guān)鍵因素酝蜒，因此，長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)引領(lǐng)基因組進(jìn)入N50為Mb級(jí)別的時(shí)代矾湃。PacBio與Nanopore測(cè)序雖然存在一定錯(cuò)誤秕硝，但當(dāng)達(dá)到一定的測(cè)序深度時(shí)，在組裝過程中絕大多數(shù)測(cè)序錯(cuò)誤可以通過自身的校正被修正洲尊，因此都可以獲得相對(duì)高質(zhì)量的的基因組远豺，也成為了目前基因組組裝的首選。

利用PacBio測(cè)序組裝的基因組近年已經(jīng)發(fā)表了很多文章坞嘀，基于此的組裝軟件目前也比較多躯护，PacBio 官方推出了組裝軟件FALCON。其他軟件如Canu丽涩，WTDBG棺滞，SmartDenovo等應(yīng)用也很廣泛裁蚁，這些軟件同樣可以用于Nanopore組裝。PacBio通量提高后继准，使用HiFi模式獲得長(zhǎng)讀長(zhǎng)枉证、高準(zhǔn)確度的CCS序列， PacBio通過HiFi模式測(cè)序的得到的30XCCS數(shù)據(jù)移必，通過Falcon室谚，Canu和WTDBG2等不同軟件組裝，contig N50達(dá)到15.43-28.95Mb崔泵，組裝連續(xù)性與CLR reads相當(dāng)秒赤，準(zhǔn)確率大幅提升（Wenger et al., 2019）。

Nanopore的優(yōu)勢(shì)在于其超長(zhǎng)的讀長(zhǎng)憎瘸，在人類基因組中通過~30X reads和~5X的Ultra-Long reads入篮，最長(zhǎng)reads達(dá)到882Kb，組裝出人類基因組contig N50達(dá)到6.4M（Jain et al., 2018）幌甘。但是Nanopore的同聚物錯(cuò)誤使得這些錯(cuò)誤往往出現(xiàn)在基因組某些特定的序列或區(qū)域潮售，造成自身糾錯(cuò)和用二代數(shù)據(jù)校正無法糾正，序列錯(cuò)誤和真實(shí)變異難以區(qū)分锅风，影響組裝基因組的準(zhǔn)確性酥诽。

3. 二者優(yōu)缺點(diǎn)

看了這么多，一起來總結(jié)一下這兩種技術(shù)的優(yōu)缺點(diǎn)遏弱。Pacbio和Nanopore就像兩個(gè)學(xué)校的尖子生一樣盆均，具有不同的性格。Pacbio學(xué)生每次考試注重每道題的正確率漱逸，可能要花很長(zhǎng)時(shí)間來做一道題泪姨，一種笨鳥先飛的特性，一次不能保證正確率饰抒，就多檢查幾次肮砾，提高答題的準(zhǔn)確度。而Nanopore學(xué)生具有另一種品質(zhì)袋坑，做題非痴檀Γ快，但是幾乎不檢查枣宫。因此婆誓，Nanopore學(xué)生可以完成比Pacbio學(xué)術(shù)更多的考題。最后也颤，在提交的答卷中洋幻，Nanopore學(xué)生的答卷一般情況下都比Pacbio學(xué)生的答卷完成的題目多。但是翅娶，最終得分文留，需要老師來評(píng)價(jià)好唯。這個(gè)老師就是我們每個(gè)研究者自己。

Pacbio追求的是質(zhì)量燥翅，使用的是光信號(hào)骑篙，因此可以通過多測(cè)幾次，來提高測(cè)序的準(zhǔn)確度森书，但是這種方法也有它自身的限制靶端，酶的活性決定了它不能夠測(cè)的特別長(zhǎng)。

Nanopore追求的是長(zhǎng)度拄氯，采用的是電信號(hào)躲查，對(duì)于一條DNA它浅，最多測(cè)兩次译柏，電信號(hào)的穩(wěn)定性是最大的挑戰(zhàn)，因此在測(cè)序準(zhǔn)確度上做了讓步姐霍。這種電信號(hào)也為它打開了許多大門鄙麦，可以測(cè)很多東西，比如直接RNA測(cè)序镊折，甚至蛋白測(cè)序胯府。

下期預(yù)告

基礎(chǔ)知識(shí)了解完了，那我們下期就面對(duì)疾風(fēng)吧——實(shí)戰(zhàn)來襲恨胚。

參考文獻(xiàn)

Jain, M., Koren, S., Miga, K.H., Quick, J., Rand, A.C., Sasani, T.A., Tyson, J.R., Beggs, A.D., Dilthey, A.T., Fiddes, I.T., et al. (2018). Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotechnol 36, 338-345.

Spealman P, Burrell J, Gresham D. Nanopore sequencing undergoes catastrophic sequence failure at inverted duplicated DNA sequences. BioRxiv, 2019: 852665.

Wenger, A.M., Peluso, P., Rowell, W.J., Chang, P.C., Hall, R.J., Concepcion, G.T., Ebler, J., Fungtammasan, A., Kolesnikov, A., Olson, N.D., et al. (2019). Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol 37, 1155-1162.

Wick, R.R., Judd, L.M., and Holt, K.E. (2019). Performance of neural network basecalling tools for Oxford Nanopore sequencing. Genome Biol 20, 129.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末骂因，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子赃泡，更是在濱河造成了極大的恐慌寒波，老刑警劉巖，帶你破解...
沈念sama閱讀 206,482評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件升熊，死亡現(xiàn)場(chǎng)離奇詭異俄烁，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)级野，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門页屠，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人蓖柔，你說我怎么就攤上這事辰企。” “怎么了况鸣？”我有些...
開封第一講書人閱讀 152,762評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵牢贸，是天一觀的道長(zhǎng)。經(jīng)常有香客問我懒闷，道長(zhǎng)十减，這世上最難降的妖魔是什么栈幸？我笑而不...
開封第一講書人閱讀 55,273評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮帮辟，結(jié)果婚禮上速址，老公的妹妹穿的比我還像新娘。我一直安慰自己由驹，他們只是感情好芍锚，可當(dāng)我...
茶點(diǎn)故事閱讀 64,289評(píng)論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蔓榄，像睡著了一般并炮。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上甥郑，一...
開封第一講書人閱讀 49,046評(píng)論 1贊 285
城市分裂傳說
那天逃魄，我揣著相機(jī)與錄音，去河邊找鬼澜搅。笑死伍俘，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的勉躺。我是一名探鬼主播癌瘾，決...
沈念sama閱讀 38,351評(píng)論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼饵溅！你這毒婦竟也來了妨退？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,988評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤蜕企，失蹤者是張志新（化名）和其女友劉穎咬荷，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體糖赔，經(jīng)...
沈念sama閱讀 43,476評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡萍丐，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,948評(píng)論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了放典。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逝变。...
茶點(diǎn)故事閱讀 38,064評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖奋构，靈堂內(nèi)的尸體忽然破棺而出壳影，到底是詐尸還是另有隱情，我是刑警寧澤弥臼，帶...
沈念sama閱讀 33,712評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布宴咧，位于F島的核電站，受9級(jí)特大地震影響径缅，放射性物質(zhì)發(fā)生泄漏掺栅。R本人自食惡果不足惜烙肺，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,261評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望氧卧。院中可真熱鬧桃笙，春花似錦、人聲如沸沙绝。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽闪檬。三九已至星著，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間粗悯，已是汗流浹背虚循。一陣腳步聲響...
開封第一講書人閱讀 31,486評(píng)論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留为黎，地道東北人邮丰。一個(gè)月前我還...
沈念sama閱讀 45,511評(píng)論 2贊 354
代替公主和親
正文我出身青樓行您，卻偏偏與公主長(zhǎng)得像铭乾，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子娃循，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,802評(píng)論 2贊 345