?大家好,今天我們跟大家討論的話題是“完美”的測(cè)序技術(shù)呼盆,既然討論“完美”年扩,那么就要先確定幾個(gè)衡量完美的主要標(biāo)準(zhǔn),這里我根據(jù)自己的理解給出了四個(gè)访圃,并從技術(shù)層面厨幻,根據(jù)重要程度進(jìn)行了排序:1.盡可能保真 >?2.盡可能完整> 3.盡可能高效?= 4.盡可能的簡(jiǎn)潔。
我們先對(duì)這4個(gè)主要衡量標(biāo)準(zhǔn)進(jìn)行名詞解釋:
“保真”是指該測(cè)序技術(shù)的準(zhǔn)確性腿时。
“完整”則包含了該測(cè)序技術(shù)可穩(wěn)定實(shí)現(xiàn)的讀長(zhǎng)和是否可以直接識(shí)別堿基修飾信息這兩點(diǎn)况脆。
“高效”是指單位時(shí)間該測(cè)序技術(shù)可以實(shí)現(xiàn)的數(shù)據(jù)產(chǎn)出。
“簡(jiǎn)潔”是指實(shí)現(xiàn)該測(cè)序技術(shù)所依托的硬軟件設(shè)備的成本圈匆、體積漠另、配套以及運(yùn)行環(huán)境要求。
說(shuō)到這里跃赚,可能很多朋友會(huì)提到還有單次測(cè)序通量和試劑成本這兩個(gè)非常重要的評(píng)價(jià)標(biāo)準(zhǔn),如前所述性湿,我們今天主要是從技術(shù)角度進(jìn)行評(píng)估纬傲,測(cè)序通量和試劑成本這兩個(gè)標(biāo)準(zhǔn)更偏市場(chǎng)和商業(yè)角度,所以并未納入今天的衡量標(biāo)準(zhǔn)肤频。但我個(gè)人認(rèn)為叹括,假如某種測(cè)序技術(shù)在以上四個(gè)技術(shù)標(biāo)準(zhǔn)上具有優(yōu)勢(shì),那么該測(cè)序技術(shù)的測(cè)序通量和試劑成本就會(huì)朝著滿足市場(chǎng)需求的方向快速進(jìn)化宵荒。
既然“完美”的評(píng)價(jià)標(biāo)準(zhǔn)已經(jīng)基本確定汁雷,那么我們就來(lái)簡(jiǎn)單的評(píng)價(jià)一下目前市面上幾類主流商用測(cè)序技術(shù)。之前跟馮同學(xué)在討論測(cè)序技術(shù)分類時(shí)报咳,我們一致認(rèn)同一個(gè)非常重要的技術(shù)分類角度——該測(cè)序技術(shù)是否依賴檢測(cè)熒光信號(hào)來(lái)完成序列識(shí)別侠讯。我從這個(gè)分類角度對(duì)目前主流的測(cè)序技術(shù)進(jìn)行簡(jiǎn)要的二分類,并根據(jù)四個(gè)標(biāo)準(zhǔn)對(duì)各測(cè)序技術(shù)進(jìn)行主觀評(píng)分暑刃。(關(guān)于詳細(xì)的高通量測(cè)序技術(shù)分類標(biāo)準(zhǔn)厢漩,大家可參考前期文章:One PIC系列:最新版高通量測(cè)序技術(shù)分類樹)
表1主流測(cè)序技術(shù)完美指數(shù)統(tǒng)計(jì)表(滿分20星)
從上表可以看出,PacBio(CMOS感光)和Oxford Nanopore兩家公司的測(cè)序設(shè)備(也就是目前主流的單分子實(shí)時(shí)測(cè)序平臺(tái))的完美指數(shù)位于前二岩臣,那么接下來(lái)我們從測(cè)序原理和未來(lái)技術(shù)優(yōu)化方向兩個(gè)層面對(duì)它們進(jìn)行分析溜嗜。
「PaBio測(cè)序原理」
?
圖1.SMRT Cell?ZMW結(jié)構(gòu)示意圖
PacBio SMRT測(cè)序原理我們?cè)诖撕?jiǎn)單敘述宵膨,更詳細(xì)的內(nèi)容大家有興趣可以回顧前期文章:Pacbio測(cè)序原理及SMRT bell文庫(kù)構(gòu)建流程簡(jiǎn)述,PacBio測(cè)序最核心的地方在于它所設(shè)計(jì)的基于ZMW(Zero Mode Waveguide)的SMRT(Single MoleculeReal-Time)測(cè)序炸宵。ZMW中文譯為零模波導(dǎo)孔辟躏,這個(gè)詞大家肯定不陌生,那么它為何叫零模波導(dǎo)孔呢土全?今天我為大家簡(jiǎn)單科普一下鸿脓,首先,我們可以將任何傳遞電磁波(光波也是一種電磁波)的線性結(jié)構(gòu)叫做波導(dǎo)涯曲,那么圖1中這個(gè)圓柱體(納米級(jí)通道)就是一個(gè)圓管波導(dǎo)野哭,但是如果我們向圓管底部發(fā)射光波且該光波的波長(zhǎng)>圓管波導(dǎo)直徑的1.7倍(即入射光波長(zhǎng)>1.7d)時(shí),則該光波將無(wú)法通過該波導(dǎo)幻件,而是在圓管波導(dǎo)入口處產(chǎn)生衰逝波拨黔,所以對(duì)于這種波導(dǎo)中沒有光波傳輸?shù)哪J剑覀兎Q它為“零模波導(dǎo)”绰沥。
如圖2篱蝇,正是ZMW這種結(jié)構(gòu),使得從芯片底部射入的紅綠混合激發(fā)光(532nm徽曲,Green零截;642nm,Red)無(wú)法穿過ZMW秃臣,靠著產(chǎn)生的衰逝波照亮孔底部?jī)H僅大約20~30nm高度的區(qū)域涧衙,而這個(gè)區(qū)域(見下圖)正是DNA聚合酶和待測(cè)模板發(fā)生聚合反應(yīng)的地方,這就像是在舞臺(tái)上奥此,追光燈只照亮主角在的地方(ZMW跟Helicos公司單分子測(cè)序技術(shù)使用TIRF顯微鏡達(dá)到的是同樣的效果弧哎,入射光只能照亮極小的反應(yīng)空間,將反應(yīng)體系中光學(xué)觀測(cè)區(qū)域大大縮小稚虎,為實(shí)現(xiàn)單分子測(cè)序奠定基礎(chǔ))撤嫩。
圖2.ZMW底部實(shí)時(shí)聚合反應(yīng)示意圖
PacBio測(cè)序技術(shù)在“完整”標(biāo)準(zhǔn)上獲得了4星,實(shí)現(xiàn)單分子長(zhǎng)讀長(zhǎng)測(cè)序除了我們上面介紹的ZMW芯片設(shè)計(jì)以外蠢终,還有以下幾點(diǎn)
第一序攘,不斷優(yōu)化改進(jìn)的DNA聚合酶,使固定在ZMW底部的DNA聚合酶在激發(fā)光持續(xù)照射等損傷條件下仍保持高活性寻拂。
第二程奠,獨(dú)特的熒光標(biāo)記方式PhosphoLinked Nucleotides技術(shù),PacBio將熒光基團(tuán)標(biāo)記在dNTP的γ’-磷酸上兜喻,熒光基團(tuán)在聚合反應(yīng)中自然脫落梦染,完成連續(xù)無(wú)損聚合。
第三,采用相機(jī)高速錄影(Movie)或CMOS感光方式連續(xù)收集整張SMRT Cell熒光信號(hào)帕识。
第四泛粹,PacBio另外一個(gè)重要的特征是在聚合過程中每合成一個(gè)堿基都實(shí)時(shí)產(chǎn)生一個(gè)脈沖峰,兩個(gè)相鄰的脈沖峰之間的距離(Interpulse Duration-IPD)反映的是堿基修飾狀態(tài)肮疗,這使得PacBio測(cè)序技術(shù)在提供序列信息的同時(shí)提供了實(shí)時(shí)的堿基修飾信息晶姊。
在“保真”標(biāo)準(zhǔn)上獲得4星PacBio測(cè)序平臺(tái),依托的是其CCS(Circular Consensus Sequencing)測(cè)序模式伪货,即現(xiàn)在所謂的HiFi測(cè)序模式使得環(huán)形一致性序列準(zhǔn)確度達(dá)到較高的水平们衙。
圖3.PacBio HiFi Read測(cè)序模式示意圖
「PacBio優(yōu)化方向」
那么Pacbio測(cè)序技術(shù)有哪些主要的優(yōu)化方向呢?我們可以看到其在“高效”和“簡(jiǎn)潔”兩方面評(píng)分較低碱呼,具體內(nèi)容我總結(jié)如下:
第一蒙挑,擁有更多ZMW的SMRT芯片和多規(guī)格ZMW的SMRT芯片(原型機(jī)0.003M→RS 0.075M→ RSII 0.15M→Sequel 1M→ Sequel II 8M,雖然我們可以看到從RS到Sequel II愚臀,SMRT Cell的理論通量已經(jīng)增加了100倍忆蚀,但仍然是不夠的),更高的ZMW利用率(進(jìn)一步優(yōu)化P1比例)姑裂。
第二馋袜,提高HiFi Read測(cè)序模式的數(shù)據(jù)利用率。目前PB每張芯片測(cè)序的平均酶讀長(zhǎng)(Polymerase Read)能達(dá)到80kb甚至更高舶斧,對(duì)于轉(zhuǎn)錄組和擴(kuò)增子測(cè)序這種插入片段只有幾kb的應(yīng)用欣鳖,HiFi Read測(cè)序的Pass數(shù)存在著冗余。我們看到華大基因針對(duì)這個(gè)問題茴厉,去年推出的首尾連接建庫(kù)法取得了非常不錯(cuò)的效果泽台。
第三,儀器需要進(jìn)一步小型化呀忧。2011年P(guān)acBio的第一款商業(yè)化機(jī)型RS看起來(lái)就像機(jī)場(chǎng)安檢使用的X光機(jī)师痕,主要是其復(fù)雜、昂貴而账、體積龐大的光學(xué)系統(tǒng)限制了其機(jī)器小型化,但就算是今天的采用了CMOS感光技術(shù)的Sequel/Sequel II測(cè)序系統(tǒng)體積也與一臺(tái)超低溫冰箱大小相當(dāng)因篇。
第四泞辐,進(jìn)一步開發(fā)直接RNA測(cè)序等其他檢測(cè)模式。例如直接RNA測(cè)序和核糖體翻譯動(dòng)力學(xué)研究等竞滓。
另外咐吼,Pacbio還需加大軟件層面的開放力度,PB官方有一個(gè)SMRTLink套件商佑,能夠滿足基本的數(shù)據(jù)分析需求锯茄,數(shù)據(jù)格式也從H5更新到用通用的BAM格式,但是在Basecalling、CCS calling的軟件和算法相對(duì)封閉肌幽,如果能夠更多的開源讓第三方團(tuán)隊(duì)參與到相關(guān)軟件的開發(fā)中晚碾,估計(jì)會(huì)加快相關(guān)生態(tài)的成熟。
圖4.PacBio?RS and RS II復(fù)雜的光學(xué)系統(tǒng)
「Oxford Nanopore測(cè)序原理」
聊完P(guān)acBio喂急,我們?cè)賮?lái)簡(jiǎn)單說(shuō)一下Oxford Nanopore格嘁,ONT的測(cè)序原理可以被非常簡(jiǎn)潔的描述為:當(dāng)DNA或者RNA單鏈分子通過兩端帶電壓的納米孔芯片時(shí),不同堿基序列組合在納米孔內(nèi)部產(chǎn)不同的電流阻滯被傳感器實(shí)時(shí)讀取。大家可以參考下方測(cè)序原理視頻廊移。
圖5.ONT測(cè)序原理示意圖
ONT堿基序列識(shí)別依賴的是電信號(hào)糕簿,無(wú)需使用復(fù)雜、昂貴狡孔、體積龐大的光學(xué)系統(tǒng)懂诗,體積可以非常小巧,將“簡(jiǎn)潔”發(fā)揮到了極致苗膝,另外在“完整”標(biāo)準(zhǔn)上殃恒,其測(cè)序讀長(zhǎng)的理論上限幾乎取決于你能提供的核酸分子的長(zhǎng)度,所以O(shè)NT技術(shù)在“簡(jiǎn)潔”“完整”兩項(xiàng)標(biāo)準(zhǔn)上基本是接近“完美”荚醒。
「Oxford Nanopore優(yōu)化方向」
相比于PB來(lái)說(shuō)芋类,ONT似乎更開放一些,每年兩次的大型專場(chǎng)會(huì)議London Calling(LC)和Nanopore Community Meeting(NCM)都會(huì)邀請(qǐng)眾多科學(xué)家和開發(fā)者分享他們的成果界阁,而且會(huì)在其官網(wǎng)上及時(shí)更新相關(guān)的講座視頻侯繁。在這兩個(gè)會(huì)議上ONT都會(huì)由他們的CTO來(lái)介紹他們的研發(fā)進(jìn)展和計(jì)劃,主要圍繞著機(jī)器更新泡躯、生化贮竟、算法來(lái)闡述。
圖6.ONT CTO介紹技術(shù)優(yōu)化方向和最近研發(fā)進(jìn)展
ONT原理決定它擁有很強(qiáng)的擴(kuò)展性较剃,包括從芯片設(shè)計(jì)咕别、樣本制備、文庫(kù)構(gòu)建都有非常多的創(chuàng)新擴(kuò)展性写穴。我們從評(píng)分中也可以看到ONT在“保真”標(biāo)準(zhǔn)上是最需要提高的地方惰拱,目前ONT通過R10芯片和不斷優(yōu)化算法來(lái)實(shí)現(xiàn)提高準(zhǔn)確率的目標(biāo)。
通過上文內(nèi)容我們與大家簡(jiǎn)單討論了兩類單分子長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的“完美”程度啊送,其中PacBio技術(shù)的不足主要集中在“簡(jiǎn)潔”“高效”兩個(gè)方面偿短,而ONT則在“保真”方面需要進(jìn)一步改進(jìn)。表2進(jìn)行了簡(jiǎn)要的總結(jié)馋没。
表2.PacBio與ONT測(cè)序技術(shù)總結(jié)
長(zhǎng)久以來(lái)大家有種習(xí)慣——對(duì)測(cè)序技術(shù)進(jìn)行代際的劃分昔逗,而ONT在對(duì)外的口徑中不提自己是第幾代測(cè)序,聲稱自己在做的是倒數(shù)第二代測(cè)序技術(shù)篷朵,那么是否會(huì)有所謂的最后一代測(cè)序技術(shù)呢勾怒?我們可以假設(shè)一下如果真存在這樣一種測(cè)序技術(shù)婆排,那么它需要單分子級(jí)別的測(cè)序,且有PacBio測(cè)序技術(shù)那樣的高準(zhǔn)確度單堿基級(jí)別信號(hào)輸出又兼具ONT采集電信號(hào)的優(yōu)勢(shì)笔链,我通過了解還真看到一個(gè)測(cè)序技術(shù)比較接近這個(gè)標(biāo)準(zhǔn)段只,下面為大家簡(jiǎn)單介紹一種更接近“完美”測(cè)序的技術(shù)。
?
「Roswell測(cè)序技術(shù)介紹」
Roswell團(tuán)隊(duì)依據(jù)分子電子學(xué)(Molecular Electronic)卡乾,設(shè)計(jì)開發(fā)了一種被稱為分子電路(Molecular Circuit)的特殊CMOS芯片來(lái)完成堿基序列信號(hào)檢測(cè)翼悴,他們將單個(gè)DNA聚合酶(Polymerase)整合到分子電路中組成一種特殊的生物分子傳感器(Biomolecular Sensors),通過查閱Roswell披露的專利文件幔妨,其生物分子傳感器結(jié)構(gòu)如圖7所示:
圖7來(lái)源PCT專利:WO2017132567A1
圖8.Roswell測(cè)序原理示意圖
其大致的測(cè)序原理是將生物分子傳感器(由一個(gè)連接兩端電極的dsDNA 分子橋和一個(gè)通過Base-Biotin-SA連接到分子橋上的DNA聚合酶組成)與兩端電極進(jìn)行整合連接組成分子電路鹦赎,在電極兩端(Metal Eletrode)施加一個(gè)小于10V電壓使得電流持續(xù)通過整個(gè)分子傳感器,當(dāng)分子傳感器中的聚合酶根據(jù)待測(cè)模板合成互補(bǔ)鏈時(shí)误堡,因?yàn)榫酆厦傅目臻g構(gòu)象發(fā)生變化繼而導(dǎo)致了流經(jīng)整個(gè)分子傳感器的電流發(fā)生了波動(dòng)古话,通過分子電路的信號(hào)轉(zhuǎn)導(dǎo)系統(tǒng)記錄這種電流變化,后期經(jīng)過計(jì)算機(jī)算法對(duì)電流變化的pattern進(jìn)行解碼就得到了序列信息锁施。是不是非常巧妙陪踩。
圖9來(lái)源PCT專利:WO2016210386A1
我們可以看到Roswell測(cè)序原理結(jié)合了PacBio和ONT的優(yōu)點(diǎn),但其原理同時(shí)決定了不會(huì)有它們的缺點(diǎn)悉抵,確實(shí)離”完美”更進(jìn)一步肩狂。
半導(dǎo)體工業(yè)技術(shù)的高速發(fā)展決定了其芯片制程可以達(dá)到極高的密度,因此我們可以推測(cè)Roswell測(cè)序技術(shù)如果可以完成商業(yè)化姥饰,在測(cè)序通量和成本上也會(huì)極具競(jìng)爭(zhēng)力傻谁,雖然目前Roswell還未公開儀器參數(shù)和可參考的測(cè)序數(shù)據(jù),但是它的原理路線確實(shí)為我們展示一種“完美”測(cè)序技術(shù)的雛形列粪,一種新的可實(shí)踐的框架审磁。
現(xiàn)在我們可以重新來(lái)總結(jié)一下:要達(dá)到”完美”測(cè)序,總的來(lái)說(shuō)需要在單分子水平的單堿基分辨率上來(lái)檢測(cè)核酸分子的自然聚合或者運(yùn)動(dòng)岂座。從技術(shù)發(fā)展趨勢(shì)上來(lái)說(shuō)是慢慢的從光學(xué)轉(zhuǎn)變到電學(xué)态蒂,依托光學(xué)系統(tǒng)的測(cè)序設(shè)備不可避免的需要大量的元器件或者增加操作步驟來(lái)提高信噪比,而納米孔或者分子電子學(xué)在理論上卻少有類似問題困擾费什。被廣泛采用的優(yōu)秀技術(shù)钾恢,其原理都是極其簡(jiǎn)單的,因?yàn)樵頉Q定了一個(gè)技術(shù)的天花板鸳址,我相信后續(xù)也會(huì)有越來(lái)越多頂級(jí)的納米赘那、材料領(lǐng)域的人才投身于基因測(cè)序技術(shù)的研發(fā)中來(lái),而我們也將離”完美”更進(jìn)一步氯质。
「延伸討論」
然后我們?cè)俸?jiǎn)單談一下測(cè)序技術(shù)的應(yīng)用領(lǐng)域,近年來(lái)單分子長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)在基礎(chǔ)科研市場(chǎng)已被廣泛應(yīng)用祠斧,目前來(lái)說(shuō)測(cè)序技術(shù)商業(yè)化最成熟的方向應(yīng)該就是基于cfDNA的醫(yī)學(xué)檢測(cè)了闻察,我們都應(yīng)該聽過這樣的一個(gè)說(shuō)法:cfDNA長(zhǎng)度不過一百多bp,用短讀長(zhǎng)測(cè)序平臺(tái)已經(jīng)完全夠用,不需要單分子長(zhǎng)讀長(zhǎng)測(cè)序辕漂。簡(jiǎn)單講這樣理解沒有問題呢灶,那是否單分子測(cè)序就真的在這個(gè)方面沒有用處呢?其實(shí)并非如此钉嘹,相反個(gè)人覺得單分子測(cè)序在這個(gè)領(lǐng)域擁有獨(dú)特的優(yōu)勢(shì)鸯乃。
例如近年來(lái),我們對(duì)cfDNA產(chǎn)生機(jī)制的研究越來(lái)越深入跋涣。cfDNA的產(chǎn)生機(jī)制可以簡(jiǎn)單概括為核小體剪切模式變化缨睡。機(jī)體的不同組織或不同疾病狀態(tài)下,核小體周圍甲基化水平的不同而導(dǎo)致了染色質(zhì)片段可及性不同陈辱,這決定了核酸酶切割位置和識(shí)別motif的偏好并最終體現(xiàn)在cfDNA的片段長(zhǎng)度奖年、分布、斷點(diǎn) motif沛贪、甲基化水平的差異上陋守。這也叫意味著機(jī)體不同的組織或不同疾病狀態(tài)下所產(chǎn)生的cfDNA擁有獨(dú)特的Pattern,我們使用高分辨率的單細(xì)胞單分子測(cè)序數(shù)據(jù)來(lái)完成cfDNA產(chǎn)生模式的研究利赋,可以更好的指導(dǎo)下游應(yīng)用水评。
圖10來(lái)源:The Biology of Cell-free DNA Fragmentation and the Roles of DNASE1, DNASE1L3, and DFFB
綜上,目前長(zhǎng)讀長(zhǎng)和短讀長(zhǎng)測(cè)序應(yīng)用方向各有側(cè)重媚送,技術(shù)上形成互補(bǔ)中燥,長(zhǎng)讀長(zhǎng)更多用于發(fā)現(xiàn)未知,基于發(fā)現(xiàn)的知識(shí)季希,短讀長(zhǎng)更多用來(lái)檢測(cè)變化褪那。目前沒有一項(xiàng)測(cè)序技術(shù)可以解決所有問題、滿足所有市場(chǎng)需求式塌,這或許也是因?yàn)檫€沒有一種成熟的“完美”測(cè)序技術(shù)出現(xiàn)吧博敬?
另外還有一個(gè)可能往往不會(huì)有太多人關(guān)注但又很重要的層面:
隨著單分子長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)的發(fā)展和應(yīng)用,當(dāng)我們獲得了越來(lái)越多的高分辨率的完整基因組和基因表達(dá)信息后峰尝,我們究竟應(yīng)該怎么來(lái)解釋它們的相同與不同呢偏窝?我們看到引領(lǐng)生物信息發(fā)展的李恒等先鋒科學(xué)家已經(jīng)開始思考、設(shè)計(jì)武学、實(shí)踐和著手解決類似變化所帶來(lái)的問題了祭往。
作為測(cè)序技術(shù)發(fā)展的見證者和參與者,對(duì)未來(lái)測(cè)序技術(shù)的進(jìn)步是充滿激動(dòng)且期待的火窒,同時(shí)也覺得還有大量的工作需要大家去做硼补。
今天我們就分享到這里,以上內(nèi)容僅代表作者個(gè)人觀點(diǎn)熏矿,限于個(gè)人知識(shí)水平已骇,難免有不足之處离钝,歡迎大家交流指正。
作者簡(jiǎn)介:
石卓興
助理研究員
中山大學(xué)眼科中心生物信息學(xué)實(shí)驗(yàn)室
作者近年一直追隨著相關(guān)領(lǐng)域技術(shù)的發(fā)展褪储,擁有五年的單分子長(zhǎng)讀長(zhǎng)測(cè)序領(lǐng)域的技術(shù)研發(fā)經(jīng)驗(yàn)卵渴。目前專注于測(cè)序領(lǐng)域前沿的實(shí)驗(yàn)技術(shù)以及相關(guān)信息分析工具的開發(fā),致力于結(jié)合單分子鲤竹、單細(xì)胞浪读、多組學(xué)數(shù)據(jù)來(lái)獲得更高分辨率的生物學(xué)信息以更好的解答生物學(xué)問題。