個(gè)人認(rèn)為隨著國(guó)內(nèi)第一批PacBio Kinnex full-length RNA測(cè)序數(shù)據(jù)的下機(jī)归斤,以及Revio測(cè)序儀的加持痊夭,PacBio全長(zhǎng)轉(zhuǎn)錄組正式進(jìn)入可定量的時(shí)代。至此脏里,PacBio和ONT兩大三代測(cè)序平臺(tái)推動(dòng)三代全長(zhǎng)轉(zhuǎn)錄組進(jìn)入了快速發(fā)展的時(shí)期生兆。逐漸降低的測(cè)序價(jià)格,以及對(duì)轉(zhuǎn)錄本層面精細(xì)挖掘的需求膝宁,最終會(huì)使三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序逐步替代傳統(tǒng)的二代RNA-seq鸦难。
記得在我去新加坡參加 Nanopore Community Meeting 2023 回來(lái)后(2023年9月31日),PacBio發(fā)布了其全套 KINNEX 產(chǎn)品線员淫,Kinnex single-cell RNA合蔽,Kinnex full-length RNA 和 Kinnex 16S rRNA 。 從2023年10月31日介返,PacBio宣布 Kinnex full-length RNA Kit 正式接受預(yù)定拴事,到2023年3月24-25日左右,國(guó)內(nèi)測(cè)序廠商宣布第一批測(cè)試數(shù)據(jù)下機(jī)圣蝎,國(guó)內(nèi)的用戶可以開始嘗試?yán)眠@項(xiàng)技術(shù)進(jìn)行科學(xué)研究了刃宵。我也是盼到了,可以在能夠接受的價(jià)格范圍內(nèi)嘗試用PacBio全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行定量分析了(雖然還有是些小貴)徘公。
一牲证、MAS-Seq技術(shù)和Kinnex試劑盒
1. 建庫(kù)試劑盒為什么以 KINNEX 命名?
說(shuō)起 PacBio Kinnex建庫(kù)試劑盒產(chǎn)品線中 Kinnex 一詞的由來(lái)关面,就不得不提到美國(guó)著名的玩具品牌 K'NEX坦袍。 K'NEX (科樂思/建樂思),由美國(guó) Joel Glickman 兄弟在1992年創(chuàng)立的拼插類搭建積木品牌等太,作為世界三大拼插模型品牌之一捂齐,K'NEX 獨(dú)具設(shè)計(jì)理念的組裝配件,可以做出360度的旋轉(zhuǎn)缩抡,方便簡(jiǎn)單又快速的做出完美的3D立體模型 (圖1)奠宜。每個(gè)連接桿可以和數(shù)十種不同的構(gòu)件相連,依此循環(huán)瞻想,無(wú)限延伸压真,因?yàn)?Kinnex 系列建庫(kù)試劑盒將多個(gè)轉(zhuǎn)錄本或全長(zhǎng)16S rRNA串聯(lián)以提高通量的原理類似于 K'NEX,所以起名為 Kinnex 内边。
Kinnex 系列試劑盒基于MAS-Seq(Multiplexed Arrays Sequencing)方法1榴都,將長(zhǎng)度較短的擴(kuò)增子或者DNA片段序列串聯(lián)連接成較長(zhǎng)的片段文庫(kù),從而有效利用長(zhǎng)度長(zhǎng)測(cè)序的優(yōu)勢(shì)漠其,進(jìn)而提高通量降低成本嘴高。
二竿音、技術(shù)產(chǎn)生的背景
短讀長(zhǎng)測(cè)序難以覆蓋整個(gè)轉(zhuǎn)錄本,而對(duì)一條轉(zhuǎn)錄本進(jìn)行長(zhǎng)讀長(zhǎng)測(cè)序往往會(huì)導(dǎo)致測(cè)序能力閑置拴驮。有了Kinnex試劑盒春瞬,用戶可以將轉(zhuǎn)錄本連接成長(zhǎng)文庫(kù)進(jìn)行HiFi測(cè)序,從而提高通量套啤,使長(zhǎng)讀長(zhǎng)RNA測(cè)序更具成本效益宽气。
PacBio公司研發(fā)構(gòu)建這種文庫(kù)的一個(gè)主要原因是,以 PacBio Seqeul II 的測(cè)序芯片為例潜沦,其SMRT芯片中有800萬(wàn)個(gè)零模波導(dǎo)孔(Zero Mode Waveguide萄涯,ZMW),每個(gè)孔在測(cè)序時(shí)只能測(cè)一條DNA分子唆鸡;就目前測(cè)序的酶讀長(zhǎng)涝影,在保證準(zhǔn)確性達(dá)到Q30左右(千分之一的錯(cuò)誤率)時(shí),常規(guī)HIFI測(cè)序文庫(kù)的構(gòu)建長(zhǎng)度為15-20 kb争占,這樣其測(cè)序通量就受到孔數(shù)和文庫(kù)長(zhǎng)度的限制燃逻。在芯片ZMW孔一定和保證準(zhǔn)確率的前提下,充分利用其15-20kb的讀長(zhǎng)是可行的提高通量的唯一方法臂痕。這對(duì)于DNA片段較長(zhǎng)的文庫(kù)伯襟,能充分利用其長(zhǎng)讀長(zhǎng)。但是像細(xì)菌16S項(xiàng)目握童,全長(zhǎng)的16S也只有1.5kb姆怪,或者轉(zhuǎn)錄本長(zhǎng)度(單個(gè)轉(zhuǎn)錄本的平均長(zhǎng)度為100bp-5kb)短于文庫(kù)大小,使用標(biāo)準(zhǔn)Full-length 16S rRNA 或 Iso-Seq方案對(duì)單個(gè)環(huán)化互補(bǔ)DNA(cDNA)分子進(jìn)行CCS測(cè)序會(huì)產(chǎn)生過多的循環(huán)舆瘪,造成大量的測(cè)序浪費(fèi)片效,導(dǎo)致其無(wú)法有效地利用三代測(cè)序平臺(tái)的測(cè)序潛力红伦,所以MAS-Seq1應(yīng)運(yùn)而生英古。當(dāng)然近些年P(guān)acBio也在不停的增加芯片上ZMW孔的數(shù)目,從而來(lái)提升通量昙读,ZMW孔的數(shù)目也從剛開始的3千個(gè)召调,一路增加到15萬(wàn)個(gè)、100萬(wàn)個(gè)和800萬(wàn)個(gè)蛮浑,2023年上市的Revio機(jī)型唠叛,全新SMRT Cell芯片包含2500萬(wàn)個(gè)ZMW孔。Kinnex建庫(kù)試劑盒搭配Revio全新芯片沮稚,極大的提高了對(duì)全場(chǎng)16S rRNA和轉(zhuǎn)錄本的測(cè)序通量艺沼,使得對(duì)于大多數(shù)用戶在成本在可接受范圍內(nèi)對(duì)微生物和轉(zhuǎn)錄本定量成為了可能。
三蕴掏、MAS-Seq技術(shù)原理
Kinnex 試劑盒是基于Multiplexed Arrays Sequencing障般,MAS-Seq方法调鲸,將較小的DNA片段連接成較長(zhǎng)的可用于HiFi測(cè)序的文庫(kù)。該技術(shù)最初來(lái)源于2021年的一篇文獻(xiàn)High-throughput RNA isoform sequencing using programmable cDNA concatenation | bioRxiv挽荡,現(xiàn)于2023年發(fā)表于 Nature Biotechnology 之上(圖2)藐石。文中將此技術(shù)方法運(yùn)用于單細(xì)胞測(cè)序,來(lái)增加獲得單個(gè)細(xì)胞全長(zhǎng)轉(zhuǎn)錄本的個(gè)數(shù)定拟。PacBio利用此技術(shù)于微,聯(lián)合10x Genomics單細(xì)胞平臺(tái)推出了MAS-Seq for 10x Single Cell 3' Kit (圖3),該方法能夠?qū)equel II測(cè)序儀上的測(cè)序通量增加至少15-16倍1青自。
MAS-Seq文庫(kù)構(gòu)建原理簡(jiǎn)單介紹如下株依,以Kinnex full-length RNA Kit為例 (圖4):
- 構(gòu)建每個(gè)樣本獨(dú)立全長(zhǎng)轉(zhuǎn)錄本文庫(kù)(cDNA),每個(gè)樣本在cDNA擴(kuò)增時(shí)可以加入Barcode延窜,用于后期區(qū)分不同樣本勺三。最大支持12樣本的混樣,為了保證每個(gè)樣本有足夠的轉(zhuǎn)錄本數(shù)量(Revio需曾,10M / 樣本)吗坚,官方建議4個(gè)樣本的混樣。
- 在每個(gè)文庫(kù)中兩端添加不同的KINNEX接頭呆万,例如cDNA1文庫(kù)的5'和3'分別添加AB接頭商源,cDNA2文庫(kù)的DNA分子5'和3'分別添加B'C接頭,cDNA3添加C'D接頭谋减,cDNA4添加D'E接頭牡彻。再將這四個(gè)文庫(kù)混成一個(gè)文庫(kù),由于BB'出爹、CC'庄吼、DD'反向互補(bǔ),連接生產(chǎn)一個(gè)較長(zhǎng)片段文庫(kù)严就。
- 目前PacBio官方提供8個(gè)KINNEX接頭总寻,最大支持八個(gè)文庫(kù)串聯(lián)。官方建議進(jìn)行4倍串聯(lián)梢为。
- 利用Skera軟件將轉(zhuǎn)錄本拆分到每一個(gè)樣本中渐行。
- 對(duì)轉(zhuǎn)錄本進(jìn)行組裝,注釋和定量铸董。
四祟印、PacBio官方數(shù)據(jù)
經(jīng)過Pacbio Revio HiFi測(cè)序得到的高質(zhì)量(Q30以上)全長(zhǎng)轉(zhuǎn)錄本序列,可獲得的HiFi reads相較Sequel II(傳統(tǒng)Iso-Seq方法)提升14.8倍 (圖5)粟害,這一通量的提升蕴忆,不僅讓豐富的轉(zhuǎn)錄組數(shù)據(jù)更加觸手可及,同時(shí)也大幅減輕了科研預(yù)算的壓力2悲幅。
根據(jù)官方Application note-Kinnex full-length RNA kit for isoform sequencing文件中提供的飽和度曲線的數(shù)據(jù)顯示(圖6)套鹅,單個(gè)轉(zhuǎn)錄組數(shù)據(jù)達(dá)到10M(1000萬(wàn)條)HiFi reads時(shí)驻襟,可檢出80%的已知轉(zhuǎn)錄本(isoform)。而當(dāng)?shù)竭_(dá)20M(2000萬(wàn)條)HiFi reads時(shí)芋哭,飽和度曲線整體趨于平緩沉衣,這表明增加測(cè)序深度會(huì)新增少量轉(zhuǎn)錄本(isoform)的檢出,對(duì)于追蹤那些低表達(dá)量基因及轉(zhuǎn)錄本(isoform)而言减牺,可以適當(dāng)增加測(cè)序深度豌习。
根據(jù)PacBio官方建議,對(duì)于中等至稀有轉(zhuǎn)錄本isoform的發(fā)現(xiàn)和鑒定拔疚,每個(gè)樣本測(cè)序深度推薦為10M(1000萬(wàn)條) reads肥隆,一張Revio芯片現(xiàn)在則能做4個(gè)樣本的混樣。對(duì)于常規(guī)的高表達(dá)轉(zhuǎn)錄本isoform的發(fā)現(xiàn) 或 物種的全面轉(zhuǎn)錄本注釋稚失,每個(gè)樣本測(cè)序深度推薦為5M(500萬(wàn)條)reads栋艳,一張Revio芯片現(xiàn)在則能做8個(gè)樣本的混樣 (表1)。
五吸占、各大公司實(shí)測(cè)數(shù)據(jù)
1. 諾禾致源
諾禾致源利用人源樣本,8例樣本混樣上機(jī)測(cè)序凿宾,單張Revio芯片產(chǎn)出39M (3900萬(wàn)條) HiFi reads矾屯。從公眾號(hào)給出的數(shù)據(jù)來(lái)看每個(gè)樣本產(chǎn)出的reads數(shù)均一性均表現(xiàn)良好,單樣本產(chǎn)出平均接近 5M HiFi reads左右(表2)初厚,平均質(zhì)量值集中在Q30以上件蚕,大于Q35(圖7)。
關(guān)于數(shù)據(jù)分析产禾,諾禾致源采用SQANTI3軟件對(duì)異構(gòu)體進(jìn)行分類排作,并配合IsoQuant深入分析基因和轉(zhuǎn)錄本表達(dá)水平2。感興趣自己分析的小伙伴請(qǐng)參考我寫的詳細(xì)教程亚情。
- 全長(zhǎng)轉(zhuǎn)錄組 | Iso-Seq 三代測(cè)序數(shù)據(jù)分析流程 (PacBio) (3)-- SQANTI3 v5.2
- 全長(zhǎng)轉(zhuǎn)錄組 | 三代全長(zhǎng)轉(zhuǎn)錄組分析流程(PacBio & ONT )-- IsoQuant
注:
- 公眾號(hào)推文中產(chǎn)出數(shù)據(jù)單位應(yīng)為 M(million)妄痪,代表多少reads數(shù),而不是為Mb (堿基數(shù))势似。
- 至于文中列出的優(yōu)勢(shì)拌夏,如交付數(shù)據(jù)量更多,測(cè)序周期更快履因,分析流程更適配,不是那么妥帖盹愚。個(gè)人認(rèn)為都是芯片栅迄,儀器的本身性能,分析也是現(xiàn)有的分析軟件皆怕。
2. 安諾優(yōu)達(dá)
安諾優(yōu)達(dá)提供的實(shí)測(cè)數(shù)據(jù)毅舆,混樣實(shí)測(cè)數(shù)據(jù)中西篓,針對(duì)5種不同物種的植物樣品,分別進(jìn)行了一張 Revio SMRT 芯片的Kinnex 不同比例全長(zhǎng)RNA混樣建庫(kù)測(cè)序(Kinnex-Revio)和5個(gè)獨(dú)立的illumina轉(zhuǎn)錄組測(cè)序憋活。其中三代測(cè)序得到4.8 M HiFi Reads岂津,共計(jì) 87.6 Gb數(shù)據(jù)(表3),HiFi Reads N50長(zhǎng)度達(dá)18.34 Kb (圖8)悦即,平均質(zhì)量值集中在Q33左右 (圖9)吮成。
將串聯(lián)結(jié)構(gòu)拆分后共計(jì)得到37 M Segmented Reads (S-Reads),N50長(zhǎng)度2.27 kb辜梳,HiFi Reads平均串聯(lián)結(jié)構(gòu)轉(zhuǎn)錄本單元為每條HiFi reads 7.6個(gè) (表4)粱甫,S-reads長(zhǎng)度分布如圖10所示。相對(duì)于傳統(tǒng)Sequel II全長(zhǎng)RNA單cell 2-4 M HiFi reads的產(chǎn)出作瞄,Kinnex-Revio有效數(shù)據(jù)量提升了10倍以上茶宵。
注:
- 表5, Max Length of S-Reads 2.66kb 根據(jù)圖10來(lái)看應(yīng)該是統(tǒng)計(jì)錯(cuò)誤宗挥。
3. 其它測(cè)序廠商
貝瑞基因發(fā)布了他們的Kinnex全長(zhǎng)轉(zhuǎn)錄組解決方案(2024年3月14號(hào))4乌庶,并沒有實(shí)測(cè)數(shù)據(jù)的展示。其它測(cè)序廠商契耿,如青島百邁客安拟,武漢希望組等都還未發(fā)布其PacBio Kinnex全長(zhǎng)轉(zhuǎn)錄組得產(chǎn)品(截止2024年4月2日)。
六宵喂、總結(jié)
總體來(lái)說(shuō)糠赦,如果有對(duì)PacBio Kinnex全長(zhǎng)轉(zhuǎn)錄組有興趣的老師同學(xué),可以參照以下來(lái)選擇測(cè)序深度:
現(xiàn)在5M reads大約6000左右/樣拙泽,10M reads的建庫(kù)測(cè)序9000左右/樣。如果按10M reads和六個(gè)樣本來(lái)做的話(3個(gè)對(duì)照+3個(gè)實(shí)驗(yàn)組)裸燎,價(jià)格依然不便宜顾瞻。作為科研用戶角度來(lái)說(shuō),雖然有Revio和Kinnex試劑盒的加成德绿,離大規(guī)模開展PacBio全長(zhǎng)轉(zhuǎn)錄組測(cè)序(準(zhǔn)確定量)還需要等待一段時(shí)間荷荤,或許一年,或許更長(zhǎng)移稳,但是已經(jīng)離我們不遠(yuǎn)了蕴纳。
參考文獻(xiàn):
- Al’Khafaji, A. M., Smith, J. T., Garimella, K. V., Babadi, M., Popic, V., Sade-Feldman, M., ... & Hacohen, N. (2023). High-throughput RNA isoform sequencing using programmed cDNA concatenation. Nature Biotechnology.
- 諾禾致源官方公眾號(hào):新品發(fā)布 | Kinnex HiFi全長(zhǎng)轉(zhuǎn)錄組革新揭幕轉(zhuǎn)錄組科研新章!
- 安諾基因官方公眾號(hào):PacBio Kinnex全長(zhǎng)轉(zhuǎn)錄組技術(shù)“靚相”科研圈个粱,實(shí)測(cè)混樣數(shù)據(jù)大公開古毛。
- 貝瑞基因Kinnex全長(zhǎng)轉(zhuǎn)錄組解決方案。