要實(shí)現(xiàn)單細(xì)胞mRNA測(cè)序,需要解決2個(gè)難題:
- 1. 一個(gè)人類細(xì)胞中筝尾,RNA總量大約只有10pg左右(1pg=10-12g)捡需,其中mRNA的量大約只有0.2pg。要把這么少的mRNA轉(zhuǎn)變成越零點(diǎn)幾個(gè)ug(1ug=10-6g)以上的核酸文庫(kù)忿等,意味著核酸的擴(kuò)增量要達(dá)到幾百萬(wàn)倍以上栖忠。 如何在核酸擴(kuò)增過(guò)程中不引入太多的PCR偏差,一直是個(gè)大問(wèn)題贸街。所謂PCR偏差庵寞,就是在PCR擴(kuò)增過(guò)程中,某些片段被大量擴(kuò)增薛匪,而大部分片段被擴(kuò)增的量很少捐川,甚至沒(méi)有被擴(kuò)增。這就導(dǎo)致高通量測(cè)序只能測(cè)到所有樣本中很少的一部分片段序列逸尖。PCR偏差會(huì)隨著PCR循環(huán)次數(shù)的增多而指數(shù)放大古沥。那么在這種情況下瘸右,一方面要把核酸擴(kuò)增幾百萬(wàn)倍甚至更多的倍數(shù),另一方面又想得到均一覆蓋的文庫(kù)岩齿,這就是單細(xì)胞mRNA建庫(kù)當(dāng)中太颤,所要解決的第一個(gè)大難題。
- 2. 第二個(gè)難題是如何盡可能高效地得到mRNA文庫(kù)盹沈,而不是含了大量rRNA序列的文庫(kù)龄章。因?yàn)閞RNA在總RNA當(dāng)中占了95%甚至更高的比例,而 mRNA在總RNA中只占了2%-3%的比例乞封。如果不加區(qū)分的進(jìn)行逆轉(zhuǎn)錄再擴(kuò)增建庫(kù)做裙,很可能測(cè)序得到的絕大部分序列都是rRNA的序列。但是rRNA序列不能給我們帶來(lái)有效的生物信息肃晚,只有mRNA序列锚贱,才是我們想要的信息。因此关串,如何能夠選擇性地把mRNA轉(zhuǎn)化成測(cè)序文庫(kù)拧廊,并且避免把rRNA帶到測(cè)序文庫(kù)中來(lái),這就是單細(xì)胞mRNA建庫(kù)當(dāng)中悍缠,要解決的第二個(gè)大難題卦绣。
1. Clontech公司推出的SMART方法
1.1 簡(jiǎn)介
SMART方法的全稱是Switching Mechanism at 5' End of RNA Template,該方法發(fā)表于于2012年[1]飞蚓,2013年發(fā)表了其改進(jìn)技術(shù)的應(yīng)用Smart-Seq2[2]滤港,2014年Smart-Seq2 protocol發(fā)表[3]。Smart-Seq2對(duì)原始的Smart-Seq實(shí)驗(yàn)流程進(jìn)行了多項(xiàng)改進(jìn)優(yōu)化趴拧,它不再需要純化步驟溅漾,可大大提高產(chǎn)量,最重要的改進(jìn)是下面兩項(xiàng):
(1)TSO 3'端最后一個(gè)鳥苷酸替換為鎖核酸LNA(locked nucleic acid)著榴。LNA單體的熱穩(wěn)定性增強(qiáng)添履,其退火溫度增強(qiáng)非模板cDNA的3'延伸能力。
(2)甜菜堿(一種具有兩個(gè)重要作用的甲基供體:它會(huì)增加蛋白質(zhì)的熱穩(wěn)定性脑又,并通過(guò)破壞DNA螺旋來(lái)降低甚至消除了DNA熱融變對(duì)堿基對(duì)組成的依賴性)與較高的MgCl2濃度結(jié)合使用暮胧。解決某些RNA形成二級(jí)結(jié)構(gòu)(例如發(fā)夾或環(huán))由于空間位阻复罐,可能導(dǎo)致酶終止鏈延長(zhǎng)的問(wèn)題穴店。
Smart技術(shù)是基于高保真的反轉(zhuǎn)錄酶、模板轉(zhuǎn)換和前置放大來(lái)增加cDNA得率蚕礼,實(shí)驗(yàn)流程2天严卖,得到的是全長(zhǎng)轉(zhuǎn)錄本席舍。該方法有較好的覆蓋范圍,可檢測(cè)到稀有轉(zhuǎn)錄本哮笆,因此應(yīng)用范圍較廣来颤。
1.2 建庫(kù)原理
建庫(kù)流程圖總覽
Smart-Seq2建庫(kù)原理
單細(xì)胞分選:使用流式細(xì)胞儀或顯微操作進(jìn)行細(xì)胞分選汰扭,體積不超過(guò)0.5 ul。
細(xì)胞裂解:將分離細(xì)胞直接轉(zhuǎn)移到細(xì)胞裂解液中進(jìn)行細(xì)胞裂解福铅。
反轉(zhuǎn)錄( 一鏈合成 ):使用Oligo(dT) primer 對(duì)帶有polyA尾的RNA( 主要mRNA )進(jìn)行反轉(zhuǎn)錄萝毛。
這個(gè)逆轉(zhuǎn)錄的起始引物先是一段通用序列,會(huì)用作PCR擴(kuò)增的引物識(shí)別序列滑黔。中間是一長(zhǎng)串的T珊泳,這些T專門識(shí)別mRNA的3‘末端的Poly(A)尾巴序列,與Poly(A)尾互補(bǔ)結(jié)合拷沸。引物最末端有一個(gè)定位結(jié)構(gòu),在3‘末端的倒數(shù)第二個(gè)堿基是一個(gè)非T的簡(jiǎn)并堿基(V表示A/C/G)薯演。最后一個(gè)堿基則是簡(jiǎn)并堿基N(A/C/T/G都有可能)撞芍。引物的這個(gè)末端結(jié)構(gòu),就是讓它正好結(jié)合在mRNA的3‘端連到Poly(A)尾巴的連接處跨扮,而不會(huì)結(jié)合到mRNA別的地方序无。這樣就保證了逆轉(zhuǎn)錄的起始位置正好是mRNA的3'端的序列終止位置。
由于使用了特殊活性反轉(zhuǎn)錄酶(Moloney Murine Leukemia Virus , MMLV
,莫洛尼鼠白血病病毒反轉(zhuǎn)錄酶)進(jìn)行反轉(zhuǎn)錄衡创,所以在它轉(zhuǎn)錄到mRNA的5'末端的時(shí)候帝嗡,會(huì)在cDNA鏈3'端加上幾個(gè)不依賴于模版的C堿基。
- 模板置換( 二鏈合成 ):該步使用
TSO
(template-switching oligo, 特異性模板轉(zhuǎn)換引物)引物合成了cDNA的二鏈璃氢,從而置換了與一鏈cDNA互補(bǔ)的RNA哟玷。
要注意的是TSO引物的 3'端有三個(gè)非脫氧的G堿基(RNA的G堿基),能與一鏈3'端MMLV多合成的幾個(gè)C堿基互補(bǔ)一也,而最末端的+G是一個(gè)修飾過(guò)的G巢寡,能增加TSO的熱穩(wěn)定性,以及其與一鏈cDNA游離的3’端的互補(bǔ)的能力椰苟∫衷拢互補(bǔ)雜交之后,可以引導(dǎo)MMLV酶再次發(fā)揮聚合作用舆蝴,以剛才那條新合成的cDNA為模版來(lái)復(fù)制得到雙鏈cDNA谦絮。
這個(gè)雙鏈cDNA兩端都已經(jīng)接好了我們?nèi)斯ぴO(shè)計(jì)的PCR引物序列(紅圈),然后就加入常規(guī)PCR引物洁仗,進(jìn)行常規(guī)PCR擴(kuò)增层皱。
PCR擴(kuò)增:該步進(jìn)行輕度的cDNA富集,將cDNA擴(kuò)增至ng級(jí)即可京痢。
標(biāo)記:利用改造后的高活性Tn5轉(zhuǎn)座酶對(duì)DNA進(jìn)行打斷的同時(shí)將接頭添加到cDNA的兩端奶甘。標(biāo)記完成后的DNA片段通常在200-600bp。
PCR富集及上機(jī)測(cè)序:在進(jìn)行最后一次PCR擴(kuò)增后祭椰,即可上機(jī)測(cè)序臭家。
3個(gè)巧妙點(diǎn):
1. 先用一個(gè)定位引物疲陕,保證cDNA的合成是從mRNA的3'最末端開始的。同時(shí)讓合成的cDNA在下游連上了一個(gè)通用PCR序列钉赁。
2. 利用MMLV逆轉(zhuǎn)錄酶在新合成cDNA的3'端多加幾個(gè)C堿基的特點(diǎn)蹄殃,再用有3個(gè)G堿基的上游引物進(jìn)行第二鏈的合成。這也就保證了只有完整的cDNA也就是那些帶多個(gè) C的cDNA(第一鏈)才能合成出cDNA第二鏈你踩。這就保證了雙鏈cDNA是全長(zhǎng)的cDNA诅岩。
3. 保證了PCR擴(kuò)增效率的一致性。PCR擴(kuò)增效率的最主要的影響因素是引物的序列带膜,現(xiàn)在因?yàn)閏DNA的5‘端和3’端都分別引入了統(tǒng)一的引物序列吩谦,就去除了因?yàn)橐镄蛄械牟煌餚CR效率不同這個(gè)最主要的偏差因素。也就在較大程度上保證了PCR擴(kuò)增效率的一致性膝藕,減少了PCR偏差式廷。
經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),用SMART方法芭挽,對(duì)一個(gè)細(xì)胞也就是10pg總RNA進(jìn)行建庫(kù)測(cè)序滑废,RPKM為10的這些基因,有60%是被測(cè)序測(cè)到的袜爪。對(duì)RPKM為100的這些基因蠕趁,有90%是可以被測(cè)序測(cè)到的,而且被測(cè)到的幾率波動(dòng)很小辛馆。
這說(shuō)明SMART方法是一個(gè)有效的單細(xì)胞mRNA測(cè)序的方法俺陋。
Smart-Seq2優(yōu)點(diǎn):
- 相比于截短的cDNAs,MMLV逆轉(zhuǎn)錄酶更傾向于選擇全長(zhǎng)cDNAs作為其末端轉(zhuǎn)移酶活性的底物怀各。因此每個(gè)轉(zhuǎn)錄本的所有外顯子都能被檢測(cè)到倔韭。這使它可以用于檢測(cè)
可變剪切
,還能在轉(zhuǎn)錄層面進(jìn)行全面的SNP
和突變分析
瓢对,擴(kuò)大了其應(yīng)用范圍寿酌。- 不同I5、I7 Index組合使其能夠進(jìn)行多樣本混合測(cè)序硕蛹。
- 方案和原理公開醇疼,讓研究者可以進(jìn)一步對(duì)其進(jìn)行改良。目前在這個(gè)方案的基礎(chǔ)上涌現(xiàn)了很多單細(xì)胞測(cè)序的新成果法焰。
- 和10x Genomics相比秧荆,單細(xì)胞檢測(cè)到的轉(zhuǎn)錄本更多。
Smart-Seq2缺點(diǎn):
- 由于對(duì)聚腺苷酸化的RNA具有選擇性埃仪,所以不能分析非poly(A)的RNA乙濒。
- 測(cè)序reads不帶有mRNA鏈特異性。
2. TargetAmp方法
2.1 簡(jiǎn)介
TargetAmp方法由Illumina公司旗下的EpiCentre公司開發(fā),可以把少量RNA(最少到1個(gè)細(xì)胞颁股,約10pg)擴(kuò)增到ng級(jí)么库,以達(dá)到可以進(jìn)行高通量測(cè)序所需的核酸量。
2.2 建庫(kù)原理
建庫(kù)流程圖總覽
建庫(kù)原理
- 第一鏈cDNA合成:用T7-Oligo(dT)的引物進(jìn)行cDNA合成
這個(gè)引物在5'端設(shè)計(jì)了一個(gè)T7啟動(dòng)子序列甘有,3'端是多個(gè)T堿基诉儒,可以與mRNA的poly(A)尾巴相結(jié)合,作為逆轉(zhuǎn)錄的起始引物亏掀。
逆轉(zhuǎn)錄得到的第一鏈cDNA被引入了一個(gè)T7啟動(dòng)子忱反。
- cDNA第二鏈的合成:使用RNase H酶特異性降解RNA和DNA雜交鏈中的RNA鏈,剩下帶有T7啟動(dòng)子的cDNA單鏈滤愕,再合成出第二條cDNA鏈來(lái)温算。
- 得到的雙鏈cDNA可以作為轉(zhuǎn)錄的模板,利用鏈上的T7啟動(dòng)子间影,啟動(dòng)體外轉(zhuǎn)錄生成大量反義aRNA(antisense-RNA)
純化aRNA
第二輪的第一鏈cDNA合成:使用隨機(jī)引物進(jìn)行逆轉(zhuǎn)錄米者,得到第二輪cDNA
- 第二輪中的第二鏈cDNA合成:用RNase H把DNARNA雜交產(chǎn)物中的RNA消化掉。用T7-Oligo(dT)引物粘到第二輪cDNA的poly(A)尾巴上宇智,合成出cDNA雙鏈。
- 這個(gè)雙鏈cDNA再經(jīng)過(guò)第二輪的轉(zhuǎn)錄胰丁,又得到第二輪的反義RNA随橘。
這些第二輪的反義RNA的量,足以達(dá)到微克級(jí)锦庸。再經(jīng)過(guò)一輪逆轉(zhuǎn)錄机蔗,就可以得到幾個(gè)微克的cDNA,足以進(jìn)行建庫(kù)測(cè)序之用甘萧。
本方法的巧妙之處:
1. 它不是用PCR來(lái)擴(kuò)增核酸萝嘁,而是用轉(zhuǎn)錄的方法來(lái)增加核酸的量。因?yàn)閿U(kuò)增那么多倍的核酸扬卷,如果用PCR牙言,需要幾十個(gè)循環(huán)。那么PCR不同的擴(kuò)增子的擴(kuò)增效率怪得,即使一開始是很小的差異咱枉,也會(huì)在幾十個(gè)循環(huán)中被指數(shù)放大,變成一個(gè)很大的差異徒恋。TargetAmp用轉(zhuǎn)錄的方法蚕断,統(tǒng)一都用T7這個(gè)啟動(dòng)子,它轉(zhuǎn)錄的起始效率大體上就保持了一致入挣。它的每一輪轉(zhuǎn)錄亿乳,都把核酸的量擴(kuò)大了幾千倍,經(jīng)過(guò)兩輪的擴(kuò)增径筏,就把核酸的量擴(kuò)大了百萬(wàn)倍葛假。這樣一方面得到了足以用來(lái)建庫(kù)的高達(dá)幾微克的核酸障陶,另一方面又避免了PCR過(guò)程,也就避免了PCR擴(kuò)增偏差桐款。
2. 第一輪與第二輪都是線性擴(kuò)增咸这,大大減少了PCR反應(yīng)的指數(shù)效應(yīng)所引起的Bias。
3. 高效擴(kuò)增魔眨,一輪擴(kuò)增可以擴(kuò)增幾千倍媳维,把10pg級(jí)的Total RNA中的mRNA擴(kuò)增到幾個(gè)ng,達(dá)到二代測(cè)序的樣本量要求遏暴。如果經(jīng)過(guò)兩輪擴(kuò)增侄刽,就可以達(dá)到生物芯片所需的ug級(jí)的核酸量。
3. 10X genomics
3.1 簡(jiǎn)介
10X genomics是把微珠加DNA標(biāo)簽朋凉、微滴發(fā)生州丹、酶反應(yīng)和高通量測(cè)序后的數(shù)據(jù)分析這一系列的技術(shù)整合在一起的一個(gè)基于油包水乳濁液酶反應(yīng)原理的分子生物學(xué)分析系統(tǒng)。該方法基于微流控技術(shù)
(Microfluidics-based approaches)[4]杂彭,與SMART有相似的分子生物學(xué)原理墓毒,運(yùn)用了模板轉(zhuǎn)換技術(shù),但與SMART的細(xì)胞捕獲和通量不同亲怠。
Droplet-based方法是將單個(gè)細(xì)胞包裹在一個(gè)小油滴中(含有barcode和RT primer)反轉(zhuǎn)錄成cDNA所计,然后油滴破裂釋放cDNA,統(tǒng)一進(jìn)行文庫(kù)構(gòu)建团秽,增大了實(shí)驗(yàn)通量主胧,但需要專門的實(shí)驗(yàn)設(shè)備。
3.2 10X工作原理
Gel beads及其核酸序列構(gòu)成
Gel beads习勤,即凝膠微珠踪栋。每個(gè)凝膠微珠上有40-80萬(wàn)特定的核酸引物序列,該序列由以下幾部分構(gòu)成:
1)Read 1 測(cè)序引物
2)10X Barcode序列:16堿基图毕,一個(gè)Gel bead對(duì)應(yīng)一種10X Barcode夷都,共有~350W種10X Barcode,用于區(qū)分細(xì)胞予颤。任意兩個(gè)barcode之間至少差2個(gè)或2個(gè)以上的堿基(避免誤讀)损肛。
3)UMI(unique molecular identifier):12堿基,隨機(jī)序列荣瑟,作用是在經(jīng)過(guò)PCR擴(kuò)增再深度測(cè)序得到的Reads治拿,可以看出哪些reads是來(lái)自于一個(gè)原始的cDNA分子,用于區(qū)分同一細(xì)胞的不同轉(zhuǎn)錄本笆焰〗倭拢可以排除各種cDNA因?yàn)镻CR擴(kuò)增效率的不同而導(dǎo)致的reads數(shù)的偏差(PCR bias)。
4)poly dT反轉(zhuǎn)錄引物:30nt,作用是與mRNA的Poly(A)尾巴結(jié)合捏检,作為逆轉(zhuǎn)錄的引物荞驴,逆轉(zhuǎn)錄出cDNA來(lái)。
芯片上的液流管路
經(jīng)過(guò)這個(gè)系統(tǒng)熊楼,制備出油包水小液滴的乳濁液。這些小液滴里面是水相能犯,外面包裹的是油相鲫骗。
細(xì)胞混懸液中約65%的細(xì)胞會(huì)被包到有微珠的小液滴當(dāng)中。這些液滴中包含細(xì)胞的數(shù)目是符合泊松分布的踩晶,大部分細(xì)胞會(huì)被單獨(dú)包裹在一個(gè)小液滴中执泰。
測(cè)序文庫(kù)制備
1. 在得到乳濁液之后,將細(xì)胞膜破掉渡蜻,讓細(xì)胞當(dāng)中的mRNA游離出來(lái)术吝。游離出來(lái)的mRNA與小液滴中的水相混合,也就是和逆轉(zhuǎn)錄酶茸苇、結(jié)合在凝膠微珠上的核酸引物排苍、以及dNTP底物相接觸。
2. 接著發(fā)生逆轉(zhuǎn)錄反應(yīng)学密,mRNA與凝膠微珠上帶標(biāo)簽的DNA分子相結(jié)合纪岁,在逆轉(zhuǎn)錄酶的作用下,逆轉(zhuǎn)錄出cDNA第一鏈(下圖紫色序列)则果。
這樣得到的cDNA分子第一鏈?zhǔn)菐в羞@個(gè)微珠所特有的Barcode標(biāo)簽和各自特定的UMI標(biāo)簽的。有了這兩個(gè)標(biāo)簽漩氨,cDNA分子就可以互相區(qū)分開來(lái)西壮。
3. 以SMART方式使用TSO引物完成第二鏈合成
4. 油滴破碎,磁珠純化cDNA一鏈叫惊,然后PCR擴(kuò)增cDNA款青。
5. cDNA擴(kuò)增完成后酶切片段化并磁珠篩選最適片段,通過(guò)末端修復(fù)霍狰、加A抡草、接頭連接Read2測(cè)序引物,再以PCR方式構(gòu)建含有P5和P7接頭的cDNA文庫(kù)即可蔗坯。
隨后就可以進(jìn)行測(cè)序和數(shù)據(jù)分析了康震。
10X genomics優(yōu)點(diǎn):
- 簡(jiǎn)單便捷:集單細(xì)胞分選、擴(kuò)增宾濒、建庫(kù)于一體腿短。
- 細(xì)胞通量高:每個(gè)樣本細(xì)胞數(shù)可以達(dá)到5000-10000個(gè)。
- 建庫(kù)周期短:1天可以完成單細(xì)胞懸液制備、單細(xì)胞捕獲橘忱、擴(kuò)增及建庫(kù)赴魁。
- 捕獲效率高:?jiǎn)蝹€(gè)液滴捕獲效率高達(dá)65%
- 真正意義的單細(xì)胞:?jiǎn)蝹€(gè)液滴捕獲到多細(xì)胞概率極低(0.9%/1000cells)
10X genomics缺點(diǎn):
- 非全長(zhǎng)信息:只能獲得3‘端轉(zhuǎn)錄本信息
- 樣本要求高:?jiǎn)蝹€(gè)樣本細(xì)胞起適量達(dá)5x104 - 5x105個(gè),活細(xì)胞數(shù)目需要超過(guò)80%钝诚,最好在90%以上颖御。
4. 多種方法的比較
10X和SMART的比較,出自張澤民團(tuán)隊(duì)[5]
2017年Molecular Cell文章凝颇,對(duì)6種單細(xì)胞轉(zhuǎn)錄組技術(shù)的比較[6]
2019年Nature Communications文章潘拱,對(duì)7種單細(xì)胞RNA測(cè)序方法進(jìn)行比較[7]
參考文獻(xiàn):
Ramskold, D., et al., Full-length mRNA-Seq from single-cell levels of RNA and individual circulating tumor cells. Nat Biotechnol, 2012. 30(8): p. 777-82.
Picelli, S., et al., Smart-seq2 for sensitive full-length transcriptome profiling in single cells. Nat Methods, 2013. 10(11): p. 1096-8.
Picelli, S., et al., Full-length RNA-seq from single cells using Smart-seq2. Nat Protoc, 2014. 9(1): p. 171-81.
Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets. Cell. 2015;161(5):1202-1214.
Direct Comparative Analyses of 10X Genomics Chromium and Smart-seq2. Genomics Proteomics Bioinformatics. 2021 Mar 1:S1672-0229(21)00048-6.
Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell. 2017;65(4):631-643.e4.
A systematic evaluation of single cell RNA-seq analysis pipelines. Nat Commun. 2019;10(1):4667.
參考:
陳巍學(xué)基因:?jiǎn)渭?xì)胞mRNA測(cè)序
陳巍學(xué)基因:10X Genomics分析單細(xì)胞表達(dá)
丁香通:技術(shù)解讀|單細(xì)胞轉(zhuǎn)錄組:Smart-seq 2還是10X Genomics Chromium?