前言
這次學(xué)習(xí)的本體是來自劍橋大學(xué): Vladimir Kiselev, Tallulah Andrews, Davis McCarthy and Martin Hemberg幾位大佬建立的course→Analysis of single cell RNA-seq data以及來自哈佛大學(xué)醫(yī)學(xué)院的 McCarroll Lab的Computational resources的CookBook
NOTIFICATION呛占!:10月30號和11月1號有了重大更新胞四,目前僅介紹最新的background蔽挠,方法學(xué)等更新和學(xué)習(xí)后再論述
取得翻譯許可
Sure, feel free to translate and adapt the course to your audience. It is under GPL-3 license.
——Vladimir Kiselev
正文
第二代測序技術(shù)的發(fā)展給生物學(xué)的研究帶來了極大突破。高通量測序現(xiàn)已被用于研究的各個(gè)領(lǐng)域,Bulk RNA-seq作為其中的突出代表,在比較轉(zhuǎn)錄組學(xué),疾病研究中發(fā)揮著極大的作用。然則其功能依然有著相對薄弱的地方潮孽,例如表達(dá)水平是一群細(xì)胞的相對平均水平,對于復(fù)雜的表達(dá)時(shí)刻變化的系統(tǒng)無法使用筷黔,對于基因表達(dá)的特性也無法研究往史。
所以single cell RNA-seq的技術(shù)也應(yīng)運(yùn)而生,這種技術(shù)首先由M Azim Surani及湯富酬創(chuàng)建于2009年佛舱,發(fā)表于NATURE METHOD:Tang, Fuchou, Catalin Barbacioru, Yangzhou Wang, Ellen Nordman, Clarence Lee, Nanlan Xu, Xiaohui Wang, et al. 2009. “mRNA-Seq Whole-Transcriptome Analysis of a Single Cell.” Nat. Methods 6 (5): 377–82.
但是直到14年隨著方法的成熟與測序成本的降低這種方法才漸漸的進(jìn)入大家的視野椎例。
Single-cell 工作流程 OVERVIEW
原理
以Nanoliter Droplets方法為例:
Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets
首先是組織處理得到單細(xì)胞挨决,包裹在單個(gè)的microparticle里面,而microparticle里面又存有包含polyT的beads订歪,于是可以結(jié)合mRNA反轉(zhuǎn)成為cDNA脖祈,建成pool進(jìn)行PCR擴(kuò)增,最后混合所有的STAMPs高通量測序得到數(shù)據(jù)刷晋。
每個(gè)micro particle上面的序列由四個(gè)部分組成:
- 一段一樣的序列盖高,PCR handle用于后續(xù)的PCR擴(kuò)增
- bead特異性的barcode,10 - 12bp眼虱,用來區(qū)分單個(gè)細(xì)胞喻奥,理論上存在4^12 (16,777,216)個(gè)barcode,也就是說最多可以處理1600W個(gè)細(xì)胞
- UMI捏悬,Unique Molecular Identifier撞蚕,4 - 8bp,每個(gè)beads上理論存在4^8 (65,536)個(gè)UMI过牙,用來區(qū)分transcripts甥厦,理論上可以區(qū)分6W個(gè)轉(zhuǎn)錄本
- 30bp的oligo-dT,用來捕捉mRNA完成反轉(zhuǎn)錄
數(shù)據(jù)分析流程
這個(gè)課程呢寇钉,主要關(guān)注scRNA-seq的到的數(shù)據(jù)處理刀疙,mark黃色的部分呢,是適用于高通量測序的數(shù)據(jù)處理流程摧莽;mark橙色的部分呢庙洼,則是需要利用已有的處理RNA-seq的工具和一些新開發(fā)的區(qū)分scRNA-seq的方法;mark藍(lán)色的部分镊辕,就是需要專門的處理scRNA-seq的軟件來探究這里面的生物學(xué)意義了。
現(xiàn)有挑戰(zhàn)
單細(xì)胞RNA測序區(qū)別于混池RNA測序的地方在于每個(gè)測序庫(sequencing library)都代表著一個(gè)單細(xì)胞蚁袭,所以我們應(yīng)該將著眼點(diǎn)放在比較單個(gè)不同細(xì)胞上(或細(xì)胞群)征懈,這種測序庫(sequencing library)的差異來源于一下兩個(gè)方面:
- Amplification:擴(kuò)增偏差,單個(gè)細(xì)胞初始轉(zhuǎn)錄本的捕捉效率和低輸入會導(dǎo)致這樣的偏差
- Gene ‘dropouts’ :基因丟失揩悄,有些基因會在某個(gè)細(xì)胞里檢測到具有中等表達(dá)水平卻在其它細(xì)胞里面沒有被發(fā)現(xiàn)
以上兩點(diǎn)也正式目前研究較多的領(lǐng)域卖哎,大家都致力于消除這些偏差使得數(shù)據(jù)更具有可分析性
實(shí)驗(yàn)方法
Overview of experimental methods for generating scRNA-seq data
目前單細(xì)胞測序領(lǐng)域非常火熱删性,近些年來涌現(xiàn)出很多測序方法亏娜,包括但不限于:
- CEL-seq
- CEL-seq2
- Drop-seq (原理介紹使用的方法)
- InDrop-seq
- MARS-seq
- SCRB-seq
- Seq-well
- Smart-seq
- Smart-seq2
- SMARTer
- STRT-seq
但是即使測序辦法繁多豐富,但根底里是需要面對兩個(gè)問題:quantification(定量)和 capture(捕捉)
Quantification(定量)
關(guān)于quantification(定量)蹬挺,目前存有著兩種處理方式:full-length(全長) and tag-based(標(biāo)簽依賴)
full-length的處理方法旨在對每個(gè)轉(zhuǎn)錄本獲取統(tǒng)一的測序覆蓋度维贺,相反tag-based處理方法只捕捉mRNA的5'或3'端,定量處理方法的選擇取決于你后期想要分析的目的巴帮。
理論上溯泣,full-length的處理可以提供一個(gè)相對平均的測序覆蓋度虐秋,但是就目前的結(jié)果來說還是存在著很多bias。
而tag-based的優(yōu)勢在于它可以結(jié)合UMI(前面介紹過)來提高定量的水平垃沦,缺點(diǎn)在于未捕捉完全的轉(zhuǎn)錄本序列客给,在比對的時(shí)候無法區(qū)分iosform (Archer et al. 2016)
Capture(捕捉)
捕捉RNA的策略決定了你的產(chǎn)出,細(xì)胞如何被選擇包括是否攜帶額外信息都值得大做文章肢簿。三個(gè)被廣泛運(yùn)用的方法包括:
- microwell-based
- microfluidic-based
- droplet-based
microwell-based
簡單來說靶剑,這種方法就是把單個(gè)細(xì)胞利用laser capture或者example pipette的技術(shù)分離到微流體孔里面。這種技術(shù)的既有優(yōu)勢在于可以結(jié)合FACS分選技術(shù)池充,根據(jù)細(xì)胞表面marker挑選出的合適的細(xì)胞亞群桩引,并且可以對細(xì)胞形態(tài)進(jìn)行記錄,找出并丟棄損傷細(xì)胞或粘連的非單個(gè)細(xì)胞纵菌。這個(gè)技術(shù)的缺陷在于由于分選的局限性導(dǎo)致的低通量阐污,和相匹配的較大的工作量。
microfluidic-based
以Fluidigm’s C1舉例咱圆,其提供了一個(gè)整合的細(xì)胞捕獲系統(tǒng)笛辟,并可以執(zhí)行建庫前的反應(yīng),所以相對于microwell-based方法有更高的通量序苏。
但其弊端在于其只能捕獲10%左右的細(xì)胞手幢,所以不太適合應(yīng)用于有較少樣品量或者樣品較為珍惜的情況。
droplet-based
這種技術(shù)就是我以上介紹的原理的例子忱详,通過納升級別的攜帶beads的小液滴围来,捕獲單個(gè)細(xì)胞,并在液滴內(nèi)完成建庫匈睁,其優(yōu)勢在于可以定量的鑒別每個(gè)cell內(nèi)的轉(zhuǎn)錄本數(shù)量监透,劣勢在于測序深度低,往往一個(gè)細(xì)胞只有小幾千個(gè)轉(zhuǎn)錄本被檢測到航唆。
What platform to use for my experiment?
老生常談
適合的即是最好的胀蛮。
你所選用的決定于你想要研究什么樣的生物學(xué)問題。
假如想要定義一個(gè)組織內(nèi)細(xì)胞的組成成分糯钙,那么droplet-based方法是較為有效的粪狼,因?yàn)樗梢圆蹲降较鄬Υ髷?shù)量級的細(xì)胞。
換一個(gè)方面來說任岸,加入想要去研究一群數(shù)量有限而又知道細(xì)胞表面分子marker的細(xì)胞再榄,那么FACS分選接測序才是較好的方案。
想要研究可變剪切轉(zhuǎn)錄本享潜,自然需要全長測序的實(shí)驗(yàn)方案困鸥,這個(gè)時(shí)候tag標(biāo)簽和UMI就成了異常雞肋的存在(當(dāng)然在定量中還是舉足輕重的,要看如何取舍了)米碰。
Enard團(tuán)隊(duì)(Ziegenhain et al. 2017) 和Teichmann團(tuán)隊(duì) (Svensson et al. 2017) 的通過對同一個(gè)樣本(mESCs)的測序和分析比較了現(xiàn)存于市場上的幾種測序方法窝革,在控制細(xì)胞輸入數(shù)量和測序深度的時(shí)候购城,作者得以探究的不同實(shí)驗(yàn)方案特有的敏感性/噪音水平/花費(fèi),結(jié)論可見下圖:
可以發(fā)現(xiàn)虐译,不同的實(shí)驗(yàn)方案至多會造成兩倍的實(shí)驗(yàn)差距瘪板,實(shí)驗(yàn)方案的抉擇從一開始就決定了你的實(shí)驗(yàn)結(jié)果的好壞。
針對檢測準(zhǔn)確性和敏感性的探究則使用了人工合成的已知濃度的spike-in來進(jìn)行漆诽。
當(dāng)然啦侮攀,隨著時(shí)間的進(jìn)展,實(shí)驗(yàn)方法的提高和數(shù)據(jù)分析手段的開發(fā)厢拭,我們對于這些單細(xì)胞測序方法會有更深層次的了解兰英,但就目前而言,這個(gè)研究可以很好的幫助科研工作者選擇他適合的工具并完成他的目的供鸠。