文章發(fā)表于nature review genetics:Integrative single- cell analysis勤婚,作者是Tim Stuart與Rahul Satija迂尝。做過單細(xì)胞分析的對(duì)他們應(yīng)該不陌生难述。
摘要
scRNA-seq技術(shù)的發(fā)展契合了研究個(gè)體細(xì)胞表觀遺傳太伊、空間研究剧浸、蛋白質(zhì)組與譜系信息的方法需要巍膘,這為研究多類型數(shù)據(jù)的綜合方法提出了獨(dú)特的機(jī)遇與挑戰(zhàn)缨硝。綜合分析可以發(fā)現(xiàn)細(xì)胞之間的模式關(guān)系击罪,獲取細(xì)胞的整體狀態(tài)信息哲嘲,產(chǎn)生涵蓋不同樣本與不同研究手段的數(shù)據(jù)集。該文重點(diǎn)討論了單細(xì)胞基因表達(dá)數(shù)據(jù)與其他類型的單細(xì)胞分析方法的整合媳禁。
一些概念
多模態(tài)(Multimodal)數(shù)據(jù):多種類型數(shù)據(jù)的組合眠副,如RNA與蛋白質(zhì)數(shù)據(jù)組合,是一種多維度數(shù)據(jù)竣稽,類似多組學(xué)囱怕。
單模態(tài):?jiǎn)蝹€(gè)類型數(shù)據(jù)
Pseudotime:擬時(shí)分析
聯(lián)合聚類(Joint-clustering):通過聯(lián)合不同類型數(shù)據(jù)對(duì)細(xì)胞進(jìn)行分組。
典型相關(guān)分析(CCA): 利用綜合變量對(duì)之間的相關(guān)關(guān)系來反映兩組指標(biāo)之間的整體相關(guān)性的多元統(tǒng)計(jì)分析方法毫别。
動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping):一種局部拉伸或壓縮兩個(gè)一維矢量以校正一個(gè)矢量相對(duì)于另一個(gè)矢量的滯后的方法娃弓。
MNNs:標(biāo)準(zhǔn)化基因表達(dá)空間中最臨近的細(xì)胞。聚類用校正批次效應(yīng)岛宦。
梯度推進(jìn)(Gradient boosting):一種預(yù)測(cè)模型算法台丛。
概述
隨著分子生物學(xué)、微流控與納米技術(shù)的發(fā)展砾肺,催生了許多類型的單細(xì)胞測(cè)序技術(shù)挽霉。過去的方法集中在單模態(tài)測(cè)量上,如DNA序列变汪、RNA表達(dá)量和染色質(zhì)可及性上侠坎。雖然這些技術(shù)促進(jìn)了我們對(duì)細(xì)胞多樣性與發(fā)育景觀的理解,但是它們并不能很好地解析單細(xì)胞內(nèi)分子間互作關(guān)系裙盾。而這些互作關(guān)系是深入探索細(xì)胞狀態(tài)的關(guān)鍵实胸。此外他嫡,隨著可用數(shù)據(jù)集規(guī)模的快速增長(zhǎng),迫切需要用于標(biāo)準(zhǔn)化與聯(lián)合分析且考量到批次效應(yīng)與個(gè)體差異的計(jì)算方法庐完。
scRNA-seq是應(yīng)用最為廣泛的單細(xì)胞測(cè)序技術(shù)之一涮瞻。而后出現(xiàn)了一系列互補(bǔ)技術(shù)如單細(xì)胞基因組、表觀基因組和蛋白質(zhì)組分析技術(shù)假褪,涵蓋了單細(xì)胞基因組測(cè)序(Vitak, S. A. et al., 2017; Navin, N. et al., 2011)署咽、染色質(zhì)可及性(Pott, S., 2017; Corces, M. R. et al., 2016; Buenrostro, J. D. et al., 2015; Cusanovich, D. A. et al., 2015; Lake, B. B. et al., 2018)、DNA甲基化(Luo, C. et al., 2017; Smallwood, S. A. et al., 2014; Guo, H. et al., 2013; Mulqueen, R. M. et al., 2018)生音、膜蛋白(Stoeckius, M. et al., 2017; Peterson, V. M. et al., 2017)宁否、小RNA(Faridani, O. R. et al., 2016)、組蛋白修飾(Gomez, D. te al., 2013; Rotem, A. et al., 2015)和染色體構(gòu)象(Ramani, V. et al., 2017; Nagano, T. et al., 2013)等技術(shù)缀遍。目前已開發(fā)出研究單細(xì)胞空間結(jié)構(gòu)和譜系信息的方法(Frieda, K. L. et al., 2017; Shah, S. et al., 2016)慕匠。
單細(xì)胞多模態(tài)綜合分析方法示意
目前已有多種方法測(cè)定單細(xì)胞各個(gè)時(shí)期不同參數(shù),這些方法可以大致分為細(xì)胞狀態(tài)分析域醇、細(xì)胞譜系分析台谊、擬時(shí)分析三大類,圖中適用于不同類型的分析方法均已標(biāo)注
單模態(tài)與多模態(tài)分析方法匯總
CEL-seq:線性擴(kuò)增測(cè)序法
CITE- seq:膜蛋白豐度與基因表達(dá)水平測(cè)定
G&T-seq:基因組轉(zhuǎn)錄組測(cè)序
LINNAEUS:譜系追蹤
MARS-seq:大規(guī)模平行單細(xì)胞RNA測(cè)序
MEMOIR:譜系與空間結(jié)構(gòu)測(cè)定
MERFISH:主要是細(xì)胞間結(jié)構(gòu)測(cè)定
osmFISH:環(huán)狀單分子熒光原位雜交譬挚,空間結(jié)構(gòu)測(cè)定
REAP- seq:膜蛋白豐度與基因表達(dá)水平測(cè)定
scATAC-seq:?jiǎn)渭?xì)胞空間結(jié)構(gòu)測(cè)定
scBS-seq:?jiǎn)渭?xì)胞甲基化測(cè)序
scChIP-seq:?jiǎn)渭?xì)胞ChIP-seq
scGESTALT:結(jié)合CRISPR-cas9的譜系追蹤弄方法
scHi-C-seq:測(cè)定染色體組裝
sciATAC-seq:結(jié)合index轉(zhuǎn)座酶的scATAC-seq
sci-CAR:利用index聯(lián)合分析mRNA和染色質(zhì)可及性譜
sci-MET:利用index分析單細(xì)胞甲基化水平
sci-RNA-seq:結(jié)合index的scRNA-seq
SCI-seq:?jiǎn)渭?xì)胞組合標(biāo)記測(cè)序锅铅,檢測(cè)CNV
scM&T-seq:?jiǎn)渭?xì)胞甲基化組和轉(zhuǎn)錄組測(cè)序,可研究未知的DNA甲基化與基因表達(dá)之間的關(guān)系
scNOMe- seq:核小體占位與甲基化組測(cè)序
scRRBS:?jiǎn)渭?xì)胞限制性代表區(qū)域甲基化測(cè)序
scTHS- seq:?jiǎn)渭?xì)胞轉(zhuǎn)座體超敏性位點(diǎn)測(cè)序
seqFISH:內(nèi)含子序貫熒光原位雜交减宣,擴(kuò)展觀測(cè)到基因數(shù)量
snmC-seq:?jiǎn)魏思谆奏y(cè)序
SNS:?jiǎn)魏藴y(cè)序
SPLiT-seq:丐版scRNA-seq
STARmap:原位單細(xì)胞測(cè)序
理想的實(shí)驗(yàn)流程應(yīng)當(dāng)全面洞悉細(xì)胞的所有方面盐须,包括分子狀態(tài)、空間構(gòu)象漆腌、胞外環(huán)境互作的全部過程贼邓。盡管當(dāng)下技術(shù)手段無法做到,但多模態(tài)技術(shù)與綜合計(jì)算方法可以是我們離該目標(biāo)越來越近闷尿。文章希望提出整合單細(xì)胞轉(zhuǎn)錄組學(xué)塑径、基因組學(xué)、表觀組學(xué)與蛋白組學(xué)的數(shù)據(jù)統(tǒng)一分析方法填具,重點(diǎn)在結(jié)合其他數(shù)據(jù)類型分析scRNA-seq數(shù)據(jù)统舀,尤其是整合來自于同一細(xì)胞的不同類型數(shù)據(jù)。
文章分為四大塊灌旧,首先探討了多模態(tài)單細(xì)胞分析方法绑咱,其次研究了不同實(shí)驗(yàn)不同數(shù)據(jù)整合分析绰筛,然后討論了單細(xì)胞空間測(cè)序數(shù)據(jù)整合分析方法枢泰,最后給出了整合分析方法的前景與必要性。
1.單細(xì)胞多模態(tài)測(cè)序方法
最初的單細(xì)胞分析方法主要關(guān)注細(xì)胞某狀態(tài)下的某類分子水平铝噩。而現(xiàn)在更引人矚目的是同時(shí)分析單細(xì)胞內(nèi)多種分子以建立更全面的單細(xì)胞分子視圖衡蚂。通常這些方法是將scRNA-seq數(shù)據(jù)與其它分析手段的結(jié)合,目前主要有四種策略從單細(xì)胞中得到多模態(tài)數(shù)據(jù):
1.1FACS結(jié)合scRNA-seq
嚴(yán)格來說這種方法算單模態(tài)。
一些scRNA-seq workflow采用流式分選細(xì)胞毛甲,隨后進(jìn)行scRNA-seq(MARS-seq/Smart-seq/2)年叮,這樣可以同時(shí)獲得單細(xì)胞與對(duì)應(yīng)的熒光信號(hào),將熒光所表示的蛋白質(zhì)水平與轉(zhuǎn)錄組在同一細(xì)胞中關(guān)聯(lián)(Ramsk?ld, D. et al., 2012; Jaitin, D. A. et al., 2014; Picelli, S. et al., 2013 )玻募。早期研究(Hayashi, T. et al., 2010)利用FACS結(jié)合半定量RT-PCR(作者稱之為FBSC‐PCR)只损,結(jié)合scRNA-seq,明確了細(xì)胞表面marker可以區(qū)分細(xì)胞類型與狀態(tài)(Wilson, N. K. et al., 2015;該文結(jié)合了Smart-seq2)七咧,(Paul, F. et al., 2015;該文結(jié)合了MARS-seq)和鑒定稀有細(xì)胞的思路跃惫。Paul, F. et al., 2015與Nestorowa, S. et al., 2016利用該workflow研究發(fā)現(xiàn)了小鼠造血祖細(xì)胞由轉(zhuǎn)錄組定義不同細(xì)胞簇的免疫表型,Wilson, N. K. et al., 2015則分離了小鼠HSCs艾栋,鑒定細(xì)胞維持干性相關(guān)的表面marker爆存。但是囿于熒光光譜的重疊現(xiàn)象,利用該法測(cè)到的每個(gè)細(xì)胞的參數(shù)范圍有限蝗砾。
1.2細(xì)胞內(nèi)組分分離分析
針對(duì)熒光無法分選的部分先较,F(xiàn)ACS顯然是不合適的,尤其是需要同時(shí)測(cè)得單細(xì)胞基因組與胞內(nèi)蛋白的scRNA-seq實(shí)驗(yàn)悼粮。此時(shí)需要物理分離或通過不同tag篩選出不同組分闲勺。
G&T-seq通過加入oligo(dT)特異性分離mRNA同時(shí)保留基因組DNA從而實(shí)現(xiàn)了基因組轉(zhuǎn)錄組平行測(cè)序(Macaulay, I. C. et al., 2015)DR-seq通過則通過加入barcode特異擴(kuò)增cDNA序列實(shí)現(xiàn)基因組轉(zhuǎn)錄組平行測(cè)序(Dey, S. S. et al., 2015)。這使得單細(xì)胞基因表達(dá)水平與其對(duì)應(yīng)基因型聯(lián)系起來扣猫,深度揭示單細(xì)胞間DNA拷貝數(shù)變異與染色體重排對(duì)下游mRNA豐度的具體關(guān)聯(lián)霉翔。這些方法適用于研究體細(xì)胞基因高度變異的腫瘤組織。
DNA甲基化與轉(zhuǎn)錄組水平結(jié)合研究是基于Macaulay, I. C. et al., 2015的G&T-seq和 Smallwood, S. A. et al., 2014的scBS- seq技術(shù)發(fā)展的苞笨,同普通BSP一樣债朵,用亞硫酸氫鈉處理DNA片段隨后進(jìn)行擴(kuò)增,結(jié)合G&T-seq瀑凝,可以分析同一細(xì)胞內(nèi)的DNA甲基化模式和基因表達(dá)數(shù)據(jù)(Angermueller, C. et al., 2016)序芦。由于DNA甲基化存在不穩(wěn)定性和異質(zhì)性,因此若要研究DNA甲基化與基因表達(dá)間的關(guān)系粤咪,則必須將表觀基因組變異與細(xì)胞間的異質(zhì)性區(qū)別開來谚中。
通過DNA甲基化與轉(zhuǎn)錄組關(guān)聯(lián)分析,為啟動(dòng)子甲基化與基因表達(dá)間的負(fù)相關(guān)性提供深層次的證據(jù)寥枝。此外宪塔,利用barcode系統(tǒng)選擇性標(biāo)記基因組DNA與cDNA,結(jié)合index系統(tǒng)囊拜,可以對(duì)數(shù)千個(gè)單細(xì)胞進(jìn)行染色質(zhì)可及性與基因表達(dá)水平間的關(guān)聯(lián)分析某筐,同時(shí)鑒定出影響基因表達(dá)的順式調(diào)控元件(Cao, J. et al., 2018)。
關(guān)于胞內(nèi)蛋白與mRNA關(guān)聯(lián)研究冠跷,有兩種思路可供借鑒南誊。其一(Darmanis, S. et al., 2016)是將FACS sort到的細(xì)胞裂解后分離裂解液身诺,分別進(jìn)行蛋白質(zhì)與RNA定量。作者采用PEA (鄰近探針延伸分析) 檢測(cè)蛋白并用RT-qPCR定量抄囚,采用qRT-PCR定量mRNA霉赡。該法可以同時(shí)檢測(cè)82個(gè)mRNA/75個(gè)蛋白;其二(Genshaft, A. S. et al.)是將FACS sort到的細(xì)胞在微流控芯片中同時(shí)進(jìn)行逆轉(zhuǎn)錄和PEA而不分離裂解液幔托。該法可以同時(shí)檢測(cè)96個(gè)mRNA/38個(gè)蛋白穴亏。這兩種方法檢測(cè)的蛋白與mRNA數(shù)量與質(zhì)量均有限祖灰。
1.3泛化測(cè)序數(shù)據(jù)統(tǒng)一
此處泛化統(tǒng)一是指將多種數(shù)據(jù)類型(蛋白數(shù)據(jù)/譜系數(shù)據(jù)/基因表達(dá)數(shù)據(jù))整合為一個(gè)通用型數(shù)據(jù)類型瓣赂。
CITE-seq與REAP-seq可以同時(shí)將細(xì)胞表面膜蛋白信息與mRNA轉(zhuǎn)為cDNA信息,通過測(cè)序可以同時(shí)檢測(cè)到二者實(shí)際水平闲坎。具體是利用帶有polyA的不同barcode的抗體結(jié)合細(xì)胞表面蛋白攒驰,barcode可以與mRNA一起檢測(cè)蟆湖。與FACS-scRNAseq相比,針對(duì)不同表位的不同抗體barcode都是特異的玻粪,可以從根本上消除熒光信號(hào)重疊對(duì)檢測(cè)數(shù)量的限制隅津,這使得區(qū)分不同免疫細(xì)胞的細(xì)微差別成為可能。但是該法對(duì)于胞內(nèi)蛋白與mRNA共檢測(cè)是行不通的劲室。作者認(rèn)為可以與PEA結(jié)合來解決這一問題伦仍,或是采用SPLiT-seq、sci-RNA-seq的研究思路來解決很洋。
這些技術(shù)的出現(xiàn)表明若將可以細(xì)胞信息轉(zhuǎn)化為有序的barcode充蓝,我們就可以在分析單細(xì)胞轉(zhuǎn)錄組時(shí)將這些信息同時(shí)獲取。這種策略不僅適用于分析細(xì)胞的自然狀態(tài)喉磁,也適用于大規(guī)奈焦叮基因擾動(dòng)研究。目前有Perturb-Seq(Dixit, A. et al., 2016)和CRISPR-Seq(Adamson, B. et al., 2016; Datlinger, P. et al., 2017; Jaitin, D. A. et al., 2016)协怒,他們將scRNA-seq與CRISPR-cas9結(jié)合進(jìn)行遺傳篩選涝焙,使得研究正向遺傳學(xué)的大規(guī)模基因擾動(dòng)試驗(yàn)成為可能孕暇。具體原理是給單個(gè)基因擾動(dòng)和受到影響的細(xì)胞添加barcode仑撞,通過scRNA-seq能夠鑒定出這兩者,從而推斷CRISPR靶向基因和由此產(chǎn)生的單個(gè)細(xì)胞的轉(zhuǎn)錄譜間的關(guān)系妖滔。目前應(yīng)用在基因調(diào)控網(wǎng)絡(luò)(Dixit, A. et al., 2016)隧哮、未折疊蛋白反應(yīng)(Adamson, B. et al., 2016)、免疫細(xì)胞分化發(fā)育(Datlinger, P. et al., 2017)和T細(xì)胞受體激活(Jaitin, D. A. et al., 2016)座舍,非編碼區(qū)調(diào)控元件(Klann, T. S. et al., 2017)沮翔。此外,還可以結(jié)合CRISPR-dcas9系統(tǒng)簸州,擴(kuò)展到轉(zhuǎn)錄調(diào)控鉴竭、表觀遺傳調(diào)控領(lǐng)域中(Thakore, P. I. et al., 2016; Liu, X. S. et al., 2016; Hilton, I. B. et al., 2015; Konermann, S. et al., 2015; Gilbert, L. A. et al., 2017),18年發(fā)展了同時(shí)靶向和敲除基因的技術(shù)(Boettcher, M. et al., 2018)歧譬。
另一個(gè)應(yīng)用是結(jié)合CRISPR-cas9的譜系追蹤技術(shù)岸浑。單細(xì)胞譜系追蹤是去年的大熱方向之一搏存,此處提到三種mRNA+lineage方法:scGESTALT、ScarTrace矢洲、LINNAEUS璧眠。這三種方法各有不同,但大體是利用CRISPR-cas9連續(xù)切割結(jié)合到基因組上的barcode读虏,細(xì)胞會(huì)用NHEJ來應(yīng)對(duì)這種損傷责静。但NHEJ容易出錯(cuò),從而在DNA序列中產(chǎn)生隨機(jī)突變盖桥,這些突變通過細(xì)胞分裂進(jìn)行遺傳灾螃,結(jié)合scRNAseq利用這些突變作為復(fù)合barcode來構(gòu)建組織或器官發(fā)育譜系。
另一種略有不同的方法是MEMOIR揩徊,它結(jié)合smFISH與CRISPR-cas9系統(tǒng)腰鬼,可以同時(shí)檢測(cè)細(xì)胞譜系與空間位置。
1.3 scRNA-seq數(shù)據(jù)挖掘
普通的scRNA-seq流程除了可以做轉(zhuǎn)錄本豐度外塑荒,還可以進(jìn)行諸如體細(xì)胞突變熄赡、遺傳變異、RNA isoform等分析齿税。
關(guān)于體細(xì)胞突變目前已有研究(Lodato, M. A. et al., 2015),該文通過對(duì)人大腦的少量單細(xì)胞全基因組測(cè)序彼硫,分析了發(fā)生的細(xì)胞突變,構(gòu)建了人大腦神經(jīng)細(xì)胞譜系凌箕。作者發(fā)現(xiàn)突變大多發(fā)生在高轉(zhuǎn)錄活性相關(guān)位置拧篮,這表明可能可以通過scRNA-seq數(shù)據(jù)來分析神經(jīng)細(xì)胞突變情況,根據(jù)轉(zhuǎn)錄狀態(tài)重構(gòu)神經(jīng)細(xì)胞譜系牵舱。此外他托,分析scRNA-seq數(shù)據(jù)中的拷貝數(shù)變異,可以研究癌癥非整倍體與異質(zhì)性等情況(Tirosh, I. et al., 2016; Fan, J. et al., 2018)仆葡。
單細(xì)胞分析也為理解DNA自然變異如何影響基因表達(dá)與細(xì)胞狀態(tài)提供了新思路赏参。有研究結(jié)合GWAS+scRNAseq,鑒定出了不同個(gè)體之間的eQTL(Kang, H. M. et al., 2018)沿盅。
1.4 多模態(tài)數(shù)據(jù)分析
多模態(tài)測(cè)序策略正在催生與之相匹配的數(shù)據(jù)分析方法把篓。多模數(shù)據(jù)集可以檢測(cè)到細(xì)胞間的細(xì)微差異,而單模數(shù)據(jù)很可能無法做到這一點(diǎn)腰涧。由于scRNAseq數(shù)據(jù)存在dropout韧掩,故而它更容易忽略細(xì)胞間的細(xì)微差別;但與來自同一細(xì)胞的其他數(shù)據(jù)互補(bǔ)分析可以改善這一問題窖铡。例如疗锐,很難通過scRNA-seq數(shù)據(jù)區(qū)分不同的T細(xì)胞亞群坊谁,但聯(lián)合膜蛋白分析則可以顯著提高亞群分辨率(Stoeckius, M. et al., 2017),同樣滑臊,RNA+chromatin口芍、RNA+methylation聯(lián)合可能揭示單個(gè)細(xì)胞間的調(diào)控異質(zhì)性,不再贅述雇卷。
單細(xì)胞多模態(tài)分析思路很可能受到bulk-seq多組學(xué)聯(lián)合分析的啟發(fā)(Meng, C. et al., 2016)鬓椭,Argelaguet開發(fā)了一種名為MOFA( multi- omics factor analysis)的方法,該方法在多組學(xué)bulk-seq數(shù)據(jù)中效果良好关划,同時(shí)測(cè)試了單細(xì)胞DNA甲基化數(shù)據(jù)與RNA數(shù)據(jù)聯(lián)合處理情況小染,效果也可以。這暗示適用于bulk-seq的多組學(xué)數(shù)據(jù)處理方式可能也適用于單細(xì)胞多模態(tài)數(shù)據(jù)贮折。鑒于單細(xì)胞數(shù)據(jù)規(guī)模遠(yuǎn)超bulk-seq裤翩,多視圖機(jī)器學(xué)習(xí)不失為一種重要的補(bǔ)充手段(Colomé- Tatché, M. & Theis, F. J., 2018)。
單細(xì)胞多模態(tài)研究策略為解析細(xì)胞內(nèi)不同組分間的關(guān)系提供了新方法调榄。如CITE-seq和REAP-seq可以輕易鑒別出相關(guān)度較低的RNA-protein模塊踊赠,表明此處存在活躍的轉(zhuǎn)錄后調(diào)節(jié)。還有一個(gè)很有意思的是通過測(cè)量剪接過的成熟RNA與未剪接RNA的相對(duì)豐度振峻,可以建立RNA與蛋白的關(guān)聯(lián)動(dòng)態(tài)模型(La Manno, G. et al., 2018)臼疫。
此外,還可以在不同類型數(shù)據(jù)間建立統(tǒng)計(jì)模型扣孟。前面提到的sci-CAR文章建立了染色質(zhì)可及性與基因表達(dá)水平間的統(tǒng)計(jì)模型烫堤,通過染色質(zhì)可及性數(shù)據(jù)估計(jì)細(xì)胞內(nèi)基因表達(dá)水平(Cao, J. et al., 2018),另一組研究人員建立了gRNA與基因表達(dá)水平間的線性回歸模型凤价,用以識(shí)別細(xì)胞應(yīng)答的前后關(guān)系鸽斟,重構(gòu)轉(zhuǎn)錄網(wǎng)絡(luò)(Perturb-Seq(Dixit, A. et al., 2016))。通過這種手段可以研究目標(biāo)物種復(fù)雜的調(diào)控網(wǎng)絡(luò)利诺。
2. 不同來源測(cè)序數(shù)據(jù)整合
前面主要講了在同一測(cè)序?qū)嶒?yàn)同一批細(xì)胞進(jìn)行的多模態(tài)數(shù)據(jù)整合富蓄,而不同測(cè)序?qū)嶒?yàn)數(shù)據(jù)整合分析才是亟需解決的關(guān)鍵問題。同bulk seq 數(shù)據(jù)一樣慢逾,處理批次效應(yīng)是綜合分析不同實(shí)驗(yàn)室立倍、不同workflow產(chǎn)出數(shù)據(jù)的首要問題(SVA包(Leek, J. T. 2014))。然而目前bulk seq水平的處理方法無法處理單細(xì)胞數(shù)據(jù)((Haghverdi, L, et al., 2018侣滩,作者用MNN處理數(shù)據(jù)口注,該法在mnnpy中得到改進(jìn)); Butler, A, et al,. 2018)。目前最新方法利用CCA/MNN可以識(shí)別出兩個(gè)數(shù)據(jù)集間共有的部分君珠,判定細(xì)胞間共有的生物學(xué)狀態(tài),然后以這些相同狀態(tài)的細(xì)胞為基準(zhǔn)消除批次效應(yīng)寝志。
2.1 常規(guī)scRNA-seq數(shù)據(jù)整合分析
此處作者介紹了他自己在Seurat V2中開發(fā)的方法(Satija, R, et al., 2015;),該法用CCA鑒別出不同數(shù)據(jù)集間相同的細(xì)胞類型且可以避免出現(xiàn)由批次效應(yīng)或常規(guī)PCA造成的假陽性細(xì)胞類型材部;接下來采用動(dòng)態(tài)時(shí)間規(guī)整算法校正數(shù)據(jù)集間細(xì)胞密度差異毫缆。這兩步驟可以將細(xì)胞投影到一個(gè)低維空間,具有相同生物學(xué)狀態(tài)的細(xì)胞相互接近且消除了不同數(shù)據(jù)集帶來的影響乐导。
另一種方法即mnnCorrect苦丁,最早用于計(jì)算機(jī)領(lǐng)域圖形識(shí)別。該法尋找不同數(shù)據(jù)集間最接近的細(xì)胞兽叮,將之判定為潛在的狀態(tài)相同細(xì)胞芬骄,隨后利用成對(duì)MNNs距離計(jì)算一個(gè)批次參數(shù)(batch vector)猾愿,用以校正原始表達(dá)矩陣(Haghverdi, L., 2018)鹦聪。
CCA/mnnCorrect在整合處理不同來源的scRNA-seq數(shù)據(jù)時(shí)表現(xiàn)良好。這將極大提升發(fā)現(xiàn)稀有細(xì)胞蒂秘、微弱轉(zhuǎn)錄差異細(xì)胞及與之對(duì)應(yīng)maker的能力(Haghverdi, L, et al,.2018泽本; Butler, A,et al,. 2018) 。這為建立一個(gè)統(tǒng)一的單細(xì)胞參考數(shù)據(jù)集提供了依據(jù)姻僧。在此基礎(chǔ)上规丽,scRNA-seq數(shù)據(jù)整合分析得到了快速發(fā)展(Hie, B. L, et al., 2018; Barkas, N. et al., 2018; Park, J.-E., 2018; Korsunsky, I. et al., 2018; Stuart, T. et al., 2018; Welch, J. et al., 2018)。這種多數(shù)據(jù)集整合分析的應(yīng)用遠(yuǎn)不止用于校正批次效應(yīng)這么單一撇贺。它可以在單細(xì)胞尺度上深入比較細(xì)胞間的狀態(tài)赌莺,發(fā)現(xiàn)細(xì)胞對(duì)環(huán)境及基因擾動(dòng)的特異性響應(yīng),對(duì)不同疾病及不同治療下的患者的測(cè)序數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化松嘶。
scRNA-seq數(shù)據(jù)整合分析還可以擴(kuò)展至跨物種分析艘狭。Karaiskos,N比較了兩種果蠅早期胚胎的空間基因表達(dá)模式,通過構(gòu)建空間基因表達(dá)圖譜翠订,該研究系統(tǒng)比較了兩個(gè)果蠅的同源基因表達(dá)譜巢音,鑒定出了彼此間的進(jìn)化波動(dòng)。Tosches比較了爬行動(dòng)物與哺乳動(dòng)物腦細(xì)胞間的相關(guān)性尽超。Baron分析了人與小鼠胰島細(xì)胞scRNA-seq數(shù)據(jù)官撼,鑒定出了二者間的保守亞群。Alpert開發(fā)出了cellAlign似谁,在一維水平上比對(duì)了人與小鼠的擬時(shí)軌跡傲绣,發(fā)現(xiàn)人胚胎合子激活要比小鼠晚,小鼠中比人活躍的基因皆與蛋白合成相關(guān)巩踏⊥核校跨物種分析未來是光明的,但對(duì)于多物種整合分析而言蛀缝,精確鑒定物種間同源基因是多物種整合分析至關(guān)重要的一步顷链。
2.2 多重scRNA-seq數(shù)據(jù)集間的細(xì)胞分類
以細(xì)胞分類信息的形式串聯(lián)不同的scRNA-seq數(shù)據(jù)集,或者借鑒到自己實(shí)驗(yàn)中,是優(yōu)于合并數(shù)據(jù)集然后de novo聚類這種方法的嗤练。且隨著有參細(xì)胞圖譜的開發(fā)榛了,這種方式將更加尋常。目前已開發(fā)對(duì)應(yīng)方法:scmap- cell & scmap- cluster煞抬,其中scmap-cell 用乘積量化(product quantization)算法進(jìn)行比對(duì)霜大,而scmap-cluster則用于識(shí)別未知數(shù)據(jù)集中的cluster。
利用已有的注釋數(shù)據(jù)集革答,目前開發(fā)的新方法采用奇異值分解战坤、線性判別分析和支持向量機(jī)算法來對(duì)細(xì)胞進(jìn)行分類。此外残拐,隨著引用數(shù)據(jù)集的大小途茫、范圍與深度越來越高,監(jiān)督聚類在解析細(xì)胞類型方面要比無監(jiān)督聚類強(qiáng)得多溪食。通過以上這些方法囊卜,可以更精確地識(shí)別并解析細(xì)胞亞群。
2.3 不同來源和類型的單細(xì)胞數(shù)據(jù)整合分析
satija已有相關(guān)文章研究:Comprehensive Integration of Single-Cell Data
這一部分講的是將scRNA-seq數(shù)據(jù)與其它不同來源和類型數(shù)據(jù)諸如甲基化错沃、染色質(zhì)結(jié)構(gòu)等整合分析的方法栅组。
將scRNA-seq數(shù)據(jù)與其它類型、不同來源的單細(xì)胞數(shù)據(jù)整合分析是無法提取到數(shù)據(jù)間的共同特征的枢析,因?yàn)樗鼈儾皇且粋€(gè)類型的數(shù)據(jù)玉掸,需要不同的分析方法。這點(diǎn)在基于基因組的數(shù)據(jù)(如染色質(zhì)可及性與甲基化數(shù)據(jù))與基于基因的數(shù)據(jù)(如基因與蛋白表達(dá)數(shù)據(jù))間整合分析尤為明顯醒叁。但如果這些數(shù)據(jù)來自于同一類細(xì)胞群司浪,由于存在著共同的生物學(xué)狀態(tài),此時(shí)可以聯(lián)立分析以發(fā)現(xiàn)不同數(shù)據(jù)集類型間的對(duì)應(yīng)關(guān)系辐益。
MATCHER是一種在一維水平上比較不同類型測(cè)序數(shù)據(jù)擬時(shí)軌跡的方法断傲。簡(jiǎn)單來說就是比對(duì)不同類型測(cè)序數(shù)據(jù)的擬時(shí)軌跡,以確定這些數(shù)據(jù)集間的對(duì)應(yīng)關(guān)系智政。這種方法可以識(shí)別不同數(shù)據(jù)集間的“等效細(xì)胞”而不需預(yù)先知道彼此間的對(duì)應(yīng)關(guān)系认罩。開發(fā)者用scM&T- seq(Angermueller, C. et al., 2016)和scRNA-seq數(shù)據(jù)做了驗(yàn)證,準(zhǔn)確預(yù)測(cè)了DNA甲基化與基因表達(dá)之間的關(guān)系续捂。
其他sc-seq數(shù)據(jù)不同于scRNA-seq數(shù)據(jù)一樣可以借助Marker解析細(xì)胞類型垦垂,因此可以利用scRNA-seq解析出的細(xì)胞信息為其他sc-seq數(shù)據(jù)分析做參考。有研究( Lake, B. B. et al., 2018)對(duì)不同腦組織切片進(jìn)行了單核RNAseq(snRNA-seq)與單細(xì)胞轉(zhuǎn)座子超敏性位點(diǎn)測(cè)序(scTHS-seq)牙瓢,通過梯度推進(jìn)算法利用單細(xì)胞基因表達(dá)譜指導(dǎo)了染色質(zhì)可及性測(cè)序數(shù)據(jù)集的細(xì)胞分類:作者首先鑒別出snRNA-seq數(shù)據(jù)集與scTHS-seq數(shù)據(jù)集共有的細(xì)胞亞群劫拗,訓(xùn)練一個(gè)可以將基因表達(dá)與染色質(zhì)可及性數(shù)據(jù)關(guān)聯(lián)的模型;然后利用該模型去分類scTHS-seq中剩余未被分類的細(xì)胞矾克。這種方法可以更細(xì)致地對(duì)大腦組織中的細(xì)胞進(jìn)行分類页慷。同樣,可以整合scATAC-seq數(shù)據(jù)集來分析單細(xì)胞DNA甲基化或轉(zhuǎn)座酶染色質(zhì)可及性間的細(xì)胞分類。
目前正在開發(fā)的新方法有利用假定等價(jià)特征酒繁、或識(shí)別在所有類型數(shù)據(jù)中的假定相關(guān)共享特征來進(jìn)行數(shù)據(jù)交叉模態(tài)分類滓彰。 Welch開發(fā)了一種集成非負(fù)矩陣分解(iNMF)的方法,名為L(zhǎng)IGER州袒,可以跨模態(tài)整合數(shù)據(jù)揭绑。他們對(duì)同一類型皮質(zhì)細(xì)胞分別進(jìn)行了亞硫酸鹽測(cè)序(snmC- seq)與scRNA-seq并對(duì)其進(jìn)行了分類。他們假設(shè)基因體甲基化與其表達(dá)水平負(fù)相關(guān)從而整合了不同模態(tài)測(cè)序數(shù)據(jù)進(jìn)行細(xì)胞分類郎哭。在seurat v3.0中他匪,作者也引入了假定等價(jià)特征或關(guān)聯(lián)特征進(jìn)行多模態(tài)整合數(shù)據(jù)細(xì)胞分類的方法。這些方法優(yōu)點(diǎn)如上所述夸研,即可以利用scRNA-seq的細(xì)胞分類信息來指導(dǎo)scATAC-seq數(shù)據(jù)細(xì)胞分類邦蜜,鑒別出染色質(zhì)可及性與DNA甲基化的細(xì)胞特異模塊。
2.4空間數(shù)據(jù)與測(cè)序數(shù)據(jù)整合
組織中細(xì)胞的空間結(jié)構(gòu)常反映出細(xì)胞間的功能差異與細(xì)胞命運(yùn)和譜系的差異陈惰。不同基因表達(dá)引導(dǎo)細(xì)胞向不同方向分化畦徘,不同細(xì)胞精確排列形成不同組織毕籽。關(guān)鍵是單細(xì)胞實(shí)驗(yàn)通常在分析前細(xì)胞已被解離抬闯,組織原位信息無法保留,scRNA-seq得到的表達(dá)譜不能完全反應(yīng)細(xì)胞空間信息关筒。具有相似基因表達(dá)譜的細(xì)胞可能存在于不同的空間位置中溶握,故而細(xì)胞分離過程中空間信息的缺失是很多單細(xì)胞實(shí)驗(yàn)的主要缺點(diǎn)。結(jié)合高分辨率基因表達(dá)譜與空間表達(dá)圖譜 (spatial expression maps) 將細(xì)胞空間坐標(biāo)與基因表達(dá)譜聯(lián)系起來蒸播,可以解決這一問題睡榆。有兩類方法:計(jì)算模型或者RNA原位定量,可以同時(shí)收集到細(xì)胞空間坐標(biāo)與基因表達(dá)值袍榆。
FISH方法是原位基因檢驗(yàn)的金標(biāo)準(zhǔn)胀屿,但是它檢測(cè)基因數(shù)目較少。新方法將探針與糾錯(cuò)碼相結(jié)合包雀,可以一次性檢測(cè)到數(shù)百個(gè)基因表達(dá)情況宿崭,或使用空間條形碼來記錄mRNA逆轉(zhuǎn)錄過程中的空間信息。這些數(shù)據(jù)集可以通過計(jì)算方法進(jìn)行整合才写,同時(shí)獲取高通量的空間信息與基因表達(dá)信息葡兑。
目前計(jì)算整合FISH與scRNA-seq數(shù)據(jù)已有相關(guān)文章報(bào)道。這個(gè)思路最初由Satija和Achim提出赞草,應(yīng)用于腦組織研究中讹堤,后來擴(kuò)展到其他組織研究中,為個(gè)體本身提供了完整的空間表達(dá)圖譜厨疙。該類研究通常關(guān)注關(guān)鍵基因的空間分布洲守,獲取它們的空間表達(dá)模式,并為單個(gè)基因建立對(duì)應(yīng)表達(dá)模型,利用這些空間表達(dá)模型梗醇,將單細(xì)胞數(shù)據(jù)mapping到空間信息中暑始。藉由該方法得到的整合數(shù)據(jù)集,可以研究幾乎所有基因的空間輪廓婴削,進(jìn)而研究每種細(xì)胞所在區(qū)域情況廊镜。
目前最新的方法可以從該類整合數(shù)據(jù)中系統(tǒng)分析基因空間表達(dá)趨勢(shì)。但是該類方法只適用于已有明晰空間結(jié)構(gòu)的組織或個(gè)體唉俗,如早期胚胎與動(dòng)物肝臟嗤朴;在成熟個(gè)體或?qū)嶓w腫瘤應(yīng)用仍不現(xiàn)實(shí)。一些研究提出了一種粗整合方案:scRNA-seq鑒定細(xì)胞簇marker基因后虫溜,用FISH或免疫組化檢測(cè)一小部分感興趣基因雹姊,將之與scRNA-seq相整合。但是此類研究較為粗糙衡楞,并未提供系統(tǒng)的解決方案 (Puram, S. V. et al., 2017吱雏;Pandey, S. et al., 2018)。
近年來瘾境,有兩種高分辨率的空間基因表達(dá)測(cè)定方法被開發(fā)出來歧杏,可以檢測(cè)大范圍2D或3D組織內(nèi)單個(gè)細(xì)胞數(shù)十至數(shù)百基因表達(dá)情況(Wang, X. et al., 2018;Codeluppi, S. et al., 2018)迷守。這些方法極大降低了組織背景熒光犬绒,提高了信噪比。這兩種方法(osmFISH&STARmap)均可以保有組織原位三維空間信息兑凿。這些方法可以原位獲取許多細(xì)胞和基因的精確表達(dá)譜凯力,可以在細(xì)胞原位進(jìn)行分子分型,評(píng)估細(xì)胞分布環(huán)境礼华,推斷細(xì)胞各類細(xì)胞的三維分布咐鹤,將細(xì)胞信息推到解剖學(xué)水平上去∈バ酰空間數(shù)據(jù)與scRNA-seq數(shù)據(jù)整合祈惶,可以為研究組織構(gòu)成與功能提供全新的手段。
3. 展望
隨著單細(xì)胞技術(shù)日趨成熟晨雳,每個(gè)細(xì)胞所檢測(cè)的測(cè)量量與檢測(cè)到的細(xì)胞和分子數(shù)量都在逐漸增加行瑞。因此整合不同實(shí)驗(yàn)得到的不同模態(tài)數(shù)據(jù)成為必然。目前正在進(jìn)行的人類細(xì)胞圖譜和關(guān)鍵模式生物圖譜是當(dāng)下最大規(guī)模的多模態(tài)數(shù)據(jù)整合工作餐禁。整合單細(xì)胞一系列多模態(tài)數(shù)據(jù)血久,我們可以獲取轉(zhuǎn)錄組之上的細(xì)胞圖譜,洞悉細(xì)胞的整體狀態(tài)帮非。分析單細(xì)胞多模態(tài)數(shù)據(jù)之間的關(guān)系氧吐,可以揭示細(xì)胞功能的潛在基礎(chǔ)讹蘑,推斷各模態(tài)間的因果關(guān)系。
生物學(xué)中有一個(gè)主要問題:什么是細(xì)胞類型筑舅?
解決方案正如那個(gè) 老問題:“什么是基因座慰?” 的答案一般,該問題是通過跨物種DNA序列比較與多種模式下的生化分析來解答的翠拣。故而本問題的答案必是在多種模式與條件下版仔,對(duì)單細(xì)胞進(jìn)行細(xì)致分析來回答。