劉小澤寫(xiě)于19.4.1
中午寫(xiě)到晚上叔壤,總共10個(gè)小時(shí)研究一篇綜述能犯,收獲滿滿,還是看綜述最給力榨了,帶領(lǐng)我們快速了解一個(gè)領(lǐng)域
這篇關(guān)于單細(xì)胞的綜述發(fā)表于2017年7月的Molecular Aspects of Medicine袍暴,Identifying cell populations with scRNASeq 第一作者是Tallulah些侍,通訊是Martin Hemberg
想必都知道全網(wǎng)的英文scRNA教程就是他們實(shí)驗(yàn)室的https://hemberg-lab.github.io/scRNA.seq.course/
Abstract 摘要
單細(xì)胞轉(zhuǎn)錄組在進(jìn)行單個(gè)細(xì)胞的表達(dá)定量檢測(cè)是強(qiáng)有力的工具,但是它產(chǎn)出的數(shù)據(jù)噪音和維度都比較高政模,相比bulk RNA-seq增加了分析難度岗宣。文章就介紹了幾種不同的實(shí)驗(yàn)流程和最流行的分析方法,可以識(shí)別具有重要生物學(xué)意義的基因淋样,可以將數(shù)據(jù)投射到低維耗式,可以對(duì)細(xì)胞聚類推斷亞群,可以解釋驗(yàn)證鑒定到的細(xì)胞類型和細(xì)胞狀態(tài)。
1 Introduction 介紹
人體中大約有 個(gè)細(xì)胞(Bianconi et al., 2013)刊咳,形態(tài)與功能都具有多樣性彪见。傳統(tǒng)的方法是根據(jù)形態(tài)學(xué)而非分子學(xué)特征將細(xì)胞分成200種(Junqueria et al.,
1992)。上世紀(jì)中葉以來(lái)娱挨,免疫熒光(immunofluorescence)和流式細(xì)胞分選技術(shù)( flow cytometry )可以基于細(xì)胞表面蛋白標(biāo)記物存在與否進(jìn)行更精確地分類(Coons et al., 1941; Fulwyler, 1965)余指,但是這些技術(shù)還僅限于易于分離的組織(如:血細(xì)胞譜系),而且只能檢測(cè)表面少量的標(biāo)記物让蕾。
單細(xì)胞測(cè)序的發(fā)展允許使用整個(gè)轉(zhuǎn)錄組的數(shù)千個(gè)細(xì)胞去鑒定細(xì)胞類型,目前scRNA-seq已經(jīng)應(yīng)用在許多發(fā)育中的或者固定時(shí)間點(diǎn)的組織和器官或听,包括大腦不同區(qū)域的研究(Darmanis et al., 2015; Karlsson and Linnarsson,2017; Liu et al., 2016; Tasic et al., 2016; Zeisel et al., 2015)探孝、視網(wǎng)膜研究(Baron et al., 2016; Jaitin et al., 2014; Macosko et al., 2015; Zheng et al., 2017)、胰腺研究(Baron et al., 2016; Segerstolpe et al., 2016; Wang et al., 2016)誉裆、免疫細(xì)胞研究(Jaitin et al., 2014; Villani et al.,2017) 顿颅、早期胚胎發(fā)育(Biase et al., 2014; Goolam et al., 2016; Xue et al., 2013)、造血(Velten et al.,2017; Wilson et al., 2015)
文章列出了一些方法可以根據(jù)scRNA數(shù)據(jù)識(shí)別細(xì)胞群 (圖1)
【圖中不同的顏色表示對(duì)第一步得到的表達(dá)矩陣進(jìn)行的不同處理足丢,例如第二個(gè)藍(lán)色框"feature selection"是從原始表達(dá)矩陣中刪除行粱腻,方法有HVG、M3Drop斩跌、Spike-in绍些;再往下"dimensionality reduction "目的是降維,會(huì)計(jì)算出一個(gè)新的包含meta-features的矩陣耀鸦,可以想象成把細(xì)胞分類柬批,相似的群體匯集到一起有共同的meta元信息,方法如:PCA袖订、tSNE氮帐、Diffusion map;接下來(lái)是聚類"Clustering"洛姑,包括計(jì)算細(xì)胞與細(xì)胞之間的聚類上沐,如K-means、DBSCAN楞艾;或是"K近鄰算法"参咙,如Louvain、infomap硫眯、densityCut昂勒、SNN-cliq】
此外,文章還討論了設(shè)計(jì)實(shí)驗(yàn)時(shí)需要考慮的不同方案舟铜,因?yàn)閷?shí)驗(yàn)設(shè)計(jì)的好壞直接影響下游分析結(jié)果戈盈;討論了鑒定生物學(xué)相關(guān)的細(xì)胞類群對(duì)scRNA數(shù)據(jù)分析的挑戰(zhàn)以及應(yīng)對(duì)的一些統(tǒng)計(jì)方法;然后就是非監(jiān)督式聚類,用來(lái)細(xì)胞分群塘娶;最后討論了如何去驗(yàn)證分群的細(xì)胞是否真的有生物學(xué)意義归斤。
2 Experimental design considerations 實(shí)驗(yàn)設(shè)計(jì)
scRNA-seq并不是一成不變,需要根據(jù)具體實(shí)驗(yàn)進(jìn)行調(diào)整刁岸。
比如一個(gè)常用的操作就是鑒定稀有(數(shù)量小于1%)細(xì)胞群(Campbell et al. (2017; Gru?n et al., 2015; Jiang et al., 2016; Segerstolpe et al., 2016)脏里,意味著需要大量的供試細(xì)胞。例如:Campbell作者對(duì)小鼠下丘腦的20921個(gè)細(xì)胞進(jìn)行測(cè)序虹曙,結(jié)果鑒定了包含少于50個(gè)細(xì)胞的神經(jīng)元亞群(占比<0.2%) 迫横。
另一個(gè)scRNA-seq的應(yīng)用就是確定相似的細(xì)胞類型之間有何差異,這就需要對(duì)低表達(dá)基因提高檢出率酝碳,降低技術(shù)噪音矾踱。例如:分析造血干細(xì)胞之間的差異就需要檢測(cè)低表達(dá)豐度的轉(zhuǎn)錄因子,反過(guò)來(lái)就需要敏感度更高的scRNA測(cè)序方法(Tsang et al., 2015)或者靶向檢測(cè)(如RT-qPCR)(Wilson et al., 2015)疏哗。
2.1 實(shí)驗(yàn)方法
概述
一般每個(gè)scRNA-seq都包含三個(gè)方面:1)單個(gè)細(xì)胞分離呛讲;2)文庫(kù)制備;3)測(cè)序返奉。
1)細(xì)胞分離需要先將樣品解離贝搁,然后分選到PCR板的單獨(dú)孔中,或者利用單獨(dú)的液滴(droplets)芽偏、微孔(microwells)或微流控(microfluidic)捕獲單個(gè)細(xì)胞雷逆;
2)文庫(kù)制備需要反轉(zhuǎn)錄和擴(kuò)增,可以利用全長(zhǎng)轉(zhuǎn)錄本或者"3'或5'"標(biāo)記的一端污尉;
3)測(cè)序一般是多重測(cè)序(目的:?jiǎn)未螌?shí)驗(yàn)中同時(shí)測(cè)序大量樣本)关面,深度可以從平均25000reads/cell(Macosko et al.,2015),到5M reads/cell(Kolodziejczyk et al., 2015)
兩類方法
對(duì)于需要高通量的研究十厢,基于液滴(droplet)的方法等太,如InDrop(Klein et al., 2015)、Drop-seq(Macosko et al., 2015)蛮放、10X Chromium(Zheng et al., 2017)是比較流行的缩抡,可以一次制備成千上萬(wàn)細(xì)胞,捕獲的性價(jià)比高包颁,但是大量的細(xì)胞測(cè)序可能增加總體成本瞻想。不過(guò)有研究表明,確定細(xì)胞類型所需要的最低測(cè)序深度可以為25000-50000reads/cell (Jaitin et al., 2014; Pollen et al., 2014)娩嚼。雖然droplet的方法通量比較高蘑险,但是細(xì)胞檢測(cè)率和mRNA的捕獲效率會(huì)偏低(Svensson et al., 2017; Ziegenhain et al., 2017)。近年來(lái)有一些可以替代droplet的方法出現(xiàn)岳悟,包括基于微孔的方法(Fan et al., 2015; Gierahn et al., 2017)和組合索引(combinatorial indexing)的方法(Cao et al., 2017)佃迄。以上這些方法需要再細(xì)胞裂解前加上barcodes泼差,因此只支持3'/5'測(cè)序。
如果實(shí)驗(yàn)中細(xì)胞量不大呵俏,可以考慮PCR plate-based的方法(將少量的細(xì)胞分選到含有建庫(kù)PCR引物的多孔板中)堆缘,包括Smartseq2(Picelli et al., 2013)、SCRB-seq(Soumillon et al., 2014) 普碎、CEL-seq(Hashimshony et al.,2012)和MARS-seq(Jaitin et al., 2014)吼肥。細(xì)胞一般利用微流控芯片(如:Fluidigm C1,它將細(xì)胞捕獲和文庫(kù)構(gòu)建組合在一起)麻车。以上的方法捕獲細(xì)胞的性價(jià)比比較低缀皱,但檢出率較高(Svensson et al., 2017; Ziegenhain et al.,
2017)。另外這些方法既支持3'/5'端測(cè)序动猬,也支持全長(zhǎng)轉(zhuǎn)錄本測(cè)序啤斗。有研究表明,1M reads/樣本細(xì)胞可以最大化基因檢出率(Svensson et al., 2017; Ziegenhain et al., 2017)枣察,但為了精確定量isofroms或者找到含量更低的ncRNAs争占,需要更多的測(cè)序(Huang and Sanguinetti,2017; Sims et al., 2014)燃逻。
Doublet的問(wèn)題
scRNA測(cè)序方法中一個(gè)不可回避的問(wèn)題就是:"雙細(xì)胞 doublet"序目,即一個(gè)液滴或一個(gè)微孔中包含了2個(gè)或多個(gè)細(xì)胞,這種情況必須通過(guò)進(jìn)一步仔細(xì)的分析(Segerstolpe et al., 2016; Wang et al., 2016)才能避免被誤認(rèn)成新的中間細(xì)胞類型伯襟。
對(duì)于高通量的捕獲方法猿涨,需要權(quán)衡細(xì)胞捕獲效率和doublet檢出率,一般設(shè)定doublet的范圍是1-5%(Ziegenhain et al., 2017)姆怪,微流控Fluidigm平臺(tái)為1-10%(Fluidigm Corporation, 2017) [過(guò)去設(shè)定閾值竟然高達(dá)30%(Macosko et al., 2015)]叛赚。對(duì)于 plate-based的方法,沒(méi)有這種明確的的規(guī)定稽揭。
除了doublet可能導(dǎo)致混合文庫(kù)(mixed libraries)俺附,還有可能是測(cè)序文庫(kù)發(fā)生了"泄露",有報(bào)道說(shuō)Illumina的Hiseq 4000中有5-10%的reads會(huì)發(fā)生(Sinha et al.,2017)溪掀,在HiseqX中沒(méi)有發(fā)現(xiàn)(Owens et al., 2017)
批次效應(yīng)
Doublet只是實(shí)驗(yàn)中產(chǎn)生的一種情況事镣,會(huì)混淆細(xì)胞類群的識(shí)別。另一個(gè)挑戰(zhàn)是批次效應(yīng)(Hicks et al., 2015; Tung et al., 2017) 揪胃。批次效應(yīng)是不同時(shí)間或不同人員制備的實(shí)驗(yàn)重復(fù)之間的實(shí)驗(yàn)效率或細(xì)胞狀態(tài)不同而產(chǎn)生的璃哟。如果對(duì)感興趣的生物學(xué)類型(如突變型與野生型)進(jìn)行不同批次的處理(如:不同日期提取或使用不同PCR板擴(kuò)增),那么基本不可能從數(shù)據(jù)分析角度消除批次效應(yīng)(只能用一些算法比如quantile喊递、SVA包的ComBat (Stein et al., 2015) )随闪、RUVs(Risso et al.,2014)、linear mixed-modelling (Tung et al., 2017)骚勘。
想要消除批次效應(yīng)只能通過(guò)仔細(xì)的實(shí)驗(yàn)設(shè)計(jì)铐伴,將每個(gè)生物條件分散到各個(gè)實(shí)驗(yàn)批次中,做到"一視同仁",例如:采用"balanced"方法(Hicks et al.,2015)讓每個(gè)批次包含不同生物處理的細(xì)胞盛杰,每個(gè)生物處理在不同的批次中都存在挽荡。
2.2 技術(shù)噪音
UMI與Spike-ins
單細(xì)胞轉(zhuǎn)錄組一般會(huì)搭配unique molecular identifiers (UMIs) 或已知濃度的外源RNA分子(spike-ins) 來(lái)解決高技術(shù)噪音問(wèn)題。
UMI是反轉(zhuǎn)錄過(guò)程中添加到每個(gè)cDNA的5'或3'端即供,長(zhǎng)度為4-10bp的barcodes(Islam et al., 2014)定拟。它的作用是將reads分配給每個(gè)反轉(zhuǎn)錄事件,區(qū)分哪些reads是來(lái)自于同一個(gè)原始的cDNA分子逗嫡,然后估算原始分子數(shù)量(Islam et al., 2014; Kivioja et al., 2011)青自。因?yàn)樗娃D(zhuǎn)錄本的一端結(jié)合后進(jìn)行5'/3'測(cè)序,因此會(huì)存在丟失isoform信息驱证、捕獲的遺傳變異較少等問(wèn)題延窜,評(píng)價(jià)等位基因表達(dá)會(huì)比較難。5'/3'測(cè)序的主要優(yōu)勢(shì)就是借助UMI抹锄,消除基因長(zhǎng)度差異逆瑞,消除了擴(kuò)增的偏差,相比之下伙单,全長(zhǎng)轉(zhuǎn)錄本測(cè)序雖然捕獲了轉(zhuǎn)錄本整體获高,但存在3'/5' bias。
標(biāo)準(zhǔn)的spike-ins是ERCC組織指定的一段細(xì)菌序列(Baker et al., 2005; Jiang et al.,
2011)吻育,它們?cè)谵D(zhuǎn)錄長(zhǎng)度念秧、核苷酸含量、poly-A尾的長(zhǎng)度和內(nèi)含子缺失方面都和哺乳動(dòng)物不同(因?yàn)槟壳皢渭?xì)胞主要應(yīng)用于人和小鼠)布疼。存在的問(wèn)題是:ERCC spike- ins的捕獲效率低于內(nèi)源性mRNA (Svensson et al., 2017)摊趾;具有較高的技術(shù)變異性,有時(shí)會(huì)比內(nèi)源基因的含量還多(Robinson and Oshlack, 2010; SEQC/MAQC-III Consortium, 2014)游两;spike-in的計(jì)數(shù)受到生物條件的影響砾层,因此有時(shí)會(huì)失去作為control的優(yōu)勢(shì)。新開(kāi)發(fā)的spike-ins是來(lái)自人類的序列贱案,可能更能代表哺乳動(dòng)物轉(zhuǎn)錄本肛炮,從而減輕一些舊spike-in的影響(Paul et al., 2016)。如果使用了spike-ins轰坊,比對(duì)前應(yīng)該將spike-in序列和參考基因組序列合并作為共同”參考基因組”铸董。
Plate-based方法既可以用UMI也可以用spike-ins,而基于液滴和基于微孔的方法是能用UMI (Gierahn et al., 2017; Macosko et al., 2015)肴沫;微流控的儀器不確定是否可以與UMI或者spike-ins兼容粟害,取決于儀器的設(shè)計(jì)。
多重測(cè)序(Multiplexed-sequencing)
多重測(cè)序也是產(chǎn)生技術(shù)噪音的一個(gè)原因颤芬,因?yàn)樗鼤?huì)導(dǎo)致不同細(xì)胞之間的reads數(shù)不在一個(gè)層次悲幅。使用標(biāo)準(zhǔn)化可以糾正不同細(xì)胞之間的測(cè)序深度影響(Vallejos et al.套鹅,2017)√撸可以利用CPM/TPM(counts/transcripts per million)進(jìn)行校正卓鹿。目前開(kāi)發(fā)的方法,如Scran(Lun et al., 2016)分析含有許多差異基因的數(shù)據(jù)集比較有優(yōu)勢(shì)留荔,SCnorm(Bacher et al., 2017)可以解釋測(cè)序深度對(duì)基因不同表達(dá)水平的影響吟孙。如果數(shù)據(jù)集中包含有spike-ins,它們可能就被用于標(biāo)準(zhǔn)化聚蝶,在鑒定差異基因中具有高魯棒性杰妓,并且可以保留由于總RNA含量不同而產(chǎn)生的差異(Buettner et al., 2015; Gru?n et al., 2014; Owens et al., 2016; Risso et al., 2014; Vallejos et al., 2015)。
3 關(guān)于高維度的處理
維數(shù)的詛咒 curse of dimensionality
雖然scRNA-seq結(jié)果匯總包括所有基因的信息碘勉,也非常有用巷挥,但是我們同時(shí)分析數(shù)千個(gè)基因在計(jì)算上困難很大。數(shù)據(jù)集中測(cè)量的總基因數(shù)稱作"維數(shù)(dimensionality)"验靡,對(duì)于哺乳動(dòng)物通常有1萬(wàn)個(gè)維度左右倍宾。當(dāng)在一個(gè)高維基因表達(dá)空間中比較細(xì)胞時(shí),細(xì)胞間的距離變得更加均勻胜嗓,使得區(qū)分群體間或者群體內(nèi)的差異就非常難高职。
解決這個(gè)詛咒有兩種方法:
首先,將數(shù)據(jù)投射到一個(gè)較低的二維空間(稱作"降維")兼蕊,低維空間一般由算法定義初厚,既降低維度件蚕,又最大化保留原始數(shù)據(jù)的某些特征孙技。因?yàn)橥队斑^(guò)程不可避免會(huì)丟失基因信息,所以投影方法的選擇涉及到一組特定屬性的優(yōu)先級(jí)排序排作。
其次牵啦,可以取出信息量少的基因(在機(jī)器學(xué)習(xí)中稱為"特征選擇"),同樣也是減少分析中用到的維度數(shù)量妄痪。這樣不僅利于可視化哈雏,還可以降低噪音、加快計(jì)算衫生。下面是一些無(wú)監(jiān)督降維的方法和特征選擇裳瘪。
3.1 降維
主成分分析 (PCA)
它將數(shù)據(jù)投射到較少的獨(dú)立的線性維度中,從而捕捉到可能的最大方差罪针。PCA相對(duì)較快彭羹,當(dāng)與稀疏的矩陣(比如單細(xì)胞的表達(dá)矩陣中就包括了許多的0)一起使用時(shí),它可以擴(kuò)展到非常大的數(shù)據(jù)集泪酱。缺點(diǎn)是PCA限于線性維數(shù)派殷,并且假設(shè)數(shù)據(jù)接近正態(tài)分布还最。針對(duì)單細(xì)胞數(shù)據(jù)的大量0值,PCA的變體 zero-inflation算法被開(kāi)發(fā)出來(lái)(Pierson and Yau, 2015) 毡惜,但是這個(gè)模型可能不適用于所有的數(shù)據(jù)集(Andrews and Hemberg, 2016)拓轻。2017年又有人開(kāi)發(fā)了一個(gè)類似PCA的方法,它是基于零膨脹負(fù)二項(xiàng)分布模型(zero-inflated negative binomial model )取代了高斯模型[Risso et al. (2017)](http://
dx.doi.org/10.1101/125112)经伙。
t分布隨機(jī)鄰域嵌入(tSNE)
它也是一種用于大型高維數(shù)據(jù)可視化的統(tǒng)計(jì)方法(Maaten et al., 2008)扶叉。它使用概率分布來(lái)估計(jì)嵌入的情況,tSNE將數(shù)據(jù)投射到各個(gè)孤立的簇中帕膜,實(shí)現(xiàn)細(xì)胞群的可視化辜梳。tSNE的缺點(diǎn)就是算法的隨機(jī)性,即使應(yīng)用于同一個(gè)數(shù)據(jù)集泳叠,也會(huì)產(chǎn)生不同的嵌入結(jié)果作瞄,不過(guò)這種差異比較小并且不顯著。因此最佳的操作就是多次運(yùn)行該算法危纫,確保結(jié)果的完整性宗挥。另外,tSNE對(duì)"perplexity"參數(shù)的選擇很敏感种蝶,需要多次運(yùn)行才能找到合適的perplexity契耿。該方法的作者建議僅用tSNE作為可視化方法,而不是降維的方法螃征。
Diffusion maps (DM)
DM是一種非線性的投影方法搪桂,主要用于分析細(xì)胞的連續(xù)發(fā)展(Moon et al., 2017; Angerer et al., 2016; Haghverdi et al., 2016)。它是基于擴(kuò)散過(guò)程的模型盯滚,將高維數(shù)據(jù)嵌入低維空間踢械。它假設(shè)低維空間是平滑的,并且空間可以從細(xì)胞之間的距離推斷得到魄藕。與tSNE不同内列,DM保留了點(diǎn)自身位置和與遠(yuǎn)端點(diǎn)位置的關(guān)系。因?yàn)樗僭O(shè)細(xì)胞是相對(duì)平滑的連續(xù)體背率,因此在大量的scRNA或RT-qPCR實(shí)驗(yàn)中表現(xiàn)良好(細(xì)胞數(shù)> 1000)话瞧,對(duì)于細(xì)胞數(shù)量較少或存在異質(zhì)性很高的細(xì)胞群時(shí)效果不好(Qiu et al., 2017)。
3.2 特征選擇
Michaelis-Menten modelling of dropouts (M3Drop)
M3Drop利用dropout rate(丟失率:本來(lái)有表達(dá)量卻沒(méi)有測(cè)到)與平均表達(dá)量之間相對(duì)緊密的關(guān)系進(jìn)行特征選擇寝姿。高丟失率的基因可能在細(xì)胞亞群中出現(xiàn)差異表達(dá)交排,因此從擬合關(guān)系中識(shí)別離群點(diǎn)是一種有效地特征選擇方法。該方法改進(jìn)了聚類算法饵筑,允許批量校正結(jié)果(Andrews and Hemberg, 2016)埃篓。
Highly variable genes (HVG)
它基于這種假設(shè):基因相當(dāng)于平均表達(dá)值而言,出現(xiàn)的較大的差異是由于生物學(xué)影響翻翩,而不僅僅是技術(shù)噪音都许。這種方法試圖通過(guò)權(quán)衡方差與平均表達(dá)量之間的關(guān)系來(lái)找到比預(yù)期差異性更高的基因稻薇。這種關(guān)系很難擬合,實(shí)際中基因是按照與移動(dòng)中位數(shù)(moving median)的距離進(jìn)行排序的(Kolodziejczyk et al., 2015)胶征,或者使用另一種源自方差的統(tǒng)計(jì)量塞椎,比如:方差的平方系數(shù)(Brennecke et al. 2013)
Spike-in based methods
它使用與HVG或M3Drop類似的算法確定感興趣的特征。利用來(lái)自spike-in RNAs的數(shù)據(jù)進(jìn)行技術(shù)噪音建模睛低,以確定基因表現(xiàn)出的丟失率或顯著升高的方差案狠。基于spike-in的方法包括:BASiCS(Vallejos et al., 2015) 钱雷、scLVM(Buettner et al., 2015)骂铁。
Correlated expression
相關(guān)表達(dá)法是另一種識(shí)別生物學(xué)相關(guān)基因的方法,可以專門(mén)用于識(shí)別細(xì)胞群(Andrews and Hemberg, 2016)罩抗。兩種細(xì)胞類型之間的差異表達(dá)基因之間是相互關(guān)聯(lián)的拉庵。如果他們?cè)谕环N細(xì)胞類型都表達(dá),那么相關(guān)系數(shù)就為正套蒂;如果在不同細(xì)胞類型中同時(shí)表達(dá)钞支,那么相關(guān)系數(shù)為負(fù)。特征選擇利用的就是相關(guān)性的大小或顯著性操刀。另一種方法如PAGODA(Fan et al., 2016)結(jié)合了HVG和PCA的加載信息烁挟,可以鑒別高度相關(guān)或者有共同功能注釋的基因集
以上的方法處理高維數(shù)據(jù)時(shí)并不排斥,可以使用多種方法骨坑『成ぃ總的來(lái)說(shuō),PCA欢唾、tSNE且警、DM等容易受到批次效應(yīng)和技術(shù)噪音的影響,這種影響會(huì)掩蓋數(shù)據(jù)內(nèi)部結(jié)構(gòu)(Finak et al., 2015; Hicks et al., 2015; Tung et al., 2017)匈辱。而降維之前進(jìn)行特征選擇進(jìn)而去除一些生物意義較少的基因振湾,可以減少批次和噪音的影響杀迹,例如:先進(jìn)行spike-in based feature selection亡脸,再PCA(Liu et al., 2016; Tasic et al., 2016);先HVG树酪,后tSNE(Segerstolpe et al., 2016)浅碾;先HVG,后PCA+tSNE(Campbell et al., 2017)
4 非監(jiān)督聚類鑒定細(xì)胞群
單細(xì)胞比較常用的用途是識(shí)別細(xì)胞群续语。從生物學(xué)角度看垂谢,細(xì)胞是有異質(zhì)性的,一個(gè)細(xì)胞群通常包含不同的細(xì)胞亞群疮茄,例如大腦樣本匯總的神經(jīng)元和膠質(zhì)細(xì)胞滥朱;另外還可以看同種細(xì)胞類型的不同狀態(tài)根暑,例如受刺激和為受刺激的T細(xì)胞。從數(shù)學(xué)角度看徙邻,對(duì)細(xì)胞群的從頭識(shí)別是一個(gè)非監(jiān)督聚類的問(wèn)題排嫌。目前已經(jīng)有幾種成熟的方案應(yīng)用到了單細(xì)胞中。
將大量細(xì)胞分成k個(gè)群的可能性多到不可想象缰犁,因此我們不能考慮所有的可能分群情況淳地,而是應(yīng)該尋求最優(yōu)解。聚類的質(zhì)量取決于群內(nèi)與群間的相似性比較帅容,不同的指標(biāo)對(duì)數(shù)據(jù)的基礎(chǔ)分部做不同的假設(shè)颇象。比如:"modularity"假設(shè)一個(gè)稀疏的圖形結(jié)構(gòu),而計(jì)算k-means使用的數(shù)據(jù)到簇質(zhì)心的距離就是假設(shè)數(shù)據(jù)中的圓形簇大致相同并徘。將一種方法應(yīng)用到和算法本身假設(shè)不同的數(shù)據(jù)上將導(dǎo)致錯(cuò)誤的聚類遣钳,并且沒(méi)有一種聚類方法具有普適性(Wiwie et al., 2015)。
K-means
K-means是一種單細(xì)胞分析常用的聚類算法麦乞,一般在特征選擇和降維后使用耍贾。它的計(jì)算比較快,將細(xì)胞迭代分配給最近的簇中心(或叫"質(zhì)心centroid")路幸,然后重新計(jì)算簇的質(zhì)心荐开。然而,K-means需要預(yù)先指定簇的數(shù)量简肴,并為每個(gè)簇提供隨機(jī)的起始位置晃听,需要多次運(yùn)行來(lái)檢查這些參數(shù)的魯棒性,這些結(jié)果可以再傳遞給SC3進(jìn)行組合(Kiselev et al., 2017)砰识。K-means的一個(gè)缺點(diǎn)是:它先假設(shè)一個(gè)預(yù)先確定的等大小的圓簇?cái)?shù)目能扒,如果不符合假設(shè),那么k-means就會(huì)沿著分化軌跡識(shí)別許多相鄰的簇辫狼,將罕見(jiàn)的細(xì)胞與常見(jiàn)的細(xì)胞類型合并初斑。當(dāng)然,對(duì)于罕見(jiàn)的細(xì)胞群膨处,可以結(jié)合k-means檢測(cè)離群點(diǎn)(outlier)的方法见秤,如RaceID(Gru?n et al., 2015),當(dāng)不包含罕見(jiàn)細(xì)胞群時(shí)真椿,RaceID表現(xiàn)較差鹃答。
Hierarchical clustering
層次聚類是另一種常用的識(shí)別細(xì)胞群體常用方法。不同的層次聚類有不同的假設(shè)突硝,比較常用的是"Ward"和"complete"测摔,假設(shè)存在圓的和k-means大小一致的簇,不過(guò)層次聚類比k-means要慢。層次聚類的優(yōu)點(diǎn)是可以做成樹(shù)狀圖锋八,因此可以確定不同粒度 的聚類之間關(guān)系浙于,然后在不同的高度"切割"樹(shù)狀圖,可以生成不同數(shù)量的群體挟纱。對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行層次聚類的方法包括:pcaReduce(Zurauskiene_ and Yau, 2016)路媚,SINCERA(Guo et al., 2015),CIDR(Lin et al., 2017) 樊销。有研究將層次聚類拓展到了大腦神經(jīng)元細(xì)胞類型(Zeisel et al., 2015)和胰腺中胰島細(xì)胞類型分析(Baron et al., 2016)整慎,這類方法傾向于識(shí)別同種類型細(xì)胞群。
Density-based clustering
基于密度的聚類方法將聚類定義為細(xì)胞密度較高的相鄰區(qū)域围苫。與層次聚類或者k-means聚類不同裤园,它不假設(shè)簇有特定的性狀或大小,而是通常假設(shè)所有簇是一樣密集的剂府,比如細(xì)胞群是同樣均勻的拧揽。另外,密度必須用一個(gè)或多個(gè)參數(shù)來(lái)定義腺占。設(shè)置密度的參數(shù)類似于k-means選擇簇的數(shù)量淤袜,或者像層次聚類中選擇樹(shù)的切割位置∷ゲ基于密度的聚類需要大量的樣本來(lái)準(zhǔn)確估計(jì)铡羡,因此更適用于droplet實(shí)驗(yàn)的數(shù)據(jù)、大型RT-qPCR實(shí)驗(yàn)或幾千上萬(wàn)的細(xì)胞(Campbell et al., 2017; Jiang et al., 2016; Macosko et al., 2015)意鲸。主要方法是:DBSCAN(Ester et al., 1996)烦周,它結(jié)合了Seurat包中的降維算法和GiniClust中的罕見(jiàn)細(xì)胞型特征選擇算法。
Graph clustering
圖聚類怎顾,又叫"群體檢測(cè)"读慎,是基于密度聚類的一個(gè)拓展,專門(mén)用于以圖形展示的數(shù)據(jù)槐雾,比如一組細(xì)胞用"邊edges"相互連接夭委。圖可以輕松使用極小診斷假設(shè)(minimal assumptions) 表示復(fù)雜的非線性結(jié)構(gòu),因此可以識(shí)別不同大小募强、密度株灸、形狀的細(xì)胞群(Lancichinetti and Fortunato, 2009)。另一個(gè)優(yōu)勢(shì)是可以拓展到數(shù)百萬(wàn)個(gè)細(xì)胞的聚類钻注。
圖中的密度可以根據(jù)連接一組細(xì)胞"edges"的數(shù)量測(cè)量蚂且,然后與零假設(shè)比較,例如:完全隨機(jī)圖或由一定程度控制的隨機(jī)圖中使用一個(gè)叫做"模量modularity"的度量幅恋。最常用的方法是:Louvain算法(Blondel et al., 2008; Lancichinetti and Fortunato, 2009),在PhenoGraph (Levine et al., 2015) 和Seurat(V 1.4)中也使用泵肄。另外捆交,密度可以通過(guò)圖中的隨機(jī)漫步" random walks"建模淑翼,并使用在每個(gè)細(xì)胞上建模消耗的時(shí)間來(lái)估計(jì),這也是densityCut (Ding et al., 2016)的策略品追。另外一種估算密度的方法是使用每個(gè)細(xì)胞的k個(gè)最臨近neibour之間的重疊玄括,這在SNN-Cliq (Xu and Su, 2015)被應(yīng)用。主要的缺點(diǎn)就是:數(shù)據(jù)沒(méi)有固定的圖形結(jié)構(gòu)肉瓦。
總結(jié)
聚類方法的一個(gè)關(guān)鍵選擇因素就是要識(shí)別多少組遭京,粗略聚類可以識(shí)別出少數(shù)非常不同的聚類,這些聚類與細(xì)胞類型可能相對(duì)應(yīng)泞莉;而精細(xì)聚類可以識(shí)別大量但不明顯的聚類哪雕,這些聚類可能對(duì)應(yīng)不同細(xì)胞狀態(tài)
大多的聚類算法需要我們預(yù)先定義個(gè)數(shù)(如k值)或者與聚類粗細(xì)相關(guān)的參數(shù)(如密度參數(shù)),而選擇合適的K值是比較麻煩的鲫趁,因?yàn)闆](méi)有一套標(biāo)準(zhǔn)的選擇方法斯嚎。
有許多樣本,存在細(xì)胞類型和細(xì)胞狀態(tài)的層次結(jié)構(gòu)挨厚,可能都有研究?jī)r(jià)值堡僻。比如2015年Zeisel對(duì)大腦樣本細(xì)胞進(jìn)行聚類,粗略聚類發(fā)現(xiàn)9中細(xì)胞類型(從神經(jīng)膠質(zhì)等許多非神經(jīng)元細(xì)胞類型中分離出神經(jīng)元)疫剃,然后進(jìn)行精細(xì)聚類發(fā)現(xiàn)神經(jīng)元又分成了7個(gè)皮層特異性組
許多的聚類工具可以在ASAP中找到钉疫,它是一個(gè)web工具(Gardeux et al., 2016)
5 cluster的生物學(xué)鑒定
聚類容易解釋難(相對(duì)來(lái)說(shuō))。首先巢价,聚類算法有一種"啟發(fā)式"效應(yīng)陌选,即使使用均勻分布的數(shù)據(jù),他也能找到一些不同進(jìn)行劃分蹄溉;另外咨油,即使cluster有生物學(xué)效應(yīng)而非噪音,它們依然可能沒(méi)有細(xì)胞類型的差異柒爵。目前沒(méi)有一個(gè)公認(rèn)的標(biāo)準(zhǔn)去判斷一個(gè)分析的細(xì)胞群真的是一類新型細(xì)胞役电。還有,利用轉(zhuǎn)錄差異來(lái)定義細(xì)胞類型比較困難(Buettner et al., 2015)棉胀,因?yàn)榧?xì)胞狀態(tài)(如細(xì)胞周期)的瞬時(shí)差異相比于細(xì)胞類型對(duì)轉(zhuǎn)錄組的影響更大法瑟。
5.1 計(jì)算角度
為了避免多數(shù)聚類算法"啟發(fā)式”的影響,為了評(píng)價(jià)細(xì)胞的重要程度唁奢,算法必須重新重復(fù)運(yùn)行一個(gè)空模型霎挟,將結(jié)果與觀察的結(jié)果比較。這個(gè)空模型數(shù)據(jù)集可以從觀測(cè)數(shù)據(jù)中按一定的概率分布提取麻掸,也可以通過(guò)對(duì)每個(gè)基因的觀測(cè)表達(dá)值進(jìn)行獨(dú)立的隨機(jī)重排序得到酥夭。
為了確保得到一個(gè)質(zhì)量比較好的聚類結(jié)果,可以對(duì)同一個(gè)數(shù)據(jù)集應(yīng)用多個(gè)算法,并確保結(jié)果一致性熬北,保證同一個(gè)數(shù)據(jù)不依賴于任何聚類方法自身的假設(shè)疙描。此外,隨機(jī)聚類方法如:k-means或Louvain maximum modularity讶隐,多次運(yùn)行得到一致結(jié)果起胰,比單獨(dú)運(yùn)行一次得到的結(jié)果更有說(shuō)服力 (Goder and Filkov, 2008; Kiselev et al.,2017)。顯著區(qū)分的cluster在不同的聚類算法結(jié)果中都是一樣可以分開(kāi)的巫延,當(dāng)然效五,如果clusters之間基本不分離,那么不同的算法結(jié)果差異也就比較大炉峰。
計(jì)算的方法主要是提高結(jié)果的可靠性畏妖,但真正要證明鑒定的細(xì)胞群是有生物學(xué)意義(如細(xì)胞類型和細(xì)胞狀態(tài)是不是與特定的功能特征相關(guān)),目前沒(méi)有自動(dòng)化的程序可以全部完成讲冠。
5.2 實(shí)驗(yàn)角度
第一步通常是找差異表達(dá)基因瓜客,也就是能可靠區(qū)分兩個(gè)或多個(gè)cluster的基因(又叫"marker"基因),例如只有一個(gè)cluster高表達(dá)的基因就是marker竿开。這里就需要利用功能注釋谱仪、富集分析。得到的marker基因可以利用實(shí)驗(yàn)進(jìn)行驗(yàn)證否彩,例如:共表達(dá)的marker可以利用RT-qPCR疯攒、高通量測(cè)序或者細(xì)胞儀進(jìn)行重復(fù)(Burns
et al., 2015; Jaitin et al., 2014; Muraro et al., 2016; Tasic et al.,2016)。Marker基因可以用于分離細(xì)胞群進(jìn)行培養(yǎng)和功能測(cè)定列荔。Marker基因也可以用于小細(xì)胞群的原位成像敬尺,Burns等(2015)利用免疫熒光技術(shù)展示了不同細(xì)胞類型在內(nèi)耳中的空間定位,免疫熒光也可用于確認(rèn)細(xì)胞類型標(biāo)記物的共表達(dá)或互斥表達(dá)(Tirosh et al.贴浙, 2016)砂吞。細(xì)胞類型的特異性標(biāo)記可以使用FISH作為靶點(diǎn),除了確定細(xì)胞類型在組織中的空間分布外崎溃,還可以驗(yàn)證它們的共同表達(dá)蜻直。Joost 采用免疫組織化學(xué)和單分子RNA-FISH方法,識(shí)別毛囊內(nèi)不同假定細(xì)胞類型的空間位置袁串,并分析了空間與分化相關(guān)的表達(dá)模式(Joost et al., 2016)概而。
驗(yàn)證cluster的另一種方法是比較不同物種的cluster(例如人和小鼠),從而確定cluster是否廣泛保守囱修,從而推斷是否為真正的細(xì)胞類型赎瑰。Johnson等人(2015)對(duì)人類、小鼠和雪貂的放射狀膠質(zhì)祖細(xì)胞種群進(jìn)行了比較破镰,結(jié)果發(fā)現(xiàn)了兩種新的亞群餐曼,分別存在于人類和雪貂中压储,但在小鼠中卻沒(méi)有,通過(guò)對(duì)各自標(biāo)記基因的比較基因組學(xué)發(fā)現(xiàn)晋辆,它們與哺乳動(dòng)物的腦回畸形有關(guān)渠脉。
研究與特定細(xì)胞群相關(guān)的關(guān)鍵轉(zhuǎn)錄因子水平(增加或減少)可以輔助驗(yàn)證細(xì)胞群宇整。Olsson等人(2016)敲除了與不同的造血祖細(xì)胞有關(guān)Gfi1和Irf8瓶佳,結(jié)果產(chǎn)生了不同的細(xì)胞類型,Gfi1的粒細(xì)胞祖細(xì)胞和Irf8的單細(xì)胞祖細(xì)胞鳞青。
cluster的生物學(xué)驗(yàn)證是很有必要的霸饲,另外還可以提供關(guān)于新細(xì)胞群的特定功能或與疾病狀態(tài)相關(guān)的有用信息
結(jié)論
確定新的或已知的細(xì)胞群可能仍然是未來(lái)scRNASeq實(shí)驗(yàn)的一個(gè)關(guān)鍵目標(biāo)。然而臂拓,由于細(xì)胞數(shù)量和靈敏度之間的權(quán)衡厚脉,可能永遠(yuǎn)不會(huì)有僅有一個(gè)最優(yōu)的scRNASeq實(shí)驗(yàn)平臺(tái)。同樣胶惰,對(duì)于降維傻工、特征選擇和無(wú)監(jiān)督聚類,沒(méi)有一種比較方法在所有情況下都是最優(yōu)的孵滞。得到細(xì)胞分群以后中捆,雖然利用現(xiàn)有的方法可以很容易地識(shí)別出新的細(xì)胞群,但這些發(fā)現(xiàn)必須通過(guò)外部數(shù)據(jù)或?qū)嶒?yàn)來(lái)驗(yàn)證坊饶,以確保它們具有生物學(xué)意義泄伪。
歡迎關(guān)注我們的公眾號(hào)~_~
我們是兩個(gè)農(nóng)轉(zhuǎn)生信的小碩翩腐,打造生信星球扮碧,想讓它成為一個(gè)不拽術(shù)語(yǔ)、通俗易懂的生信知識(shí)平臺(tái)桑腮。需要幫助或提出意見(jiàn)請(qǐng)后臺(tái)留言或發(fā)送郵件到jieandze1314@gmail.com