單細(xì)胞轉(zhuǎn)錄組基礎(chǔ)知識詳解

這篇關(guān)于單細(xì)胞的綜述發(fā)表于2017年7月的Molecular Aspects of Medicine异旧,Identifying cell populations with scRNASeq 第一作者是Tallulah匿级,通訊是Martin Hemberg

Abstract摘要

單細(xì)胞轉(zhuǎn)錄組在進(jìn)行單個細(xì)胞的表達(dá)定量檢測是強有力的工具逝段,但是它產(chǎn)出的數(shù)據(jù)噪音和維度都比較高矢沿,相比bulk RNA-seq增加了分析難度茂卦。文章就介紹了幾種不同的實驗流程和最流行的分析方法,可以識別具有重要生物學(xué)意義的基因譬巫,可以將數(shù)據(jù)投射到低維,可以對細(xì)胞聚類推斷亞群督笆,可以解釋驗證鑒定到的細(xì)胞類型和細(xì)胞狀態(tài)芦昔。

Introduction介紹

人體中大約有[圖片上傳失敗...(image-142a4d-1677032168763)] 個細(xì)胞(Bianconi et al., 2013),形態(tài)與功能都具有多樣性娃肿。傳統(tǒng)的方法是根據(jù)形態(tài)學(xué)而非分子學(xué)特征將細(xì)胞分成200種(Junqueria et al.,1992)咕缎。上世紀(jì)中葉以來,免疫熒光(immunofluorescence)和流式細(xì)胞分選技術(shù)( flow cytometry )可以基于細(xì)胞表面蛋白標(biāo)記物存在與否進(jìn)行更精確地分類(Coons et al., 1941; Fulwyler, 1965)料扰,但是這些技術(shù)還僅限于易于分離的組織(如:血細(xì)胞譜系)凭豪,而且只能檢測表面少量的標(biāo)記物。

單細(xì)胞測序的發(fā)展允許使用整個轉(zhuǎn)錄組的數(shù)千個細(xì)胞去鑒定細(xì)胞類型晒杈,目前scRNA-seq已經(jīng)應(yīng)用在許多發(fā)育中的或者固定時間點的組織和器官嫂伞,包括大腦不同區(qū)域的研究(Darmanis et al., 2015; Karlsson and Linnarsson,2017; Liu et al., 2016; Tasic et al., 2016; Zeisel et al., 2015)、視網(wǎng)膜研究(Baron et al., 2016; Jaitin et al., 2014; Macosko et al., 2015; Zheng et al., 2017)拯钻、胰腺研究(Baron et al., 2016; Segerstolpe et al., 2016; Wang et al., 2016)帖努、免疫細(xì)胞研究(Jaitin et al., 2014; Villani et al.,2017) 、早期胚胎發(fā)育(Biase et al., 2014; Goolam et al., 2016; Xue et al., 2013)粪般、造血(Velten et al.,2017; Wilson et al., 2015)

文章列出了一些方法可以根據(jù)scRNA數(shù)據(jù)識別細(xì)胞群 (圖1)

QQ截圖20230222101742.png

【圖中不同的顏色表示對第一步得到的表達(dá)矩陣進(jìn)行的不同處理拼余,例如第二個藍(lán)色框"feature selection"是從原始表達(dá)矩陣中刪除行,方法有HVG亩歹、M3Drop匙监、Spike-in;再往下"dimensionality reduction "目的是降維小作,會計算出一個新的包含meta-features的矩陣亭姥,可以想象成把細(xì)胞分類,相似的群體匯集到一起有共同的meta元信息躲惰,方法如:PCA致份、tSNE、Diffusion map础拨;接下來是聚類"Clustering"氮块,包括計算細(xì)胞與細(xì)胞之間的聚類,如K-means诡宗、DBSCAN滔蝉;或是"K近鄰算法",如Louvain塔沃、infomap蝠引、densityCut、SNN-cliq】

此外,文章還討論了設(shè)計實驗時需要考慮的不同方案螃概,因為實驗設(shè)計的好壞直接影響下游分析結(jié)果矫夯;討論了鑒定生物學(xué)相關(guān)的細(xì)胞類群對scRNA數(shù)據(jù)分析的挑戰(zhàn)以及應(yīng)對的一些統(tǒng)計方法;然后就是非監(jiān)督式聚類吊洼,用來細(xì)胞分群训貌;最后討論了如何去驗證分群的細(xì)胞是否真的有生物學(xué)意義。

Experimental design considerations實驗設(shè)計

scRNA-seq并不是一成不變冒窍,需要根據(jù)具體實驗進(jìn)行調(diào)整递沪。比如一個常用的操作就是鑒定稀有(數(shù)量小于1%)細(xì)胞群(Campbell et al. (2017; Gru?n et al., 2015; Jiang et al., 2016; Segerstolpe et al., 2016),意味著需要大量的供試細(xì)胞综液。例如:Campbell作者對小鼠下丘腦的20921個細(xì)胞進(jìn)行測序款慨,結(jié)果鑒定了包含少于50個細(xì)胞的神經(jīng)元亞群(占比<0.2%) 。

另一個scRNA-seq的應(yīng)用就是確定相似的細(xì)胞類型之間有何差異谬莹,這就需要對低表達(dá)基因提高檢出率檩奠,降低技術(shù)噪音。例如:分析造血干細(xì)胞之間的差異就需要檢測低表達(dá)豐度的轉(zhuǎn)錄因子届良,反過來就需要敏感度更高的scRNA測序方法(Tsang et al., 2015)或者靶向檢測(如RT-qPCR)(Wilson et al., 2015)笆凌。

實驗方法

一般每個scRNA-seq都包含三個方面:1)單個細(xì)胞分離;2)文庫制備士葫;3)測序乞而。

1)細(xì)胞分離需要先將樣品解離,然后分選到PCR板的單獨孔中慢显,或者利用單獨的液滴(droplets)爪模、微孔(microwells)或微流控(microfluidic)捕獲單個細(xì)胞;

2)文庫制備需要反轉(zhuǎn)錄和擴(kuò)增荚藻,可以利用全長轉(zhuǎn)錄本或者"3'或5'"標(biāo)記的一端屋灌;

3)測序一般是多重測序(目的:單次實驗中同時測序大量樣本),深度可以從平均25000reads/cell(Macosko et al.,2015)应狱,到5M reads/cell(Kolodziejczyk et al., 2015)

兩類方法

對于需要高通量的研究共郭,基于液滴(droplet)的方法,如InDrop(Klein et al., 2015)疾呻、Drop-seq(Macosko et al., 2015)除嘹、10X Chromium(Zheng et al., 2017)是比較流行的,可以一次制備成千上萬細(xì)胞岸蜗,捕獲的性價比高尉咕,但是大量的細(xì)胞測序可能增加總體成本。不過有研究表明璃岳,確定細(xì)胞類型所需要的最低測序深度可以為25000-50000reads/cell (Jaitin et al., 2014; Pollen et al., 2014)年缎。雖然droplet的方法通量比較高悔捶,但是細(xì)胞檢測率和mRNA的捕獲效率會偏低(Svensson et al., 2017; Ziegenhain et al., 2017)。近年來有一些可以替代droplet的方法出現(xiàn)单芜,包括基于微孔的方法(Fan et al., 2015; Gierahn et al., 2017)和組合索引(combinatorial indexing)的方法(Cao et al., 2017)蜕该。以上這些方法需要再細(xì)胞裂解前加上barcodes,因此只支持3'/5'測序洲鸠。

如果實驗中細(xì)胞量不大蛇损,可以考慮PCR plate-based的方法(將少量的細(xì)胞分選到含有建庫PCR引物的多孔板中),包括Smartseq2(Picelli et al., 2013)坛怪、SCRB-seq(Soumillon et al., 2014) 、CEL-seq(Hashimshony et al.,2012)和MARS-seq(Jaitin et al., 2014)股囊。細(xì)胞一般利用微流控芯片(如:Fluidigm C1袜匿,它將細(xì)胞捕獲和文庫構(gòu)建組合在一起)。以上的方法捕獲細(xì)胞的性價比比較低稚疹,但檢出率較高(Svensson et al., 2017; Ziegenhain et al.,2017)居灯。另外這些方法既支持3'/5'端測序,也支持全長轉(zhuǎn)錄本測序内狗。有研究表明怪嫌,1M reads/樣本細(xì)胞可以最大化基因檢出率(Svensson et al., 2017; Ziegenhain et al., 2017),但為了精確定量isofroms或者找到含量更低的ncRNAs柳沙,需要更多的測序(Huang and Sanguinetti,2017; Sims et al., 2014)岩灭。

Doublet的問題

RNA測序方法中一個不可回避的問題就是:"雙細(xì)胞 doublet",即一個液滴或一個微孔中包含了2個或多個細(xì)胞赂鲤,這種情況必須通過進(jìn)一步仔細(xì)的分析(Segerstolpe et al., 2016; Wang et al., 2016)才能避免被誤認(rèn)成新的中間細(xì)胞類型噪径。對于高通量的捕獲方法,需要權(quán)衡細(xì)胞捕獲效率和doublet檢出率数初,一般設(shè)定doublet的范圍是1-5%(Ziegenhain et al., 2017)找爱,微流控Fluidigm平臺為1-10%(Fluidigm Corporation, 2017) [過去設(shè)定閾值竟然高達(dá)30%(Macosko et al., 2015)]。對于 plate-based的方法泡孩,沒有這種明確的的規(guī)定车摄。

除了doublet可能導(dǎo)致混合文庫(mixed libraries),還有可能是測序文庫發(fā)生了"泄露"仑鸥,有報道說Illumina的Hiseq 4000中有5-10%的reads會發(fā)生(Sinha et al.,2017)吮播,在HiseqX中沒有發(fā)現(xiàn)(Owens et al., 2017)

批次效應(yīng)

Doublet只是實驗中產(chǎn)生的一種情況,會混淆細(xì)胞類群的識別锈候。另一個挑戰(zhàn)是批次效應(yīng)(Hicks et al., 2015; Tung et al., 2017) 薄料。批次效應(yīng)是不同時間或不同人員制備的實驗重復(fù)之間的實驗效率或細(xì)胞狀態(tài)不同而產(chǎn)生的。如果對感興趣的生物學(xué)類型(如突變型與野生型)進(jìn)行不同批次的處理(如:不同日期提取或使用不同PCR板擴(kuò)增)泵琳,那么基本不可能從數(shù)據(jù)分析角度消除批次效應(yīng)(只能用一些算法比如quantile摄职、SVA包的ComBat (Stein et al., 2015) )誊役、RUVs(Risso et al.,2014)、linear mixed-modelling (Tung et al., 2017)谷市。

想要消除批次效應(yīng)只能通過仔細(xì)的實驗設(shè)計蛔垢,將每個生物條件分散到各個實驗批次中,做到"一視同仁"迫悠,例如:采用"balanced"方法(Hicks et al.,2015)讓每個批次包含不同生物處理的細(xì)胞鹏漆,每個生物處理在不同的批次中都存在。

技術(shù)噪音

UMI與Spike-ins

單細(xì)胞轉(zhuǎn)錄組一般會搭配unique molecular identifiers (UMIs) 或已知濃度的外源RNA分子(spike-ins) 來解決高技術(shù)噪音問題创泄。

UMI是反轉(zhuǎn)錄過程中添加到每個cDNA的5'或3'端艺玲,長度為4-10bp的barcodes(Islam et al., 2014)。它的作用是將reads分配給每個反轉(zhuǎn)錄事件鞠抑,區(qū)分哪些reads是來自于同一個原始的cDNA分子饭聚,然后估算原始分子數(shù)量(Islam et al., 2014; Kivioja et al., 2011)。因為它和轉(zhuǎn)錄本的一端結(jié)合后進(jìn)行5'/3'測序搁拙,因此會存在丟失isoform信息秒梳、捕獲的遺傳變異較少等問題,評價等位基因表達(dá)會比較難箕速。5'/3'測序的主要優(yōu)勢就是借助UMI酪碘,消除基因長度差異,消除了擴(kuò)增的偏差盐茎,相比之下兴垦,全長轉(zhuǎn)錄本測序雖然捕獲了轉(zhuǎn)錄本整體,但存在3'/5' bias庭呜。

標(biāo)準(zhǔn)的spike-ins是ERCC組織指定的一段細(xì)菌序列(Baker et al., 2005; Jiang et al.,2011)滑进,它們在轉(zhuǎn)錄長度、核苷酸含量募谎、poly-A尾的長度和內(nèi)含子缺失方面都和哺乳動物不同(因為目前單細(xì)胞主要應(yīng)用于人和小鼠)扶关。存在的問題是:ERCC spike- ins的捕獲效率低于內(nèi)源性mRNA (Svensson et al., 2017);具有較高的技術(shù)變異性数冬,有時會比內(nèi)源基因的含量還多(Robinson and Oshlack, 2010; SEQC/MAQC-III Consortium, 2014)节槐;spike-in的計數(shù)受到生物條件的影響,因此有時會失去作為control的優(yōu)勢拐纱。新開發(fā)的spike-ins是來自人類的序列铜异,可能更能代表哺乳動物轉(zhuǎn)錄本,從而減輕一些舊spike-in的影響(Paul et al., 2016)秸架。如果使用了spike-ins揍庄,比對前應(yīng)該將spike-in序列和參考基因組序列合并作為共同”參考基因組”。

Plate-based方法既可以用UMI也可以用spike-ins东抹,而基于液滴和基于微孔的方法是能用UMI (Gierahn et al., 2017; Macosko et al., 2015)蚂子;微流控的儀器不確定是否可以與UMI或者spike-ins兼容沃测,取決于儀器的設(shè)計。

多重測序(Multiplexed-sequencing)

多重測序也是產(chǎn)生技術(shù)噪音的一個原因食茎,因為它會導(dǎo)致不同細(xì)胞之間的reads數(shù)不在一個層次蒂破。使用標(biāo)準(zhǔn)化可以糾正不同細(xì)胞之間的測序深度影響(Vallejos et al.,2017)别渔「矫裕可以利用CPM/TPM(counts/transcripts per million)進(jìn)行校正。目前開發(fā)的方法哎媚,如Scran(Lun et al., 2016)分析含有許多差異基因的數(shù)據(jù)集比較有優(yōu)勢喇伯,SCnorm(Bacher et al., 2017)可以解釋測序深度對基因不同表達(dá)水平的影響。如果數(shù)據(jù)集中包含有spike-ins拨与,它們可能就被用于標(biāo)準(zhǔn)化艘刚,在鑒定差異基因中具有高魯棒性,并且可以保留由于總RNA含量不同而產(chǎn)生的差異(Buettner et al., 2015; Gru?n et al., 2014; Owens et al., 2016; Risso et al., 2014; Vallejos et al., 2015)截珍。

關(guān)于高緯度的處理

維數(shù)的詛咒 curse of dimensionality

雖然scRNA-seq結(jié)果匯總包括所有基因的信息,也非常有用箩朴,但是我們同時分析數(shù)千個基因在計算上困難很大岗喉。數(shù)據(jù)集中測量的總基因數(shù)稱作"維數(shù)(dimensionality)",對于哺乳動物通常有1萬個維度左右炸庞。當(dāng)在一個高維基因表達(dá)空間中比較細(xì)胞時钱床,細(xì)胞間的距離變得更加均勻,使得區(qū)分群體間或者群體內(nèi)的差異就非常難埠居。

解決這個詛咒有兩種方法:

首先查牌,將數(shù)據(jù)投射到一個較低的二維空間(稱作"降維"),低維空間一般由算法定義滥壕,既降低維度纸颜,又最大化保留原始數(shù)據(jù)的某些特征。因為投影過程不可避免會丟失基因信息绎橘,所以投影方法的選擇涉及到一組特定屬性的優(yōu)先級排序胁孙。

其次,可以取出信息量少的基因(在機(jī)器學(xué)習(xí)中稱為"特征選擇")称鳞,同樣也是減少分析中用到的維度數(shù)量涮较。這樣不僅利于可視化,還可以降低噪音冈止、加快計算狂票。下面是一些無監(jiān)督降維的方法和特征選擇。

降維

◆ ◆ ◆ ◆ ◆

主成分分析 (PCA)

它將數(shù)據(jù)投射到較少的獨立的線性維度中熙暴,從而捕捉到可能的最大方差闺属。PCA相對較快慌盯,當(dāng)與稀疏的矩陣(比如單細(xì)胞的表達(dá)矩陣中就包括了許多的0)一起使用時,它可以擴(kuò)展到非常大的數(shù)據(jù)集屋剑。缺點是PCA限于線性維數(shù)润匙,并且假設(shè)數(shù)據(jù)接近正態(tài)分布。針對單細(xì)胞數(shù)據(jù)的大量0值唉匾,PCA的變體 zero-inflation算法被開發(fā)出來(Pierson and Yau, 2015) 孕讳,但是這個模型可能不適用于所有的數(shù)據(jù)集(Andrews and Hemberg, 2016)。2017年又有人開發(fā)了一個類似PCA的方法巍膘,它是基于零膨脹負(fù)二項分布模型(zero-inflated negative binomial model )取代了高斯模型Risso et al. (2017)厂财。

t分布隨機(jī)鄰域嵌入(tSNE)

它也是一種用于大型高維數(shù)據(jù)可視化的統(tǒng)計方法(Maaten et al., 2008)。它使用概率分布來估計嵌入的情況峡懈,tSNE將數(shù)據(jù)投射到各個孤立的簇中璃饱,實現(xiàn)細(xì)胞群的可視化。tSNE的缺點就是算法的隨機(jī)性肪康,即使應(yīng)用于同一個數(shù)據(jù)集荚恶,也會產(chǎn)生不同的嵌入結(jié)果,不過這種差異比較小并且不顯著磷支。因此最佳的操作就是多次運行該算法谒撼,確保結(jié)果的完整性。另外雾狈,tSNE對"perplexity"參數(shù)的選擇很敏感廓潜,需要多次運行才能找到合適的perplexity。該方法的作者建議僅用tSNE作為可視化方法善榛,而不是降維的方法辩蛋。

Diffusion maps (DM)

DM是一種非線性的投影方法,主要用于分析細(xì)胞的連續(xù)發(fā)展(Moon et al., 2017; Angerer et al., 2016; Haghverdi et al., 2016)移盆。它是基于擴(kuò)散過程的模型悼院,將高維數(shù)據(jù)嵌入低維空間。它假設(shè)低維空間是平滑的咒循,并且空間可以從細(xì)胞之間的距離推斷得到樱蛤。與tSNE不同,DM保留了點自身位置和與遠(yuǎn)端點位置的關(guān)系剑鞍。因為它假設(shè)細(xì)胞是相對平滑的連續(xù)體昨凡,因此在大量的scRNA或RT-qPCR實驗中表現(xiàn)良好(細(xì)胞數(shù)> 1000),對于細(xì)胞數(shù)量較少或存在異質(zhì)性很高的細(xì)胞群時效果不好(Qiu et al., 2017)蚁署。

4.2

特征選擇

◆ ◆ ◆ ◆ ◆

Michaelis-Menten modelling of dropouts (M3Drop)

M3Drop利用dropout rate(丟失率:本來有表達(dá)量卻沒有測到)與平均表達(dá)量之間相對緊密的關(guān)系進(jìn)行特征選擇便脊。高丟失率的基因可能在細(xì)胞亞群中出現(xiàn)差異表達(dá),因此從擬合關(guān)系中識別離群點是一種有效地特征選擇方法光戈。該方法改進(jìn)了聚類算法哪痰,允許批量校正結(jié)果(Andrews and Hemberg, 2016)遂赠。

◆ ◆ ◆ ◆ ◆

Highly variable genes (HVG)

它基于這種假設(shè):基因相當(dāng)于平均表達(dá)值而言,出現(xiàn)的較大的差異是由于生物學(xué)影響晌杰,而不僅僅是技術(shù)噪音枚钓。這種方法試圖通過權(quán)衡方差與平均表達(dá)量之間的關(guān)系來找到比預(yù)期差異性更高的基因森爽。這種關(guān)系很難擬合,實際中基因是按照與移動中位數(shù)(moving median)的距離進(jìn)行排序的(Kolodziejczyk et al., 2015),或者使用另一種源自方差的統(tǒng)計量播玖,比如:方差的平方系數(shù)(Brennecke et al. 2013)

◆ ◆ ◆ ◆ ◆

Spike-in based methods

它使用與HVG或M3Drop類似的算法確定感興趣的特征误堡。利用來自spike-in RNAs的數(shù)據(jù)進(jìn)行技術(shù)噪音建模八酒,以確定基因表現(xiàn)出的丟失率或顯著升高的方差嫁怀。基于spike-in的方法包括:BASiCS(Vallejos et al., 2015) 梗夸、scLVM(Buettner et al., 2015)层玲。

◆ ◆ ◆ ◆ ◆

Correlated expression

相關(guān)表達(dá)法是另一種識別生物學(xué)相關(guān)基因的方法,可以專門用于識別細(xì)胞群(Andrews and Hemberg, 2016)反症。兩種細(xì)胞類型之間的差異表達(dá)基因之間是相互關(guān)聯(lián)的辛块。如果他們在同一種細(xì)胞類型都表達(dá),那么相關(guān)系數(shù)就為正铅碍;如果在不同細(xì)胞類型中同時表達(dá)憨降,那么相關(guān)系數(shù)為負(fù)。特征選擇利用的就是相關(guān)性的大小或顯著性该酗。另一種方法如PAGODA(Fan et al., 2016)結(jié)合了HVG和PCA的加載信息,可以鑒別高度相關(guān)或者有共同功能注釋的基因集

以上的方法處理高維數(shù)據(jù)時并不排斥士嚎,可以使用多種方法呜魄。總的來說莱衩,PCA爵嗅、tSNE、DM等容易受到批次效應(yīng)和技術(shù)噪音的影響笨蚁,這種影響會掩蓋數(shù)據(jù)內(nèi)部結(jié)構(gòu)(Finak et al., 2015; Hicks et al., 2015; Tung et al., 2017)睹晒。而降維之前進(jìn)行特征選擇進(jìn)而去除一些生物意義較少的基因,可以減少批次和噪音的影響括细,例如:先進(jìn)行spike-in based feature selection伪很,再PCA(Liu et al., 2016; Tasic et al., 2016);先HVG奋单,后tSNE(Segerstolpe et al., 2016)锉试;先HVG,后PCA+tSNE(Campbell et al., 2017)

非監(jiān)督聚類鑒定細(xì)胞群

單細(xì)胞比較常用的用途是識別細(xì)胞群览濒。從生物學(xué)角度看呆盖,細(xì)胞是有異質(zhì)性的拖云,一個細(xì)胞群通常包含不同的細(xì)胞亞群,例如大腦樣本匯總的神經(jīng)元和膠質(zhì)細(xì)胞应又;另外還可以看同種細(xì)胞類型的不同狀態(tài)宙项,例如受刺激和未受刺激的T細(xì)胞。從數(shù)學(xué)角度看株扛,對細(xì)胞群的從頭識別是一個非監(jiān)督聚類的問題尤筐。目前已經(jīng)有幾種成熟的方案應(yīng)用到了單細(xì)胞中。

將大量細(xì)胞分成k個群的可能性多到不可想象席里,因此我們不能考慮所有的可能分群情況叔磷,而是應(yīng)該尋求最優(yōu)解。聚類的質(zhì)量取決于群內(nèi)與群間的相似性比較奖磁,不同的指標(biāo)對數(shù)據(jù)的基礎(chǔ)分部做不同的假設(shè)改基。比如:"modularity"假設(shè)一個稀疏的圖形結(jié)構(gòu),而計算k-means使用的數(shù)據(jù)到簇質(zhì)心的距離就是假設(shè)數(shù)據(jù)中的圓形簇大致相同咖为。將一種方法應(yīng)用到和算法本身假設(shè)不同的數(shù)據(jù)上將導(dǎo)致錯誤的聚類秕狰,并且沒有一種聚類方法具有普適性(Wiwie et al., 2015)。

K-means

K-means是一種單細(xì)胞分析常用的聚類算法躁染,一般在特征選擇和降維后使用鸣哀。它的計算比較快,將細(xì)胞迭代分配給最近的簇中心(或叫"質(zhì)心centroid")吞彤,然后重新計算簇的質(zhì)心我衬。然而,K-means需要預(yù)先指定簇的數(shù)量饰恕,并為每個簇提供隨機(jī)的起始位置挠羔,需要多次運行來檢查這些參數(shù)的魯棒性,這些結(jié)果可以再傳遞給SC3進(jìn)行組合(Kiselev et al., 2017)埋嵌。K-means的一個缺點是:它先假設(shè)一個預(yù)先確定的等大小的圓簇數(shù)目破加,如果不符合假設(shè),那么k-means就會沿著分化軌跡識別許多相鄰的簇雹嗦,將罕見的細(xì)胞與常見的細(xì)胞類型合并范舀。當(dāng)然,對于罕見的細(xì)胞群了罪,可以結(jié)合k-means檢測離群點(outlier)的方法锭环,如RaceID(Gru?n et al., 2015),當(dāng)不包含罕見細(xì)胞群時泊藕,RaceID表現(xiàn)較差田藐。

Hierarchical clustering

層次聚類是另一種常用的識別細(xì)胞群體常用方法。不同的層次聚類有不同的假設(shè),比較常用的是"Ward"和"complete"汽久,假設(shè)存在圓的和k-means大小一致的簇鹤竭,不過層次聚類比k-means要慢。層次聚類的優(yōu)點是可以做成樹狀圖景醇,因此可以確定不同粒度 的聚類之間關(guān)系臀稚,然后在不同的高度"切割"樹狀圖,可以生成不同數(shù)量的群體三痰。對單細(xì)胞數(shù)據(jù)進(jìn)行層次聚類的方法包括:pcaReduce(Zurauskiene_ and Yau, 2016)吧寺,SINCERA(Guo et al., 2015),CIDR(Lin et al., 2017) 散劫。有研究將層次聚類拓展到了大腦神經(jīng)元細(xì)胞類型(Zeisel et al., 2015)和胰腺中胰島細(xì)胞類型分析(Baron et al., 2016)稚机,這類方法傾向于識別同種類型細(xì)胞群。

Density-based clustering

基于密度的聚類方法將聚類定義為細(xì)胞密度較高的相鄰區(qū)域获搏。與層次聚類或者k-means聚類不同赖条,它不假設(shè)簇有特定的性狀或大小,而是通常假設(shè)所有簇是一樣密集的常熙,比如細(xì)胞群是同樣均勻的纬乍。另外,密度必須用一個或多個參數(shù)來定義裸卫。設(shè)置密度的參數(shù)類似于k-means選擇簇的數(shù)量仿贬,或者像層次聚類中選擇樹的切割位置∧够撸基于密度的聚類需要大量的樣本來準(zhǔn)確估計茧泪,因此更適用于droplet實驗的數(shù)據(jù)、大型RT-qPCR實驗或幾千上萬的細(xì)胞(Campbell et al., 2017; Jiang et al., 2016; Macosko et al., 2015)聋袋。主要方法是:DBSCAN(Ester et al., 1996)队伟,它結(jié)合了Seurat包中的降維算法和GiniClust中的罕見細(xì)胞型特征選擇算法。

Graph clustering

圖聚類舱馅,又叫"群體檢測",是基于密度聚類的一個拓展刀荒,專門用于以圖形展示的數(shù)據(jù)代嗤,比如一組細(xì)胞用"邊edges"相互連接。圖可以輕松使用極小診斷假設(shè)(minimal assumptions) 表示復(fù)雜的非線性結(jié)構(gòu)缠借,因此可以識別不同大小干毅、密度、形狀的細(xì)胞群(Lancichinetti and Fortunato, 2009)泼返。另一個優(yōu)勢是可以拓展到數(shù)百萬個細(xì)胞的聚類硝逢。

圖中的密度可以根據(jù)連接一組細(xì)胞"edges"的數(shù)量測量,然后與零假設(shè)比較,例如:完全隨機(jī)圖或由一定程度控制的隨機(jī)圖中使用一個叫做"模量modularity"的度量渠鸽。最常用的方法是:Louvain算法(Blondel et al., 2008; Lancichinetti and Fortunato, 2009)叫乌,在PhenoGraph (Levine et al., 2015) 和Seurat(V 1.4)中也使用。另外徽缚,密度可以通過圖中的隨機(jī)漫步" random walks"建模憨奸,并使用在每個細(xì)胞上建模消耗的時間來估計,這也是densityCut (Ding et al., 2016)的策略凿试。另外一種估算密度的方法是使用每個細(xì)胞的k個最臨近neibour之間的重疊排宰,這在SNN-Cliq (Xu and Su, 2015)被應(yīng)用。主要的缺點就是:數(shù)據(jù)沒有固定的圖形結(jié)構(gòu)那婉。

總結(jié)

聚類方法的一個關(guān)鍵選擇因素就是要識別多少組板甘,粗略聚類可以識別出少數(shù)非常不同的聚類,這些聚類與細(xì)胞類型可能相對應(yīng)详炬;而精細(xì)聚類可以識別大量但不明顯的聚類盐类,這些聚類可能對應(yīng)不同細(xì)胞狀態(tài)

大多的聚類算法需要我們預(yù)先定義個數(shù)(如k值)或者與聚類粗細(xì)相關(guān)的參數(shù)(如密度參數(shù)),而選擇合適的K值是比較麻煩的痕寓,因為沒有一套標(biāo)準(zhǔn)的選擇方法傲醉。

有許多樣本,存在細(xì)胞類型和細(xì)胞狀態(tài)的層次結(jié)構(gòu)呻率,可能都有研究價值硬毕。比如2015年Zeisel對大腦樣本細(xì)胞進(jìn)行聚類,粗略聚類發(fā)現(xiàn)9中細(xì)胞類型(從神經(jīng)膠質(zhì)等許多非神經(jīng)元細(xì)胞類型中分離出神經(jīng)元)礼仗,然后進(jìn)行精細(xì)聚類發(fā)現(xiàn)神經(jīng)元又分成了7個皮層特異性組

許多的聚類工具可以在ASAP中找到吐咳,它是一個web工具(Gardeux et al., 2016)

cluster的生物學(xué)鑒定

聚類容易解釋難(相對來說)。首先元践,聚類算法有一種"啟發(fā)式"效應(yīng)韭脊,即使使用均勻分布的數(shù)據(jù),他也能找到一些不同進(jìn)行劃分单旁;另外沪羔,即使cluster有生物學(xué)效應(yīng)而非噪音,它們依然可能沒有細(xì)胞類型的差異象浑。目前沒有一個公認(rèn)的標(biāo)準(zhǔn)去判斷一個分析的細(xì)胞群真的是一類新型細(xì)胞蔫饰。還有,利用轉(zhuǎn)錄差異來定義細(xì)胞類型比較困難(Buettner et al., 2015)愉豺,因為細(xì)胞狀態(tài)(如細(xì)胞周期)的瞬時差異相比于細(xì)胞類型對轉(zhuǎn)錄組的影響更大篓吁。

6.1

計算角度

為了避免多數(shù)聚類算法"啟發(fā)式”的影響,為了評價細(xì)胞的重要程度蚪拦,算法必須重新重復(fù)運行一個空模型杖剪,將結(jié)果與觀察的結(jié)果比較冻押。這個空模型數(shù)據(jù)集可以從觀測數(shù)據(jù)中按一定的概率分布提取,也可以通過對每個基因的觀測表達(dá)值進(jìn)行獨立的隨機(jī)重排序得到盛嘿。

為了確保得到一個質(zhì)量比較好的聚類結(jié)果洛巢,可以對同一個數(shù)據(jù)集應(yīng)用多個算法,并確保結(jié)果一致性孩擂,保證同一個數(shù)據(jù)不依賴于任何聚類方法自身的假設(shè)狼渊。此外,隨機(jī)聚類方法如:k-means或Louvain maximum modularity类垦,多次運行得到一致結(jié)果狈邑,比單獨運行一次得到的結(jié)果更有說服力 (Goder and Filkov, 2008; Kiselev et al.,2017)。顯著區(qū)分的cluster在不同的聚類算法結(jié)果中都是一樣可以分開的蚤认,當(dāng)然米苹,如果clusters之間基本不分離,那么不同的算法結(jié)果差異也就比較大砰琢。

計算的方法主要是提高結(jié)果的可靠性蘸嘶,但真正要證明鑒定的細(xì)胞群是有生物學(xué)意義(如細(xì)胞類型和細(xì)胞狀態(tài)是不是與特定的功能特征相關(guān)),目前沒有自動化的程序可以全部完成陪汽。

6.2

實驗角度

第一步通常是找差異表達(dá)基因训唱,也就是能可靠區(qū)分兩個或多個cluster的基因(又叫"marker"基因),例如只有一個cluster高表達(dá)的基因就是marker挚冤。這里就需要利用功能注釋况增、富集分析。得到的marker基因可以利用實驗進(jìn)行驗證训挡,例如:共表達(dá)的marker可以利用RT-qPCR澳骤、高通量測序或者細(xì)胞儀進(jìn)行重復(fù)(Burnset al., 2015; Jaitin et al., 2014; Muraro et al., 2016; Tasic et al.,2016)。Marker基因可以用于分離細(xì)胞群進(jìn)行培養(yǎng)和功能測定澜薄。Marker基因也可以用于小細(xì)胞群的原位成像为肮,Burns等(2015)利用免疫熒光技術(shù)展示了不同細(xì)胞類型在內(nèi)耳中的空間定位,免疫熒光也可用于確認(rèn)細(xì)胞類型標(biāo)記物的共表達(dá)或互斥表達(dá)(Tirosh et al.肤京, 2016)颊艳。細(xì)胞類型的特異性標(biāo)記可以使用FISH作為靶點,除了確定細(xì)胞類型在組織中的空間分布外忘分,還可以驗證它們的共同表達(dá)棋枕。Joost 采用免疫組織化學(xué)和單分子RNA-FISH方法,識別毛囊內(nèi)不同假定細(xì)胞類型的空間位置饭庞,并分析了空間與分化相關(guān)的表達(dá)模式(Joost et al., 2016)戒悠。

驗證cluster的另一種方法是比較不同物種的cluster(例如人和小鼠)熬荆,從而確定cluster是否廣泛保守舟山,從而推斷是否為真正的細(xì)胞類型。Johnson等人(2015)對人類、小鼠和雪貂的放射狀膠質(zhì)祖細(xì)胞種群進(jìn)行了比較累盗,結(jié)果發(fā)現(xiàn)了兩種新的亞群寒矿,分別存在于人類和雪貂中,但在小鼠中卻沒有若债,通過對各自標(biāo)記基因的比較基因組學(xué)發(fā)現(xiàn)符相,它們與哺乳動物的腦回畸形有關(guān)。

研究與特定細(xì)胞群相關(guān)的關(guān)鍵轉(zhuǎn)錄因子水平(增加或減少)可以輔助驗證細(xì)胞群蠢琳。Olsson等人(2016)敲除了與不同的造血祖細(xì)胞有關(guān)Gfi1和Irf8啊终,結(jié)果產(chǎn)生了不同的細(xì)胞類型,Gfi1的粒細(xì)胞祖細(xì)胞和Irf8的單細(xì)胞祖細(xì)胞傲须。

cluster的生物學(xué)驗證是很有必要的蓝牲,另外還可以提供關(guān)于新細(xì)胞群的特定功能或與疾病狀態(tài)相關(guān)的有用信息

7

結(jié)論

確定新的或已知的細(xì)胞群可能仍然是未來scRNASeq實驗的一個關(guān)鍵目標(biāo)。然而泰讽,由于細(xì)胞數(shù)量和靈敏度之間的權(quán)衡例衍,可能永遠(yuǎn)不會有僅有一個最優(yōu)的scRNASeq實驗平臺。同樣已卸,對于降維佛玄、特征選擇和無監(jiān)督聚類,沒有一種比較方法在所有情況下都是最優(yōu)的累澡。得到細(xì)胞分群以后梦抢,雖然利用現(xiàn)有的方法可以很容易地識別出新的細(xì)胞群,但這些發(fā)現(xiàn)必須通過外部數(shù)據(jù)或?qū)嶒瀬眚炞C永乌,以確保它們具有生物學(xué)意義惑申。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市翅雏,隨后出現(xiàn)的幾起案子圈驼,更是在濱河造成了極大的恐慌,老刑警劉巖望几,帶你破解...
    沈念sama閱讀 222,807評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件绩脆,死亡現(xiàn)場離奇詭異,居然都是意外死亡橄抹,警方通過查閱死者的電腦和手機(jī)靴迫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來楼誓,“玉大人玉锌,你說我怎么就攤上這事∨备” “怎么了主守?”我有些...
    開封第一講書人閱讀 169,589評論 0 363
  • 文/不壞的土叔 我叫張陵禀倔,是天一觀的道長。 經(jīng)常有香客問我参淫,道長救湖,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,188評論 1 300
  • 正文 為了忘掉前任涎才,我火速辦了婚禮鞋既,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘耍铜。我一直安慰自己邑闺,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,185評論 6 398
  • 文/花漫 我一把揭開白布棕兼。 她就那樣靜靜地躺著检吆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪程储。 梳的紋絲不亂的頭發(fā)上蹭沛,一...
    開封第一講書人閱讀 52,785評論 1 314
  • 那天,我揣著相機(jī)與錄音章鲤,去河邊找鬼摊灭。 笑死,一個胖子當(dāng)著我的面吹牛败徊,可吹牛的內(nèi)容都是我干的帚呼。 我是一名探鬼主播,決...
    沈念sama閱讀 41,220評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼皱蹦,長吁一口氣:“原來是場噩夢啊……” “哼煤杀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起沪哺,我...
    開封第一講書人閱讀 40,167評論 0 277
  • 序言:老撾萬榮一對情侶失蹤沈自,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后辜妓,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體枯途,經(jīng)...
    沈念sama閱讀 46,698評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,767評論 3 343
  • 正文 我和宋清朗相戀三年籍滴,在試婚紗的時候發(fā)現(xiàn)自己被綠了酪夷。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,912評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡孽惰,死狀恐怖晚岭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情勋功,我是刑警寧澤坦报,帶...
    沈念sama閱讀 36,572評論 5 351
  • 正文 年R本政府宣布辅甥,位于F島的核電站,受9級特大地震影響燎竖,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜要销,卻給世界環(huán)境...
    茶點故事閱讀 42,254評論 3 336
  • 文/蒙蒙 一构回、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧疏咐,春花似錦纤掸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至酌壕,卻和暖如春掏愁,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背卵牍。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評論 1 274
  • 我被黑心中介騙來泰國打工果港, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人糊昙。 一個月前我還...
    沈念sama閱讀 49,359評論 3 379
  • 正文 我出身青樓辛掠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親释牺。 傳聞我的和親對象是個殘疾皇子萝衩,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,922評論 2 361

推薦閱讀更多精彩內(nèi)容