Background
From: Luecken, Malte D, and Fabian J Theis. 2019. “Current Best Practices in Single‐Cell RNA‐Seq Analysis: a Tutorial.” Molecular Systems Biology 15(6): 360–23.
Experimental workflow
Typical workflows incorporate single-cell dissociation, single-cell isolation, library construction, and sequencing.
– Dissociation: As a first step, a single-cell suspension is generated in a process called single-cell dissociation in which the tissue is digested.
– Isolation: To profile the mRNA in each cell separately, cells must be isolated. Single-cell isolation is performed differently depending on the experimental protocol.While plate-based techniques isolate cells into wells on a plate, droplet-based methods rely on capturing each cell in its own microfluidic droplet.
– Library construction: Each well or droplet contains the necessary chemicals to break down the cell membranes and perform library construction. Library construction is the process in which the intracellular mRNA is captured, reverse-transcribed to cDNA molecules and amplified.As cells undergo this process in isolation, the mRNA from each cell can be labelled with a well- or droplet-specific cellular barcode. Further- more, many experimental protocols also label captured molecules with a unique molecular identifier (UMI).
– Sequencing: These libraries are pooled together (multiplexed) for sequencing. Sequencing produces read data, which undergo quality control, grouping based on their assigned barcodes (demultiplexing) and alignment in read processing pipelines. For UMI-based protocols, read data can be further demultiplexed to produce counts of captured mRNA molecules (count data).
Data analysis workflow
Overview of the data analysis workflow:
Pre-processing layer content
Downstream analysis
Pre-processing content and method
QC
細胞層面QC最主要需要考慮的三個方面:
1)通過基因數(shù)量、計數(shù)深度和線粒體reads分數(shù)的異常峰來執(zhí)行QC澜术。需要同時考慮這些因素佛点,而不是單獨考慮积仗。
2)盡可能考慮寬松的QC閾芒涡,如果下游聚類無法解釋完域,則重新QC赔嚎。
3)如果QC協(xié)變量在樣品之間的分布不同皮假,則應(yīng)針對每個樣品分別確定QC閾值,以解釋樣品質(zhì)量差異衩椒,如Plasschaert等(2018)文章提到的蚌父。
檢查這幾個QC的指標(biāo)分布,有助于得到outlier毛萌,并通過閾值進行過濾苟弛。這些outlier的barcode主要是源于死細胞,膜破損細胞阁将,或者一個系統(tǒng)中多細胞膏秫。比如,一個barcode的count很少做盅,基因檢測數(shù)量也很少缤削,但是線粒體基因比例很高,就很有可能是因為其膜破裂了吹榴,導(dǎo)致細胞質(zhì)中的mRNA漏出了僻他,而存在于線粒體中的遺傳物質(zhì)仍然得到了保留。相對的腊尚,如果一個barcode的count和檢出的基因都異常很多,則可能是由于一個體系中存在多個細胞满哪。
單獨考慮這三種QC條件中的某一種婿斥,可能會導(dǎo)致對細胞信號的誤判劝篷。細胞間的分子count可能會差異比較大,因此QC條件需要聯(lián)合應(yīng)用民宿,并且這些條件應(yīng)該設(shè)置的盡可能寬松娇妓,以免無意中過濾掉了活細胞群體。比如:細胞具有相對高的線粒體count活鹰,可能是由于參與呼吸過程哈恰;細胞具有低的count與gene數(shù),可能是由于其為休眠的細胞群落志群;細胞具有高的count可能是由于細胞體積更大着绷。
轉(zhuǎn)錄本層面也需要QC:
原始數(shù)據(jù)初始檢出基因一般大于2w,但是通過過濾掉不在幾個細胞中表達的基因(因此種基因也對于細胞異質(zhì)性分析提供不了有效信息)锌云,最終的基因數(shù)就會大幅減少荠医。設(shè)定最少細胞數(shù)量的閾值,一般是考慮興趣點桑涎,同時保留一些dropout effect彬向。比如,如果過濾掉了少于20個細胞表達的基因攻冷,就會使檢出少于20cell的細胞群落變的很困難娃胆,結(jié)果中可能就會遺漏這種小群落的信息。但是對于high dropout rate的數(shù)據(jù)等曼,20細胞的閾值也可能使鑒定大細胞群變的困難里烦。因此閾值的選擇,要基于數(shù)據(jù)集的實際情況涉兽,以及考慮后續(xù)分析的重點招驴。
也可以基于基因表達計數(shù)文件做一些其他QC:Ambient gene expression(環(huán)境基因表達)是指不是來自barcode細胞,而是來自其他溶解細胞的count枷畏,這些細胞的 mRNA 在文庫構(gòu)建之前污染了細胞懸液别厘,這些污染會歪曲下游分析結(jié)果,如標(biāo)記基因鑒定或其他差異表達檢測(特別是在樣本水平變化時)等拥诡。在基于液滴的scRNA-seq中触趴,這樣的情況是可以被矯正的,由于存在大量的空載液滴渴肉,因此這些可以被用來建模出環(huán)境污染的基因表達譜冗懦。soupx,Pragmatic 就是利用這種方法開發(fā)出來的軟件仇祭。
由于“足夠好”的數(shù)據(jù)的定義難以一開始就給出披蕉,所以最終需要看下游分析的表現(xiàn),比如cluster注釋,來看數(shù)據(jù)質(zhì)量如何没讲,所以有時候可能是要做多次數(shù)據(jù)質(zhì)控的眯娱。從允許的QC閾值開始并研究這些閾值的影響,然后再執(zhí)行更嚴(yán)格的QC往往是有益的爬凑。這樣的方法尤其與那種含有異質(zhì)性的cell群體相關(guān)徙缴,其中的cell類型和狀態(tài),可能會被錯誤的認為是低質(zhì)量的outlier嘁信。而對于低質(zhì)量的數(shù)據(jù)集于样,嚴(yán)格的質(zhì)控閾值是必須的。數(shù)據(jù)集的質(zhì)量潘靖,可以被experimental QC matrix確定穿剖。在這種迭代 QC 優(yōu)化中,應(yīng)該注意data peeking秘豹。不應(yīng)調(diào)整 QC 閾值以改善統(tǒng)計檢驗的結(jié)果携御。相反,可根據(jù)數(shù)據(jù)集可視化和聚類中的 QC 協(xié)變量分布評價 QC既绕。
Normalization
1)推薦使用scan用于非全長轉(zhuǎn)錄組的數(shù)據(jù)歸一化啄刹。也可以選擇使用scone,特別是基于芯片/小孔原理的平臺數(shù)據(jù)產(chǎn)生的數(shù)據(jù)凄贩。全長轉(zhuǎn)錄組可以矯正基因長度誓军,工具選擇的范圍很廣。2)沒有共識認為一定要把數(shù)據(jù)縮放到均值為0疲扎,具有單位方差的情況(z-score)昵时。此文章更傾向不去縮放基因表達。3)標(biāo)準(zhǔn)化的數(shù)據(jù)需要形成log(x+1)的形式椒丧,便于后續(xù)假設(shè)數(shù)據(jù)為正太分布的方法的使用壹甥。
最常用的標(biāo)準(zhǔn)化方法是利用read count 做歸一化,也就是CPM【count per million normalization:原始的表達量除以該樣本表達量的總和(此方法的假設(shè)前提是:最開始在所有細胞的mRNA量是相同的壶熏,count depth不同是因為取樣產(chǎn)生的)句柠,在乘以一百萬就得到了CPM值 。從公式可以看出棒假, CPM其實就是相對豐度溯职,只不過考慮到測序的reads總量很多,所以總的reads數(shù)目以百萬為單位帽哑∶站疲】這種方法使用與每個細胞的count depth成比例的叫做size factor的值來做歸一化。對CPM做一個簡單的擴展應(yīng)用:在計算size factor的時候妻枕,去除那些在任何細胞中都占總數(shù)5%以上的基因僻族。這樣就能考慮到少數(shù)高表達基因的分子計數(shù)的差異性粘驰。
Scran的方法,使能分析更多的細胞異質(zhì)性鹰贵,此方法是通過在細胞被pooled的情況下(排除技術(shù)dropouts)晴氨,利用在基因間的線性回歸模型,去預(yù)估size factor碉输。該方法將在不同細胞內(nèi)差異表達的基因的variability限制在50%以下。
某一個歸一化的方法是不能適應(yīng)所有類型的單細胞數(shù)據(jù)的亭珍。非線性的模型敷钾,在plate based(芯片,孔原理)的平臺上更具有優(yōu)勢肄梨,其能更好的消除批次效應(yīng)阻荒。全長轉(zhuǎn)錄組的數(shù)據(jù)可能受益于考慮到基因長度的歸一化方法,但是3’測序的數(shù)據(jù)卻不能众羡。全長轉(zhuǎn)錄組測序的歸一化方法一般是用TPM進行歸一化侨赡。
細胞內(nèi)數(shù)量歸一化(按理解這里其實是標(biāo)準(zhǔn)化,z score標(biāo)準(zhǔn)化)使細胞間可比粱侣,基因數(shù)量歸一化使基因數(shù)量標(biāo)度化以及在基因間可比羊壹。基因數(shù)量歸一化使其形成均值為0齐婴,方差為單位方差的數(shù)據(jù)集(z score)油猫。
基因間的歸一化是否應(yīng)該做目前還沒有共識,比如Seurat是做了基因的scaling的柠偶,Slingshot是沒有做的情妖。為了保留更多的數(shù)據(jù)中的生物學(xué)信息,此文章的流程是選擇沒有做基因間scaling的指導(dǎo)流程诱担。
歸一化之后毡证,一般要進行l(wèi)og轉(zhuǎn)化。After normalization, data matrices are typically log(x+1)-trans- formed. This transformation has three important effects:1)數(shù)據(jù)能體現(xiàn)出來foldchange;2)緩和(但是卻沒有消除)方差均值比蔫仙;3)更適用于下游分析的工具(假設(shè)數(shù)據(jù)正太分布)
Data correction and integration
歸一化試圖消除計數(shù)采樣的影響料睛,但是數(shù)據(jù)矯正是為了消除一些技術(shù)和生物學(xué)上的差異,比如批次效應(yīng)匀哄、脫落或細胞周期效應(yīng)秦效。但是這些變量并不總是需要被矯正。是否需要矯正涎嚼,取決于預(yù)期的下游分析阱州。并且建議分別考慮技術(shù)與生物學(xué)因素,因為這兩種矯正是用于不同的目的法梯,以及存在獨特的考慮點/挑戰(zhàn)苔货。
1)去除生物因素協(xié)變量只是為了軌跡推斷犀概,或者其他感興趣的生物過程沒有被去掉的生物協(xié)變量所覆蓋。2)最好同時考慮去除生物學(xué)和技術(shù)協(xié)變量夜惭,而不是分開考慮姻灶。3)plate based數(shù)據(jù)預(yù)處理需要回歸技術(shù),一般通過非線性的歸一化或者向下采樣的方法诈茧。4)當(dāng)批次間的cell類型和狀態(tài)成分一致時产喉,推薦使用Combat做批次效應(yīng)矯正。5)不同實驗的數(shù)據(jù)的整合敢会,和同一實驗的批次效應(yīng)矯正曾沈,應(yīng)該使用不同的方法(因其需要解決的問題不同)。數(shù)據(jù)整合的工具鸥昏,可能會過度糾正簡單的批次效應(yīng)塞俱。6)需要對只出現(xiàn)于表達恢復(fù)/填補后的顯著信號保持懷疑。最好在探索性分析的時候不要使用表達恢復(fù)/填補的步驟吏垮。
Regressing out bilogical effects
最常見的生物學(xué)因素矯正是去除細胞周期的影響障涯,scanpy或者seurat,或者一些其他的復(fù)雜方法膳汪,比如scLVM唯蝶,可以使用。生物學(xué)影響的數(shù)據(jù)矯正之前需要明確:1)并不是總是對數(shù)據(jù)整合有幫助旅敷。比如矯正細胞周期生棍,對于推斷發(fā)育軌跡有幫助,但是其本身也有生物學(xué)意義媳谁,比如增生細胞群可以通過細胞周期分數(shù)鑒定涂滴。2)生物信號必須在背景/環(huán)境中理解。3)有人認為晴音,細胞大小的變化解釋了通常歸因于細胞周期的轉(zhuǎn)錄組效應(yīng)柔纵。
Regressing out technical effects
用回歸的方法消除生物因素的協(xié)變量的回歸模型,也同樣適用于消除技術(shù)協(xié)變量锤躁。單細胞數(shù)據(jù)中最突出的技術(shù)協(xié)變量為count depth和批次差別搁料。削弱count depth的影響有助于軌跡推斷類的算法的表現(xiàn),這種算法一般依賴于細胞之間的過渡進行推算(應(yīng)該是表達差異從少到多的路徑推算吧系羞?)郭计。當(dāng)涉及多個協(xié)變量的時候,應(yīng)該在一步處理中同時考慮多個協(xié)變量椒振,以考慮變量之間的依賴性昭伸。其他基于回歸的消除count effect的方法是用更嚴(yán)格的方法,比如downsampling或者非線性回歸澎迎。這些在基于plate平臺的單細胞數(shù)據(jù)中尤為適用庐杨,因為細胞間的計數(shù)深度差異過大會掩蓋細胞間的異質(zhì)性选调。
Batch effects and data integration
細胞用不同的分組處理時,可能發(fā)生批次效應(yīng)灵份。這些組可以是不同芯片上的細胞仁堪、不同測序泳道中的細胞或不同時間收獲的細胞。即不同平臺填渠,不同時間弦聂,都可能造成同樣的細胞產(chǎn)生批次效應(yīng)。僅對來源于統(tǒng)一實驗室的不同實驗氛什、或者不同實驗室的數(shù)據(jù)横浑,叫做數(shù)據(jù)整合(同一實驗的就叫做批次效應(yīng)矯正)。批次效應(yīng)一般用線性方法矯正屉更,而數(shù)據(jù)整合一般用非線性的方法進行。ComBat洒缀,在批次效應(yīng)梳理表現(xiàn)就良好瑰谜,有基因表達的線性模型組成,在數(shù)據(jù)的平均值和方差中考慮了批次貢獻树绩。不考慮計算方法的話萨脑,最好的批次效應(yīng)的矯正方法好還是通過巧妙的實驗設(shè)計預(yù)先消除及避免影響。通過合并實驗間的條件和細胞(使所有條件一樣唄)饺饭,可以避免批次效應(yīng)渤早。使用例如細胞標(biāo)記,或者遺傳變異瘫俊,可能能夠區(qū)分被合并到一起的細胞鹊杖。與批次校正相比,數(shù)據(jù)集成方法面臨的另一個挑戰(zhàn)是整合不同的數(shù)據(jù)集扛芽。估計批效應(yīng)時骂蓖,ComBat 使用一批中的所有細胞來擬合批次參數(shù)。這種方法將混淆批次效應(yīng)與細胞類型或數(shù)據(jù)集之間不相同狀態(tài)之間的生物學(xué)差異川尖。為克服該問題登下,開發(fā)了經(jīng)典相關(guān)性分析CCA、相互最近鄰 MNN叮喳、Scanorama被芳、RISC、scGen馍悟、LIGER畔濒、BBKNN和 Harmony等數(shù)據(jù)整合方法。數(shù)據(jù)整合的方法赋朦,也可以應(yīng)用于一些簡單的批次效應(yīng)的矯正篓冲,但是要注意非線性模型自由度增高后的過擬合李破。
Expression recovery
表達恢復(fù)/去噪/填補。單細胞數(shù)據(jù)里面比較突出的一個噪音就是dropout(沒有測到數(shù)據(jù)信息)壹将,推斷什么是dropout并用合適的數(shù)據(jù)去替換它嗤攻,是最新的幾個工具在干的事情。表達恢復(fù)有助于改善基因間相關(guān)性的估計诽俯。并且這一步可以被整合到其他步驟妇菱,比如歸一化,或者批次效應(yīng)矯正或者scVI工具的下游分析中暴区。雖然大多數(shù)數(shù)據(jù)校正方法以歸一化數(shù)據(jù)作為輸入闯团,但一些表達恢復(fù)方法是基于預(yù)期負二項分布噪聲,因此在原始計數(shù)數(shù)據(jù)上運行仙粱。沒有方法是完美的房交,方法都可能導(dǎo)致數(shù)據(jù)過矯正,或者矯正不足伐割,而且也有報道表達恢復(fù)導(dǎo)致了假的相關(guān)性信號候味。
Featuture selection
特征選擇的目的是保留最具信息的變量(最少的變量代表足夠的信息那種),通常使用高度可變基因HVGs隔心,一般1000-5000個白群,用于下游分析(否則原始數(shù)據(jù)維度太高計算壓力很大)。最常用的HVG的選擇已經(jīng)被整合在了Scanpy和Seurat中硬霍。HVG的選擇方法為:按基因的均值表達對基因進行分類帜慢,并選擇方差/均值比最高的基因作為每個分類中的HVG。并且HVG需要在技術(shù)矯正后選出唯卖,以免被選出的基因為批次效應(yīng)導(dǎo)致粱玲。
Dimensionality reduction
特征選擇之后就是數(shù)據(jù)降維,數(shù)據(jù)降維可以將數(shù)據(jù)鞠正轉(zhuǎn)化到一個低維空間耐床,目的是在盡可能少的維度捕獲數(shù)據(jù)結(jié)構(gòu)密幔。這種方法的原理是scRNA-seq數(shù)據(jù)本來就是低維的。
1)特征選擇的時候撩轰,推薦根據(jù)數(shù)據(jù)的復(fù)雜性胯甩,選用1000-5000個高可變基因。2)使用基因表達的均值和方差的特征選擇的方法不能在數(shù)據(jù)被標(biāo)準(zhǔn)化為均為為0具有標(biāo)準(zhǔn)方法時堪嫂,或者模型擬合的殘差被歸一化表達值時使用偎箫,因此必須要考慮在選擇HVG走之前做什么預(yù)處理是合適的。3)數(shù)據(jù)降維與可視化的方法應(yīng)該分別考慮皆串。兩種常用的降維方法為PCA和diffusion map淹办。PCA是線性的,diffusion map是非線性的恶复。
Visualization
1)推薦使用UMAP來做探索性的可視化怜森。使用PCA來進行一般的數(shù)據(jù)概括速挑。在進行軌跡推斷時使用diffusion maps作為PCA的替代選項。2)具有UMAP的PAGA是可視化特別復(fù)雜的數(shù)據(jù)是的合適替代方案副硅。
可視化一般使用非線性的降維方法姥宝,最常用的是t-SNE降維以全局結(jié)構(gòu)為代價來獲取局部相似性。因此恐疲,這些可視化可能夸大細胞群體之間的差異腊满,并忽略這些群體之間的潛在聯(lián)系T-SNE的替代方案是umap和spring,UMAP在擴展至大量細胞時的速度和能力都很好培己,在沒有特殊生物學(xué)問題的情況下碳蛋,最好選擇UMAP。
Downstream analysis
下游分析是提取生物學(xué)的insight以及描述潛在的生物學(xué)系統(tǒng)省咨。比如具有相似基因表達譜的細胞群代表細胞類型簇肃弟;相似細胞之間基因表達的微小變化表示連續(xù)(分化)軌跡;或具有相關(guān)表達譜的基因表明其共同調(diào)節(jié)作用零蓉。
Cluster analysis
Cluster
細胞分類是靠識別那些具有相似的基因表達的細胞愕乎,相似性是靠降維后的距離矩陣來計算(最常用的就是歐幾里得距離)。主要兩類算法:聚類算法和社區(qū)檢測算法壁公。1)建議在單細胞KNN圖上通過Louvain社區(qū)檢測進行聚類。2)聚類不需要在單個分辨率下執(zhí)行绅项。特定的cell群是關(guān)注數(shù)據(jù)集中更詳細的子結(jié)構(gòu)的有效方法紊册。
Cluster annotation
只有被成功注釋了,cluster才算有效快耿,所以需要群落的細胞類型注釋囊陡。需要注意的是1)不要用marker gene的p值來證明細胞身份,特別是marker gene不能用于注釋時掀亥。2)注意相同的細胞檢測出來的marker gene可能由于不同的數(shù)據(jù)集撞反,或者細胞集的細胞類型與狀態(tài)不同導(dǎo)致。3)如果存在參考數(shù)據(jù)搪花,推薦使用自動注釋聯(lián)合手動注釋遏片。
Compositional analysis
組分分析是為了弄清楚細胞組成比例,這種比例可能會由于疾病發(fā)生改變撮竿。比如沙門菌感染可以增加小鼠腸上皮中腸上皮細胞的比例吮便。計算整個群體中,分類后的每種細胞的占比幢踏。但樣本間的細胞群體的比例變化是相互依賴的髓需,某一個細胞的比例變化了,其他的都會跟著變化房蝉。為了分析組分的變化情況僚匆,單細胞數(shù)據(jù)需要足夠的細胞數(shù)和樣本數(shù)微渠,足夠的細胞數(shù)用于獲得細胞比例,足夠的樣本數(shù)用于評估群體組成變化的背景(有背景才能看出來變化)咧擂。
Trajectory analysis
發(fā)展成為能觀測到的異質(zhì)性的生物學(xué)過程是一個連續(xù)性的過程逞盆。為了觀測到細胞間的轉(zhuǎn)變/變化,分支分化的過程屋确,或者漸進的不同步的變化纳击,我們需要能動態(tài)分析基因表達的模型。這類方法就叫軌跡推斷(TI)攻臀。
Trajectory inference
1)推薦使用saelens的文章作為TI分析的參考焕数。2)軌跡推斷并不一定代表了生物過程,為了解釋軌跡需要進一步的證據(jù)(比如擾動實驗刨啸,推斷調(diào)控基因動力學(xué)堡赔,或者從RNA速度獲得支持?)设联。模型的范圍從簡單的線性或分叉軌跡善已,到復(fù)雜的圖形、樹或多分支軌跡都有离例。在最近的 TI 方法綜合比較中换团,得出的結(jié)論是,沒有一種方法的性能宫蛆,能在所有類型的軌跡分析中表現(xiàn)都最佳艘包。
Gene expression dynamics
一種支持推斷軌跡不是擬合轉(zhuǎn)錄噪聲結(jié)果的方法是在基因水平分析軌跡。軌跡相關(guān)的基因可能包括了調(diào)節(jié)模型過程的基因耀盗,調(diào)控基因可以幫助我們理解生物學(xué)過程為什么被觸發(fā)想虎,并且這些調(diào)節(jié)基因可能作為一些藥物靶標(biāo)。以前軌跡推斷的方法主要是順著軌跡利用cluster細胞的的差異表達來進行測試推斷叛拷,現(xiàn)在主要是利用回歸的方法檢測在擬時軌跡過程中基因表達的變化舌厨。為了使表達沿該協(xié)變量平滑變化,通過擬合曲線或通過額外的局部回歸步驟(例如 loess)平滑假時間忿薇。擬時分析過程中的差異表達基因會有軌跡推斷算法的混淆在里面裙椭,同樣的cluster間的差異表達基因也有聚類算法的混淆在里面,因此這些過程中獲得的P值不應(yīng)該被認為就是顯著的(必須要其他證據(jù)署浩?)骇陈。由于目前可用的基因時間動力學(xué)分析的軟件很少,因此目前研究基因時間動態(tài)的最佳方法還不能確定瑰抵。以后高斯模型可能會是研究時間動態(tài)的一個自然模型你雌,此外,研究一個調(diào)控模塊,相對于研究一個基因來說婿崭,應(yīng)該會有跟高的信噪比以及能更加促進生物學(xué)的解釋拨拓。
Metastable states
Cell-level analysis unification
細胞層面的數(shù)據(jù)整合:聚類和軌跡推斷代表了兩種不同的view of single cell 數(shù)據(jù),這兩種數(shù)據(jù)可以被整合氓栈,常用方法為PAGA渣磷,可以利用細胞間交互/相互作用的統(tǒng)計模型,在比預(yù)期更相似的cluster 節(jié)點放置一個edge授瘦。以此來能應(yīng)付被斷開的拓撲異構(gòu)結(jié)構(gòu)以及包括細胞周期的復(fù)雜的圖表醋界。可以可視化整個數(shù)據(jù)集的拓撲異構(gòu)結(jié)構(gòu)提完,以便進行探索性分析形纺。
Gene-level analysis
Differential expression testing
1)DE分析需要在measure data層面考慮技術(shù)協(xié)變量進行,不能使用矯正后的數(shù)據(jù)徒欣。2)不能依賴DE工具來矯正具有混雜協(xié)變量的數(shù)據(jù)逐样。模型的規(guī)范性需要被保證以獲得全帙矩陣。3)推薦使用MAST(更快打肝,綜合效果也可)或者limma進行DE分析脂新。
利用異質(zhì)性表達來理解基因表達的背景(差異原因)。雖然單細胞有一些技術(shù)噪音粗梭,比如dropout cell與cell間的高可變性争便,也有一些專門針對單細胞這些問題開發(fā)的工具,但是傳統(tǒng)的轉(zhuǎn)錄組的DE分析的一些工具断医,也被證明在單細胞上表型良好始花,特別是在測試中引入基因權(quán)重時。根據(jù)測試孩锡,表現(xiàn)最好的是結(jié)合ZINB-wave權(quán)重時,DESseq2和EdgeR軟件亥贸。
Gene set analysis
基因水平差異分析往往產(chǎn)生大量的候選基因躬窜,難以解釋。因此可以利用共有的特征進行整合/分組這些基因到基因集炕置,并集檢驗這些特征是不是在候選基因集中過度表現(xiàn)出來荣挨。整合DE結(jié)果,常利用一些常見的生物學(xué)過程朴摊,這些生物過程一般存儲在一些數(shù)據(jù)庫中默垄,比如MSigDB,GO,KEGG,Reactome等。單細胞領(lǐng)域最近建立了一個利用配對基因來進行配體受體分析的領(lǐng)域甚纲。利用細胞簇間的交互/相互作用口锭,是利用受體及配對的同源配體表達推斷。配體受體信息可以從CellPhoneDB獲得,并可以用于利用統(tǒng)計模型整合不同細胞簇間的高表達基因鹃操。
Gene regulatory networks
基因并不是單獨組總有的韭寸,解釋基因間、與小分子間的相互作用荆隘,是基因調(diào)控網(wǎng)絡(luò)方法的主要目的恩伺,這種方法一般基于基因的共表達,互斥表達椰拒,或者回歸模型進行的晶渠。目前的GRN分析的工具表現(xiàn)都還不太好,因此建議謹慎使用以便獲得有價值的結(jié)果燃观。需要警惕推斷出的生物關(guān)系的不確定性褒脯,因調(diào)控關(guān)系富集的基因模塊可能比單個基因更可靠。
Analysis platforms
Scater(R), Seurat(R), Scanpy(python)…
Tools
https://hemberg-lab.github.io/scRNA.seq.course
https://github.com/drisso/bioc2016singlecell
Scanpy: https://scanpy.readthedocs.io/en/stable/tutorials.html
Seurat: https://satijalab.org/seurat/get_started.html
https://scrnaseq-course.cog.sanger.ac.uk/website/index.html