36計名稱與內(nèi)容無關针贬,僅為統(tǒng)計順序击费。
1、第一計 瞞天過海
防備周全時坚踩,更容易麻痹大意荡灾;習以為常的事,也常會失去警戒瞬铸。秘密常潛藏在公開的事物里,并非存在于公開暴露的事物之外础锐。公開暴露的事物發(fā)展到極端嗓节,就形成了最隱秘的潛藏狀態(tài)。
我的細胞到底分多少個群是合適的皆警?
這是一個廣泛而經(jīng)典問題拦宣。就單細胞技術而言,我們常說每個細胞都是不同的,也就是說你總可以分到最細以單細胞為單位鸵隧,但是這樣就失去高通量的意義了绸罗。在低通量下,我們可以著眼于單個細胞豆瘫,現(xiàn)在成千上萬的細胞珊蟀,一個一個看是不切實際的。那么外驱,我的細胞到底分多少個群是合適的育灸?
這個問題表現(xiàn)在Seurat中就是:Finding optimal cluster resolution in Seurat 3? 我們知道,不同的resolution
參數(shù)會帶來不同的分群結果昵宇。先看一下github上面的回答:
While Seurat doesn't have tools for comparing cluster resolutions, there is a tool called clustree designed for this task and works on
Seurat
v3 objects natively. It's available on CRAN and can be installed with a simpleinstall.packages('clustree')
clustree我們之前講過磅崭,可以全局地查看不同分群結果:
#先執(zhí)行不同resolution 下的分群
library(Seurat)
pbmc_small <- FindClusters(
object = pbmc_small,
resolution = c(seq(.4,1.6,.2))
)
clustree(pbmc_small@meta.data, prefix = "RNA_snn_res.")
在clustree的圖中我們看到不同resolution
的取值情況下分群的關系。既然我們最終是以群為單位來分析的瓦哎,我們肯定是希望每個群是比較純的砸喻。如圖可以看到在倒數(shù)第二層級有個亞群來自不同的分群,這有可能是:
- 分群過度蒋譬,把原來分群的中應有的異質性也提煉出來單獨作為一群了
- 上一層級分群不足割岛,還包含了不該有的異質性。
這里就帶來靈魂拷問了羡铲,就拿B細胞來說吧蜂桶,它本身也是有異質性的啊,那么他的異質性是如何的呢也切?我們知道扑媚,某一類細胞內(nèi)的異質性一般是要小于細胞群之間的異質性的。所以雷恃,拿到這個圖我們就可以根據(jù)自己帶著生物學意義的期望來做一個判斷了疆股。
其實,我們也知道分群終究是非監(jiān)督的倒槐,只是數(shù)據(jù)驅動的旬痹,并不摻雜著數(shù)據(jù)(表達譜)以外的生物學意義。如果拋開這些生物學意義讨越,其實是有一些辦法來評價分群結果的:
這些方法也是在做群內(nèi)和群之間的比較两残,得出類似群純度的度量單位來評價分群結果。在不久前張澤民老師團隊的一篇文章中提到過一種方法:ROGUE: an entropy-based universal metric for assessing the purity of single cell population把跨。
該方法已被封裝為一個R包: https://github.com/PaulingLiu/ROGUE
我們看到已經(jīng)有不少的方法來做分群的評估了人弓,還有:IKAP—Identifying K mAjor cell Population groups in single-cell RNA-sequencing analysis :
以上這些方法大同小異,核心的問題是着逐,或者研究者真正關心的是:
哪種分群結果的生物解釋性高崔赌?
正所謂:分析總會有結果意蛀,看你敢用不敢用。