SingleR輔助注釋單細(xì)胞

很多做單細(xì)胞的研究者都提出過(guò)這個(gè)問(wèn)題,是否有直接的功能能對(duì)單細(xì)胞直接進(jìn)行注釋?zhuān)皇欠爆嵉膮⒖次墨I(xiàn)导犹,搜索marker塞椎,人為對(duì)單細(xì)胞進(jìn)行注釋桨仿。
單細(xì)胞真的可以實(shí)現(xiàn)自動(dòng)化注釋嗎?我想答案應(yīng)該是肯定可以的案狠。但是很多方法注釋結(jié)果的準(zhǔn)確性有待探討服傍,不過(guò)作為單細(xì)胞注釋的輔助工具是一個(gè)不錯(cuò)的選擇。
這兒我們將詳細(xì)講解SingleR單細(xì)胞注釋工具的使用以及弊端
我們可以通過(guò)得到singleR的細(xì)胞注釋結(jié)果之后骂铁,同時(shí)結(jié)合Seurat的分群結(jié)果吹零,具體組織類(lèi)型來(lái)綜合完成細(xì)胞注釋。
官方教程Using SingleR to annotate single-cell RNA-seq data: https://www.bioconductor.org/packages/release/bioc/vignettes/SingleR/inst/doc/SingleR.html

使用內(nèi)置參考進(jìn)行注釋?zhuān)ㄗ詈?jiǎn)便的)
使用SingleR的最簡(jiǎn)單方法是使用內(nèi)置參考對(duì)細(xì)胞進(jìn)行注釋拉庵。celldex包通過(guò)專(zhuān)用的檢索功能提供了7個(gè)參考數(shù)據(jù)集(主要來(lái)自大量RNA-seq或微陣列數(shù)據(jù))灿椅。
singleR自帶的7個(gè)參考數(shù)據(jù)集,需要聯(lián)網(wǎng)才能下載名段,其中5個(gè)是人類(lèi)數(shù)據(jù),2個(gè)是小鼠的數(shù)據(jù):
BlueprintEncodeData Blueprint (Martens and Stunnenberg 2013) and Encode (The ENCODE Project Consortium 2012) (人)
DatabaseImmuneCellExpressionData The Database for Immune Cell Expression(/eQTLs/Epigenomics)(Schmiedel et al. 2018)(人)
HumanPrimaryCellAtlasData the Human Primary Cell Atlas (Mabbott et al. 2013)(人)
MonacoImmuneData, Monaco Immune Cell Data - GSE107011 (Monaco et al. 2019)(人)
NovershternHematopoieticData Novershtern Hematopoietic Cell Data - GSE24759(人)
ImmGenData the murine ImmGen (Heng et al. 2008) (鼠)
MouseRNAseqData a collection of mouse data sets downloaded from GEO (Benayoun et al. 2019).鼠)

相關(guān)包安裝

conda install -c bioconda bioconductor-Seurat
conda install -c bioconda bioconductor-singler ##devtools::install_github('dviraran/SingleR')安裝報(bào)錯(cuò)泣懊,直接用conda安裝了
conda install -c bioconda bioconductor-celldex ##安裝這個(gè)包用來(lái)調(diào)用參考數(shù)據(jù)集

導(dǎo)入相關(guān)包伸辟,并下載參考數(shù)據(jù)集

library(Seurat) ##
library(SingleR)
library(ggplot2)
library(reshape2)
hpca.se=HumanPrimaryCellAtlasData() ##第一次載入會(huì)下載數(shù)據(jù)集,可能會(huì)慢一些馍刮,后面在用時(shí)就不用下載了
Blue.se=BlueprintEncodeData() 
Immune.se=DatabaseImmuneCellExpressionData()
Nover.se=NovershternHematopoieticData()
MonacoIm.se=MonacoImmuneData()
ImmGen.se=ImmGenData() #(鼠)
Mouse.se=MouseRNAseqData() #(鼠)

在這里信夫,我們還是使用我們前面經(jīng)常使用的pbmc3k數(shù)據(jù)集,這樣也是為了方便SingleR與Seurat分析結(jié)合起來(lái)
pbmc數(shù)據(jù)集相關(guān)下載卡啰,seurat聚類(lèi)都可參照前面的簡(jiǎn)書(shū):http://www.reibang.com/p/adda4536b2cb

setwd("/home/wucheng/jianshu/function/data")
pbmc <-readRDS("pbmc.rds") ##這兒我們直接導(dǎo)入Seurat標(biāo)準(zhǔn)化静稻,聚類(lèi)的pbmc數(shù)據(jù)
> pbmc
An object of class Seurat 
13714 features across 2638 samples within 1 assay 
Active assay: RNA (13714 features, 2000 variable features)
 2 dimensional reductions calculated: pca, umap

meta=pbmc@meta.data #pbmc的meta文件,包含了seurat的聚類(lèi)結(jié)果
pbmc_for_SingleR <- GetAssayData(pbmc, slot="data") ##獲取標(biāo)準(zhǔn)化矩陣
pbmc.hesc <- SingleR(test = pbmc_for_SingleR, ref = hpca.se, labels = hpca.se$label.main) # 使用HumanPrimaryCellAtlasData參考數(shù)據(jù)集匈辱,main大類(lèi)注釋?zhuān)部墒褂胒ine小類(lèi)注釋?zhuān)贿^(guò)小類(lèi)注釋準(zhǔn)確性不好確定

table(pbmc.hesc[[i]]$labels,meta$seurat_clusters) ##查看新注釋的標(biāo)簽與seurat分類(lèi)的結(jié)果的交疊情況
> table(pbmc.hesc[[i]]$labels,meta$seurat_clusters) 

                    0   1   2   3   4   5   6   7   8
  B cells           0   0   3 342   0   0   0   0   1
  CD4+ T cells    488 404   0   1   5   0   0   0   0
  CD8+ T cells    159  51   0   1  96   0   3   0   0
  Dendritic cells   0   0  14   0   0   0   0  31   0
  Monocytes         0   0 463   0   0 162   0   1   2
  NK cells          0   0   0   0  15   0 148   0   0
  Progenitors       4   0   0   0   0   0   0   0  11
  T cells          46  28   0   0 155   0   4   0   0

我們可以看到有些細(xì)胞簇分類(lèi)還是很明確的振湾,接著我們借助一些可視化函數(shù)看看注釋效果

pdf("plotScoreHeatmap.pdf")
print(plotScoreHeatmap(pbmc.hesc))
dev.off()
pbmc@meta.data$labels <-pbmc.hesc$labels
pdf(paste(i,"Umap.pdf",sep ="_"),height=5,width=10)
print(DimPlot(pbmc, group.by = c("seurat_clusters", "labels"),reduction = "umap"))
dev.off()

image

可以看到參考數(shù)據(jù)集中的大部分細(xì)胞類(lèi)別這兒都沒(méi)有

image

umap直觀的可以看到通過(guò)singleR注釋的細(xì)胞標(biāo)簽準(zhǔn)確性應(yīng)該可以(不過(guò)注意這兒時(shí)pbmc數(shù)據(jù)集,有些組織單細(xì)胞數(shù)據(jù)可能就不是這樣了哦亡脸,可能會(huì)很亂押搪,做好心理準(zhǔn)備哦)

aa=table(pbmc.hesc[[i]]$labels,meta$seurat_clusters)
aa= apply(aa,2,function(x) x/sum(x))
df=as.data.frame(melt(aa))
df$Var2=as.factor(df$Var2)
g <- ggplot(df, aes(Var2, Var1)) + geom_point(aes(size = value), colour = "green") + theme_bw() 
pdf("singleR_match_seurat.pdf",height=5,width=10)
print(g)
dev.off()
library(pheatmap)
pdf(paste(i,"heatmap.pdf",sep ="_"),height=5,width=10)
pheatmap(log2(aa+10), color=colorRampPalette(c("white", "blue"))(101))
dev.off()

image
image

兩個(gè)圖意思差不多树酪,可以作為判斷簇具體細(xì)胞類(lèi)型的一個(gè)借鑒。

另一種是不用這兒的參考數(shù)據(jù)集大州,利用已有參考數(shù)據(jù)集续语,給其它數(shù)據(jù)集注釋?zhuān)⊿eurat也能實(shí)現(xiàn))
這兒從pbmc數(shù)據(jù)集中抽取500個(gè)細(xì)胞作為新的數(shù)據(jù)集pbmc1,使用前面給pbmc打上的標(biāo)簽,為pbmc1重新打標(biāo)簽

pbmc1 <-pbmc[,1:500]
test <- GetAssayData(pbmc1, slot="data")
library(scran)
pbmc1.hesc <- SingleR(test=test, ref=pbmc_for_SingleR, labels=pbmc$labels, de.method="wilcox")
pbmc1@meta.data$labels1 <-pbmc1.hesc$labels
pdf("Umap1.pdf",height=5,width=10)
print(DimPlot(pbmc1, group.by = c("seurat_clusters", "labels"),reduction = "umap"))
dev.off()

image

因?yàn)閜bmc1是從pbmc抽取的厦画,所以新的標(biāo)簽和之前的一致疮茄。

利用多個(gè)數(shù)據(jù)參考集為單細(xì)胞數(shù)據(jù)打標(biāo)簽
一些時(shí)候,如果希望使用多個(gè)參考數(shù)據(jù)集對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行注釋根暑×κ裕可以避免單個(gè)參考數(shù)據(jù)集中不能覆蓋到的標(biāo)記,從而得到一組更加全面的細(xì)胞類(lèi)型標(biāo)記购裙,尤其是在考慮分辨率差異的情況下懂版。 我們可以通過(guò)將多個(gè)對(duì)象簡(jiǎn)單地傳遞到SingleR()函數(shù)中的ref=和label=參數(shù),即可支持使用多個(gè)參考數(shù)據(jù)集躏率。

pbmc.hesc <- SingleR(test = pbmc_for_SingleR, ref = list(BP=Blue.se, HPCA=hpca.se), labels = list(Blue.se$label.main, hpca.se$label.main)) 
table(pbmc.hesc$labels,meta$seurat_clusters)
table(pbmc.hesc$labels,meta$seurat_clusters)

                     0   1   2   3   4   5   6   7   8
  B_cell             0   0   0   4   0   0   0   0   0
  B-cells            0   0   0 334   0   0   0   1   1
  CD4+ T-cells     310 140   0   1   1   0   0   0   0
  CD8+ T-cells     366 318   0   4 240   0   5   1   0
  HSC                4   0   0   0   0   0   0   1   0
  Monocyte           0   0 292   0   0 130   0  21   0
  Monocytes          0   0 175   0   0  30   0   8   1
  NK cells           0   0   0   0  30   0 150   0   0
  Platelets          0   0   0   0   0   0   0   0  12
  Pre-B_cell_CD34-   0   0  13   0   0   1   0   0   0
  T_cells           17  25   0   1   0   1   0   0   0

不同參考數(shù)據(jù)集命名不同躯畴,有些其實(shí)是一樣的細(xì)胞類(lèi)型。

總而言之薇芝,參考庫(kù)是作者基于已發(fā)表的單一種類(lèi)的純細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建的蓬抄,所以如果純轉(zhuǎn)錄組數(shù)據(jù)不全,細(xì)胞注釋是存在影響的夯到。
所以說(shuō)嚷缭,SingleR作為單細(xì)胞注釋的輔助工具是一個(gè)不錯(cuò)的選擇。
后面我們還會(huì)講到其它的單細(xì)胞注釋輔助工具耍贾,謝謝阅爽!

作者:清竹飲酒
鏈接:http://www.reibang.com/p/1c4abf05cb3e

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市荐开,隨后出現(xiàn)的幾起案子付翁,更是在濱河造成了極大的恐慌,老刑警劉巖晃听,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件百侧,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡能扒,警方通過(guò)查閱死者的電腦和手機(jī)佣渴,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)初斑,“玉大人辛润,你說(shuō)我怎么就攤上這事〖樱” “怎么了频蛔?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵灵迫,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我晦溪,道長(zhǎng)瀑粥,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任三圆,我火速辦了婚禮狞换,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘舟肉。我一直安慰自己修噪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布路媚。 她就那樣靜靜地躺著黄琼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪整慎。 梳的紋絲不亂的頭發(fā)上脏款,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音裤园,去河邊找鬼撤师。 笑死,一個(gè)胖子當(dāng)著我的面吹牛拧揽,可吹牛的內(nèi)容都是我干的剃盾。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼淤袜,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼痒谴!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起铡羡,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤积蔚,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后蓖墅,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體库倘,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡临扮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年论矾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杆勇。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡贪壳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出蚜退,到底是詐尸還是另有隱情闰靴,我是刑警寧澤彪笼,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站蚂且,受9級(jí)特大地震影響配猫,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜杏死,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一泵肄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淑翼,春花似錦腐巢、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至遭京,卻和暖如春胃惜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背洁墙。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工蛹疯, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人热监。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓捺弦,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親孝扛。 傳聞我的和親對(duì)象是個(gè)殘疾皇子列吼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容